spamsink: (Default)
[personal profile] spamsink
На сегодняшний день гуглопереводчик работает так:

шкодливый - awkward
шкодливый кот - schoolboy cat
Шкодливый кот - A shod cat
шкодливый коть - shitty cat (опечатка, палец соскользнул с Т на Ь)
шкодливые коты - cocksucker cats
Шкодливые коты - Shoddy cats

шкодливая - sciatic
шкодливая кошка - naughty cat
Шкодливая кошка - Shodty cat
шкодливые кошки - squeamish cats
Шкодливые кошки - Shoddy cats

шкодливое - awkward
шкодливое котовище - stinky cat
Шкодливое котовище - Shodgy cat

Угадайте, какое слово или словосочетание я попытался переводить первым, и оказался настолько восхищён результатом, что стал экспериментировать?

Date: 2018-06-15 02:42 am (UTC)
juan_gandhi: (Default)
From: [personal profile] juan_gandhi
Да ты, доктор, вечно такие картинки показываешь, что все в недоумении.

Date: 2018-06-15 02:58 am (UTC)
sab123: (Default)
From: [personal profile] sab123
Видимо самое замечательное, шкодливые коты?

Date: 2018-06-15 02:59 am (UTC)
sab123: (Default)
From: [personal profile] sab123
Кстати, это нам видимо демонстрирует, что они не пытаются разбирать русские слова на части.

Date: 2018-06-15 03:15 am (UTC)
sab123: (Default)
From: [personal profile] sab123
А, казалось могли бы. Насколько я читал, нынешний метод распознавания слов - это не использовать бит-вектор, а использовать вместо них emergents. Тренируют отдельную модель предсказывать соседние слова в тексте, после чего с нее срезают верхние два слоя и используют полученный более короткий вектор значений. Но возможно, что на этом они и спотыкаются - оно должно давать в том числе классификацию по частям речи и тому подобному, но она наверное не очень хорошая. Возможно, тут может быть вариант - делать такую классификацию не с целиком словами, а с префиксами и суффиксами. Да можно наверное даже чисто статистически найти типовые префиксы и суффиксы, и потом отрезать их в "отдельные слова" для целей остальных тренировок.

А интересно, что они делают с немецкими составными словами?

Еще одна мысль: может, они делают еще и транслитерацию и пытаются ее интерпретировать. Это, наверное, полезно для всяких имен собственных.
Edited Date: 2018-06-15 03:17 am (UTC)

Date: 2018-06-16 03:01 am (UTC)
From: [personal profile] marooned_in_paradise
Ну вообщем да, такие результаты - натурально awkward. В чем то Google прав :-)
Page generated Mar. 5th, 2026 09:31 pm
Powered by Dreamwidth Studios