fregimus: (Default)
[personal profile] fregimus
Давно собирался поинтересоваться вашим мнением о состоянии дел в области машинного перевода, а тут как раз сообщение на эту тему в Language Log. Значит, пора.

Вкратце, некто задает вопрос в рассылке, посвященной, как я понимаю, установке какой-то сложной программы (оригинал на англ. по ссылке выше, перевод мой):
Это вопрос, английский неисправен следовательно запрашивается право извиненное. Спасибо гуголу переводить, чтобы помогать. ИЗВИНИТЕ!!!

В часто, козловремя установка ошибка есть рвота. К сколько раз как ветер, столб и дракон? Установи 2,3 повтори, отшлепай, рвота бьет

14:14:01.869 - INFO
[edu.internet2.middleware.shibboleth.common.config.profile.JSPErrorHandlerBeanDefinitionParser:45]
- Parsing configuration for JSP error handler.

Не точный рвота но с аспектом подобным, рвота спрятана в складку козловремени пиломатериалов. козловремя увидь как ветер, столб и дракон? Это оскорбление камней отца? JSP error handler с ветром, столбом, драконом со сношением к козловремени? Или случайное неумение обращаться с козловременем?

Пожалуйста извинитесь за вашу тупость. Существует много спасибо.
Теперь попытаюсь изложить свой вопрос. Известно, что «Гугол» реализует статистический перевод текста. В двух словах, идея этого подхода такова: статистической моделью находятся общие места в тысячах, если не миллионах пар книг и прочих текстов, переведенных переводчиками, а потом эта статистическая модель экстраполирует то, как будет выглядеть пара к предъявленному, но невиданному ей ранее тексту. Здесь краткая запись с очень популярным объяснением (англ.) того, как работает гугoлопереводчик.

Так вот, я никогда не верил, что качественный машинный перевод возможен на основании такого подхода. Мое мнение — язык столь комбинаторен, а многомерное пространство возможных текстов обширно настолько, что даже миллиард пар переводных книг покрывают лишь ничтожную его часть. Поэтому предсказательные возможности статистических моделей ограничены именно практическим объемом их «учебного материала».

И еще мне кажется, что «Гугол», с его объемами данных, приблизился практически к потолку возможностей этого метода. Не хочу говорить, что я абсолютно непредвзят — я не сижу, не потираю рук, не бубню «вот, я же говорил!», но, возможно, где-то в глубине мало известная мне часть меня и потирает, и бубнит. Поэтому мне и интересно, что думают по этому поводу те, кто в теме: ждать нам существенного улучшения качества статперевода, или все-таки для решения этой задачи нужен более сильный ИИ, понимание того, как образуется язык, как он выучивается детьми, что есть такое и как получается понимание, и так далее? Повторюсь, я придерживаюсь последней точки зрения, но потенциально вполне готов быть переубежден.

(no subject)

2010-09-24 06:33 (UTC)
Posted by [identity profile] galochkin.livejournal.com
не очень понял про пары, почему пары?

(no subject)

2010-09-24 06:48 (UTC)
Posted by [identity profile] fregimus.livejournal.com
А как иначе натренировать модель на перевод? Вот «Война и мир» по русски, вот она же по-английски, и так много раз, много других билингв. А потом показываете неизвестный текст по-русски. Разве нет?

(no subject)

Posted by [identity profile] galochkin.livejournal.com - 2010-09-24 06:52 (UTC) - Expand

(no subject)

2010-09-24 06:50 (UTC)
Posted by [identity profile] edo-rus.livejournal.com
у меня ощущение, что качество перевода у гугла со временем ухудшается, возможно "обучают" его неправильно.

(no subject)

2010-09-24 06:57 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Тут бы какую-нибудь объективную меру выдумать, тогда можно и следить за тем, как качество меняется во времени. Неплохой проект для курсовой, кстати.

(no subject)

2010-09-24 06:57 (UTC)
Posted by [identity profile] rruben.livejournal.com
Мне кажется тут ошибка не в базе, а в самом алгоритме работы — он же подставляет наиболее популярные варианты (хотя козловремя как-то непохоже), а это оказывается неверным.

Кстати говорят такой метод как-то прямо феноменально работает в качестве корректора текста.

(no subject)

2010-09-24 07:05 (UTC)
Posted by [identity profile] fregimus.livejournal.com
В принципе, статистические модели обычно «дальнодействующие», они берут в расчет и далекий контекст. Поэтому варианты выбираются разные в зависимости даже от дальнего контекста. Разумеется, объем этого контекста может ограничиваться практическими возможностями, но, думаю, что гуголов переводчик все-таки реализует лучшие из алгоритмов с меньшим числом компромиссов. На науку они не скупятся.

Насчет корректора Вас наверняка обманули, или я совсем не понимаю,что имеется в виду по корректором.

(no subject)

Posted by [identity profile] rruben.livejournal.com - 2010-09-24 07:11 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 07:32 (UTC) - Expand

(no subject)

2010-09-24 07:12 (UTC)
Posted by [identity profile] plakhov.livejournal.com
Но это же шутка, разве нет? По крайней мере оригинал никто не предъявил, как я понял.

Насчет возможностей "этого метода" - непонятно, какого "этого", и где его границы. По моим ощущениям, Google еще даже не приступал ни к снятию омонимии (т.е., в рамках данного подхода, к выбору не просто "самого распространенного" варианта перевода слова/словосочетания, а одного из, с учетом тематики текста), ни к внедрению выделенных алгоритмов для перевода имен собственных и брендов. Должно сразу стать гораздо лучше, по крайней мере в отношении пиломатериалов, которые log'и и всяких Norton'ов-Касперских. А пока не потолок.

(no subject)

2010-09-24 07:30 (UTC)
Posted by [identity profile] fregimus.livejournal.com
В каждой шутке есть доля шутки. Помните штоссель, да? Тоже непонятный перевод, никаких шуток.

Я знаю, что Вы в теме. Скажите, я правильно понимаю Вас: гугол реализует простенькие алгоритмы многолетней давности, а на более сложное или поздние исследования пока внимания не обращает? То есть, все это не state of the art, а ваянный на коленке вчерашний день?

Тогда возникает интересный вопрос — почему же никто не занимается машинным переводом серьезно? Кажется, что качество у гугола едва ли не лучше, чем у прочих. Не знаете, в чем тут беда? Просто болото, нет конкуренции, нет спроса на переводчики более высокого качества? Это пугает — если публика не желает лучшего, значит, через 10 лет это и будет называться переводом…

В японском нет омонимии между «бревном» и «журналом», говорят.

(no subject)

Posted by [identity profile] slobin.livejournal.com - 2010-09-24 07:59 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 08:25 (UTC) - Expand

(no subject)

2010-09-24 07:32 (UTC)
Posted by [identity profile] l-i-d-y-a.livejournal.com
Мне кажется, гугл-переводчик тем и прекрасен, что демонстрирует чистый статистический метод. Думаю, дальше они будут двигаться в сторону привлечения словарной информации (если уже не начали) и грамматических правил. Так, кстати, было с самим гугл-поиском - сначала они использовали чистую статистику, но со времени прикрутили таки морфологию для русского и вообще флективных языков.

Переводчик в его нынешнем виде может быть полезен именно как веб-сервис. Для навигации в японском интернете, например. И стандартные для веба фразы (типа "на главную"), он переводит достаточно хорошо именно потому, что для таких фраз у него достаточная база.

(no subject)

2010-09-24 07:45 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Если верить записи в гуглоблоге, то они как раз двигаются в сторону от правил языка к статистике. Но это если верить, конечно.

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2010-09-24 07:52 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 08:13 (UTC) - Expand

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2010-09-24 08:18 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 08:21 (UTC) - Expand

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2010-09-24 08:37 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 08:38 (UTC) - Expand

(no subject)

Posted by [identity profile] bvn-mai.livejournal.com - 2010-09-24 09:38 (UTC) - Expand

(no subject)

Posted by [identity profile] darth-vasya.livejournal.com - 2010-09-24 10:05 (UTC) - Expand

(no subject)

Posted by [identity profile] bvn-mai.livejournal.com - 2010-09-24 11:37 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 18:49 (UTC) - Expand

(no subject)

Posted by [identity profile] bvn-mai.livejournal.com - 2010-09-24 20:00 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 20:47 (UTC) - Expand

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2010-09-24 10:44 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 18:28 (UTC) - Expand

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2010-09-24 18:46 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 18:50 (UTC) - Expand

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2010-09-24 19:50 (UTC) - Expand

(no subject)

Posted by [identity profile] bvn-mai.livejournal.com - 2010-09-24 20:16 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 20:46 (UTC) - Expand

(no subject)

Posted by [identity profile] bvn-mai.livejournal.com - 2010-09-25 19:11 (UTC) - Expand

(no subject)

Posted by [identity profile] bvn-mai.livejournal.com - 2010-09-24 20:09 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 20:44 (UTC) - Expand

(no subject)

Posted by [identity profile] bvn-mai.livejournal.com - 2010-09-25 19:15 (UTC) - Expand

(no subject)

Posted by [identity profile] bvn-mai.livejournal.com - 2010-09-25 20:48 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-25 22:06 (UTC) - Expand

(no subject)

Posted by [identity profile] bvn-mai.livejournal.com - 2010-09-27 13:01 (UTC) - Expand

(no subject)

Posted by [identity profile] cobetbi.livejournal.com - 2010-09-24 12:08 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 18:51 (UTC) - Expand

(no subject)

Posted by [identity profile] cobetbi.livejournal.com - 2010-09-24 19:18 (UTC) - Expand

(no subject)

Posted by [identity profile] cobetbi.livejournal.com - 2010-09-24 19:33 (UTC) - Expand

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2010-09-24 19:53 (UTC) - Expand

(no subject)

Posted by [identity profile] cobetbi.livejournal.com - 2010-09-24 21:03 (UTC) - Expand

(no subject)

2010-09-24 07:36 (UTC)
Posted by [identity profile] kmmbvnr.livejournal.com
Так вот, я никогда не верил, что качественный машинный перевод возможен на основании такого подхода. Мое мнение — язык столь комбинаторен, а многомерное пространство возможных текстов обширно настолько, что даже миллиард пар переводных книг покрывают лишь ничтожную его часть. Поэтому предсказательные возможности статистических моделей ограничены именно практическим объемом их «учебного материала».

Перевод гугла:

So, I never believed that a quality machine translation is possible on the basis of this approach. My opinion - the language is so smooth, and the multidimensional space of possible texts extensively so that even a billion pairs of translated books cover only a tiny part of it. Therefore, the predictive capabilities of statistical models is limited by the practical capacity of their "educational material".

А теперь обратно, тоже гуглом:

Так, я никогда не верил, что качество машинного перевода можно на основе этого подхода. Мое мнение - язык настолько гладкая, и многомерном пространстве возможных текстов широко, так что даже миллиардов пар перевод книги охватывают лишь небольшую часть его. Таким образом, возможности интеллектуального статистических моделей ограничено практического потенциала их "учебного материала".

(no subject)

2010-09-24 07:41 (UTC)
Posted by [identity profile] kmmbvnr.livejournal.com
Т.е. эпический фейлы на обычных текстах наблюдаются редко. А проблема согласования слов, она видимо за пределами статистического подхода.

Что касается примера из рассылки, как верно отмечено в комментариях, автоматический переводчик орфографических ошибок не совершает.

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 07:49 (UTC) - Expand

(no subject)

2010-09-24 08:33 (UTC)
Posted by [identity profile] bdag-med.livejournal.com
тут мне слух рассказывали, что Брин сказал нечто вроде "когда я увольняю лингвиста, качество улучшается" :) Речь идет именно о том, что лингвисты любят грамматики.

(no subject)

2010-09-24 08:36 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Думаю, у Брина лингвистов столько нет, чтобы до приличного качества перевод доувольнять.

(no subject)

2010-09-24 08:39 (UTC)
Posted by [identity profile] l-i-d-y-a.livejournal.com
Это кому только не приписывают: http://itman.livejournal.com/369257.html

(no subject)

Posted by [identity profile] bdag-med.livejournal.com - 2010-09-24 08:46 (UTC) - Expand

(no subject)

2010-09-24 10:41 (UTC)
Posted by [identity profile] aamonster.livejournal.com
А вы уверены, что гугл использует только тупые статистические модели? Я лично сомневаюсь: логично и сразу заложить некоторые правила, и (если хватит силёнок) реализовать вывод-проверку-использование гипотез о правилах (ну там, машина подмечает, как используются существительные, и объединяет их в один класс - чтобы потом можно было использовать слово из этого класса в качестве подлежащего).

(no subject)

2010-09-24 18:30 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Вы интересные меня вопросы спрашиваете. Как я могу быть уверен? Это то, что они сами утверждают.

No title

2010-09-24 11:15 (UTC)
Posted by [identity profile] pingback-bot.livejournal.com
User [livejournal.com profile] allambee referenced to your post from No title (http://allambee.livejournal.com/16384.html) saying: [...] обращаться с козловременем? Пожалуйста извинитесь за вашу тупость. Существует много спасибо. from [...]

(no subject)

2010-09-24 11:15 (UTC)
Posted by [identity profile] x.a.r. (from livejournal.com)
Переводить типовые куски текста в типовые куски текста. Не для того ли, вообще, существует техника, чтобы выполнять рутинную работу?
А качество будет лучше. Маховик Гугла, вроде, только раскручивается.
Переводить стихи никто не просит. Но перевести статью, написанную обычным средним журналистом со стандартными журналистскими штампами - почему нет?

(no subject)

2010-09-24 18:34 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Не существует типовых кусков текста. Для примера: предыдущее предложение еще ни разу не было написано в Сети. Я первый, я первый, дайте мне медаль. А в ней всего 5 слов, между прочим.

Вам кажется, что «вроде раскручивается», а мне, я уже сказал об этом, — что он достиг максимальных оборотов. Мне бы тут как раз аргументы хотелось услышать посильнее, чем «кажется».

Из статьи смысл немного исчезает при переводе: http://fregimus.livejournal.com/119169.html?thread=2832513#t2832513

(no subject)

Posted by [identity profile] x.a.r. - 2010-09-24 18:51 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 18:53 (UTC) - Expand

(no subject)

2010-09-24 11:18 (UTC)
Posted by [identity profile] p_govorun.livejournal.com
Гугл переводит (http://lj.rossia.org/users/p_govorun/101473.html) "Белеет парус одинокий" как "The long and winding road". И я считаю, что в чём-то он прав :-)

(no subject)

2010-09-24 18:38 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Починили уже, но хорошо, хорошо. Не те тексты параллельно легли.

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2010-09-24 19:57 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 20:56 (UTC) - Expand

(no subject)

Posted by [identity profile] p_govorun.livejournal.com - 2010-09-24 21:51 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 21:54 (UTC) - Expand

(no subject)

Posted by [identity profile] p_govorun.livejournal.com - 2010-09-24 22:39 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-25 00:29 (UTC) - Expand

А добавьте запятую

Posted by (Anonymous) - 2010-09-25 09:15 (UTC) - Expand
(deleted comment)

(no subject)

2010-09-24 18:45 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Значит, главное препятствие в том, что программы пишут программисты. Я в целом-то согласен, но не думаю, что здесь что-то скоро поменяется.
(deleted comment)

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 20:53 (UTC) - Expand

(no subject)

Posted by [identity profile] adlov.livejournal.com - 2010-09-24 21:25 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 21:42 (UTC) - Expand

(no subject)

Posted by [identity profile] adlov.livejournal.com - 2010-09-24 22:05 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 22:13 (UTC) - Expand

(no subject)

Posted by [identity profile] adlov.livejournal.com - 2010-09-24 22:47 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-24 23:18 (UTC) - Expand

(no subject)

Posted by [identity profile] adlov.livejournal.com - 2010-09-24 23:54 (UTC) - Expand

(no subject)

Posted by [identity profile] adlov.livejournal.com - 2010-09-24 23:56 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2010-09-25 00:26 (UTC) - Expand

Дописал у себя )

Posted by [identity profile] adlov.livejournal.com - 2010-09-25 00:48 (UTC) - Expand
Posted by [identity profile] t1nix.livejournal.com
По специфике работы, мне часто приходится разбираться с кусками текста на нехнакомых языках, поэтому я много работаю с гугол транслейтом. Исходя из субъктивного восприятия, заметил несколько паттернов:
- с романо-германских языков (немецкий, дацкий, французский, фломандский ...) на английский гугл переводит хорошо
- со всех остальных на английский гугл переводит несколько хуже
- с любого на неанглийский гугл перевод плохо.

Я понимаю, что этого недостаточно для выводов, но может стоит винить размер базы переводов с конкретного языка на конкретный? Я полгаю, переводов на аглийский и с английского больше всегоо вииду популярности языка, поэтому переводы в даной последовательности лучше. Со случайного языка на случайный ( с русского на китайский) очень мало, поэтому и качество перевода малое.

(no subject)

2010-09-26 18:15 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Это один из самых важных факторов, несомненно.

(no subject)

2010-10-12 15:46 (UTC)
Posted by [identity profile] rainaldo anonimato (from livejournal.com)
Стоп-стоп-стоп...
Прочитал всё - но только изумился: о чём, собственно, тут вообще идёт речь??!

Но ведь очевидно же, что и человеку в его собственной практике - недоступен "перевод", который превосходил бы "машинный". Скажем, "синхронный перевод" обычно - значительно хуже качеством, если б не два изредка выручающих "но": владение переводчиками навыками имитации (меня самого им в своё время обучали: умению, "отстав от поезда", тем не менее "выкрутиться" дежурными обтекаемыми и пустыми внутри "формулами") - и, на другом полюсе, редкостный высочайший класс, когда синхронист успевает не делать перевода, а понять и пересказать всё.

Смею утверждать, что для нормальных живых языков - "перевод" (то есть преобразование текста по каким-то формальным или неформальным алгоритмам и правилам с одного языка на другой) - вообще невозможен (компьютер исполнит его, конечно, лучше человека, но адекватной цели достигнуть тоже не сможет).

Всё, что может считаться "адекватным решением" - это ни в коем случае не "перевод" (в указанном смысле), а - комбинация двух задач и процессов:
1) понять и осмыслить сказанное/написанное (на одном из языков)
и
2) сочинить-выразить-высказать заново "тот же смысл и отчасти форму" (на другом языке).

Конечно же, успех в этом деле компьютера - не может предшествовать тому, чтобы означенный ИИ прежде не научился свободно "понимать" и свободно "говорить": перезапрячь эту "телегу" в другом порядке попросту бессмысленная затея.

Как бы кому-либо ни мечталось "зайти через... гм... альтернативный проход"...