fregimus. Козловремя машинного перевода

Давно собирался поинтересоваться вашим мнением о состоянии дел в области машинного перевода, а тут как раз сообщение на эту тему в Language Log. Значит, пора.

Вкратце, некто задает вопрос в рассылке, посвященной, как я понимаю, установке какой-то сложной программы (оригинал на англ. по ссылке выше, перевод мой):

Это вопрос, английский неисправен следовательно запрашивается право извиненное. Спасибо гуголу переводить, чтобы помогать. ИЗВИНИТЕ!!!

В часто, козловремя установка ошибка есть рвота. К сколько раз как ветер, столб и дракон? Установи 2,3 повтори, отшлепай, рвота бьет

14:14:01.869 - INFO
[edu.internet2.middleware.shibboleth.common.config.profile.JSPErrorHandlerBeanDefinitionParser:45]
- Parsing configuration for JSP error handler.

Не точный рвота но с аспектом подобным, рвота спрятана в складку козловремени пиломатериалов. козловремя увидь как ветер, столб и дракон? Это оскорбление камней отца? JSP error handler с ветром, столбом, драконом со сношением к козловремени? Или случайное неумение обращаться с козловременем?

Пожалуйста извинитесь за вашу тупость. Существует много спасибо.

Теперь попытаюсь изложить свой вопрос. Известно, что «Гугол» реализует статистический перевод текста. В двух словах, идея этого подхода такова: статистической моделью находятся общие места в тысячах, если не миллионах пар книг и прочих текстов, переведенных переводчиками, а потом эта статистическая модель экстраполирует то, как будет выглядеть пара к предъявленному, но невиданному ей ранее тексту. Здесь краткая запись с очень популярным объяснением (англ.) того, как работает гугoлопереводчик.

Так вот, я никогда не верил, что качественный машинный перевод возможен на основании такого подхода. Мое мнение — язык столь комбинаторен, а многомерное пространство возможных текстов обширно настолько, что даже миллиард пар переводных книг покрывают лишь ничтожную его часть. Поэтому предсказательные возможности статистических моделей ограничены именно практическим объемом их «учебного материала».

И еще мне кажется, что «Гугол», с его объемами данных, приблизился практически к потолку возможностей этого метода. Не хочу говорить, что я абсолютно непредвзят — я не сижу, не потираю рук, не бубню «вот, я же говорил!», но, возможно, где-то в глубине мало известная мне часть меня и потирает, и бубнит. Поэтому мне и интересно, что думают по этому поводу те, кто в теме: ждать нам существенного улучшения качества статперевода, или все-таки для решения этой задачи нужен более сильный ИИ, понимание того, как образуется язык, как он выучивается детьми, что есть такое и как получается понимание, и так далее? Повторюсь, я придерживаюсь последней точки зрения, но потенциально вполне готов быть переубежден.

Tags:

Flat. Top-Level Comments Only

Posted by

galochkin.livejournal.com

не очень понял про пары, почему пары?

Posted by

fregimus.livejournal.com

А как иначе натренировать модель на перевод? Вот «Война и мир» по русски, вот она же по-английски, и так много раз, много других билингв. А потом показываете неизвестный текст по-русски. Разве нет?

(no subject)

Posted by

galochkin.livejournal.com - 2010-09-24 06:52 (UTC) - Expand

Posted by

edo-rus.livejournal.com

у меня ощущение, что качество перевода у гугла со временем ухудшается, возможно "обучают" его неправильно.

Posted by

fregimus.livejournal.com

Тут бы какую-нибудь объективную меру выдумать, тогда можно и следить за тем, как качество меняется во времени. Неплохой проект для курсовой, кстати.

Posted by

rruben.livejournal.com

Мне кажется тут ошибка не в базе, а в самом алгоритме работы — он же подставляет наиболее популярные варианты (хотя козловремя как-то непохоже), а это оказывается неверным.

Кстати говорят такой метод как-то прямо феноменально работает в качестве корректора текста.

Posted by

fregimus.livejournal.com

В принципе, статистические модели обычно «дальнодействующие», они берут в расчет и далекий контекст. Поэтому варианты выбираются разные в зависимости даже от дальнего контекста. Разумеется, объем этого контекста может ограничиваться практическими возможностями, но, думаю, что гуголов переводчик все-таки реализует лучшие из алгоритмов с меньшим числом компромиссов. На науку они не скупятся.

Насчет корректора Вас наверняка обманули, или я совсем не понимаю,что имеется в виду по корректором.

(no subject)

Posted by

rruben.livejournal.com - 2010-09-24 07:11 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 07:32 (UTC) - Expand

Posted by

plakhov.livejournal.com

Но это же шутка, разве нет? По крайней мере оригинал никто не предъявил, как я понял.

Насчет возможностей "этого метода" - непонятно, какого "этого", и где его границы. По моим ощущениям, Google еще даже не приступал ни к снятию омонимии (т.е., в рамках данного подхода, к выбору не просто "самого распространенного" варианта перевода слова/словосочетания, а одного из, с учетом тематики текста), ни к внедрению выделенных алгоритмов для перевода имен собственных и брендов. Должно сразу стать гораздо лучше, по крайней мере в отношении пиломатериалов, которые log'и и всяких Norton'ов-Касперских. А пока не потолок.

Posted by

fregimus.livejournal.com

В каждой шутке есть доля шутки. Помните штоссель, да? Тоже непонятный перевод, никаких шуток.

Я знаю, что Вы в теме. Скажите, я правильно понимаю Вас: гугол реализует простенькие алгоритмы многолетней давности, а на более сложное или поздние исследования пока внимания не обращает? То есть, все это не state of the art, а ваянный на коленке вчерашний день?

Тогда возникает интересный вопрос — почему же никто не занимается машинным переводом серьезно? Кажется, что качество у гугола едва ли не лучше, чем у прочих. Не знаете, в чем тут беда? Просто болото, нет конкуренции, нет спроса на переводчики более высокого качества? Это пугает — если публика не желает лучшего, значит, через 10 лет это и будет называться переводом…

В японском нет омонимии между «бревном» и «журналом», говорят.

(no subject)

Posted by

slobin.livejournal.com - 2010-09-24 07:59 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 08:25 (UTC) - Expand

Posted by

l-i-d-y-a.livejournal.com

Мне кажется, гугл-переводчик тем и прекрасен, что демонстрирует чистый статистический метод. Думаю, дальше они будут двигаться в сторону привлечения словарной информации (если уже не начали) и грамматических правил. Так, кстати, было с самим гугл-поиском - сначала они использовали чистую статистику, но со времени прикрутили таки морфологию для русского и вообще флективных языков.

Переводчик в его нынешнем виде может быть полезен именно как веб-сервис. Для навигации в японском интернете, например. И стандартные для веба фразы (типа "на главную"), он переводит достаточно хорошо именно потому, что для таких фраз у него достаточная база.

Posted by

fregimus.livejournal.com

Если верить записи в гуглоблоге, то они как раз двигаются в сторону от правил языка к статистике. Но это если верить, конечно.

(no subject)

Posted by

l-i-d-y-a.livejournal.com - 2010-09-24 07:52 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 08:13 (UTC) - Expand

(no subject)

Posted by

l-i-d-y-a.livejournal.com - 2010-09-24 08:18 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 08:21 (UTC) - Expand

(no subject)

Posted by

l-i-d-y-a.livejournal.com - 2010-09-24 08:37 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 08:38 (UTC) - Expand

(no subject)

Posted by

bvn-mai.livejournal.com - 2010-09-24 09:38 (UTC) - Expand

(no subject)

Posted by

darth-vasya.livejournal.com - 2010-09-24 10:05 (UTC) - Expand

(no subject)

Posted by

bvn-mai.livejournal.com - 2010-09-24 11:37 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 18:49 (UTC) - Expand

(no subject)

Posted by

bvn-mai.livejournal.com - 2010-09-24 20:00 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 20:47 (UTC) - Expand

(no subject)

Posted by

l-i-d-y-a.livejournal.com - 2010-09-24 10:44 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 18:28 (UTC) - Expand

(no subject)

Posted by

l-i-d-y-a.livejournal.com - 2010-09-24 18:46 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 18:50 (UTC) - Expand

(no subject)

Posted by

l-i-d-y-a.livejournal.com - 2010-09-24 19:50 (UTC) - Expand

(no subject)

Posted by

bvn-mai.livejournal.com - 2010-09-24 20:16 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 20:46 (UTC) - Expand

(no subject)

Posted by

bvn-mai.livejournal.com - 2010-09-25 19:11 (UTC) - Expand

(no subject)

Posted by

bvn-mai.livejournal.com - 2010-09-24 20:09 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 20:44 (UTC) - Expand

(no subject)

Posted by

bvn-mai.livejournal.com - 2010-09-25 19:15 (UTC) - Expand

(no subject)

Posted by

bvn-mai.livejournal.com - 2010-09-25 20:48 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-25 22:06 (UTC) - Expand

(no subject)

Posted by

bvn-mai.livejournal.com - 2010-09-27 13:01 (UTC) - Expand

(no subject)

Posted by

cobetbi.livejournal.com - 2010-09-24 12:08 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 18:51 (UTC) - Expand

(no subject)

Posted by

cobetbi.livejournal.com - 2010-09-24 19:18 (UTC) - Expand

(no subject)

Posted by

cobetbi.livejournal.com - 2010-09-24 19:33 (UTC) - Expand

(no subject)

Posted by

l-i-d-y-a.livejournal.com - 2010-09-24 19:53 (UTC) - Expand

(no subject)

Posted by

cobetbi.livejournal.com - 2010-09-24 21:03 (UTC) - Expand

Posted by

kmmbvnr.livejournal.com

Так вот, я никогда не верил, что качественный машинный перевод возможен на основании такого подхода. Мое мнение — язык столь комбинаторен, а многомерное пространство возможных текстов обширно настолько, что даже миллиард пар переводных книг покрывают лишь ничтожную его часть. Поэтому предсказательные возможности статистических моделей ограничены именно практическим объемом их «учебного материала».

Перевод гугла:

So, I never believed that a quality machine translation is possible on the basis of this approach. My opinion - the language is so smooth, and the multidimensional space of possible texts extensively so that even a billion pairs of translated books cover only a tiny part of it. Therefore, the predictive capabilities of statistical models is limited by the practical capacity of their "educational material".

А теперь обратно, тоже гуглом:

Так, я никогда не верил, что качество машинного перевода можно на основе этого подхода. Мое мнение - язык настолько гладкая, и многомерном пространстве возможных текстов широко, так что даже миллиардов пар перевод книги охватывают лишь небольшую часть его. Таким образом, возможности интеллектуального статистических моделей ограничено практического потенциала их "учебного материала".

Posted by

kmmbvnr.livejournal.com

Т.е. эпический фейлы на обычных текстах наблюдаются редко. А проблема согласования слов, она видимо за пределами статистического подхода.

Что касается примера из рассылки, как верно отмечено в комментариях, автоматический переводчик орфографических ошибок не совершает.

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 07:49 (UTC) - Expand

Posted by

bdag-med.livejournal.com

тут мне слух рассказывали, что Брин сказал нечто вроде "когда я увольняю лингвиста, качество улучшается" :) Речь идет именно о том, что лингвисты любят грамматики.

Posted by

fregimus.livejournal.com

Думаю, у Брина лингвистов столько нет, чтобы до приличного качества перевод доувольнять.

Posted by

l-i-d-y-a.livejournal.com

Это кому только не приписывают: http://itman.livejournal.com/369257.html

(no subject)

Posted by

bdag-med.livejournal.com - 2010-09-24 08:46 (UTC) - Expand

Posted by

aamonster.livejournal.com

А вы уверены, что гугл использует только тупые статистические модели? Я лично сомневаюсь: логично и сразу заложить некоторые правила, и (если хватит силёнок) реализовать вывод-проверку-использование гипотез о правилах (ну там, машина подмечает, как используются существительные, и объединяет их в один класс - чтобы потом можно было использовать слово из этого класса в качестве подлежащего).

Posted by

fregimus.livejournal.com

Вы интересные меня вопросы спрашиваете. Как я могу быть уверен? Это то, что они сами утверждают.

Posted by

pingback-bot.livejournal.com

User

allambee referenced to your post from No title (http://allambee.livejournal.com/16384.html) saying: [...] обращаться с козловременем? Пожалуйста извинитесь за вашу тупость. Существует много спасибо. from [...]

Posted by

x.a.r. (from livejournal.com)

Переводить типовые куски текста в типовые куски текста. Не для того ли, вообще, существует техника, чтобы выполнять рутинную работу?
А качество будет лучше. Маховик Гугла, вроде, только раскручивается.
Переводить стихи никто не просит. Но перевести статью, написанную обычным средним журналистом со стандартными журналистскими штампами - почему нет?

Posted by

fregimus.livejournal.com

Не существует типовых кусков текста. Для примера: предыдущее предложение еще ни разу не было написано в Сети. ~~Я первый, я первый, дайте мне медаль.~~ А в ней всего 5 слов, между прочим.

Вам кажется, что «вроде раскручивается», а мне, я уже сказал об этом, — что он достиг максимальных оборотов. Мне бы тут как раз аргументы хотелось услышать посильнее, чем «кажется».

Из статьи смысл немного исчезает при переводе: http://fregimus.livejournal.com/119169.html?thread=2832513#t2832513

(no subject)

Posted by

x.a.r. - 2010-09-24 18:51 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 18:53 (UTC) - Expand

Posted by

p_govorun.livejournal.com

Гугл переводит (http://lj.rossia.org/users/p_govorun/101473.html) "Белеет парус одинокий" как "The long and winding road". И я считаю, что в чём-то он прав :-)

Posted by

fregimus.livejournal.com

Починили уже, но хорошо, хорошо. Не те тексты параллельно легли.

(no subject)

Posted by

l-i-d-y-a.livejournal.com - 2010-09-24 19:57 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 20:56 (UTC) - Expand

(no subject)

Posted by

p_govorun.livejournal.com - 2010-09-24 21:51 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 21:54 (UTC) - Expand

(no subject)

Posted by

p_govorun.livejournal.com - 2010-09-24 22:39 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-25 00:29 (UTC) - Expand

А добавьте запятую

Posted by (Anonymous) - 2010-09-25 09:15 (UTC) - Expand

Re: А добавьте запятую

Posted by

fregimus.livejournal.com - 2010-09-25 10:05 (UTC) - Expand

(deleted comment)

Posted by

fregimus.livejournal.com

Значит, главное препятствие в том, что программы пишут программисты. Я в целом-то согласен, но не думаю, что здесь что-то скоро поменяется.

(deleted comment)

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 20:53 (UTC) - Expand

(no subject)

Posted by

adlov.livejournal.com - 2010-09-24 21:25 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 21:42 (UTC) - Expand

(no subject)

Posted by

adlov.livejournal.com - 2010-09-24 22:05 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 22:13 (UTC) - Expand

(no subject)

Posted by

adlov.livejournal.com - 2010-09-24 22:47 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-24 23:18 (UTC) - Expand

(no subject)

Posted by

adlov.livejournal.com - 2010-09-24 23:54 (UTC) - Expand

(no subject)

Posted by

adlov.livejournal.com - 2010-09-24 23:56 (UTC) - Expand

(no subject)

Posted by

fregimus.livejournal.com - 2010-09-25 00:26 (UTC) - Expand

Дописал у себя )

Posted by

adlov.livejournal.com - 2010-09-25 00:48 (UTC) - Expand

Re: Дописал у себя )

Posted by

adlov.livejournal.com - 2010-09-25 00:51 (UTC) - Expand

Re: Дописал у себя )

Posted by

fregimus.livejournal.com - 2010-09-25 00:56 (UTC) - Expand

Re: Дописал у себя )

Posted by

adlov.livejournal.com - 2010-09-25 01:12 (UTC) - Expand

Posted by

t1nix.livejournal.com

По специфике работы, мне часто приходится разбираться с кусками текста на нехнакомых языках, поэтому я много работаю с гугол транслейтом. Исходя из субъктивного восприятия, заметил несколько паттернов:
- с романо-германских языков (немецкий, дацкий, французский, фломандский ...) на английский гугл переводит хорошо
- со всех остальных на английский гугл переводит несколько хуже
- с любого на неанглийский гугл перевод плохо.

Я понимаю, что этого недостаточно для выводов, но может стоит винить размер базы переводов с конкретного языка на конкретный? Я полгаю, переводов на аглийский и с английского больше всегоо вииду популярности языка, поэтому переводы в даной последовательности лучше. Со случайного языка на случайный ( с русского на китайский) очень мало, поэтому и качество перевода малое.

Posted by

fregimus.livejournal.com

Это один из самых важных факторов, несомненно.

Posted by

rainaldo anonimato (from livejournal.com)

Стоп-стоп-стоп...
Прочитал всё - но только изумился: о чём, собственно, тут вообще идёт речь??!

Но ведь очевидно же, что и человеку в его собственной практике - недоступен "перевод", который превосходил бы "машинный". Скажем, "синхронный перевод" обычно - значительно хуже качеством, если б не два изредка выручающих "но": владение переводчиками навыками имитации (меня самого им в своё время обучали: умению, "отстав от поезда", тем не менее "выкрутиться" дежурными обтекаемыми и пустыми внутри "формулами") - и, на другом полюсе, редкостный высочайший класс, когда синхронист успевает не делать перевода, а понять и пересказать всё.

Смею утверждать, что для нормальных живых языков - "перевод" (то есть преобразование текста по каким-то формальным или неформальным алгоритмам и правилам с одного языка на другой) - вообще невозможен (компьютер исполнит его, конечно, лучше человека, но адекватной цели достигнуть тоже не сможет).

Всё, что может считаться "адекватным решением" - это ни в коем случае не "перевод" (в указанном смысле), а - комбинация двух задач и процессов:
1) понять и осмыслить сказанное/написанное (на одном из языков)
и
2) сочинить-выразить-высказать заново "тот же смысл и отчасти форму" (на другом языке).

Конечно же, успех в этом деле компьютера - не может предшествовать тому, чтобы означенный ИИ прежде не научился свободно "понимать" и свободно "говорить": перезапрячь эту "телегу" в другом порядке попросту бессмысленная затея.

Как бы кому-либо ни мечталось "зайти через... гм... альтернативный проход"...

Flat. Top-Level Comments Only

Profile

fregimus

March 2014

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Page Summary

Page generated 2026-01-10 15:24

Style Credit

Style: Night at Sea for Summertime by ninetydegrees
Resources: Texture by Design Shard and Icons by Romeo Barreto, John Caserta, Denis Chenu, Pedro Lalli, Marcus Michaels, P.J. Onori, Laurent Patain and Cor Tiemens from The Noun Project

Expand Cut Tags

No cut tags

alterum fregi, alterum amisi!

Козловремя машинного перевода

Page Summary

Style Credit

Expand Cut Tags