Давно собирался поинтересоваться вашим мнением о состоянии дел в области машинного перевода, а тут как раз сообщение на эту тему в Language Log. Значит, пора.
Вкратце, некто задает вопрос в рассылке, посвященной, как я понимаю, установке какой-то сложной программы (оригинал на англ. по ссылке выше, перевод мой):
Так вот, я никогда не верил, что качественный машинный перевод возможен на основании такого подхода. Мое мнение — язык столь комбинаторен, а многомерное пространство возможных текстов обширно настолько, что даже миллиард пар переводных книг покрывают лишь ничтожную его часть. Поэтому предсказательные возможности статистических моделей ограничены именно практическим объемом их «учебного материала».
И еще мне кажется, что «Гугол», с его объемами данных, приблизился практически к потолку возможностей этого метода. Не хочу говорить, что я абсолютно непредвзят — я не сижу, не потираю рук, не бубню «вот, я же говорил!», но, возможно, где-то в глубине мало известная мне часть меня и потирает, и бубнит. Поэтому мне и интересно, что думают по этому поводу те, кто в теме: ждать нам существенного улучшения качества статперевода, или все-таки для решения этой задачи нужен более сильный ИИ, понимание того, как образуется язык, как он выучивается детьми, что есть такое и как получается понимание, и так далее? Повторюсь, я придерживаюсь последней точки зрения, но потенциально вполне готов быть переубежден.
Вкратце, некто задает вопрос в рассылке, посвященной, как я понимаю, установке какой-то сложной программы (оригинал на англ. по ссылке выше, перевод мой):
Это вопрос, английский неисправен следовательно запрашивается право извиненное. Спасибо гуголу переводить, чтобы помогать. ИЗВИНИТЕ!!!Теперь попытаюсь изложить свой вопрос. Известно, что «Гугол» реализует статистический перевод текста. В двух словах, идея этого подхода такова: статистической моделью находятся общие места в тысячах, если не миллионах пар книг и прочих текстов, переведенных переводчиками, а потом эта статистическая модель экстраполирует то, как будет выглядеть пара к предъявленному, но невиданному ей ранее тексту. Здесь краткая запись с очень популярным объяснением (англ.) того, как работает гугoлопереводчик.
В часто, козловремя установка ошибка есть рвота. К сколько раз как ветер, столб и дракон? Установи 2,3 повтори, отшлепай, рвота бьет
14:14:01.869 - INFO
[edu.internet2.middleware.shibboleth.common.config.profile.JSPErrorHandlerBeanDefinitionParser:45]
- Parsing configuration for JSP error handler.
Не точный рвота но с аспектом подобным, рвота спрятана в складку козловремени пиломатериалов. козловремя увидь как ветер, столб и дракон? Это оскорбление камней отца? JSP error handler с ветром, столбом, драконом со сношением к козловремени? Или случайное неумение обращаться с козловременем?
Пожалуйста извинитесь за вашу тупость. Существует много спасибо.
Так вот, я никогда не верил, что качественный машинный перевод возможен на основании такого подхода. Мое мнение — язык столь комбинаторен, а многомерное пространство возможных текстов обширно настолько, что даже миллиард пар переводных книг покрывают лишь ничтожную его часть. Поэтому предсказательные возможности статистических моделей ограничены именно практическим объемом их «учебного материала».
И еще мне кажется, что «Гугол», с его объемами данных, приблизился практически к потолку возможностей этого метода. Не хочу говорить, что я абсолютно непредвзят — я не сижу, не потираю рук, не бубню «вот, я же говорил!», но, возможно, где-то в глубине мало известная мне часть меня и потирает, и бубнит. Поэтому мне и интересно, что думают по этому поводу те, кто в теме: ждать нам существенного улучшения качества статперевода, или все-таки для решения этой задачи нужен более сильный ИИ, понимание того, как образуется язык, как он выучивается детьми, что есть такое и как получается понимание, и так далее? Повторюсь, я придерживаюсь последней точки зрения, но потенциально вполне готов быть переубежден.
Tags:
(no subject)
2010-09-24 06:33 (UTC)(no subject)
2010-09-24 06:48 (UTC)(no subject)
Posted by(no subject)
2010-09-24 06:50 (UTC)(no subject)
2010-09-24 06:57 (UTC)(no subject)
2010-09-24 06:57 (UTC)Кстати говорят такой метод как-то прямо феноменально работает в качестве корректора текста.
(no subject)
2010-09-24 07:05 (UTC)Насчет корректора Вас наверняка обманули, или я совсем не понимаю,что имеется в виду по корректором.
(no subject)
Posted by(no subject)
Posted by(no subject)
2010-09-24 07:12 (UTC)Насчет возможностей "этого метода" - непонятно, какого "этого", и где его границы. По моим ощущениям, Google еще даже не приступал ни к снятию омонимии (т.е., в рамках данного подхода, к выбору не просто "самого распространенного" варианта перевода слова/словосочетания, а одного из, с учетом тематики текста), ни к внедрению выделенных алгоритмов для перевода имен собственных и брендов. Должно сразу стать гораздо лучше, по крайней мере в отношении пиломатериалов, которые log'и и всяких Norton'ов-Касперских. А пока не потолок.
(no subject)
2010-09-24 07:30 (UTC)Я знаю, что Вы в теме. Скажите, я правильно понимаю Вас: гугол реализует простенькие алгоритмы многолетней давности, а на более сложное или поздние исследования пока внимания не обращает? То есть, все это не state of the art, а ваянный на коленке вчерашний день?
Тогда возникает интересный вопрос — почему же никто не занимается машинным переводом серьезно? Кажется, что качество у гугола едва ли не лучше, чем у прочих. Не знаете, в чем тут беда? Просто болото, нет конкуренции, нет спроса на переводчики более высокого качества? Это пугает — если публика не желает лучшего, значит, через 10 лет это и будет называться переводом…
В японском нет омонимии между «бревном» и «журналом», говорят.
(no subject)
Posted by(no subject)
Posted by(no subject)
2010-09-24 07:32 (UTC)Переводчик в его нынешнем виде может быть полезен именно как веб-сервис. Для навигации в японском интернете, например. И стандартные для веба фразы (типа "на главную"), он переводит достаточно хорошо именно потому, что для таких фраз у него достаточная база.
(no subject)
2010-09-24 07:45 (UTC)(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
2010-09-24 07:36 (UTC)Перевод гугла:
So, I never believed that a quality machine translation is possible on the basis of this approach. My opinion - the language is so smooth, and the multidimensional space of possible texts extensively so that even a billion pairs of translated books cover only a tiny part of it. Therefore, the predictive capabilities of statistical models is limited by the practical capacity of their "educational material".
А теперь обратно, тоже гуглом:
Так, я никогда не верил, что качество машинного перевода можно на основе этого подхода. Мое мнение - язык настолько гладкая, и многомерном пространстве возможных текстов широко, так что даже миллиардов пар перевод книги охватывают лишь небольшую часть его. Таким образом, возможности интеллектуального статистических моделей ограничено практического потенциала их "учебного материала".
(no subject)
2010-09-24 07:41 (UTC)Что касается примера из рассылки, как верно отмечено в комментариях, автоматический переводчик орфографических ошибок не совершает.
(no subject)
Posted by(no subject)
2010-09-24 08:33 (UTC)(no subject)
2010-09-24 08:36 (UTC)(no subject)
2010-09-24 08:39 (UTC)(no subject)
Posted by(no subject)
2010-09-24 10:41 (UTC)(no subject)
2010-09-24 18:30 (UTC)No title
2010-09-24 11:15 (UTC)(no subject)
2010-09-24 11:15 (UTC)А качество будет лучше. Маховик Гугла, вроде, только раскручивается.
Переводить стихи никто не просит. Но перевести статью, написанную обычным средним журналистом со стандартными журналистскими штампами - почему нет?
(no subject)
2010-09-24 18:34 (UTC)Я первый, я первый, дайте мне медаль.А в ней всего 5 слов, между прочим.Вам кажется, что «вроде раскручивается», а мне, я уже сказал об этом, — что он достиг максимальных оборотов. Мне бы тут как раз аргументы хотелось услышать посильнее, чем «кажется».
Из статьи смысл немного исчезает при переводе: http://fregimus.livejournal.com/119169.html?thread=2832513#t2832513
(no subject)
Posted by(no subject)
Posted by(no subject)
2010-09-24 11:18 (UTC)(no subject)
2010-09-24 18:38 (UTC)(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted byА добавьте запятую
Posted by (Anonymous) - 2010-09-25 09:15 (UTC) - ExpandRe: А добавьте запятую
Posted by(no subject)
2010-09-24 18:45 (UTC)(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted byДописал у себя )
Posted byRe: Дописал у себя )
Posted byRe: Дописал у себя )
Posted byRe: Дописал у себя )
Posted byС какого языка на русский был сделан перевод представл
2010-09-26 17:34 (UTC)- с романо-германских языков (немецкий, дацкий, французский, фломандский ...) на английский гугл переводит хорошо
- со всех остальных на английский гугл переводит несколько хуже
- с любого на неанглийский гугл перевод плохо.
Я понимаю, что этого недостаточно для выводов, но может стоит винить размер базы переводов с конкретного языка на конкретный? Я полгаю, переводов на аглийский и с английского больше всегоо вииду популярности языка, поэтому переводы в даной последовательности лучше. Со случайного языка на случайный ( с русского на китайский) очень мало, поэтому и качество перевода малое.
(no subject)
2010-09-26 18:15 (UTC)(no subject)
2010-10-12 15:46 (UTC)Прочитал всё - но только изумился: о чём, собственно, тут вообще идёт речь??!
Но ведь очевидно же, что и человеку в его собственной практике - недоступен "перевод", который превосходил бы "машинный". Скажем, "синхронный перевод" обычно - значительно хуже качеством, если б не два изредка выручающих "но": владение переводчиками навыками имитации (меня самого им в своё время обучали: умению, "отстав от поезда", тем не менее "выкрутиться" дежурными обтекаемыми и пустыми внутри "формулами") - и, на другом полюсе, редкостный высочайший класс, когда синхронист успевает не делать перевода, а понять и пересказать всё.
Смею утверждать, что для нормальных живых языков - "перевод" (то есть преобразование текста по каким-то формальным или неформальным алгоритмам и правилам с одного языка на другой) - вообще невозможен (компьютер исполнит его, конечно, лучше человека, но адекватной цели достигнуть тоже не сможет).
Всё, что может считаться "адекватным решением" - это ни в коем случае не "перевод" (в указанном смысле), а - комбинация двух задач и процессов:
1) понять и осмыслить сказанное/написанное (на одном из языков)
и
2) сочинить-выразить-высказать заново "тот же смысл и отчасти форму" (на другом языке).
Конечно же, успех в этом деле компьютера - не может предшествовать тому, чтобы означенный ИИ прежде не научился свободно "понимать" и свободно "говорить": перезапрячь эту "телегу" в другом порядке попросту бессмысленная затея.
Как бы кому-либо ни мечталось "зайти через... гм... альтернативный проход"...