fregimus: (Default)
[personal profile] fregimus
Говорят, в английском языке слов втрое больше, чем в русском: 300 тыс. против 100 тыс. То же говорят и о сравнении английского и романских языков. Как сосчитать?

Можно сравнивать словари — но какие с какими? Самый большой Оксфордский английский словарь содержит около 260 тыс. статей. Но и самый большой итальянский словарь Батальи такого же размера, в то время как говорят, что английских слов вдвое больше, чем и итальянских… Вполне вероятно, русская традиция того, что включается в словари, а что нет, отличается от английской. В 20 первых строках Клавдиана в пер. Р. Л. Шмаракова 8 слов, не входящих ни в один словарь на грамоте-ру, не считая «пламеннозарного». В то же время, слова, употребляемые только в поэзии, в OED есть. Несравнимость очевидна. Хорошо известно также, что английская словарная традиция намного терпимее к диалектизмам, чем русская. Но это только качественное рассуждение, которое, к тому же, гигантскую постулируемую разницу не объяснит.

Можно попытаться считать иначе. Положим, что мы говорим обо всем том же, что и англичане. Тогда можно сравнить полисемию слов в русском и английском: если в английском в средней статье толкового словаря 3 толкования, а в русском слов втрое меньше, ожидается, что в русском мы их встретим в среднем 9. Чушь, в общем, получается.

Тогда, может быть, объяснение такое: в английском очень много синонимов. Например, мы найдем синонимы motherhood и maternity — оба означающие «материнство», broterhood и fraternity — «братство», и так далее. Тем не менее, для объяснения якобы втрое большего числа слов это не годится. Синонимов не так уж много, и в среднем их не по 3 на слово. Даже если понимать под синонимами концепты, неразличимые для русскоязычных (как watch и clock — часы, только разные, или hand и arm для разных аспектов руки), все равно не сходится. Даже если мы предположим 5-кратную (безумно завышенную) синонимию для 20 тыс. наиболее употребительных концептов, мы объясним лишь половину утверждаемого различия.

Тогда, может быть, и правда в английском много слов, которых нет в русском? Есть слово sibling, объединяющее понятия брата и сестры, и grandparent, объединяющее деда и бабку. Но и здесь мы не найдем ответа. В английском зато нет однословных обозначений для понятий «сутки» и «крановщик», и много чего еще нет. Опять же, среди утверждаемых 260 тыс. слов скорее расхождения найдутся среди самых употребительных; редкие слова скорее окажутся однозначными и имеющими однозначные соответствия во многих языках.

Но, возможно, я ошибаюсь в этом, и именно маргинальные слова в английском образуют обширные синонимические группы, т. е., скажем, 240 тыс. английских слов (за вычетом 20 тыс. самых ходовых) соответствуют 80 тыс. русских? Не знаю; мне слабо в это верится, а проверить не так легко, как кажется на первый взгляд.

В общем, я не могу найти никакого разумного способа сравнить лексиконы двух языков. Притом утверждаемая разница огромна — втрое, или на 200 тысяч активных слов! Кто-нибудь считал, и как, если да? Лингвисты в целом словарями меряться не любят, но, может, кто-то приходил к приемлемой методологии?

(no subject)

2011-09-19 02:01 (UTC)
Posted by [identity profile] kcmamu.livejournal.com
Словарь Зализняка из 100000 слов порождает около 2 млн словоформ.

Гугльбуксовая база для русскоязычных изданий содержит около 4 млн словоформ, встретившихся с частотой >= 40. Но там есть имена собственные и всякий мусор из-за старой орфографии и ошибок распознавания. Несмотря на это, "нормальных" слов из этого хозяйства должно получиться сильно больше, чем 100000 (потому что для не самых частых слов будет встречена не вся парадигма, а малая ее часть). Думаю, можно ожидать где-то 500000 слов.

(no subject)

2011-09-19 02:49 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Ничего не понял. Прежде всего, что с чем сравнивать — и почему?

(no subject)

Posted by [identity profile] kcmamu.livejournal.com - 2011-09-19 03:23 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2011-09-19 04:15 (UTC) - Expand

(no subject)

Posted by [identity profile] kcmamu.livejournal.com - 2011-09-19 05:37 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2011-09-19 05:44 (UTC) - Expand

(no subject)

Posted by [identity profile] kcmamu.livejournal.com - 2011-09-19 06:15 (UTC) - Expand

(no subject)

2011-09-19 02:31 (UTC)
Posted by [identity profile] profpr.livejournal.com
Верхняя граница английского словаря еще выше. Вот у меня маленькое обсуждение, посвященное прохождению Английского через миллионное слово. http://profpr.livejournal.com/147019.html

(no subject)

2011-09-19 03:09 (UTC)
Posted by [identity profile] greenjumpingcat.livejournal.com
когда-то уже натыкался на этот вопрос, если не ошибаюсь, объяснение сводилось к тому, что в наших и английских словарях разные традиции того, какие формы считать одним словом, а какие разными.

(no subject)

2011-09-19 05:36 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Да, известное отличие, причем таких качественных различий в традициях можно найти несколько. Но понимание их, к сожалению, ничего не дает для методики количественного сравнения.

(no subject)

2011-09-19 04:17 (UTC)
Posted by [identity profile] l-i-d-y-a.livejournal.com
Когда я ходила на курсы английского, преподаватель объясняла, что английский (в отличие от некотрых других языков) очень легко выучить до базового уровня и очень трудно потом совершенствовать - именно из-за огромного количества все новых и новых слов. Объясняла она это исторически: в английском одно и то же слово может описываться кельтским, латинским и французским словом. При этом латинские более длинные и используются в более официальной речи.

(no subject)

2011-09-19 04:44 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Дело тут вот в чем — очень трудно это подтвердить или опровергнуть. Пожалуй, для случайного слова я не подберу трех синонимов — германского, кельтского и латинского — а ведь обещается втрое больше слов! Это к каждому, получается, по два синонима. Вот и ищу методику составления количественно сравнимых словарей.

Кельтских корней в английском очень мало, кстати.

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2011-09-19 05:41 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2011-09-19 05:48 (UTC) - Expand

(no subject)

Posted by [identity profile] alexandre-putt.livejournal.com - 2011-09-19 09:44 (UTC) - Expand

(no subject)

2011-09-19 12:47 (UTC)
Posted by [identity profile] cmike.livejournal.com
Странное она говорила. Несколько сот старых слова (да, да, вспоминается "Айвенго" с диалогом про pork и swine) на начальном, последующем и следующим за ним ;) этапах, а потом становятся словами, "которые ну тоже нужно знать". И на этом уровне словарный запас перестаёт представлять проблему. Английский как раз на начальном этапе сложен из-за большей идиоматичности, нерегулярной орфографии и произношения, которое не самое простое.

А какие языке она приводила в пример, как лёгкие для совершенствования?

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2011-09-19 13:27 (UTC) - Expand

(no subject)

Posted by [identity profile] cmike.livejournal.com - 2011-09-19 13:43 (UTC) - Expand

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2011-09-19 18:01 (UTC) - Expand

Re: в тему и не

2011-09-19 05:33 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Спасибо. Да, ответы лингвистов типичные — нельзя сравнивать, потому что непонятно как. И действительно ведь непонятно; нужна методика. Если кто-то уже проделал эту работу, хорошо б найти. Если нет — безнадега, слишком серьезно для исследования «по выходным».

(no subject)

2011-09-19 04:50 (UTC)
Posted by [identity profile] watertank.livejournal.com
я не могу найти никакого разумного способа сравнить лексиконы двух языков.

лексикон английского в Америке вполне разумно определяется требованиями SAT. в Китае есть свои тесты лексикона, например, требования для поступления в университет. если в России есть аналогичный тест, то их можно легко сравнить. и даже посмотреть распределение, кто сколько знает.

(no subject)

2011-09-19 05:38 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Нет, совершенно не годится. Сравнивать же надо естественно сложившиеся лексиконы, они куда больше, чем минимальный словарный запас, требуемый императорскими экзаменами. Там несколько тысяч слов всего будет, ну, и примерно одинаково в любой культуре. Я ж говорю о сравнении этих самых якобы сотен тысяч слов.

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2011-09-19 05:44 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2011-09-19 05:52 (UTC) - Expand

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2011-09-19 06:54 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2011-09-19 17:52 (UTC) - Expand

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2011-09-19 17:59 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2011-09-19 18:22 (UTC) - Expand

(no subject)

Posted by [identity profile] kcmamu.livejournal.com - 2011-09-19 07:12 (UTC) - Expand

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2011-09-19 10:06 (UTC) - Expand

(no subject)

Posted by [identity profile] kcmamu.livejournal.com - 2011-09-19 10:19 (UTC) - Expand

(no subject)

Posted by [identity profile] l-i-d-y-a.livejournal.com - 2011-09-19 13:31 (UTC) - Expand

(no subject)

Posted by [identity profile] watertank.livejournal.com - 2011-09-19 06:32 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2011-09-19 06:40 (UTC) - Expand

(no subject)

Posted by [identity profile] watertank.livejournal.com - 2011-09-19 06:51 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2011-09-19 06:54 (UTC) - Expand

(no subject)

Posted by [identity profile] watertank.livejournal.com - 2011-09-19 19:21 (UTC) - Expand

(no subject)

2011-09-19 05:40 (UTC)
Posted by [identity profile] klausnick.livejournal.com
В английские толковые словари попадают даже узко специальные слова, такие как химические термины. В русских словарях им не место, а ведь речь идёт о сотнях тысяч слов.

(no subject)

2011-09-19 06:11 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Да, и это тоже. А все-таки, как сравнивать?

(no subject)

Posted by [identity profile] klausnick.livejournal.com - 2011-09-19 07:26 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2011-09-19 07:28 (UTC) - Expand
Posted by [identity profile] roman-shmarakov.livejournal.com
Какой у меня богатый лексикон, оказывается. Даже пламеннозарный там есть. А вот гуманизму - с гулькин хрен. Но ведь за всем же не уследишь, правильно?
Posted by [identity profile] fregimus.livejournal.com
Если лексикон схлестнется с гуманизьмом, кто кого сборет?

А что у Вас не так с гуманизмом?

(no subject)

2011-09-19 07:03 (UTC)
Posted by [identity profile] bangor-flying.livejournal.com
Причина в огромном числе заимствований -в максимально широком словарном составе английского языка наверняка окажутся и практически все латинские слова, и все французские (не забывая о том, что французский был там государственным несколько столетий), и греческий, испанский, итальянский, а также слова всех стран, где были английские/американские колонии, слова из языков эмигрантов США, карибские, австралийские и т.д. И все это могло когда-то кем-то употребляться

(no subject)

2011-09-19 07:31 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Когда-то кем-то — да, но в OED, говорят, не 200 ли тысяч слов без пометы «устар.».

(no subject)

Posted by [identity profile] bangor-flying.livejournal.com - 2011-09-19 07:48 (UTC) - Expand

(no subject)

2011-09-19 09:38 (UTC)
Posted by [identity profile] alexandre-putt.livejournal.com
В английском свободное словообразование, т.е. новые слова свободно придумываются на ходу. Но вообще говоря сравнивать словари бессмысленнно, так как в разных языках отличается словообразование. И что считать словом? Можно конечно только на корни смотреть, но это тоже неправильно.

(no subject)

2011-09-19 09:38 (UTC)
Posted by [identity profile] serendipitous-t.livejournal.com
для исследования "на выходные" можно сослаться на Ципфа (http://en.wikipedia.org/wiki/Zipf's_law), и то, что на окраинах большинства языков есть миллионы слов. На каждый underload в английском есть свой недозаправленный (реальные слова на границе списка в 200 тыс слов). Можно лекго оценить покрытие, например, первые 200 тыс слов в английском покрывают 95.87% английского интернета (включая и всех русских и китайских, пишуших на английском), для русского 95.32%. Разница коппечная. Для немецкого чуть поинтереснее: 92.45%, это за счет компаундов.

(no subject)

2011-09-19 11:10 (UTC)
Posted by [identity profile] adlov.livejournal.com
Слово - это не научная "единица измерения", а условность, помогающая описывать некоторую часть языков мира. Поэтому один из ответов на поставленный Вами вопрос - "задача некорректно сформулирована"

(no subject)

2011-09-19 12:09 (UTC)
Posted by [identity profile] http://users.livejournal.com/_winnie/
Можно попробовать смотреть на какие-нибудь гистограммы количества слов в книжках (гистограмму отношения количества уникальных к общему количеству). Только учесть русские падежи.

Можно попробовать построить модель распределения количества слов (типа закона Цыпфа и закона Хыпфа, только точнее), и оценить коэффициенты по части данных.

Ещё не очень понятно, ведь словарный запас Пушкина - не такой как словарь школьника. Можно ли интегрировать количество слов по всем носителям языка, и добавить туда ещё и суржик, и программисткий/моряцкий жаргон, и ..., где границы "языка" ?
Edited 2011-09-19 12:14 (UTC)

(no subject)

2011-09-19 12:17 (UTC)
Posted by [identity profile] http://users.livejournal.com/_winnie/
Ещё можно попробовать сжимать в zip-архив переводы книжек, считать энтропию необходимую для передачи сюжета. Если в одной книжке есть и motherhood+maternity, и голубой+синий, то энтропия увеличивается.

Это правда не "количество слов", но ведь что такое "слово" и "количество слов" никто и не знает.

Зато это способ оценить энтропию после проекции смысла на символы.
Edited 2011-09-19 12:20 (UTC)

(no subject)

2011-09-19 12:32 (UTC)
Posted by [identity profile] cmike.livejournal.com
А ещё разница между entries и словарными статьями. Что из этих двух понятий считать словом?

(no subject)

2011-09-19 12:50 (UTC)
Posted by [identity profile] cmike.livejournal.com
А вот, кстати, идея: построить графики для двух языков: по оси абсцисс — число слов, а по оси ордина — процент незнакомых слов, средний по какому-нибудь корпусу текстов. И потом сравнить графики.

(no subject)

2011-09-19 19:28 (UTC)
Posted by [identity profile] scatebranus.livejournal.com
В интересной дискуссии, кажется, никто не обратил внимание на то, что методика подсчёта слов в словаре может быть совершенно различной. В Советском Союзе при указании на объём давали сведения о числе т. н. "чёрных слов" (или лемм, англ. entries). В большинстве западных словарей уже в благословенные 80-е годы начали практиковать шарлатанскую манеру указывать общее число слов, встретившихся в словаре (на любых языках). Объём, естественно, "возрастает" в разы. Поэтому для сопоставимости хорошо сначала выяснить, что имеется в словаре под "словами".
А с остальным я согласен - анличане и американцы (см. Вебстера - его почему-то никто, кажется, не упомянул) вполне способны набить словарь названиями химических веществ (в том числе заведомо непроизносимыми), а унас такие образования словами русского языка не считаются. А кроме того, все латинские названия - грибов, водорослей и т. п. - в английском тексте весьма просто вводятся и, в случае отсутствия собственного слова, могут восприниматься как свои - а у нас их надо как минимум русифицировать, что требует кое-каких филологических познаний. И с диалектизмами верно. Уверен (и не только я), что при адекватном подсчёте в англ. языке слов окажется заметно меньше, чем в русском - за счёт "лилейнораменных", "пламеннозарных" и т. п. Вообще искусство писать по-английски, мне кажется - это искусство обходиться весьма аскетичным набором слов, а на русском - наоборот, умение совладать с потенциальным словесным морем, не выходя чересчур за заданные рамки.

(no subject)

2011-09-19 20:10 (UTC)
Posted by [identity profile] bbixob.livejournal.com
можно посмотреть на количество различных слов в книге и её (хорошем) переводе.
если пропрорция не очень сильно зависит от книги, пер евода и тд., то получится
коэффициет, явно имеющий какое-то отношение к Вашему вопросу...да наверное
это и сделано давно уже, но я ссылок не знаю.

(no subject)

2011-09-20 17:13 (UTC)
Posted by [identity profile] empusa23.livejournal.com
Могу предложить дурацкую и трудоемкую методику, которая даст относительные, а не абсолютные результаты. Выделить в словаре все слова лексической группы "Тело человека и его действия" и сравнить. У кого дробность и подробность больше, тот и победил.

(no subject)

2011-09-21 09:21 (UTC)
Posted by [identity profile] klausnick.livejournal.com
А победителя не судят.

(no subject)

2011-10-06 15:04 (UTC)
Posted by [identity profile] infowatch.livejournal.com
Попробуйте метод Монте-Карло. Возьмите случайную выборку N слов из OED. Постарайтесь каждое из них перевести одним русским словом. Подсчитайте удачные попытки, вычтите количество повторов. Это будет оценка, во сколько раз русский беднее английского (разумеется, в предположении, что он таки беднее).

Profile

fregimus: (Default)
fregimus

March 2014

S M T W T F S
       1
2 3456 78
910 1112 131415
16171819202122
23242526272829
3031     

Most Popular Tags

Page generated 2026-01-07 20:54

Expand Cut Tags

No cut tags