fregimus: (Default)
[personal profile] fregimus
Говорят, в английском языке слов втрое больше, чем в русском: 300 тыс. против 100 тыс. То же говорят и о сравнении английского и романских языков. Как сосчитать?

Можно сравнивать словари — но какие с какими? Самый большой Оксфордский английский словарь содержит около 260 тыс. статей. Но и самый большой итальянский словарь Батальи такого же размера, в то время как говорят, что английских слов вдвое больше, чем и итальянских… Вполне вероятно, русская традиция того, что включается в словари, а что нет, отличается от английской. В 20 первых строках Клавдиана в пер. Р. Л. Шмаракова 8 слов, не входящих ни в один словарь на грамоте-ру, не считая «пламеннозарного». В то же время, слова, употребляемые только в поэзии, в OED есть. Несравнимость очевидна. Хорошо известно также, что английская словарная традиция намного терпимее к диалектизмам, чем русская. Но это только качественное рассуждение, которое, к тому же, гигантскую постулируемую разницу не объяснит.

Можно попытаться считать иначе. Положим, что мы говорим обо всем том же, что и англичане. Тогда можно сравнить полисемию слов в русском и английском: если в английском в средней статье толкового словаря 3 толкования, а в русском слов втрое меньше, ожидается, что в русском мы их встретим в среднем 9. Чушь, в общем, получается.

Тогда, может быть, объяснение такое: в английском очень много синонимов. Например, мы найдем синонимы motherhood и maternity — оба означающие «материнство», broterhood и fraternity — «братство», и так далее. Тем не менее, для объяснения якобы втрое большего числа слов это не годится. Синонимов не так уж много, и в среднем их не по 3 на слово. Даже если понимать под синонимами концепты, неразличимые для русскоязычных (как watch и clock — часы, только разные, или hand и arm для разных аспектов руки), все равно не сходится. Даже если мы предположим 5-кратную (безумно завышенную) синонимию для 20 тыс. наиболее употребительных концептов, мы объясним лишь половину утверждаемого различия.

Тогда, может быть, и правда в английском много слов, которых нет в русском? Есть слово sibling, объединяющее понятия брата и сестры, и grandparent, объединяющее деда и бабку. Но и здесь мы не найдем ответа. В английском зато нет однословных обозначений для понятий «сутки» и «крановщик», и много чего еще нет. Опять же, среди утверждаемых 260 тыс. слов скорее расхождения найдутся среди самых употребительных; редкие слова скорее окажутся однозначными и имеющими однозначные соответствия во многих языках.

Но, возможно, я ошибаюсь в этом, и именно маргинальные слова в английском образуют обширные синонимические группы, т. е., скажем, 240 тыс. английских слов (за вычетом 20 тыс. самых ходовых) соответствуют 80 тыс. русских? Не знаю; мне слабо в это верится, а проверить не так легко, как кажется на первый взгляд.

В общем, я не могу найти никакого разумного способа сравнить лексиконы двух языков. Притом утверждаемая разница огромна — втрое, или на 200 тысяч активных слов! Кто-нибудь считал, и как, если да? Лингвисты в целом словарями меряться не любят, но, может, кто-то приходил к приемлемой методологии?
Page 1 of 3 << [1] [2] [3] >>

(no subject)

2011-09-19 02:01 (UTC)
Posted by [identity profile] kcmamu.livejournal.com
Словарь Зализняка из 100000 слов порождает около 2 млн словоформ.

Гугльбуксовая база для русскоязычных изданий содержит около 4 млн словоформ, встретившихся с частотой >= 40. Но там есть имена собственные и всякий мусор из-за старой орфографии и ошибок распознавания. Несмотря на это, "нормальных" слов из этого хозяйства должно получиться сильно больше, чем 100000 (потому что для не самых частых слов будет встречена не вся парадигма, а малая ее часть). Думаю, можно ожидать где-то 500000 слов.

(no subject)

2011-09-19 02:31 (UTC)
Posted by [identity profile] profpr.livejournal.com
Верхняя граница английского словаря еще выше. Вот у меня маленькое обсуждение, посвященное прохождению Английского через миллионное слово. http://profpr.livejournal.com/147019.html

(no subject)

2011-09-19 02:49 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Ничего не понял. Прежде всего, что с чем сравнивать — и почему?

(no subject)

2011-09-19 03:09 (UTC)
Posted by [identity profile] greenjumpingcat.livejournal.com
когда-то уже натыкался на этот вопрос, если не ошибаюсь, объяснение сводилось к тому, что в наших и английских словарях разные традиции того, какие формы считать одним словом, а какие разными.

(no subject)

2011-09-19 03:23 (UTC)
Posted by [identity profile] kcmamu.livejournal.com
Я только про "сколько слов в русском языке".
База тут: http://ngrams.googlelabs.com/datasets

(no subject)

2011-09-19 04:15 (UTC)
Posted by [identity profile] fregimus.livejournal.com
А как слова-то считать с этим набором? Что будет считаться словом в каждом из языков, так, чтобы можно было лексиконы сравнивать?

(no subject)

2011-09-19 04:17 (UTC)
Posted by [identity profile] l-i-d-y-a.livejournal.com
Когда я ходила на курсы английского, преподаватель объясняла, что английский (в отличие от некотрых других языков) очень легко выучить до базового уровня и очень трудно потом совершенствовать - именно из-за огромного количества все новых и новых слов. Объясняла она это исторически: в английском одно и то же слово может описываться кельтским, латинским и французским словом. При этом латинские более длинные и используются в более официальной речи.

(no subject)

2011-09-19 04:44 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Дело тут вот в чем — очень трудно это подтвердить или опровергнуть. Пожалуй, для случайного слова я не подберу трех синонимов — германского, кельтского и латинского — а ведь обещается втрое больше слов! Это к каждому, получается, по два синонима. Вот и ищу методику составления количественно сравнимых словарей.

Кельтских корней в английском очень мало, кстати.

(no subject)

2011-09-19 04:50 (UTC)
Posted by [identity profile] watertank.livejournal.com
я не могу найти никакого разумного способа сравнить лексиконы двух языков.

лексикон английского в Америке вполне разумно определяется требованиями SAT. в Китае есть свои тесты лексикона, например, требования для поступления в университет. если в России есть аналогичный тест, то их можно легко сравнить. и даже посмотреть распределение, кто сколько знает.

Re: в тему и не

2011-09-19 05:33 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Спасибо. Да, ответы лингвистов типичные — нельзя сравнивать, потому что непонятно как. И действительно ведь непонятно; нужна методика. Если кто-то уже проделал эту работу, хорошо б найти. Если нет — безнадега, слишком серьезно для исследования «по выходным».

(no subject)

2011-09-19 05:36 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Да, известное отличие, причем таких качественных различий в традициях можно найти несколько. Но понимание их, к сожалению, ничего не дает для методики количественного сравнения.

(no subject)

2011-09-19 05:37 (UTC)
Posted by [identity profile] kcmamu.livejournal.com
Методику несложно придумать. Например, так.

Сперва из этой базы извлекаем голый список словоформ (от начала строки до первого пробела):
-- переводим в нижний регистр;
-- убираем те "слова", что содержат иные знаки, кроме букв (может быть, также дефиса и апострофа);
-- убираем повторы.

Пусть после этого осталось N "слов".

Теперь исследуем их статистически:
-- наугад выбираем M "слов";
-- вычеркиваем те, которые не являются орфографически правильными словоформами для нынешней орфографии (примечание: для русского везде заменять дефисное написание слитным, такая уж там база; для английского не смотрел);
-- также вычеркиваем те, которые окажутся именами собственными или иными словами, которые в словарях не принято учитывать;
-- для каждого оставшегося слова W проверяем, является ли оно первым зафиксированным в парадигме:
-- -- выписываем всю парадигму: W1,...,Wk;
-- -- вычеркиваем из нее W и все словоформы, находящиеся после W по алфавиту;
-- -- для каждой из оставшихся проверяем, содержится ли она в нашем большом списке (который длины N);
-- -- если хоть одна содержится, словоформу W выкидываем из рассмотрения.

Если после такого процесса у нас из M первоначально выбранных "слов" осталось K, то объем словаря оцениваем как NK/M.

Конечно, тут важно договориться, как строить парадигму: считаем ли мы отдельными словами возратные и отрицательные формы, причастия-деепричастия, наречия регулярного образования ("легко", "сжато", "по-городскому"...).

(no subject)

2011-09-19 05:38 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Нет, совершенно не годится. Сравнивать же надо естественно сложившиеся лексиконы, они куда больше, чем минимальный словарный запас, требуемый императорскими экзаменами. Там несколько тысяч слов всего будет, ну, и примерно одинаково в любой культуре. Я ж говорю о сравнении этих самых якобы сотен тысяч слов.

(no subject)

2011-09-19 05:40 (UTC)
Posted by [identity profile] klausnick.livejournal.com
В английские толковые словари попадают даже узко специальные слова, такие как химические термины. В русских словарях им не место, а ведь речь идёт о сотнях тысяч слов.

(no subject)

2011-09-19 05:41 (UTC)
Posted by [identity profile] l-i-d-y-a.livejournal.com
Ну вот может быть сравнение процесса изучения языков - не со слов учительницы, конечно, а в рамках более широких психолингвистических исследований - дало бы какой-то ключ к пониманию. Хотя мне трудно сказать, как такое исследование будет организовано на практике.

(no subject)

2011-09-19 05:44 (UTC)
Posted by [identity profile] fregimus.livejournal.com
также вычеркиваем те, которые окажутся именами собственными или иными словами, которые в словарях не принято учитывать
Это уже не годится. Во-первых, «принято» по-разному. Так лучше взять те самые два словаря обоих языков, которые (словари) в этой методике были бы приняты за образец «принятого», да и сравнить их. Ведь это самое «принято» здесь означает «входит в эталонный словарь», не более.

Нужно вместо «принято» такую процедуру, чтоб давала сравнимые счетчики слов — сравнимые в том смысле, чтобы их сравнение имело смысл; как бы килограммы с килограммами. Или, если хотите, процедура построения эталонного словаря, обладающего этим же свойством.

(no subject)

2011-09-19 05:44 (UTC)
Posted by [identity profile] l-i-d-y-a.livejournal.com
Отсечение по частоте надо брать. Взять многмиллионный двуязычный корпус, лучше, конечно, параллельный. Построить частотные словари. Все, что ниже, скажем 3 употреблений на миллион - выбрасываем, остальное считаем.

(no subject)

2011-09-19 05:48 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Детьми или взрослыми? У детей, мне кажется, словарный запас маловат. Да и у взрослых, в общем-то, тоже. Речь ведь идет о совокупном словарном запасе некоего правильно определенного множества носителей.

(no subject)

2011-09-19 05:52 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Это очень теоретически все. Где ж взять тот корпус, чтобы в него входили ­сто тысяч разных слов? Хотя бы большинство из тех, что в OED. Да еще параллельный. Мне кажется, что такого корпуса, если только предаться безудержному оптимизму, то можно сказать, еще долго не будет. А скорее всего, не будет вовсе.

(no subject)

2011-09-19 06:11 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Да, и это тоже. А все-таки, как сравнивать?

(no subject)

2011-09-19 06:15 (UTC)
Posted by [identity profile] kcmamu.livejournal.com
Так для реализующего такую процедуру, если он хочет сравнивать языки, сперва и надо определиться с выбором этого принятого -- чтобы одинаково было.

Словари сравнивать плохо тем, что в них может сильно по-разному отсекаться периферийная лексика (специальная, диалектная, архаизмы и т. д.) и слова регулярного образования (типа "сольфеджирование" или "предварительность"). А по гуглу тут все сведется только к частотности соответствующих слов.
Posted by [identity profile] roman-shmarakov.livejournal.com
Какой у меня богатый лексикон, оказывается. Даже пламеннозарный там есть. А вот гуманизму - с гулькин хрен. Но ведь за всем же не уследишь, правильно?

(no subject)

2011-09-19 06:32 (UTC)
Posted by [identity profile] watertank.livejournal.com
Я не имел в виду императорский экзамен.

Если не секрет, что такое естественно сложившийся лексикон? В какой среде(ах) он сложился?
Page 1 of 3 << [1] [2] [3] >>

Profile

fregimus: (Default)
fregimus

March 2014

S M T W T F S
       1
2 3456 78
910 1112 131415
16171819202122
23242526272829
3031     

Most Popular Tags

Page generated 2026-01-14 07:37

Expand Cut Tags

No cut tags