200 тысяч слов для снега
2011-09-18 18:12Говорят, в английском языке слов втрое больше, чем в русском: 300 тыс. против 100 тыс. То же говорят и о сравнении английского и романских языков. Как сосчитать?
Можно сравнивать словари — но какие с какими? Самый большой Оксфордский английский словарь содержит около 260 тыс. статей. Но и самый большой итальянский словарь Батальи такого же размера, в то время как говорят, что английских слов вдвое больше, чем и итальянских… Вполне вероятно, русская традиция того, что включается в словари, а что нет, отличается от английской. В 20 первых строках Клавдиана в пер. Р. Л. Шмаракова 8 слов, не входящих ни в один словарь на грамоте-ру, не считая «пламеннозарного». В то же время, слова, употребляемые только в поэзии, в OED есть. Несравнимость очевидна. Хорошо известно также, что английская словарная традиция намного терпимее к диалектизмам, чем русская. Но это только качественное рассуждение, которое, к тому же, гигантскую постулируемую разницу не объяснит.
Можно попытаться считать иначе. Положим, что мы говорим обо всем том же, что и англичане. Тогда можно сравнить полисемию слов в русском и английском: если в английском в средней статье толкового словаря 3 толкования, а в русском слов втрое меньше, ожидается, что в русском мы их встретим в среднем 9. Чушь, в общем, получается.
Тогда, может быть, объяснение такое: в английском очень много синонимов. Например, мы найдем синонимы motherhood и maternity — оба означающие «материнство», broterhood и fraternity — «братство», и так далее. Тем не менее, для объяснения якобы втрое большего числа слов это не годится. Синонимов не так уж много, и в среднем их не по 3 на слово. Даже если понимать под синонимами концепты, неразличимые для русскоязычных (как watch и clock — часы, только разные, или hand и arm для разных аспектов руки), все равно не сходится. Даже если мы предположим 5-кратную (безумно завышенную) синонимию для 20 тыс. наиболее употребительных концептов, мы объясним лишь половину утверждаемого различия.
Тогда, может быть, и правда в английском много слов, которых нет в русском? Есть слово sibling, объединяющее понятия брата и сестры, и grandparent, объединяющее деда и бабку. Но и здесь мы не найдем ответа. В английском зато нет однословных обозначений для понятий «сутки» и «крановщик», и много чего еще нет. Опять же, среди утверждаемых 260 тыс. слов скорее расхождения найдутся среди самых употребительных; редкие слова скорее окажутся однозначными и имеющими однозначные соответствия во многих языках.
Но, возможно, я ошибаюсь в этом, и именно маргинальные слова в английском образуют обширные синонимические группы, т. е., скажем, 240 тыс. английских слов (за вычетом 20 тыс. самых ходовых) соответствуют 80 тыс. русских? Не знаю; мне слабо в это верится, а проверить не так легко, как кажется на первый взгляд.
В общем, я не могу найти никакого разумного способа сравнить лексиконы двух языков. Притом утверждаемая разница огромна — втрое, или на 200 тысяч активных слов! Кто-нибудь считал, и как, если да? Лингвисты в целом словарями меряться не любят, но, может, кто-то приходил к приемлемой методологии?
Можно сравнивать словари — но какие с какими? Самый большой Оксфордский английский словарь содержит около 260 тыс. статей. Но и самый большой итальянский словарь Батальи такого же размера, в то время как говорят, что английских слов вдвое больше, чем и итальянских… Вполне вероятно, русская традиция того, что включается в словари, а что нет, отличается от английской. В 20 первых строках Клавдиана в пер. Р. Л. Шмаракова 8 слов, не входящих ни в один словарь на грамоте-ру, не считая «пламеннозарного». В то же время, слова, употребляемые только в поэзии, в OED есть. Несравнимость очевидна. Хорошо известно также, что английская словарная традиция намного терпимее к диалектизмам, чем русская. Но это только качественное рассуждение, которое, к тому же, гигантскую постулируемую разницу не объяснит.
Можно попытаться считать иначе. Положим, что мы говорим обо всем том же, что и англичане. Тогда можно сравнить полисемию слов в русском и английском: если в английском в средней статье толкового словаря 3 толкования, а в русском слов втрое меньше, ожидается, что в русском мы их встретим в среднем 9. Чушь, в общем, получается.
Тогда, может быть, объяснение такое: в английском очень много синонимов. Например, мы найдем синонимы motherhood и maternity — оба означающие «материнство», broterhood и fraternity — «братство», и так далее. Тем не менее, для объяснения якобы втрое большего числа слов это не годится. Синонимов не так уж много, и в среднем их не по 3 на слово. Даже если понимать под синонимами концепты, неразличимые для русскоязычных (как watch и clock — часы, только разные, или hand и arm для разных аспектов руки), все равно не сходится. Даже если мы предположим 5-кратную (безумно завышенную) синонимию для 20 тыс. наиболее употребительных концептов, мы объясним лишь половину утверждаемого различия.
Тогда, может быть, и правда в английском много слов, которых нет в русском? Есть слово sibling, объединяющее понятия брата и сестры, и grandparent, объединяющее деда и бабку. Но и здесь мы не найдем ответа. В английском зато нет однословных обозначений для понятий «сутки» и «крановщик», и много чего еще нет. Опять же, среди утверждаемых 260 тыс. слов скорее расхождения найдутся среди самых употребительных; редкие слова скорее окажутся однозначными и имеющими однозначные соответствия во многих языках.
Но, возможно, я ошибаюсь в этом, и именно маргинальные слова в английском образуют обширные синонимические группы, т. е., скажем, 240 тыс. английских слов (за вычетом 20 тыс. самых ходовых) соответствуют 80 тыс. русских? Не знаю; мне слабо в это верится, а проверить не так легко, как кажется на первый взгляд.
В общем, я не могу найти никакого разумного способа сравнить лексиконы двух языков. Притом утверждаемая разница огромна — втрое, или на 200 тысяч активных слов! Кто-нибудь считал, и как, если да? Лингвисты в целом словарями меряться не любят, но, может, кто-то приходил к приемлемой методологии?
Tags:
(no subject)
2011-09-19 02:01 (UTC)Гугльбуксовая база для русскоязычных изданий содержит около 4 млн словоформ, встретившихся с частотой >= 40. Но там есть имена собственные и всякий мусор из-за старой орфографии и ошибок распознавания. Несмотря на это, "нормальных" слов из этого хозяйства должно получиться сильно больше, чем 100000 (потому что для не самых частых слов будет встречена не вся парадигма, а малая ее часть). Думаю, можно ожидать где-то 500000 слов.
(no subject)
2011-09-19 02:31 (UTC)(no subject)
2011-09-19 02:48 (UTC)http://languagelog.ldc.upenn.edu/nll/?p=972
http://languagelog.ldc.upenn.edu/nll/?p=1428
http://languagelog.ldc.upenn.edu/nll/?p=1497
(no subject)
2011-09-19 02:49 (UTC)(no subject)
2011-09-19 03:09 (UTC)(no subject)
2011-09-19 03:23 (UTC)База тут: http://ngrams.googlelabs.com/datasets
(no subject)
2011-09-19 04:15 (UTC)(no subject)
2011-09-19 04:17 (UTC)в тему и не
2011-09-19 04:36 (UTC)http://bars-of-cage.livejournal.com/152470.html?thread=1567894#t1567894
http://community.livejournal.com/terra_linguarum/194161.html#comments
http://bars-of-cage.livejournal.com/152749.html
http://bars-of-cage.livejournal.com/153275.html
http://ivanov-petrov.livejournal.com/543048.html
http://ivanov-petrov.livejournal.com/475980.html
http://ivanov-petrov.livejournal.com/239385.html
http://ivanov-petrov.livejournal.com/1191623.html
http://ivanov-petrov.livejournal.com/945148.html
http://ivanov-petrov.livejournal.com/845819.html
(no subject)
2011-09-19 04:44 (UTC)Кельтских корней в английском очень мало, кстати.
(no subject)
2011-09-19 04:50 (UTC)лексикон английского в Америке вполне разумно определяется требованиями SAT. в Китае есть свои тесты лексикона, например, требования для поступления в университет. если в России есть аналогичный тест, то их можно легко сравнить. и даже посмотреть распределение, кто сколько знает.
Re: в тему и не
2011-09-19 05:33 (UTC)(no subject)
2011-09-19 05:36 (UTC)(no subject)
2011-09-19 05:37 (UTC)Сперва из этой базы извлекаем голый список словоформ (от начала строки до первого пробела):
-- переводим в нижний регистр;
-- убираем те "слова", что содержат иные знаки, кроме букв (может быть, также дефиса и апострофа);
-- убираем повторы.
Пусть после этого осталось N "слов".
Теперь исследуем их статистически:
-- наугад выбираем M "слов";
-- вычеркиваем те, которые не являются орфографически правильными словоформами для нынешней орфографии (примечание: для русского везде заменять дефисное написание слитным, такая уж там база; для английского не смотрел);
-- также вычеркиваем те, которые окажутся именами собственными или иными словами, которые в словарях не принято учитывать;
-- для каждого оставшегося слова W проверяем, является ли оно первым зафиксированным в парадигме:
-- -- выписываем всю парадигму: W1,...,Wk;
-- -- вычеркиваем из нее W и все словоформы, находящиеся после W по алфавиту;
-- -- для каждой из оставшихся проверяем, содержится ли она в нашем большом списке (который длины N);
-- -- если хоть одна содержится, словоформу W выкидываем из рассмотрения.
Если после такого процесса у нас из M первоначально выбранных "слов" осталось K, то объем словаря оцениваем как NK/M.
Конечно, тут важно договориться, как строить парадигму: считаем ли мы отдельными словами возратные и отрицательные формы, причастия-деепричастия, наречия регулярного образования ("легко", "сжато", "по-городскому"...).
(no subject)
2011-09-19 05:38 (UTC)(no subject)
2011-09-19 05:40 (UTC)(no subject)
2011-09-19 05:41 (UTC)(no subject)
2011-09-19 05:44 (UTC)Это уже не годится. Во-первых, «принято» по-разному. Так лучше взять те самые два словаря обоих языков, которые (словари) в этой методике были бы приняты за образец «принятого», да и сравнить их. Ведь это самое «принято» здесь означает «входит в эталонный словарь», не более.
Нужно вместо «принято» такую процедуру, чтоб давала сравнимые счетчики слов — сравнимые в том смысле, чтобы их сравнение имело смысл; как бы килограммы с килограммами. Или, если хотите, процедура построения эталонного словаря, обладающего этим же свойством.
(no subject)
2011-09-19 05:44 (UTC)(no subject)
2011-09-19 05:48 (UTC)(no subject)
2011-09-19 05:52 (UTC)(no subject)
2011-09-19 06:11 (UTC)(no subject)
2011-09-19 06:15 (UTC)Словари сравнивать плохо тем, что в них может сильно по-разному отсекаться периферийная лексика (специальная, диалектная, архаизмы и т. д.) и слова регулярного образования (типа "сольфеджирование" или "предварительность"). А по гуглу тут все сведется только к частотности соответствующих слов.
немного нарциссическое
2011-09-19 06:24 (UTC)(no subject)
2011-09-19 06:32 (UTC)Если не секрет, что такое естественно сложившийся лексикон? В какой среде(ах) он сложился?