fregimus. 200 тысяч слов для снега

Говорят, в английском языке слов втрое больше, чем в русском: 300 тыс. против 100 тыс. То же говорят и о сравнении английского и романских языков. Как сосчитать?

Можно сравнивать словари — но какие с какими? Самый большой Оксфордский английский словарь содержит около 260 тыс. статей. Но и самый большой итальянский словарь Батальи такого же размера, в то время как говорят, что английских слов вдвое больше, чем и итальянских… Вполне вероятно, русская традиция того, что включается в словари, а что нет, отличается от английской. В 20 первых строках Клавдиана в пер. Р. Л. Шмаракова 8 слов, не входящих ни в один словарь на грамоте-ру, не считая «пламеннозарного». В то же время, слова, употребляемые только в поэзии, в OED есть. Несравнимость очевидна. Хорошо известно также, что английская словарная традиция намного терпимее к диалектизмам, чем русская. Но это только качественное рассуждение, которое, к тому же, гигантскую постулируемую разницу не объяснит.

Можно попытаться считать иначе. Положим, что мы говорим обо всем том же, что и англичане. Тогда можно сравнить полисемию слов в русском и английском: если в английском в средней статье толкового словаря 3 толкования, а в русском слов втрое меньше, ожидается, что в русском мы их встретим в среднем 9. Чушь, в общем, получается.

Тогда, может быть, объяснение такое: в английском очень много синонимов. Например, мы найдем синонимы motherhood и maternity — оба означающие «материнство», broterhood и fraternity — «братство», и так далее. Тем не менее, для объяснения якобы втрое большего числа слов это не годится. Синонимов не так уж много, и в среднем их не по 3 на слово. Даже если понимать под синонимами концепты, неразличимые для русскоязычных (как watch и clock — часы, только разные, или hand и arm для разных аспектов руки), все равно не сходится. Даже если мы предположим 5-кратную (безумно завышенную) синонимию для 20 тыс. наиболее употребительных концептов, мы объясним лишь половину утверждаемого различия.

Тогда, может быть, и правда в английском много слов, которых нет в русском? Есть слово sibling, объединяющее понятия брата и сестры, и grandparent, объединяющее деда и бабку. Но и здесь мы не найдем ответа. В английском зато нет однословных обозначений для понятий «сутки» и «крановщик», и много чего еще нет. Опять же, среди утверждаемых 260 тыс. слов скорее расхождения найдутся среди самых употребительных; редкие слова скорее окажутся однозначными и имеющими однозначные соответствия во многих языках.

Но, возможно, я ошибаюсь в этом, и именно маргинальные слова в английском образуют обширные синонимические группы, т. е., скажем, 240 тыс. английских слов (за вычетом 20 тыс. самых ходовых) соответствуют 80 тыс. русских? Не знаю; мне слабо в это верится, а проверить не так легко, как кажется на первый взгляд.

В общем, я не могу найти никакого разумного способа сравнить лексиконы двух языков. Притом утверждаемая разница огромна — втрое, или на 200 тысяч активных слов! Кто-нибудь считал, и как, если да? Лингвисты в целом словарями меряться не любят, но, может, кто-то приходил к приемлемой методологии?

Tags:

Page 1 of 3 << [1] [2] [3] >>

Threaded. Top-Level Comments Only

Posted by

kcmamu.livejournal.com

Словарь Зализняка из 100000 слов порождает около 2 млн словоформ.

Гугльбуксовая база для русскоязычных изданий содержит около 4 млн словоформ, встретившихся с частотой >= 40. Но там есть имена собственные и всякий мусор из-за старой орфографии и ошибок распознавания. Несмотря на это, "нормальных" слов из этого хозяйства должно получиться сильно больше, чем 100000 (потому что для не самых частых слов будет встречена не вся парадигма, а малая ее часть). Думаю, можно ожидать где-то 500000 слов.

Posted by

profpr.livejournal.com

Верхняя граница английского словаря еще выше. Вот у меня маленькое обсуждение, посвященное прохождению Английского через миллионное слово. http://profpr.livejournal.com/147019.html

Posted by

fregimus.livejournal.com

О «миллионном слове»:
http://languagelog.ldc.upenn.edu/nll/?p=972
http://languagelog.ldc.upenn.edu/nll/?p=1428
http://languagelog.ldc.upenn.edu/nll/?p=1497

Posted by

fregimus.livejournal.com

Ничего не понял. Прежде всего, что с чем сравнивать — и почему?

Posted by

greenjumpingcat.livejournal.com

когда-то уже натыкался на этот вопрос, если не ошибаюсь, объяснение сводилось к тому, что в наших и английских словарях разные традиции того, какие формы считать одним словом, а какие разными.

Posted by

kcmamu.livejournal.com

Я только про "сколько слов в русском языке".
База тут: http://ngrams.googlelabs.com/datasets

Posted by

fregimus.livejournal.com

А как слова-то считать с этим набором? Что будет считаться словом в каждом из языков, так, чтобы можно было лексиконы сравнивать?

Posted by

l-i-d-y-a.livejournal.com

Когда я ходила на курсы английского, преподаватель объясняла, что английский (в отличие от некотрых других языков) очень легко выучить до базового уровня и очень трудно потом совершенствовать - именно из-за огромного количества все новых и новых слов. Объясняла она это исторически: в английском одно и то же слово может описываться кельтским, латинским и французским словом. При этом латинские более длинные и используются в более официальной речи.

Posted by

ivanov-petrov.livejournal.com

http://ivanov-petrov.livejournal.com/325109.html
http://bars-of-cage.livejournal.com/152470.html?thread=1567894#t1567894
http://community.livejournal.com/terra_linguarum/194161.html#comments
http://bars-of-cage.livejournal.com/152749.html
http://bars-of-cage.livejournal.com/153275.html
http://ivanov-petrov.livejournal.com/543048.html
http://ivanov-petrov.livejournal.com/475980.html
http://ivanov-petrov.livejournal.com/239385.html
http://ivanov-petrov.livejournal.com/1191623.html
http://ivanov-petrov.livejournal.com/945148.html
http://ivanov-petrov.livejournal.com/845819.html

Posted by

fregimus.livejournal.com

Дело тут вот в чем — очень трудно это подтвердить или опровергнуть. Пожалуй, для случайного слова я не подберу трех синонимов — германского, кельтского и латинского — а ведь обещается втрое больше слов! Это к каждому, получается, по два синонима. Вот и ищу методику составления количественно сравнимых словарей.

Кельтских корней в английском очень мало, кстати.

Posted by

watertank.livejournal.com

я не могу найти никакого разумного способа сравнить лексиконы двух языков.

лексикон английского в Америке вполне разумно определяется требованиями SAT. в Китае есть свои тесты лексикона, например, требования для поступления в университет. если в России есть аналогичный тест, то их можно легко сравнить. и даже посмотреть распределение, кто сколько знает.

Posted by

fregimus.livejournal.com

Спасибо. Да, ответы лингвистов типичные — нельзя сравнивать, потому что непонятно как. И действительно ведь непонятно; нужна методика. Если кто-то уже проделал эту работу, хорошо б найти. Если нет — безнадега, слишком серьезно для исследования «по выходным».

Posted by

fregimus.livejournal.com

Да, известное отличие, причем таких качественных различий в традициях можно найти несколько. Но понимание их, к сожалению, ничего не дает для методики количественного сравнения.

Posted by

kcmamu.livejournal.com

Методику несложно придумать. Например, так.

Сперва из этой базы извлекаем голый список словоформ (от начала строки до первого пробела):
-- переводим в нижний регистр;
-- убираем те "слова", что содержат иные знаки, кроме букв (может быть, также дефиса и апострофа);
-- убираем повторы.

Пусть после этого осталось N "слов".

Теперь исследуем их статистически:
-- наугад выбираем M "слов";
-- вычеркиваем те, которые не являются орфографически правильными словоформами для нынешней орфографии (примечание: для русского везде заменять дефисное написание слитным, такая уж там база; для английского не смотрел);
-- также вычеркиваем те, которые окажутся именами собственными или иными словами, которые в словарях не принято учитывать;
-- для каждого оставшегося слова W проверяем, является ли оно первым зафиксированным в парадигме:
-- -- выписываем всю парадигму: W1,...,Wk;
-- -- вычеркиваем из нее W и все словоформы, находящиеся после W по алфавиту;
-- -- для каждой из оставшихся проверяем, содержится ли она в нашем большом списке (который длины N);
-- -- если хоть одна содержится, словоформу W выкидываем из рассмотрения.

Если после такого процесса у нас из M первоначально выбранных "слов" осталось K, то объем словаря оцениваем как NK/M.

Конечно, тут важно договориться, как строить парадигму: считаем ли мы отдельными словами возратные и отрицательные формы, причастия-деепричастия, наречия регулярного образования ("легко", "сжато", "по-городскому"...).

Posted by

fregimus.livejournal.com

Нет, совершенно не годится. Сравнивать же надо естественно сложившиеся лексиконы, они куда больше, чем минимальный словарный запас, требуемый императорскими экзаменами. Там несколько тысяч слов всего будет, ну, и примерно одинаково в любой культуре. Я ж говорю о сравнении этих самых якобы сотен тысяч слов.

Posted by

klausnick.livejournal.com

В английские толковые словари попадают даже узко специальные слова, такие как химические термины. В русских словарях им не место, а ведь речь идёт о сотнях тысяч слов.

Posted by

l-i-d-y-a.livejournal.com

Ну вот может быть сравнение процесса изучения языков - не со слов учительницы, конечно, а в рамках более широких психолингвистических исследований - дало бы какой-то ключ к пониманию. Хотя мне трудно сказать, как такое исследование будет организовано на практике.

Posted by

fregimus.livejournal.com

также вычеркиваем те, которые окажутся именами собственными или иными словами, которые в словарях не принято учитывать
Это уже не годится. Во-первых, «принято» по-разному. Так лучше взять те самые два словаря обоих языков, которые (словари) в этой методике были бы приняты за образец «принятого», да и сравнить их. Ведь это самое «принято» здесь означает «входит в эталонный словарь», не более.

Нужно вместо «принято» такую процедуру, чтоб давала сравнимые счетчики слов — сравнимые в том смысле, чтобы их сравнение имело смысл; как бы килограммы с килограммами. Или, если хотите, процедура построения эталонного словаря, обладающего этим же свойством.

Posted by

l-i-d-y-a.livejournal.com

Отсечение по частоте надо брать. Взять многмиллионный двуязычный корпус, лучше, конечно, параллельный. Построить частотные словари. Все, что ниже, скажем 3 употреблений на миллион - выбрасываем, остальное считаем.

Posted by

fregimus.livejournal.com

Детьми или взрослыми? У детей, мне кажется, словарный запас маловат. Да и у взрослых, в общем-то, тоже. Речь ведь идет о совокупном словарном запасе некоего правильно определенного множества носителей.

Posted by

fregimus.livejournal.com

Это очень теоретически все. Где ж взять тот корпус, чтобы в него входили сто тысяч разных слов? Хотя бы большинство из тех, что в OED. Да еще параллельный. Мне кажется, что такого корпуса, если только предаться безудержному оптимизму, то можно сказать, еще долго не будет. А скорее всего, не будет вовсе.

Posted by

fregimus.livejournal.com

Да, и это тоже. А все-таки, как сравнивать?

Posted by

kcmamu.livejournal.com

Так для реализующего такую процедуру, если он хочет сравнивать языки, сперва и надо определиться с выбором этого принятого -- чтобы одинаково было.

Словари сравнивать плохо тем, что в них может сильно по-разному отсекаться периферийная лексика (специальная, диалектная, архаизмы и т. д.) и слова регулярного образования (типа "сольфеджирование" или "предварительность"). А по гуглу тут все сведется только к частотности соответствующих слов.

Posted by

roman-shmarakov.livejournal.com

Какой у меня богатый лексикон, оказывается. Даже пламеннозарный там есть. А вот гуманизму - с гулькин хрен. Но ведь за всем же не уследишь, правильно?

Posted by

watertank.livejournal.com

Я не имел в виду императорский экзамен.

Если не секрет, что такое естественно сложившийся лексикон? В какой среде(ах) он сложился?

Page 1 of 3 << [1] [2] [3] >>

Threaded. Top-Level Comments Only

Profile

fregimus

March 2014

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Page Summary

Page generated 2026-01-14 07:37

Style Credit

Style: Night at Sea for Summertime by ninetydegrees
Resources: Texture by Design Shard and Icons by Romeo Barreto, John Caserta, Denis Chenu, Pedro Lalli, Marcus Michaels, P.J. Onori, Laurent Patain and Cor Tiemens from The Noun Project

Expand Cut Tags

No cut tags

A FREGIMO AMISSA

alterum fregi, alterum amisi!

200 тысяч слов для снега

200 тысяч слов для снега

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

в тему и не

(no subject)

(no subject)

Re: в тему и не

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

немного нарциссическое

(no subject)

Profile

March 2014

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags