200 тысяч слов для снега
2011-09-18 18:12Говорят, в английском языке слов втрое больше, чем в русском: 300 тыс. против 100 тыс. То же говорят и о сравнении английского и романских языков. Как сосчитать?
Можно сравнивать словари — но какие с какими? Самый большой Оксфордский английский словарь содержит около 260 тыс. статей. Но и самый большой итальянский словарь Батальи такого же размера, в то время как говорят, что английских слов вдвое больше, чем и итальянских… Вполне вероятно, русская традиция того, что включается в словари, а что нет, отличается от английской. В 20 первых строках Клавдиана в пер. Р. Л. Шмаракова 8 слов, не входящих ни в один словарь на грамоте-ру, не считая «пламеннозарного». В то же время, слова, употребляемые только в поэзии, в OED есть. Несравнимость очевидна. Хорошо известно также, что английская словарная традиция намного терпимее к диалектизмам, чем русская. Но это только качественное рассуждение, которое, к тому же, гигантскую постулируемую разницу не объяснит.
Можно попытаться считать иначе. Положим, что мы говорим обо всем том же, что и англичане. Тогда можно сравнить полисемию слов в русском и английском: если в английском в средней статье толкового словаря 3 толкования, а в русском слов втрое меньше, ожидается, что в русском мы их встретим в среднем 9. Чушь, в общем, получается.
Тогда, может быть, объяснение такое: в английском очень много синонимов. Например, мы найдем синонимы motherhood и maternity — оба означающие «материнство», broterhood и fraternity — «братство», и так далее. Тем не менее, для объяснения якобы втрое большего числа слов это не годится. Синонимов не так уж много, и в среднем их не по 3 на слово. Даже если понимать под синонимами концепты, неразличимые для русскоязычных (как watch и clock — часы, только разные, или hand и arm для разных аспектов руки), все равно не сходится. Даже если мы предположим 5-кратную (безумно завышенную) синонимию для 20 тыс. наиболее употребительных концептов, мы объясним лишь половину утверждаемого различия.
Тогда, может быть, и правда в английском много слов, которых нет в русском? Есть слово sibling, объединяющее понятия брата и сестры, и grandparent, объединяющее деда и бабку. Но и здесь мы не найдем ответа. В английском зато нет однословных обозначений для понятий «сутки» и «крановщик», и много чего еще нет. Опять же, среди утверждаемых 260 тыс. слов скорее расхождения найдутся среди самых употребительных; редкие слова скорее окажутся однозначными и имеющими однозначные соответствия во многих языках.
Но, возможно, я ошибаюсь в этом, и именно маргинальные слова в английском образуют обширные синонимические группы, т. е., скажем, 240 тыс. английских слов (за вычетом 20 тыс. самых ходовых) соответствуют 80 тыс. русских? Не знаю; мне слабо в это верится, а проверить не так легко, как кажется на первый взгляд.
В общем, я не могу найти никакого разумного способа сравнить лексиконы двух языков. Притом утверждаемая разница огромна — втрое, или на 200 тысяч активных слов! Кто-нибудь считал, и как, если да? Лингвисты в целом словарями меряться не любят, но, может, кто-то приходил к приемлемой методологии?
Можно сравнивать словари — но какие с какими? Самый большой Оксфордский английский словарь содержит около 260 тыс. статей. Но и самый большой итальянский словарь Батальи такого же размера, в то время как говорят, что английских слов вдвое больше, чем и итальянских… Вполне вероятно, русская традиция того, что включается в словари, а что нет, отличается от английской. В 20 первых строках Клавдиана в пер. Р. Л. Шмаракова 8 слов, не входящих ни в один словарь на грамоте-ру, не считая «пламеннозарного». В то же время, слова, употребляемые только в поэзии, в OED есть. Несравнимость очевидна. Хорошо известно также, что английская словарная традиция намного терпимее к диалектизмам, чем русская. Но это только качественное рассуждение, которое, к тому же, гигантскую постулируемую разницу не объяснит.
Можно попытаться считать иначе. Положим, что мы говорим обо всем том же, что и англичане. Тогда можно сравнить полисемию слов в русском и английском: если в английском в средней статье толкового словаря 3 толкования, а в русском слов втрое меньше, ожидается, что в русском мы их встретим в среднем 9. Чушь, в общем, получается.
Тогда, может быть, объяснение такое: в английском очень много синонимов. Например, мы найдем синонимы motherhood и maternity — оба означающие «материнство», broterhood и fraternity — «братство», и так далее. Тем не менее, для объяснения якобы втрое большего числа слов это не годится. Синонимов не так уж много, и в среднем их не по 3 на слово. Даже если понимать под синонимами концепты, неразличимые для русскоязычных (как watch и clock — часы, только разные, или hand и arm для разных аспектов руки), все равно не сходится. Даже если мы предположим 5-кратную (безумно завышенную) синонимию для 20 тыс. наиболее употребительных концептов, мы объясним лишь половину утверждаемого различия.
Тогда, может быть, и правда в английском много слов, которых нет в русском? Есть слово sibling, объединяющее понятия брата и сестры, и grandparent, объединяющее деда и бабку. Но и здесь мы не найдем ответа. В английском зато нет однословных обозначений для понятий «сутки» и «крановщик», и много чего еще нет. Опять же, среди утверждаемых 260 тыс. слов скорее расхождения найдутся среди самых употребительных; редкие слова скорее окажутся однозначными и имеющими однозначные соответствия во многих языках.
Но, возможно, я ошибаюсь в этом, и именно маргинальные слова в английском образуют обширные синонимические группы, т. е., скажем, 240 тыс. английских слов (за вычетом 20 тыс. самых ходовых) соответствуют 80 тыс. русских? Не знаю; мне слабо в это верится, а проверить не так легко, как кажется на первый взгляд.
В общем, я не могу найти никакого разумного способа сравнить лексиконы двух языков. Притом утверждаемая разница огромна — втрое, или на 200 тысяч активных слов! Кто-нибудь считал, и как, если да? Лингвисты в целом словарями меряться не любят, но, может, кто-то приходил к приемлемой методологии?
Tags:
(no subject)
2011-09-19 02:01 (UTC)Гугльбуксовая база для русскоязычных изданий содержит около 4 млн словоформ, встретившихся с частотой >= 40. Но там есть имена собственные и всякий мусор из-за старой орфографии и ошибок распознавания. Несмотря на это, "нормальных" слов из этого хозяйства должно получиться сильно больше, чем 100000 (потому что для не самых частых слов будет встречена не вся парадигма, а малая ее часть). Думаю, можно ожидать где-то 500000 слов.
(no subject)
2011-09-19 02:49 (UTC)(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
2011-09-19 02:31 (UTC)(no subject)
2011-09-19 02:48 (UTC)http://languagelog.ldc.upenn.edu/nll/?p=972
http://languagelog.ldc.upenn.edu/nll/?p=1428
http://languagelog.ldc.upenn.edu/nll/?p=1497
(no subject)
2011-09-19 03:09 (UTC)(no subject)
2011-09-19 05:36 (UTC)(no subject)
2011-09-19 04:17 (UTC)(no subject)
2011-09-19 04:44 (UTC)Кельтских корней в английском очень мало, кстати.
(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
2011-09-19 12:47 (UTC)А какие языке она приводила в пример, как лёгкие для совершенствования?
(no subject)
Posted by(no subject)
Posted by(no subject)
Posted byв тему и не
2011-09-19 04:36 (UTC)http://bars-of-cage.livejournal.com/152470.html?thread=1567894#t1567894
http://community.livejournal.com/terra_linguarum/194161.html#comments
http://bars-of-cage.livejournal.com/152749.html
http://bars-of-cage.livejournal.com/153275.html
http://ivanov-petrov.livejournal.com/543048.html
http://ivanov-petrov.livejournal.com/475980.html
http://ivanov-petrov.livejournal.com/239385.html
http://ivanov-petrov.livejournal.com/1191623.html
http://ivanov-petrov.livejournal.com/945148.html
http://ivanov-petrov.livejournal.com/845819.html
Re: в тему и не
2011-09-19 05:33 (UTC)(no subject)
2011-09-19 04:50 (UTC)лексикон английского в Америке вполне разумно определяется требованиями SAT. в Китае есть свои тесты лексикона, например, требования для поступления в университет. если в России есть аналогичный тест, то их можно легко сравнить. и даже посмотреть распределение, кто сколько знает.
(no subject)
2011-09-19 05:38 (UTC)(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
2011-09-19 05:40 (UTC)(no subject)
2011-09-19 06:11 (UTC)(no subject)
Posted by(no subject)
Posted byнемного нарциссическое
2011-09-19 06:24 (UTC)Re: немного нарциссическое
2011-09-19 06:39 (UTC)А что у Вас не так с гуманизмом?
Re: немного нарциссическое
Posted byRe: немного нарциссическое
Posted byRe: немного нарциссическое
Posted byRe: немного нарциссическое
Posted by(no subject)
2011-09-19 07:03 (UTC)(no subject)
2011-09-19 07:31 (UTC)(no subject)
Posted by(no subject)
2011-09-19 09:38 (UTC)(no subject)
2011-09-19 09:38 (UTC)(no subject)
2011-09-19 11:10 (UTC)(no subject)
2011-09-19 12:09 (UTC)Можно попробовать построить модель распределения количества слов (типа закона Цыпфа и закона Хыпфа, только точнее), и оценить коэффициенты по части данных.
Ещё не очень понятно, ведь словарный запас Пушкина - не такой как словарь школьника. Можно ли интегрировать количество слов по всем носителям языка, и добавить туда ещё и суржик, и программисткий/моряцкий жаргон, и ..., где границы "языка" ?
(no subject)
2011-09-19 12:17 (UTC)Это правда не "количество слов", но ведь что такое "слово" и "количество слов" никто и не знает.
Зато это способ оценить энтропию после проекции смысла на символы.
(no subject)
2011-09-19 12:32 (UTC)(no subject)
2011-09-19 12:50 (UTC)(no subject)
2011-09-19 19:28 (UTC)А с остальным я согласен - анличане и американцы (см. Вебстера - его почему-то никто, кажется, не упомянул) вполне способны набить словарь названиями химических веществ (в том числе заведомо непроизносимыми), а унас такие образования словами русского языка не считаются. А кроме того, все латинские названия - грибов, водорослей и т. п. - в английском тексте весьма просто вводятся и, в случае отсутствия собственного слова, могут восприниматься как свои - а у нас их надо как минимум русифицировать, что требует кое-каких филологических познаний. И с диалектизмами верно. Уверен (и не только я), что при адекватном подсчёте в англ. языке слов окажется заметно меньше, чем в русском - за счёт "лилейнораменных", "пламеннозарных" и т. п. Вообще искусство писать по-английски, мне кажется - это искусство обходиться весьма аскетичным набором слов, а на русском - наоборот, умение совладать с потенциальным словесным морем, не выходя чересчур за заданные рамки.
(no subject)
2011-09-19 20:10 (UTC)если пропрорция не очень сильно зависит от книги, пер евода и тд., то получится
коэффициет, явно имеющий какое-то отношение к Вашему вопросу...да наверное
это и сделано давно уже, но я ссылок не знаю.
(no subject)
2011-09-20 17:13 (UTC)(no subject)
2011-09-21 09:21 (UTC)(no subject)
2011-10-06 15:04 (UTC)