fregimus: (Default)
[personal profile] fregimus
Возьмем словарь синонимов и антонимов. Для каждого слова (или значения слова) даются синонимические значения и противоположные. Какую интересную информацию о языке можно выделить, механически получить, переработав этот словарь? В статье [1] описывается удивительно простой и изящный подход, приведший к получению весьма нетривиального результата.

Возьмем все слова из словаря, расположим их в вершинах графа, и проведем ребра в соответствии с отношениями синонимии/антонимии. Затем доработаем граф так, чтобы все отношения были симметричными (если глокий синоним кузявого, то и кузявый синоним глокого). На этом этапе будут устранены некоторые ошибки словаря: если пара слов записана и синонимами, и антонимами, то такое ребро графа стирается. Иными словами, если глокий записан в словаре синонимом кузявого, а кузявый числится антонимом глокого, то сочтем это ошибкой и уберем обе ссылки этих слов друг на друга.

Вполне вероятно, что граф наш распадется на несколько компонент связности: каждая компонента — подмножество графа, по ребрам которого можно дойти из одной вершины в другую. Самую большую из этих компонент авторы называют ядром, и, для всех исследованных словарей, следующая за ней по размеру компонента довольно мала. Размер ядра для английских словарей составил 15—20 тыс. слов. От любого слова до любого можно добраться по связям: пустой — антоним полного, полный — синоним толстого, худой — антоним толстого, добрый — антоним худого, и так далее.

Затем авторы разворачивают полученный граф в многомерном пространстве (скажем, 25-мерном), так что каждая вершина получает свое положение в пространстве, радиус-вектор xi. Затем определяется функционал энергии системы этих точек в пространстве, следующим образом:

,

где значение Wi,j=Wj,i равно 1, если слова i и j суть синонимы, −1, если антонимы, и 0 в противном случае. Иными словами, W есть матрица связности нашего графа, где веса ребер равны 1 для синонимов и −1 для антонимов.

Первый член суммы определяет стремление синонимов кучковаться по одну сторону начала координат, так что их радиус-векторы сонаправленны (в этом случае скалярное произведение максимально, и данная пара синонимов, при коэффициенте W=1, вносит наибольший отрицательный вклад в суммарную энергию (а ищется минимум этой энергии). Точно так же, радиус-векторы антонимов стремятся выстроиться в линию, но противопоставленно, благодаря смене знака W=−1. Второй член — простая регуляризация, она тянет центр всей системы частиц к началу координат, и не дает ей разбегаться. Чем выше степень при норме вектора, тем круче возрастает энергия за пределами гиперсферы единичного радиуса.

В результате численного решения уравнения, мы найдем все координаты (25-мерный вектор) для каждого из, скажем, 20 тыс. слов. Поскольку формула сферически симметрична, то это решение может выстроиться в пространстве в любой ориентации, и, к тому же, зеркально отраженным по любой из координат. Чтобы разобраться в том, что у нас вышло, следует упростить решение, выбросив из него незначащую информацию. Математически это делается методом главных компонент (МГК, англ. PCA). Этот метод позволяет существенно сократить размерность данных, если данные «спюснуты» вдоль одной или нескольких осей. Например, если наши точки выстроятся вдоль диагонали трехмерного куба, то на самом деле это не трехмерные данные, а одномерные: проведем новую ось X вдоль диагонали, а оси Y и Z нам и не потребуются, потому что новые эти координаты все равно окажутся нулевыми. На практике, значения координат по «лишним» осям ненулевые, но и невелики; обычно это экспериментальный шум, которым можно пренебречь. МГК дает ответ также, какую точность мы потеряем, уменьшив число координат до некоего взятого. Например, если оказывается, что в 20-мерном наборе данных самая главная новая координата опишет 55% информации, две первых опишут 70%, три — 99,5%, а четыре и более все больше приближают нас к исходным 100%, то мы можем смело отбросить последние 17 координат и разглядеть в данных трехмерный набор — выбросив тем самым только 0,5% информации (которая может быть полезной, а может и просто шумом).

Так вот, после того, как авторы обработали полученное решение с помощью МГК, выяснилось, что данные можно сжать до трехмерных с точностью 95%, или четырехмерных с точностью 99%. Иными словами, сопоставив каждому слову в решении только 4 независимых числа, можно сохранить практически все свойства этого решения (максимальное сближение синонимов и расхождение антонимов).

До сих пор мы рассматривали только математический трюк, позволивший нам сопоставить 4 числа (тяготеющих к диапазону [-1, 1] благодаря регуляризации) с каждым словом. Но неожиданно оказывается, что у каждой из этих 4 осей имеется явный смысл, причем (для первых 3) один и тот же в разных языках! Первая, самая главная ось, раскладывает слова по шкале «хороший-плохой» по их эмоциональным коннотациям. Вторая ось — шкала «возбуждения», от «успокаивающего» до «возбуждающего», а третья — шкала «свободы», от «закрытого» до «открытого». Первые три оси несут 95% информации из решения. Четвертая ось имеет переменный смысл, в зависимости от языка и словаря. В целом, интервал значений по каждой оси уменьшается с ее номером, то есть слова собираются в более тесные группы ближе к 0. Выходит, что наибольшее количество информации, заключенное в слове, соответствует тому, насколько «хорошее/плохое» обозначается этим словом.

По построению, оси перпендикулярны и независимы: «успокаивающее» слово может быть и «хорошим», и «плохим», а «плохое» — и «успокаивающим», и «возбуждающим». Например, первые две координаты «успокаивающих» слов soothing, умиротворяющий равны (0,69; −1,19), а boring, скучный — (−1,31; −0,94): слово умиротворяющий, таким образом, весьма положительного значения, «хорошее», а скучный — отрицательного, «плохого». Авторы численно сопоставили эти значения с корпусом аффективных норм, где слова оценены респондентами по разным шкалам, и получили замечательную корреляцию со своими механически вычисленными осями.

Не следует думать, будто бы перед нами способ квантифицировать, описать числами любое слово. Мы можем сопоставить числа слову, но перейти от чисел к слову нельзя, информация теряется: вблизи одного слова оказывается другое, совершенно не близкое ему по значению (например, рядом со злым могут оказаться квадратный и фиолетовый). Семантизированные корпуса пока что вычисляются только для узких смысловых областей, и включают в себя векторы очень высоких (десятки-сотни координат) размерностей.

Как и любое интересное открытие, большое и малое, данная находка ставит больше вопросов, чем дает ответов. Интересно поразмыслить, что же именно здесь обнаружено, какого рода это явление?

Одна крайняя точка зрения базируется на произвольности знака. Поскольку отношения синонимии все-таки определяются между значениями, а не знаками, то обнаруженное явление лишь артефакт метода. Эта точка зрения неверна, потому что многие значения одного слова связаны не произвольно. Например, слово худой будет иметь антонимами два разных слова, толстый и добрый, в двух разных значениях. Но значения эти собраны в одном слове не произвольным образом — не следует произвольность знака возводить в абсолют в любой ситуации. Безусловно, значения худой в смысле плохой и тонкий (фигурой) связаны, и этимологически, и семантически.

Другой крайностью было бы утверждать, что обнаружено некое языковое явление. Нужно сказать, что возразить против нее нечего, но нечем ее и подтвердить. Слишком уж много стоит на пути от языка до словаря синонимов. Словарь составляется человеком, который следует определенной, разработанной им же или другими людьми методологии, на основе неким методологическим же образом отобранного корпуса текстов, и так далее. Что в интересной обнаруженной закономерности от языка, а что от мышления человека, составляющего словарь? На эти вопросы ответа нет. Если бы у нас был способ автоматического, вычислительного составления словаря синонимов, это дало бы хороший способ разделить факторы, влияющие на конечную модель. Но такие способы пока еще неизвестны.

Узкопрактически метод можно применять для верификации словарей синонимов и нескольких других вещей (в статье они описаны), но в теоретической части, можно сказать, обнаружено что-то очень интересное, но непонятное. В понимании языка мы продвинулись, конечно, несколько дальше греческих грамматиков, но, увы, отнюдь не так далеко, как хотелось бы.

_________________________________
1. Samsonovic AV, Ascoli GA (2010) Principal Semantic Components of Language and the Measurement of Meaning. PLoS ONE 5(6): e10921. doi:10.1371/journal.pone.0010921
Page 1 of 2 << [1] [2] >>

(no subject)

2012-11-05 06:15 (UTC)
Posted by [identity profile] komar28.livejournal.com
Подход интересный. Если бы я только ещё умела заниматься математикой)).
Больше не умею. И вообще числа для меня вполне
nebulous and unclear entities. ))

Вот мне интересно: есть факторы, которые не так постоянно: например коннотации и факт, что чистых синонимов нет в языке.

Хм, вообще никогда не думала о том, верные антонимы ли есть в языке. Но это не точно по теме.

(no subject)

2012-11-05 06:27 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Нет, почему же, очень в тему. Чистых синонимов, конечно, практически нет — они избыточны и исчезают, обычно значение одного из синонимов изменяется. Но этот метод показал себя очень устойчивым. Например, угол между векторами синонимов должен быть в идеале 0°. Авторы обнаружили слова, торчащие под почти прямым углом, которые числились синонимами, но по смыслу явно не подходили (посмотрите, статья очень интересная). То есть, система выстроилась несмотря на ошибки, а ошибки эти стали заметны.

Просто интересно

2012-11-05 06:20 (UTC)
Posted by [identity profile] livejournal.livejournal.com
User [livejournal.com profile] alex_bykov referenced to your post from Просто интересно (http://alex-bykov.livejournal.com/633300.html) saying: [...] Оригинал взят у в Семантические координаты [...]

(no subject)

2012-11-05 06:26 (UTC)
Posted by [identity profile] alexeim.livejournal.com
А значения четвертой оси для разных языков они приводят? Может быть, четвертая ось отражает национальный характер ;).

(no subject)

2012-11-05 06:28 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Да, приводят. Copioous/essential, избыточный-необходимый в одном из случаев. Посмотрите статью, если будет время. там намного больше и интереснее.

(no subject)

Posted by [identity profile] komar28.livejournal.com - 2012-11-05 06:51 (UTC) - Expand

(no subject)

2012-11-05 06:49 (UTC)
Posted by [identity profile] stoshagownozad.livejournal.com
интересно, каков "физический смысл" этой энергии системы...


мне напоминает, на моем чудовищно низком уровне знаний и представлений, те штуки, которые, наверное, математики и физики делают, когда рассматривают теорию суперструн - измерений-то может быть и 17, и 25, и не помню сколько там ещё... но с очень большой вероятностью весь реальный мир укладывается в четыре...а остальные "вырождаются"...

может ли быть, это свойство примененной математики? т.е., тех правил (аксиом?), которые лежат в основе модели?

я даже слов боюсь, которые я тут написала, но просто аналогия поразила... что геометрия любого пространства - будь то пространство физическое или языковое - сводится все равно к 4 измерениям...

(no subject)

2012-11-05 06:57 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Физический смысл очень простой. Член с произведением векторов при W=1 максимален (энергия минимальна), когда векторы сонаправленны, при W=-1 — когда противонаправленны. Все остальные пары не вносят в энергию никакого вклада (W=0). Полная энергия будет минимальна, когда антонимы максимально растопырятся, а синонимы максимально сойдутся. Второй член, с 4 степенью, всего лишь нужен, чтобы частицы не разбегались далеко. Он симметричен, и поэтому не сказывается на направлении векторов.

Модель совершенно симметрична сферически, H не меняется при повороте всех векторов вместе, поэтому никаких тенденций к сворачиванию решения к меньшему числу измерений она не вносит. Так что это именно свойство системы связей синонимов-антонимов.

Сложность возникает дальше — это свойство языка? Или человека, думающего над словарем? Или методологии построения словаря? Или, может быть, методологии отбора корпуса, который он обрабатывал? Все эти вещи, и многие другие, потенциально вносили свой вклад, и как их вычленить и учесть — задача куда более сложная.

Доб. То, что именно 4 измерения — безусловно, простое совпадение. Да и оставшиеся измерения вовсе не так плотно свернуты, как измерения в теории струн (там все-таки доли процента остаются, вполне ощутимая величина, а в физике струн — там порядки чуть ли не планковские).
Edited 2012-11-05 06:59 (UTC)

(no subject)

Posted by [identity profile] stoshagownozad.livejournal.com - 2012-11-05 07:20 (UTC) - Expand

(no subject)

Posted by [identity profile] lenivtsyn.livejournal.com - 2012-11-05 09:16 (UTC) - Expand

(no subject)

Posted by [identity profile] golosptic.livejournal.com - 2012-11-07 02:36 (UTC) - Expand

(no subject)

2012-11-05 07:15 (UTC)
Posted by [identity profile] levkonoe.livejournal.com
очень интересно.

(no subject)

2012-11-05 08:12 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Рад, спасибо.

(no subject)

2012-11-05 07:18 (UTC)
Posted by [identity profile] toothedgoo.livejournal.com
Интересно, несколько реально вместо того, чтобы натягивать граф на плоское пространство, взаимно натянуть друг на друга этот граф и как-нибудь заданное многообразие. Ждать чего-то эвклидового от этих двух горстей студня как-то по-маниловски. Я тут как раз хожу кругами вокруг методов главных многообразий.

(no subject)

2012-11-05 07:30 (UTC)
Posted by [identity profile] toothedgoo.livejournal.com
Хотя первое вполне эквивалентно сделанному. Если вспомнить общую теория относительности (гравитация и метрика пространства эквивалентны), то введением гравитации между словами уже введена некоторая неэвклидова метрика пространства

(no subject)

2012-11-05 08:26 (UTC)
Posted by [identity profile] shuurrsh.livejournal.com
немного напоминает семантический дифференциал Осгуда, но именно что немного: ось "оценка" совпадает, оси "сила" и "активность" не очень понятным образом слиплись в ось "возбуждение", а откуда возникла ось "свободы" - непонятно, но красиво:)
Правда, у Осгуда вроде бы тоже особых объяснений нет - вот мы нашли похожее на разном материале, значит, это универсалии.

(no subject)

2012-11-05 10:11 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Да, и они верифицировали с подобным корпусом. Оси разные еще, возможно, потому, что аффективные корпуса строятся с фиксированным набором осей, поэтому различаются.

(no subject)

2012-11-05 08:40 (UTC)
Posted by [identity profile] burrru.livejournal.com
Невероятно интересно!! Спасибо.

(no subject)

2012-11-05 10:10 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Пожалуйста, очень приятно.

(no subject)

2012-11-05 08:55 (UTC)
Posted by [identity profile] arno1251.livejournal.com
Полагаю, какие-то выводы можно будет сделать, применив эту методику еще к нескольким языкам, лучше из разных языковых групп.
Что будет с размерностями? Останутся они в количестве трех с половиною?

(no subject)

2012-11-05 10:03 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Не проверяли. Они, похоже, не лингвисты совсем — из нейроинформатики. Английский, французский, немецкий, испанский — весь джентльменский набор.

(no subject)

Posted by [identity profile] arno1251.livejournal.com - 2012-11-05 12:18 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-05 18:27 (UTC) - Expand

(no subject)

Posted by [identity profile] arno1251.livejournal.com - 2012-11-05 19:37 (UTC) - Expand

(no subject)

Posted by [identity profile] efimpp.livejournal.com - 2012-11-05 16:09 (UTC) - Expand

(no subject)

Posted by [identity profile] p_govorun.livejournal.com - 2012-11-05 18:02 (UTC) - Expand

(no subject)

Posted by [identity profile] efimpp.livejournal.com - 2012-11-05 18:57 (UTC) - Expand

(no subject)

Posted by [identity profile] p_govorun.livejournal.com - 2012-11-05 19:05 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-06 04:41 (UTC) - Expand

(no subject)

2012-11-05 09:36 (UTC)
Posted by [identity profile] yurvor.livejournal.com
"чтобы все отношения были транзитивными (если глокий синоним кузявого, то и кузявый синоним глокого)."

Только это не транзитивность, а рефлексивность :) А метод интересный. Годный метод :)

(no subject)

2012-11-05 09:40 (UTC)
Posted by [identity profile] lithovore.livejournal.com
Симметричность :) Рефлексивность была бы, если бы каждое слово было синонимом себя.

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-05 10:10 (UTC) - Expand

(no subject)

Posted by [identity profile] yurvor.livejournal.com - 2012-11-05 10:19 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-05 10:01 (UTC) - Expand

(no subject)

2012-11-05 10:00 (UTC)
Posted by [identity profile] alisa-lebovski.livejournal.com
Чрезвычайно интересно. Это, безусловно, некоторые свойства человеческой психологии, выражающиеся и в языке, и в составлении словарей и т.д.

(no subject)

2012-11-05 10:14 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Конечно, но отделить язык от психологии составителя словаря было бы куда как интереснее! Пока что это все довольно размыто — где-то тут (неопределенно помавает рукой) четыре главных компоненты.

(no subject)

Posted by [identity profile] stoshagownozad.livejournal.com - 2012-11-05 10:31 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-05 10:40 (UTC) - Expand

(no subject)

Posted by [identity profile] stoshagownozad.livejournal.com - 2012-11-05 11:05 (UTC) - Expand

(no subject)

2012-11-05 10:43 (UTC)
Posted by [identity profile] aosypov.livejournal.com
Потрясающе! Огромное спасибо.

Мне, как биологу, эксплуатирующему математику на сугубо пользовательском (правда еще и невысоком) уровне, кажется, что совпадение количества и смысла главных осей в разных языках - хороший признак того, что найдено свойство не составителей словарей, а самих языков. Устойчивость у языков повыше будет, чем у множества составителей - вряд ли их мышление так систематически будет совпадать друг с другом и перебивать реальную структуру языка. Не говоря уже про очевидное соответствие этого мышления устройству языка, которое вроде бы не должно портить картину ни по одному из принятых представлений о связи языка и мышления (поправьте?).

Пока не взялся за трудное дело чтения статьи в оригинале - область совсем не моя, даже лексики не знаю, ни лингвистической, ни математической. По-русски в Вашем изложении все понятно, кроме одного перехода - не могли бы Вы пояснить вот этот момент:
> разворачивают полученный граф в многомерном пространстве (скажем, 25-мерном), так что каждая вершина получает свое положение в пространстве, радиус-вектор xi
Каким образом задаются исходные значения координат по каждому измерению?

(no subject)

2012-11-05 11:35 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Вообще, там нет исходных значений, просто уравнение решается, где каждое значение xi — неизвестная переменная. На самом деле, конкретный метод решения может требовать начальных значений, тогда случайные вполне подходят. Ну, это как найти минимум функции H=x2-4x. Ответ x=2, но никакого «начального» значения x тут нет.

(no subject)

2012-11-05 10:51 (UTC)
Posted by [identity profile] aosypov.livejournal.com
А нет ли (полу-)автоматических находилок синонимов?
И было бы интересно натравить этот метод на подмножества словаря, взятые из разных корпусов, которые лингвистами традиционно считаются существенно различающимися. Ну там детская речь, научная, религиозная, пресса, авторы разные, еще какой-нибудь зоопарк - вам виднее.

(no subject)

2012-11-05 11:08 (UTC)
Posted by [identity profile] stoshagownozad.livejournal.com
жаргоны хорошо ещё помучить, там синонимия иногда ну очень неожиданная бывает, насколько я представляю... хотя бы пара good - cool... А как вспомню, скажем, "пятый элемент", там вообще употребляли "green" как синоним "cool" в смысле good!

(no subject)

Posted by [identity profile] aosypov.livejournal.com - 2012-11-05 11:57 (UTC) - Expand

(no subject)

Posted by [identity profile] golosptic.livejournal.com - 2012-11-07 02:40 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-05 11:37 (UTC) - Expand

(no subject)

2012-11-05 11:17 (UTC)
Posted by [identity profile] sezam_lj.livejournal.com
Интересно, как они с многозначными словами обходились?

(no subject)

2012-11-05 11:35 (UTC)
Posted by [identity profile] sezam_lj.livejournal.com
А, понял, тут неважно, у многозначных просто синонимических связей больше.

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-05 11:38 (UTC) - Expand
Posted by [identity profile] livejournal.livejournal.com
User [livejournal.com profile] alex_mashin referenced to your post from Семантические координаты (http://alex-mashin.livejournal.com/442774.html) saying: [...] Оригинал взят у в Семантические координаты [...]

(no subject)

2012-11-05 12:44 (UTC)
Posted by [identity profile] schwalbeman.livejournal.com
А четвертая ось, различная для разных языков, какая бывает? Это же самое интересное - вдруг скажет что-нибудь об, извиняюсь, национальном менталитете?

(no subject)

2012-11-05 14:43 (UTC)
Posted by [identity profile] termometr.livejournal.com
для русского 4 ось совпадет со второй английской. А вторая, ИМХО будет "горит/не горит" в смысле водка/не водка.

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-05 18:07 (UTC) - Expand

(no subject)

Posted by [identity profile] schwalbeman.livejournal.com - 2012-11-05 18:22 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-05 18:30 (UTC) - Expand

(no subject)

2012-11-05 15:04 (UTC)
Posted by [identity profile] spamsink.livejournal.com
Странно, что всего 4 существенных координаты. Я ожидал 5 в соответствии с http://en.wikipedia.org/wiki/Big_Five_personality_traits - ведь соответствия первым трем очень четкие: agreeableness, extraversion и openness.

(no subject)

2012-11-05 17:56 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Ну, даже не знаю. Какие-то свойства составителей словарей, точно.

(no subject)

Posted by [identity profile] 8aetherous8.livejournal.com - 2012-11-18 02:50 (UTC) - Expand

(no subject)

2012-11-05 15:04 (UTC)
Posted by [identity profile] rwalk.livejournal.com
Разумеется, вопрос о единственности минимальной конфигурации авторами даже не упоминается :) Кстати. мне кажется, что более естественным было бы располагать точки на сфере вместо введения "центростремительного члена" (как сами авторы и делают в примере с цветами).

(no subject)

2012-11-05 18:10 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Мне казалось, что все-таки упоминается, где несколько раз говорится, что они повторяли оптимизацию с разными случайными значениями и в разных размерностях. Или это не то, о чем Вы говорите?

(no subject)

Posted by [identity profile] rwalk.livejournal.com - 2012-11-05 18:47 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-06 04:43 (UTC) - Expand

(no subject)

Posted by [identity profile] rwalk.livejournal.com - 2012-11-06 21:22 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-06 21:29 (UTC) - Expand

(no subject)

Posted by [identity profile] schwalbeman.livejournal.com - 2012-11-05 18:20 (UTC) - Expand

(no subject)

Posted by [identity profile] rwalk.livejournal.com - 2012-11-05 18:49 (UTC) - Expand

(no subject)

Posted by [identity profile] schwalbeman.livejournal.com - 2012-11-06 15:42 (UTC) - Expand

(no subject)

Posted by [identity profile] rwalk.livejournal.com - 2012-11-06 21:15 (UTC) - Expand

(no subject)

Posted by [identity profile] schwalbeman.livejournal.com - 2012-11-07 03:23 (UTC) - Expand

(no subject)

2012-11-05 16:03 (UTC)
Posted by [identity profile] efimpp.livejournal.com
здорово!

(no subject)

2012-11-05 18:30 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Да, неожиданно.

(no subject)

2012-11-05 17:02 (UTC)
Posted by [identity profile] dralkin.livejournal.com
Интересно.
Странно только, что количество осей не свелось к одной - синоним/антоним. Ведь с нее же начали.

(no subject)

2012-11-05 18:15 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Если бы у разных значений синонимы не были бы разными, то так бы и вышло, совершенно верно. А на самом деле получаются цепочки, которые далеко уводят: умный — тупой — острый — перченый… Они и пытаются все эти векторы по-всякому в пространстве растопырить. У слова в «ядре» словаря модели в среднем где-то 4 омонима и антонима (точнее цифра в статье есть).

(no subject)

2012-11-05 17:27 (UTC)
Posted by [identity profile] dmagin.livejournal.com
О, спасибо, интересно ).
Одна из тех статей, которые "возбуждают мысли".

(no subject)

2012-11-05 18:21 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Эх, как Вы все точно у себя в трех абзацах переложили! А я на три страницы накатал…

(no subject)

Posted by [identity profile] dmagin.livejournal.com - 2012-11-05 18:25 (UTC) - Expand
Posted by [identity profile] livejournal.livejournal.com
User [livejournal.com profile] dmagin referenced to your post from Обработка похожести понятий (http://dmagin.livejournal.com/25717.html) saying: [...] в итоге наиболее подходящую систему (базу) для описания исходного набора. Спасибо за наводку [...]

(no subject)

2012-11-05 19:55 (UTC)
Posted by [identity profile] http://users.livejournal.com/_glav_/
класс!

>Что в интересной обнаруженной закономерности от языка, а что от мышления человека, составляющего словарь?
а разве словари составляются не стараясь дистанциироваться от конкретного составителя, так что всё-таки они отражают некую объективную характеристику языка? почему вообще возникает мысль, что такие словари могут содержать значительную долю субъективности составителя?

(no subject)

2012-11-06 04:38 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Конечно, это верно. Но, насколько я понимаю, словари синонимов — это очень методологически расплывчатая штука. Каких-то строгих, почти что математических критериев объявлять слова синонимами я не знаю. Обычный словарь, список слов (или, скажем, грамматический) можно методологически определить почти что алгоритмом — доставай слова из корпуса, и включай или опускай их по какому-то критерию. Связи же между словами гораздо менее формализуемы.

Я спрашивал спецов, какие бывают методологии. Можно посмотреть вводные статьи в словаре Апресяна — там сразу понятно, что вопрос далеко не формализуем.

(no subject)

Posted by [identity profile] http://users.livejournal.com/_glav_/ - 2012-11-06 09:15 (UTC) - Expand

(no subject)

Posted by [identity profile] fregimus.livejournal.com - 2012-11-06 14:34 (UTC) - Expand

(no subject)

2012-11-05 20:41 (UTC)
Posted by [identity profile] vi-shka.livejournal.com
Спасибо за статью!
Posted by [identity profile] livejournal.livejournal.com
User [livejournal.com profile] _glav_ referenced to your post from исчислять неисчисляемое (http://users.livejournal.com/_glav_/288001.html) saying: [...] в различных языках. А недавно я узнал, что значения различных слов [...]
Page 1 of 2 << [1] [2] >>

Profile

fregimus: (Default)
fregimus

March 2014

S M T W T F S
       1
2 3456 78
910 1112 131415
16171819202122
23242526272829
3031     

Most Popular Tags

Page generated 2025-12-27 07:58

Expand Cut Tags

No cut tags