fregimus: (Default)
[personal profile] fregimus
Возьмем словарь синонимов и антонимов. Для каждого слова (или значения слова) даются синонимические значения и противоположные. Какую интересную информацию о языке можно выделить, механически получить, переработав этот словарь? В статье [1] описывается удивительно простой и изящный подход, приведший к получению весьма нетривиального результата.

Возьмем все слова из словаря, расположим их в вершинах графа, и проведем ребра в соответствии с отношениями синонимии/антонимии. Затем доработаем граф так, чтобы все отношения были симметричными (если глокий синоним кузявого, то и кузявый синоним глокого). На этом этапе будут устранены некоторые ошибки словаря: если пара слов записана и синонимами, и антонимами, то такое ребро графа стирается. Иными словами, если глокий записан в словаре синонимом кузявого, а кузявый числится антонимом глокого, то сочтем это ошибкой и уберем обе ссылки этих слов друг на друга.

Вполне вероятно, что граф наш распадется на несколько компонент связности: каждая компонента — подмножество графа, по ребрам которого можно дойти из одной вершины в другую. Самую большую из этих компонент авторы называют ядром, и, для всех исследованных словарей, следующая за ней по размеру компонента довольно мала. Размер ядра для английских словарей составил 15—20 тыс. слов. От любого слова до любого можно добраться по связям: пустой — антоним полного, полный — синоним толстого, худой — антоним толстого, добрый — антоним худого, и так далее.

Затем авторы разворачивают полученный граф в многомерном пространстве (скажем, 25-мерном), так что каждая вершина получает свое положение в пространстве, радиус-вектор xi. Затем определяется функционал энергии системы этих точек в пространстве, следующим образом:

,

где значение Wi,j=Wj,i равно 1, если слова i и j суть синонимы, −1, если антонимы, и 0 в противном случае. Иными словами, W есть матрица связности нашего графа, где веса ребер равны 1 для синонимов и −1 для антонимов.

Первый член суммы определяет стремление синонимов кучковаться по одну сторону начала координат, так что их радиус-векторы сонаправленны (в этом случае скалярное произведение максимально, и данная пара синонимов, при коэффициенте W=1, вносит наибольший отрицательный вклад в суммарную энергию (а ищется минимум этой энергии). Точно так же, радиус-векторы антонимов стремятся выстроиться в линию, но противопоставленно, благодаря смене знака W=−1. Второй член — простая регуляризация, она тянет центр всей системы частиц к началу координат, и не дает ей разбегаться. Чем выше степень при норме вектора, тем круче возрастает энергия за пределами гиперсферы единичного радиуса.

В результате численного решения уравнения, мы найдем все координаты (25-мерный вектор) для каждого из, скажем, 20 тыс. слов. Поскольку формула сферически симметрична, то это решение может выстроиться в пространстве в любой ориентации, и, к тому же, зеркально отраженным по любой из координат. Чтобы разобраться в том, что у нас вышло, следует упростить решение, выбросив из него незначащую информацию. Математически это делается методом главных компонент (МГК, англ. PCA). Этот метод позволяет существенно сократить размерность данных, если данные «спюснуты» вдоль одной или нескольких осей. Например, если наши точки выстроятся вдоль диагонали трехмерного куба, то на самом деле это не трехмерные данные, а одномерные: проведем новую ось X вдоль диагонали, а оси Y и Z нам и не потребуются, потому что новые эти координаты все равно окажутся нулевыми. На практике, значения координат по «лишним» осям ненулевые, но и невелики; обычно это экспериментальный шум, которым можно пренебречь. МГК дает ответ также, какую точность мы потеряем, уменьшив число координат до некоего взятого. Например, если оказывается, что в 20-мерном наборе данных самая главная новая координата опишет 55% информации, две первых опишут 70%, три — 99,5%, а четыре и более все больше приближают нас к исходным 100%, то мы можем смело отбросить последние 17 координат и разглядеть в данных трехмерный набор — выбросив тем самым только 0,5% информации (которая может быть полезной, а может и просто шумом).

Так вот, после того, как авторы обработали полученное решение с помощью МГК, выяснилось, что данные можно сжать до трехмерных с точностью 95%, или четырехмерных с точностью 99%. Иными словами, сопоставив каждому слову в решении только 4 независимых числа, можно сохранить практически все свойства этого решения (максимальное сближение синонимов и расхождение антонимов).

До сих пор мы рассматривали только математический трюк, позволивший нам сопоставить 4 числа (тяготеющих к диапазону [-1, 1] благодаря регуляризации) с каждым словом. Но неожиданно оказывается, что у каждой из этих 4 осей имеется явный смысл, причем (для первых 3) один и тот же в разных языках! Первая, самая главная ось, раскладывает слова по шкале «хороший-плохой» по их эмоциональным коннотациям. Вторая ось — шкала «возбуждения», от «успокаивающего» до «возбуждающего», а третья — шкала «свободы», от «закрытого» до «открытого». Первые три оси несут 95% информации из решения. Четвертая ось имеет переменный смысл, в зависимости от языка и словаря. В целом, интервал значений по каждой оси уменьшается с ее номером, то есть слова собираются в более тесные группы ближе к 0. Выходит, что наибольшее количество информации, заключенное в слове, соответствует тому, насколько «хорошее/плохое» обозначается этим словом.

По построению, оси перпендикулярны и независимы: «успокаивающее» слово может быть и «хорошим», и «плохим», а «плохое» — и «успокаивающим», и «возбуждающим». Например, первые две координаты «успокаивающих» слов soothing, умиротворяющий равны (0,69; −1,19), а boring, скучный — (−1,31; −0,94): слово умиротворяющий, таким образом, весьма положительного значения, «хорошее», а скучный — отрицательного, «плохого». Авторы численно сопоставили эти значения с корпусом аффективных норм, где слова оценены респондентами по разным шкалам, и получили замечательную корреляцию со своими механически вычисленными осями.

Не следует думать, будто бы перед нами способ квантифицировать, описать числами любое слово. Мы можем сопоставить числа слову, но перейти от чисел к слову нельзя, информация теряется: вблизи одного слова оказывается другое, совершенно не близкое ему по значению (например, рядом со злым могут оказаться квадратный и фиолетовый). Семантизированные корпуса пока что вычисляются только для узких смысловых областей, и включают в себя векторы очень высоких (десятки-сотни координат) размерностей.

Как и любое интересное открытие, большое и малое, данная находка ставит больше вопросов, чем дает ответов. Интересно поразмыслить, что же именно здесь обнаружено, какого рода это явление?

Одна крайняя точка зрения базируется на произвольности знака. Поскольку отношения синонимии все-таки определяются между значениями, а не знаками, то обнаруженное явление лишь артефакт метода. Эта точка зрения неверна, потому что многие значения одного слова связаны не произвольно. Например, слово худой будет иметь антонимами два разных слова, толстый и добрый, в двух разных значениях. Но значения эти собраны в одном слове не произвольным образом — не следует произвольность знака возводить в абсолют в любой ситуации. Безусловно, значения худой в смысле плохой и тонкий (фигурой) связаны, и этимологически, и семантически.

Другой крайностью было бы утверждать, что обнаружено некое языковое явление. Нужно сказать, что возразить против нее нечего, но нечем ее и подтвердить. Слишком уж много стоит на пути от языка до словаря синонимов. Словарь составляется человеком, который следует определенной, разработанной им же или другими людьми методологии, на основе неким методологическим же образом отобранного корпуса текстов, и так далее. Что в интересной обнаруженной закономерности от языка, а что от мышления человека, составляющего словарь? На эти вопросы ответа нет. Если бы у нас был способ автоматического, вычислительного составления словаря синонимов, это дало бы хороший способ разделить факторы, влияющие на конечную модель. Но такие способы пока еще неизвестны.

Узкопрактически метод можно применять для верификации словарей синонимов и нескольких других вещей (в статье они описаны), но в теоретической части, можно сказать, обнаружено что-то очень интересное, но непонятное. В понимании языка мы продвинулись, конечно, несколько дальше греческих грамматиков, но, увы, отнюдь не так далеко, как хотелось бы.

_________________________________
1. Samsonovic AV, Ascoli GA (2010) Principal Semantic Components of Language and the Measurement of Meaning. PLoS ONE 5(6): e10921. doi:10.1371/journal.pone.0010921
Page 1 of 5 << [1] [2] [3] [4] [5] >>

(no subject)

2012-11-05 06:15 (UTC)
Posted by [identity profile] komar28.livejournal.com
Подход интересный. Если бы я только ещё умела заниматься математикой)).
Больше не умею. И вообще числа для меня вполне
nebulous and unclear entities. ))

Вот мне интересно: есть факторы, которые не так постоянно: например коннотации и факт, что чистых синонимов нет в языке.

Хм, вообще никогда не думала о том, верные антонимы ли есть в языке. Но это не точно по теме.

Просто интересно

2012-11-05 06:20 (UTC)
Posted by [identity profile] livejournal.livejournal.com
User [livejournal.com profile] alex_bykov referenced to your post from Просто интересно (http://alex-bykov.livejournal.com/633300.html) saying: [...] Оригинал взят у в Семантические координаты [...]

(no subject)

2012-11-05 06:26 (UTC)
Posted by [identity profile] alexeim.livejournal.com
А значения четвертой оси для разных языков они приводят? Может быть, четвертая ось отражает национальный характер ;).

(no subject)

2012-11-05 06:27 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Нет, почему же, очень в тему. Чистых синонимов, конечно, практически нет — они избыточны и исчезают, обычно значение одного из синонимов изменяется. Но этот метод показал себя очень устойчивым. Например, угол между векторами синонимов должен быть в идеале 0°. Авторы обнаружили слова, торчащие под почти прямым углом, которые числились синонимами, но по смыслу явно не подходили (посмотрите, статья очень интересная). То есть, система выстроилась несмотря на ошибки, а ошибки эти стали заметны.

(no subject)

2012-11-05 06:28 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Да, приводят. Copioous/essential, избыточный-необходимый в одном из случаев. Посмотрите статью, если будет время. там намного больше и интереснее.

(no subject)

2012-11-05 06:49 (UTC)
Posted by [identity profile] stoshagownozad.livejournal.com
интересно, каков "физический смысл" этой энергии системы...


мне напоминает, на моем чудовищно низком уровне знаний и представлений, те штуки, которые, наверное, математики и физики делают, когда рассматривают теорию суперструн - измерений-то может быть и 17, и 25, и не помню сколько там ещё... но с очень большой вероятностью весь реальный мир укладывается в четыре...а остальные "вырождаются"...

может ли быть, это свойство примененной математики? т.е., тех правил (аксиом?), которые лежат в основе модели?

я даже слов боюсь, которые я тут написала, но просто аналогия поразила... что геометрия любого пространства - будь то пространство физическое или языковое - сводится все равно к 4 измерениям...

(no subject)

2012-11-05 06:51 (UTC)
Posted by [identity profile] komar28.livejournal.com
Да, интересно будет, если национальный характер будет "минус что-то) :))

хотя сравнить разные языки трудно. Даже как-то невозможно.

То есть можно конечно, но языки работают (так) по-другому.

(no subject)

2012-11-05 06:57 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Физический смысл очень простой. Член с произведением векторов при W=1 максимален (энергия минимальна), когда векторы сонаправленны, при W=-1 — когда противонаправленны. Все остальные пары не вносят в энергию никакого вклада (W=0). Полная энергия будет минимальна, когда антонимы максимально растопырятся, а синонимы максимально сойдутся. Второй член, с 4 степенью, всего лишь нужен, чтобы частицы не разбегались далеко. Он симметричен, и поэтому не сказывается на направлении векторов.

Модель совершенно симметрична сферически, H не меняется при повороте всех векторов вместе, поэтому никаких тенденций к сворачиванию решения к меньшему числу измерений она не вносит. Так что это именно свойство системы связей синонимов-антонимов.

Сложность возникает дальше — это свойство языка? Или человека, думающего над словарем? Или методологии построения словаря? Или, может быть, методологии отбора корпуса, который он обрабатывал? Все эти вещи, и многие другие, потенциально вносили свой вклад, и как их вычленить и учесть — задача куда более сложная.

Доб. То, что именно 4 измерения — безусловно, простое совпадение. Да и оставшиеся измерения вовсе не так плотно свернуты, как измерения в теории струн (там все-таки доли процента остаются, вполне ощутимая величина, а в физике струн — там порядки чуть ли не планковские).
Edited 2012-11-05 06:59 (UTC)

(no subject)

2012-11-05 07:15 (UTC)
Posted by [identity profile] levkonoe.livejournal.com
очень интересно.

(no subject)

2012-11-05 07:18 (UTC)
Posted by [identity profile] toothedgoo.livejournal.com
Интересно, несколько реально вместо того, чтобы натягивать граф на плоское пространство, взаимно натянуть друг на друга этот граф и как-нибудь заданное многообразие. Ждать чего-то эвклидового от этих двух горстей студня как-то по-маниловски. Я тут как раз хожу кругами вокруг методов главных многообразий.

(no subject)

2012-11-05 07:20 (UTC)
Posted by [identity profile] stoshagownozad.livejournal.com
я-то статью ещё почитаю... но как же плохо иметь трудности с пониманием математики как таковой... ых!

вообще говоря, корпусов языковых же много... и составлялись они разными людьми, и, может быть, даже по несколько разным принципам, а взять не европейские языки и попробовать? глядишь, и выявится что-нибудь...

ужасно интересно. видно что-то, но действительно непонятно даже, что именно :) как бы там ни было, мне сдается, что и принципы построения словаря, и свойства думания (ведь размышление - это тоже использование языка), и даже методология создания семантической карты - это все равно "свойства языка", в том, что касается, наверное, ужасов семантики... так что вычленять-то их придется с помощью того же языка, т.е., вроде как за волосы себя тащить из болота?


а ведь есть ещё искусственные языки... вот интересно, как там с этим делом обстоит...

(no subject)

2012-11-05 07:30 (UTC)
Posted by [identity profile] toothedgoo.livejournal.com
Хотя первое вполне эквивалентно сделанному. Если вспомнить общую теория относительности (гравитация и метрика пространства эквивалентны), то введением гравитации между словами уже введена некоторая неэвклидова метрика пространства

(no subject)

2012-11-05 08:12 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Рад, спасибо.

(no subject)

2012-11-05 08:26 (UTC)
Posted by [identity profile] shuurrsh.livejournal.com
немного напоминает семантический дифференциал Осгуда, но именно что немного: ось "оценка" совпадает, оси "сила" и "активность" не очень понятным образом слиплись в ось "возбуждение", а откуда возникла ось "свободы" - непонятно, но красиво:)
Правда, у Осгуда вроде бы тоже особых объяснений нет - вот мы нашли похожее на разном материале, значит, это универсалии.

(no subject)

2012-11-05 08:40 (UTC)
Posted by [identity profile] burrru.livejournal.com
Невероятно интересно!! Спасибо.

(no subject)

2012-11-05 08:55 (UTC)
Posted by [identity profile] arno1251.livejournal.com
Полагаю, какие-то выводы можно будет сделать, применив эту методику еще к нескольким языкам, лучше из разных языковых групп.
Что будет с размерностями? Останутся они в количестве трех с половиною?

(no subject)

2012-11-05 09:16 (UTC)
Posted by [identity profile] lenivtsyn.livejournal.com
А, может быть, авторам нужно было рассматривать язык в динамике: не просто, как связаны между собой слова, а как возникали и менялись связи? Тогда стало бы яснее, "чьи" свойства.

(no subject)

2012-11-05 09:36 (UTC)
Posted by [identity profile] yurvor.livejournal.com
"чтобы все отношения были транзитивными (если глокий синоним кузявого, то и кузявый синоним глокого)."

Только это не транзитивность, а рефлексивность :) А метод интересный. Годный метод :)

(no subject)

2012-11-05 09:40 (UTC)
Posted by [identity profile] lithovore.livejournal.com
Симметричность :) Рефлексивность была бы, если бы каждое слово было синонимом себя.

(no subject)

2012-11-05 10:00 (UTC)
Posted by [identity profile] alisa-lebovski.livejournal.com
Чрезвычайно интересно. Это, безусловно, некоторые свойства человеческой психологии, выражающиеся и в языке, и в составлении словарей и т.д.

(no subject)

2012-11-05 10:01 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Да, спасибо, оговорился, конечно.

(no subject)

2012-11-05 10:03 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Не проверяли. Они, похоже, не лингвисты совсем — из нейроинформатики. Английский, французский, немецкий, испанский — весь джентльменский набор.

(no subject)

2012-11-05 10:10 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Ох, да ведь! Запутаешься с этими латинскими словами.

(no subject)

2012-11-05 10:10 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Пожалуйста, очень приятно.

(no subject)

2012-11-05 10:11 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Да, и они верифицировали с подобным корпусом. Оси разные еще, возможно, потому, что аффективные корпуса строятся с фиксированным набором осей, поэтому различаются.
Page 1 of 5 << [1] [2] [3] [4] [5] >>

Profile

fregimus: (Default)
fregimus

March 2014

S M T W T F S
       1
2 3456 78
910 1112 131415
16171819202122
23242526272829
3031     

Most Popular Tags

Page generated 2025-12-27 16:34

Expand Cut Tags

No cut tags