English
!

Архив публикаций

Тезисы

XIII-ая конференция

К теории анализа естественно-языковых сетей

Гаджиев Б.Р., Прогулова Т.Б.

Международный Университет природы, общества и человека, кафедра системного анализа и управления, Россия, 141980, г. Дубна Московской области, ул. Университетская, 19 Тел.: (09621) 2-24-78, e-mail: gadjiev@uni-dubna.ru

1  стр.

Эволюция языка является одной из основных проблем лингвистики и эволюцион-ной биологии. Ранние статистические изучения текстов, как правило, сводились к по-строению распределения ранг-частота. В первом приближении это распределение опи-сывается законом Ципфа: частота слов обратно пропорциональна рангу. Вторым, более адекватным приближением является так называемый закон Ципфа-Мандельброта [1]. В работах [2, 3] структура языка была представлена в виде сложной сети слов. В рамках такого подхода сеть слов конструируется следующим способом. Вершины сети — раз-ные слова языка, а неориентированные ребра — определенные отношение между сло-вами. Определение понятия отношения между словами не единственно. Однако раз-личные определения приводят к очень похожим структурам сети слов. Статистический анализ, проведенный в работе [3], показал, что распределения степеней сети слов ха-рактеризуется двумя показателями степенного закона. Так, в логарифмическом мас-штабе распределение степеней сети слов проявляет излом.

Мы конструировали сеть слов, считая взаимодействующими самых близких сосе-дей в одном предложении. Таким образом, на языке теории графов предложение пред-ставляет собой цепь, а текст — мультиграф, состоящий из сложным образом пересе-кающихся цепей. Сеть при таком построении рассматривается как растущая, и тополо-гия сети определяется распределением степеней.

В настоящей работе представлен статистический анализ сети слов романа Фолк-нера «Шум и ярость» на русском и английском языках. В этом романе смена рассказ-чиков может быть уподоблена смене трех типов сознания: детского, дологического, чувственного (Бенджамин); подросткового, расколотого (Квентин) и взрослого, праг-матического, обыденного (Джейсон), которым противопоставляется внеположное им, более широкое и объективное сознание автора-наблюдателя.

Мы исследовали зависимость характеристик сети слов от уровня восприятия (Бенджамин, Квентин, Джейсон) и перевода на примере романа Фолкнера «Шум и ярость». Для анализа топологии сетей слов, соответствующих разным частям романа, были построены распределения степеней вершин. Мы показываем, что топология сети слов отклоняется от степенного закона, и неэкстенсивная статистика Цаллиса [4,5] яв-ляется наилучшим инструментом для описания результатов анализа сетей слов.

Мы также предлагаем естественное обобщение основного уравнения растущей се-ти слов к дробному дифференциальному уравнению. Точное решение дробного урав-нения позволяет детально описать распределение степеней эволюционирующей сети слов. Кроме этого, мы исследуем топологию малых сетей слов как функцию размера и средней степени.

© 2004 Дизайн Лицея Информационных технологий №1533