Опыты практической самоорганизации

Способность к систематизации возникает уже на самых первых ступенях восхождения к пониманию и остается важнейшим свойством интеллекта. С нее начинается человеческий язык, когда одним словом обозначается все многообразие предметов или явлений, к которым оно относится. В данной работе приведены результаты исследования самопроизвольной систематизации (самоорганизации) на примере классификации текстов.

    Лингвистическая модель.

В качестве исходного материала был принят готовый  массив, заимствованный из практического приложения. В нем имеется около 500 текстов разной тематики объемом от 50 до 10000 слов, есть классификатор из 17 разделов.   Этот классификатор, подготовленный независимо, в исследовании использовался как эталон, с которым сопоставлялись результаты работы компьютерной программы.

Программа, группируя тексты по тематике, работает не с текстами - только с разделами, в которые входят эти тексты. Она не занимается ничем иным кроме объединения или дробления разделов. В исходном состоянии имеется классификатор, в котором количество разделов равно числу текстов, т.е. каждый текст интерпретируется как отдельный раздел. Далее случайным образом выбирается раздел каталога и по заданной формуле вычисляется численные значения параметров Si,   указывающие уровень соответствия содержания выбранного раздела другим разделам. Раздел с наибольшим значением S, если оно превышает заданное граничное значение H1, объединяется с выбранным разделом. Для текстов, входящих в новый раздел, получившийся в результате объединения, по той же формуле вычисляется степень соответствия содержания каждого текста содержанию всей сборки. Тексты, для которых это значение оказалось ниже величины H2, из раздела исключаются. Каждый исключенный текст возвращается в общий массив как отдельный раздел каталога (состоящий из одного текста). На этом работа с выбранным разделом завершается, выбирается другой случайный раздел, и вся процедура повторяется.

В процессе работы программы оператор может только наблюдать за состоянием системы, не имея возможности влиять на этот процесс, т.е. субъективный фактор на этом этапе отсутствует. После спонтанных объединений, распадов и перемещений текстов из раздела в раздел, система чаще всего приходит к такому состоянию, в котором никакие изменения уже не происходят. Подготовленный программой каталог сопоставляется с эталоном - с каталогом, составленным человеком.

    Алгоритм.

Для вычисления параметра соответствия S была принята формула  вычисления относительной информации в текстах, приведенная в [1], с некоторыми изменениями:

                i = n
                S = 100* SUM (W1i*W2i)/(1+Gi/Z)           (1)
                i

где: W1i,W2i - частоты употребления i-го слова в двух сопоставляемых текстах или маассивах

     n  - число совпадающих слов.

     Gi - усредненная частота употребления  i-го слова в языке, определяемая как отношение количества текстов, в которых встречается i-е слово к общему количеству текстов.

     Z=1/15

Множитель 100 введен для лучшего восприятия цифр

Изменения коснулись исключения множителей, содержащих логарифмы. Их наличие повышает точность вычисления относительной информации, но искажает абсолютные значения, которые необходимы для задания границ H1 и H2. Значения H1 изменялись в диапазоне 0.075 - 0.4. Для H2 проведены измерения вариантов: H2=H1, H2>H1, H2<H1.

    Результаты.

Основным параметром, по которому оценивается результат работы алгоритма, принята величина Е - число текстов, объединенных в один и тот же раздел в каталогах, составленных программой и человеком. В качестве раздела, подлежащего учету при вычисления Е, принимались только разделы, содержащие более 5 текстов.

Процесс становления каталога происходит во времени. Время фиксируется без учета «переходных процессов», т.е. в моменты случайного выбора раздела каталога для его сравнения с другими элементами массива. Принято Т = номер такого события, отсчитываемый от начального момента, когда тексты неупорядочены. Процесс обрывался, когда изменения прекращались или происходило циклическое повторение состояний, т.е. сложившийся классификатор уже не мог измениться. Однако, для некоторых значений H1 и H2 этого не происходило, процесс уходил в бесконечность и прерывался.

Результаты испытаний сведены в таблицу. В таблице приняты обозначения:

         N - номер испытания

         Emаx - максимальное значение параметра соответствия создаваемого каталога эталону

         Tm - значение T, при котором E=Emax

         TXm - число текстов, вошедших в разделы, подлежащие учету (содержащих более 5 текстов) для момента Tm

         Cm - число разделов для момента Tm

         Te - время прерывания процесса 

         E(end), Ce, TXe - значения параметров на момент прерывания процесса

         Символом n обозначены прерванные испытания

 

Таблица
N H1 H2     E(max) Cm Tm E(end) Ce Te
1 0.075 0.075     280 28 441     190 1 492
2 0.1 0.1     273 26 443     186 1 523 n
3 0.15 0.15     286 25 446     185 5 580
4 0.18 0.18     285 22 607     249 12 920
5 0.2 0.2     283 22 470     249 12 622
6 0.22 0.22     290 21 475     283 20 829
7 0.24 0.24     292 29 491     283 23 642
8 0.27 0.27     288 27 569     284 25 715
9 0.3 0.3     270 27 565     265 26 764
10 0.4 0.4     242 29 725     233 25 1004
11 0.5 0.5     184 22 351     184 22 995

12 0.18 0.3     303 22 618     261 18 1251 n
13 0.22 0.3     302 25 484     296 23 701 n
14 0.22 0.3     317 26 454     302 22 975
15 0.22 0.3     313 24 532     304 23 760
16 0.24 0.3     301 26 813     301 26 813
17 0.3 0.22     283 30 552     273 25 827

18 0.2 0.2     276 20 491     271 18 1810 n

В приложении 2 (http://monitor-em.narod.ru/sitpr/tabb/gr92.mht) приведены графики изменения параметров системы во времени для каждого испытания, в приложении 3 (http://monitor-em.narod.ru/sitpr/tabb/LIN13.HTM) - один из каталогов (испытание 14, Т=975).

Испытания с 1 по 11 проводились для разных значений границ H1, причем граница H2 устанавливалась равной H1. Равенство H2=H1 означает, что условие вхождения текста в раздел (H1) и условие его исключения одинаковы.

Испытания с 12 по 15 проводились для варианта H1<H2. Это условие "элитарности" - войти в объединение труднее, чем быть из него исключенным.

В испытании 16 обратная ситуация H1>H2, т.е. легче войти, чем выйти.

В испытаниях с 1 по 16 текст, вошедший в каталог, полностью теряет свою самостоятельность и существует только как составная часть раздела, имеющая влияние на его характеристики. Для системы этот текст не существует. Прямые взаимодействия текста в системе возможны только при его исключении из раздела, что определяется внутренними причинами.

В испытании 17 допускается свобода. Она заключается в том, что любой текст, вне зависимости от его принадлежности и статуса в своем разделе может его в любое время покинуть, образовать собственный раздел (из одного текста) и в таком качестве стандартным образом взаимодействовать в системе со всеми другими элементами.

    Комментарии к результатам.

Изменение параметра соответствия Е на начальном этапе (до Т=500) происходит для всех вариантов примерно одинаково - поступательный рост до максимума, затем - спад. Такую ситуацию можно объяснить тем, что вначале ресурс, из которого берется пополнение, достаточно велик и из него извлекаются тексты, которые в полной мере соответствуют тематике зарождающихся разделов. По мере исчерпания ресурса все чаще возникает взаимодействие крупных сборок, которые лишь приблизительно соответствуют друг другу. При их объединении остаются тексты, не удовлетворяющие условиям вновь образующегося раздела и отторгаются, пополняя ряды одиноких текстов, которые начинают искать других партнеров для объединения. На этом этапе истории развития системы, значения граничных констант H1 и H2 начинают играть большую роль. Из таблицы видно, что конечные состояния сильно различаются.

При H1=H2=0.075 после достижения максимума соответствия система деградирует и в конце концов образуется один единственный раздел, который включает в себя все тексты. Такое состояние фактически ничем не отличается от исходного, однако формальное существование этого все поглощающего раздела препятствует каким-либо изменениям. Состояние стабильно и при существующих константах измениться не может, история завершается.

Наилучший результат (максимальное значение Е) при Н1=Н2 дают значения границ входа/выхода, лежащие в пределах 0.24 - 0.27. При меньших значениях система деградирует, образуя большие сборки разнородных текстов. При больших значениях - напротив, многие тексты остаются за пределами классификатора (для границы 0.4 в таком положении оказывается четверть массива).

Предоставление абсолютной свободы выхода, предпринятое в испытании 17, принципиально не изменяет результат, однако это направление требует дополнительных исследований.

Некоторая альтернатива свободы присутствует во всех испытаниях, т.к. после объединения двух любых разделов происходит проверка всех составляющих их текстов на соответствие новому образованию. Тексты, для которых параметр связи меньше Н2 исключаются из нового раздела, т.е. получают "принудительную" свободу. В испытаниях с 12 по 14 граница выхода Н2 выше границы объединения Н1. Такое соотношение определенно улучшает конечный результат.

    Обобщение

Модель имеет формальный характер - она оперирует только числами и математическими зависимостями, никак не учитывая семантику. Это обстоятельство дает возможность ее применения для анализа поведения (истории) любых других систем. Для этого необходимо выделить общие признаки составляющих систему элементов, математические зависимости и константы, определяющие влияние признаков на взаимодействие элементов системы.

    Описание модели без привязки к лингвистике.

Имеется неупорядоченное конечное множество разнообразных элементов, обладающих свойством взаимного притяжения. Сила притяжения каждого элемента к каждому другому разная. Она зависит от его внутренней структуры и вычисляется по конкретной формуле. Запускается процесс взаимодействия случайно выбранного элемента со всеми другими. В результате в системе возникают новые образования из элементов, связанных между собой силами взаимного притяжения. Каждый такой объект ведет себя в системе как отдельный большой элемент, обладающий обозначенным свойством. Элементы, вошедшие в объект, теряют свою самостоятельность и, как таковые, в системе не присутствуют. Т.е. их "внешние интересы" представляет исключительно объект, в который они вошли. С другой стороны, каждый внутренний элемент объекта имеет определенную силу связи со своим объектом. Эта сила зависит от свойств самого элемента и от совокупных свойств объекта, т.е. от того, из чего он образовался. В процессе развития изменяется состав объекта и, соответственно, изменяется эта сила (уменьшается или увеличивается). Если сила связи становится меньше некоторого (заданного) граничного значения, элемент выходит из объекта и возвращается к самостоятельному (независимому) существованию в системе. Т.о., запускается неуправляемый процесс взаимодействия "элементарных частиц", который приводит к их консолидации в некоторое количество объектов.

    Неосуществленное.

Ввиду большой трудоемкости исследований на данную тему, многие вопросы остаются без ответа. Перечислим некоторые из них.

1. В работе представлены истории "естественного развития" системы для разных параметров без влияния внешних (в том числе субъективных) факторов. Система состоит из достаточно сложных объектов - текстов, для которых учитывалось от 50 до 10000 признаков (слов). Было бы интересно провести подобное исследование для других (не лингвистических) систем,  например, социальных.

2. В формулу (1) входит эмпирическая константа Z=1/15. Есть основания предполагать, что здесь мы имеем дело с известной в лингвистике константой Ципфа, во всяком случае, значение 1/15 соответствует ее значению для русского языка. Если подобная константа будет проявляться в исследованиях не лингвистических систем, то это будет означать, что она имеет более фундаментальный смысл.

3. Границы объединения/исключения H1 и H2 заданы как константы, однако их можно было бы определить как функции внутренних или внешних параметров.

4. Недостаточно проверено влияние фактора "свобода выхода" на историю развития системы. Здесь есть много вариантов - от абсолютной (безусловной) свободы до установления самых разнообразных условий - как внутренних, так и внешних.

5. Не исследовано влияние на процесс консолидации внешних воздействий (например) чередование периодов, допускающих/не допускающих свободу.

6. Состязание/изъятие. Можно предложить (и проверить) ситуацию, когда выбранный раздел может взять отдельный текст из другого раздела при соблюдении определенных условий / или безусловно.

7. Статус признака (слова) в исследовании определялся делителем (1+Gi/Z). Можно, однако, некоторым словам или группам слов или отдельным текстам искусственно установить повышенный/пониженный статус, т.е. исследовать влияние субъективного фактора.

8. Целью работы программы в данном исследовании задано максимальное совпадение создаваемого каталога с эталоном, составленным человеком. Сообразно этой цели устанавливаются зависимости и подбираются константы. Однако, можно было бы задать какую-то иную цель (например, образование конкретного числа разделов) и трансформировать алгоритм для ее достижения. Но это будет уже другая система.

   Выводы.

1. Множество разнообразных элементов при существовании простых законов взаимодействия способно к самоорганизации (систематизации).

2. Каталог формируется случайным образом, однако процесс его создания и  конечный результат закономерен, он определяется заданными значениями границ, т.е. системными параметрами.

3. История развития системы проходит фазу становления, достижения максимума. Далее при определенных параметрах развитие сменяется деградацией и завершается распадом.

4. При исключении внешних воздействий конечный результат развития "предопределен" - он определяется исключительно содержанием внутренних параметров взаимодействия.

Здесь историю творит математика.

Можно попытаться применить данную модель для исследования поведения самой большой из известных систем - Вселенной, но при одном условии - если принять гипотезу П.Флоренского/С.Булгакова о "всеобщем коммунизме бытия", согласно которой "...единство мироздания делает то, что каждый атом связан со всей вселенной" (Сергей Булгаков "Философия хозяйства").

В каждое испытание в данном исследовании был вовлечен весь массив и на результат в какой-то мере оказывает влияние каждый его элемент. Применение алгоритмов, соответствующих реальным (ограниченным) взаимодействиям не дают "осязаемые" результаты. Впрочем это тоже одна из целей дальнейших работ.

Ханов О.А.
01.10.2010

  Литература

1. Ханов О.А. Вычисление информации, содержащейся в текстах. Журнал "Инновации" 08 (118) август, 2008, с.107-108

2. Пиотровский Р.Г. Лингвистическая синергетика. СПб. Филологический факультет СПбГУ, 2006 ISNB 5-8465-0287-3.

 


Рецензии