Методика, основанная на изучении закономерностей расположения частей речи в рамках предложения "Сильный граф"

В качестве основной характеристики текстов рассматривается матрица частот парной встречаемости грамматических классов слов. Для получения такой матрицы необходимо выбрать систему грамматических классов, достаточно детально описывающую особенности языка данного периода; перекодировать последовательность слов текста в последовательность соответствующих обозначений грамматических классов и подсчитать частоты парной встречаемости для каждой пары классов.

Далее, формализуем алгоритм с помощью теории графов. Будем обозначать такой граф GA(X,V), где X – множество вершин (т.е. грамматических форм), а V – множество дуг (т.е. сильных связей грамматических форм). Граф сильных связей строится по матрице частот парной встречаемости следующим образом. Две вершины графа xi и xj (т.е. два грамматических класса) соединяются дугой (стрелкой, направленной от xi к xj, если частота встречаемости данной пары грамматических классов aij равна или превосходит назначенный порог a. Очевидно, что чем больше величина порога a меньше вершин и дуг содержит граф сильных связей.

При этом возникает важный вопрос: каким должен быть критерий сходства структуры двух графов сильных связей, с помощью которого будет проверяться гипотеза о принадлежности исследуемого текста к какому-нибудь автору? В качестве такого критерия в данной работе взято отношение числа общих для двух сравниваемых текстов «узлов» к суммарному количеству узлов для данных текстов. Узлом называется такая вершина графа, в которую входит более чем b (заданное число) дуг. Другими словами, узлу графа сильных связей соответствует такой грамматический класс слов, который имеет существенные связи более чем с b классами данного текста.

Таким образом, введенный коэффициент r близости двух текстов имеет следующий вид:

где n1, n2 – число узлов в 1-м и 2-м текстах соответственно; а n1,2 – число общих узлов в сравниваемых текстах.
Очевидно, значение коэффициента r заключено в пределах от 0 до 1. В том случае, если сравниваемые тексты не имеют общих узлов, r равно 0; если множества их узлов совпадают, r=1Чем больше доля их общих узлов, тем ближе значение к 1. Этот коэффициент и используется при использовании данной методики атрибуции.

В предварительном исследовании было выделено 16 грамматических классов, где каждый класс обозначал часть речи. Была написана процедура, при помощи которой была получена матрица парной встречаемости грамматических классов. Следующим шагом была задача определения порогового значения сильного графа. Для этого была получена гистограмма относительных парных частот встречаемости для всех текстов. И значение порогабралось из интервала, в который попадало меньше всего данных.