Методика, основанная на методах математической статистики, предложенная Г. Хетсо.

В 1979 году известный специалист по использованию компьютерных технологий в атрибуции литературных произведений Гейер Хетсо предпринял исследование проблемы атрибуции ряда анонимных статей в журналах «Время» и «Эпоха» (Хетсо Г. Принадлежность Достоевскому: к вопросу об атрибуции Ф.М. Достоевскому анонимных статей в журналах «Время» и «Эпоха». SOLUM FORLAG A.S.: OSLO 1986.).

Выбираются 7 параметров:

Средняя длина слова в буквах, вычисляемая на основании выборок размером 500 текстовых слов. Общее распределение длины слова. Средняя длина предложения в словах, вычисляемая на основании выборок размером в 30 предложений. Общее распределение длины предложения. Лексический спектр текста на уровне словаря. Лексический спектр текста на уровне текста. Индекс разнообразия лексики.

В исследовании Г. Хетсо используется общий принцип применения статистических методов. Для каждого метода определялась критическая граница αкр и для каждой статьи определялся числовой параметр α., проверялись две гипотезы: Н1 – {если α < αкр , то статья скорее всего принадлежит Достоевскому}; Н2 – {если α > αкр , то статья скорее всего не принадлежит Достоевскому} и формулировалось заключение.

1. Средняя длина слова в буквах

Суть исследования по данному параметру сводится к проведению теста однородности (исключительности) по критерию Стьюдента. Выдвигается гипотеза о равенстве средних для двух выборок, одна из которых включает общую выборку по всем произведениям Достоевского, а затем на основе сравнения полученной выборочной величины с критическим значением для определенного уровня надежности, либо гипотеза принимается, либо отклоняется, что означает исключение возможности того, что рассматриваемый текст принадлежит Достоевскому. Для того, чтобы провести тест однородности, необходимо произвести выборки одинаковой длины из исследуемых текстов. Проводится исследование с выборками разных объемов: в 200, 300, 400, 500 и 600 слов. Тексты меньше, чем объем выборки, не рассматривались.

Задавшись определенным объемом выборки, получаются для каждого текста следующие характеристики:
- n – число выборок;
- m – средняя длина слова в выборке (или в выборках, если текст состоит из нескольких выборок);
- s2 – дисперсия. Кроме того, дополнительно рассматривается выборка «Весь Достоевский» (ВД), состоящая из объединения только статей Достоевского в общую статью, для которой также получаются свои числовые характеристики. Для правомерности использования теста однородности, необходимо, чтобы выборка по всему Достоевскому имела нормальное распределение. При помощи пакета «Statistica» можно провести тесты на предмет согласованности данной выборки с нормальным распределением. Используется критерий Стьюдента в виде:

где m1 и m2 – сравниваемые средние частоты, n1 и n2- число выборок, и sd – несмещенная оценка среднего квадратичного отклонения в двух выборках, вычисляемая по формуле:

В итоге, получаются числовые значения критерия Стьюдента для всех статей. Среди группы статей Достоевского выявляется статья с максимальным значением t-характеристики. Среди группы атрибутируемых статей и статей других авторов исключаются статьи со значением t-характеристики большим фиксированного, т.е. статей гипотеза об авторстве Достоевского отвергается.

2. Общее распределение длины слова.

По этому параметру были получены данные об общем распределении длины слова во всех текстах, т.е. сколько в каждом тексте слов, имеющих по 1, 2, 3, …, 16 и более буквам. Ставится задача определения вероятности того, что распределения длин слов в буквах в двух статьях, одна из которых объединение статей Достоевского – ВД, взяты из одной и той же «генеральной совокупности» и подчиняются одним и тем же вероятностным закономерностям.
Используется непараметрический критерий Колмогорова-Смирнова, измеряющий разницу между накопленными частотами в сравниваемых текстах по формуле:

, где dmax обозначает максимальную разницу между накопленными относительными частотами, и n1 и n2 – количество слов в сопоставляемых текстах. Как и в предыдущем случае, исключаем из группы атрибутируемых статей те из них, которые имеют больший коэффициент λ, чем у максимального в группе ВД.

3. Средняя длина предложения в словах

По данному параметру проверяется тест однородности, так же как и для параметра «средняя длина слова». Для этого получаются данные о средней длине предложения в выборках размером в 30 текущих предложений для каждого текста. Выборки проверяются на согласованность с нормальным распределением.

4. Общее распределение длины предложения

Исследование по этому параметру основывается на использовании непараметрического критерия Колмогорова-Смирнова, так же как и в случае с параметром «общее распределение длины слова». Информация об общем распределении длины предложения получается по интервалам в 1-5, 6-10, 11-15, …, 61 и более предложения.

5. Лексический спектр текста на уровне словаря и лексический спектр текста на уровне текста

Каждую статью разбивают на части по 500 слов. Лексический спектр установлен на основе частотного словаря для каждой части статьи. Для этого все словоформы распределяются в группы по частоте встречаемости в исследуемой части (1, 2, 3, …, 10 и более раз). Число словоформ в каждой группе характеризует лексический спектр текста на уровне словаря. Для определения лексического спектра на уровне текста рассматривается число словоформ в каждой группе, умноженное на частоту встречаемости слов из этой группы (у Г. Хетсо этот параметр назван «покрываемость текста»). Если текст состоит из нескольких групп, то число словоформ в каждой группе суммируется.
Для проверки теста однородности использовался критерий Колмогорова-Смирнова.

6. Индекс разнообразия лексики

Как отмечалось, в лингвостатистике принято измерять богатство лексики текстов при помощи так называемого индекса разнообразия лексики, т.е. при помощи отношения числа разных словоформ к числу словоупотреблений.
Таким образом, при помощи индекса разнообразия лексики исследуется степень повторяемости в словаре писателя. При этом подразумевается, что писатель, употребляющий те же самые слова, имеет, или, во всяком случае, демонстрирует, менее богатый словарь, чем писатель, употребляющий по мере развития текста все новые и новые слова. Г. Хетсо подчеркивал исключительную важность данного параметра: общеизвестна тяга Достоевского к повторению одних и тех же слов и выражений.
В исследовании получают списки с указанием числа разных словоформ на каждые 200, 300, 400, 500 и 600 новых текстовых слов.
Данные проверяются на их согласованность с нормальным распределением при помощи различных критериев. Используется критерий Стьюдента для исследования на основе данного параметра.

СМАЛТ

Информационная система «Статистические методы анализа литературного текста»

Методика, основанная на методах математической статистики, предложенная Г. Хетсо.