Описание проекта

В ходе реализации проекта предполагается создание информационной системы «Статистические методы анализа литературного текста» (ИС «СМАЛТ»).

Для этого необходимо выполнение следующих задач:

переработка и совершенствование комплекса компьютерных программ для автоматизации морфологического и синтаксического анализа текстов;
увеличение критически выверенной БД данных литературных произведений с морфологическим и синтаксическим параметрами до 300 текстов из публицистики 60-70 гг. 19 века («Время», «Эпоха», «Светоч», «Современник», «Молва», «Библиотека для чтения», «Заря», «Гражданин» и др.);
анализ существующих методов для выявления статистических признаков литературных текстов по жанру и авторству и их программная реализация;
поиск новых параметров классификации литературных произведений и разработка на их основе алгоритмов и их программная реализация;
разработка клиентской части ИС «СМАЛТ».

Предполагается, что основными пользователями ИС будут специалисты-филологи, преподаватели ВУЗов и научные сотрудники, аспиранты и студенты. Предполагаемое число пользователей 2000-3000 человек.

Уже более 6 лет в ПетрГУ ведутся работы по созданию базы данных, содержащей морфологические и синтаксические разборы литературных произведений. К настоящему времени разработаны отдельные модули компьютерных программ для разбора литературных текстов, при помощи которых обработано уже 49 статей из петербургских журналов «Время» и «Эпоха» за период с 1861 по 1865 годы. При этом выделялись 46 морфологических и 23 синтаксических параметра. Исходя из этого, встает следующая важная задача – как максимально полно использовать накопленный материал для работы с текстами в таком виде. Наиболее приемлемый вариант – объединение разрозненных текстов в единую базу данных, которая бы была расположена на сервере, с тем, чтобы при наличии соответствующего программного обеспечения (клиентской части), исследователь мог бы работать с данными из этой БД. Кроме того, предполагается возможность обращения к данной БД через Интернет (через программу-браузер), что, несомненно, привлечет большее количество пользователей. Таким образом, для разработки ИС предполагается использование технологии «Клиент – Сервер». Планируется использование тандема СУБД InterBase для разработки реляционной БД литературных текстов и системы для разработки приложений DELPHI для клиентской части ИС. Для организации Web-интерфейса планируется использования языков программирования PHP и Perl.

Основные элементы ИС:

блок ввода данных, предназначенный для пополнения БД литературных произведений;
аналитический блок, основанный на механизме построения выборок из БД на основе параметров, заданных исследователем, а также, по возможности, графическим представлением их результатов для большей наглядности.

Аналитический блок будет состоять из трех основных модулей: Первый модуль будет ориентирован на выборки из БД, основанные на лингвостатистических параметрах, например, общее распределение длины слова, общее распределение длины предложения, средняя длина предложения в словах, средняя длина слова в буквах, лексический спектр текста на уровне словаря и на уровне текста, индекс разнообразия лексики и т.д. Исследователь сможет самостоятельно задавать объем выборки. Далее предполагается разработка инструментария проверки статистических гипотез: о равенстве средних (текст исключительности) на основе критерия Стьюдента и проверки данных на однородность при помощи непараметрического критерия Колмогорова-Смирнова. Таким образом, исследователь будет иметь в своем распоряжении мощный инструмент для анализа на предмет определения авторства или жанра различных произведений при помощи математической статистики, а также возможность исследования текстов при разных объемах выборок для проверки методик на устойчивость. Второй модуль предназначен для реализации методики атрибуции, основанной на изучении закономерности расположения частей речи в рамках предложения, описанной в монографии Милова Л.В., Бородкина Л.И. и др. «От Нестора до Фонвизина» и опробованной коллективом проекта на анализе публицистических текстов. Третьей частью аналитического блока ИС будет являться модуль, позволяющий на основе методов кластерного анализа: иерархической кластеризации, метода корреляционных плеяд и т.д. измерять близость объектов (в нашем случае литературных произведений), например, на основании параметра «распределение частей речи на первых 3 позициях в предложении». Четвертый модуль аналитического блока зарезервирован для новых методов анализа текстов, основанных на синтаксических параметрах. Кроме этого, проведя анализ научных результатов, полученных исследователями с помощью данной системы, и с учетом рекомендаций пользователей ИС планируется разработка адаптация уже используемых методик, а также разработка новых методик, основанных на комбинации различных параметров.

Архитектура ИС будет построена так, чтобы можно было легко добавлять новые модули, в том числе и для интернет-версии клиентской части. В форме интернет-чата будет разработан виртуальный круглый стол для обсуждения критики полученных результатов. Еще одной важной особенностью проекта будет являться то, что пользователь системы будет иметь возможность конвертации полученных с помощью выборок данных в распространенные форматы для их последующей обработки при помощи известных прикладных программ для статистического анализа или в формат электронных таблиц (в качестве наиболее приемлемого варианта, рассматриваем формат Excel).

Общий план работ:

I этап (январь – июнь 2002 г.): разработка структуры базы данных, для хранения литературных произведений в морфологическом и синтаксическом разборах, наполнение базы уже существующим материалом (около 49 статей); разработка клиентской части ИС для морфологического разбора произведений и ввода их в базу данных; разработка клиентской части и интернет-версии модуля анализа литературных произведений при помощи аппарата математической статистики на основе вышеуказанных лингвостатистических параметров аналитического блока.
II этап (июль – декабрь 2002 г.): разработка клиентской части и интернет-версии модуля анализа литературных произведений на основе методики атрибуции, основанной на изучении закономерности расположения частей речи в рамках предложения; разработка клиентской части и интернет-версии модуля анализа литературных произведений при помощи методов кластерного анализа; ввод 50 новых произведений в БД, отладка и устранение недочетов, разработанного программного обеспечения.
III этап (январь – июнь 2003 г.): разработка клиентской части ИС для синтаксического разбора произведений и ввода их в базу данных; адаптация существующего и разработка нового программного обеспечения для клиентской части и интернет-версии модуля анализа литературных произведений при помощи аппарата математической статистики уже на основе синтаксических признаков; ввод 50 новых произведений в БД.
IV этап (июль – декабрь 2003 г.): разработка клиентской части и интернет-версии модуля анализа литературных произведений при помощи методов кластерного анализа на основе синтаксических признаков; ввод 50 новых произведений в БД, отладка и устранение недочетов, разработанного программного обеспечения.
V этап (январь – июнь 2004 г.): разработка элементов автоматизации ввода текстов; анализ научных результатов, полученных пользователями ИС при ее использовании в исследовательской работе, разработка на их основе новых алгоритмов и адаптация уже существующих; ввод как минимум 50 новых произведений в БД.
VI этап (июль – декабрь 2004 г.): ввод как минимум 50 новых произведений в БД, отладка и устранение недочетов, разработанного программного обеспечения для автоматизации ввода.

К концу 2002 года планируется расширить БД до 100 литературных текстов, полностью завершить разработку и отладку программного обеспечения, которое работает с морфологическими признаками. Планируется выступления на конференциях и публикации в научных изданиях для представления результатов работы и для привлечения специалистов к работе с системой. Предполагаемое число пользователей системы должно составить около 2000 человек. Планируется подготовка и защита кандидатских диссертаций, связанных с ИС.

Проблема разбора литературных текстов по различным морфологическим или синтаксическим параметрам достаточно трудоемка, поэтому попытки решения данной задачи фактически не предпринимались. Для решения различных прикладных задач, связанных с разбором текстов по определенным параметрам, исследователи редко когда подвергали ручной обработке литературное произведение полностью, ограничиваясь лишь выборками, которые в совокупности покрывали не более 10% текста. Естественно, что результаты таких исследований могли содержать невольно допущенные искажения и ошибки и могли подвергаться критике. И что самое важное – это то, что такая трудоемкая работа как обработка текстов фактически не могла быть использована другими специалистами для их исследований. Именно таким образом поступали многие исследователи. Например, известное исследование норвежского специалиста Гейера Хетсо по атрибуции романа «Тихий Дон» было основано на выборках определенного объема из всего текста через определенное число слов. Надо заметить, что аналогичное исследование (т.е. по тем же самым методикам и подходам) Хетсо проводил и по атрибуции Ф.М. Достоевскому ряда анонимных и псевдонимных статей из петербургских журналов «Время» и «Эпоха». Изучив материалы исследования Хетсо, мы пришли к мнению, что результаты данного исследования могут быть ошибочны уже только по одной причине – отсутствие в рабочем материале исследования статей из тех же журналов, но других авторов. Мы решили повторить исследование по тем же методикам, добавив в БД, кроме статей Ф. Достоевского еще и статьи А. Григорьева, Н. Страхова, М. Достоевского. В результате мы получили ошеломляющий результат: оказывается, что по тем же самым методикам не исключалась возможность того, что автором статей заведомо других авторов мог быть Федор Достоевский! Таким образом, это лишний раз показывает условность многих признанных выводов и заключений авторитетных исследователей. Еще один подход для решения подобных задач может быть следующим – это автоматизация морфологического и синтаксического разбора текстов. Эта задача достаточно сложная и практически не имеет удовлетворительного решения, особенно для сложных художественных или публицистических произведений талантливых авторов. Хотя надо отметить, что более-менее удовлетворительные результаты достигаются в коммерческой сфере. В качестве примера можно привести модуль «Правописание» тестового редактора «Microsoft Word», который вполне сносно определяет грамматические ошибки и неплохо разбирается с синтаксисом в довольно простых предложениях. Еще один пример – поисковая машина «Yandex», в которой реализованы достаточно мощные и функциональные алгоритмы разбора по морфологическим и синтаксическим признакам входной информации. Полученные при помощи вышеуказанного программного обеспечения эвристические результаты могут быть использованы для решения различных прикладных задач с достаточно высоким уровнем надежности, но для решения сугубо научных задач требуется дополнительная проверка специалистами полученных результатов. Кроме того, наша задача усложняется тем, что мы планируем, что наша БД будет содержать тексты в авторской орфографии и пунктуации. Мы планируем, учитывая опыт предыдущих исследований, создать и разработать единую БД литературных текстов с морфологическом и синтаксическим разбором, с тем чтобы материал, накопленный многими исследователями, был собран в одном месте. Это делается для того, чтобы специалисты, желающие проводить текстологические исследования определенных произведений, могли беспрепятственно получать (в том числе и через Интернет) необходимые им данные, затрачивая при этом минимальные усилия, что, несомненно, приведет к пересмотру некоторых ранее полученных результатов и, возможно, появлению новых интересных для научного сообщества фактов. С этой точки зрения перед нами стоят 2 сложные задачи. Первая – это задача автоматизации морфологического и синтаксического разборов текстов. Вторая задача – предоставить исследователям инструментарий, основанный на современных математических методах и алгоритмах, который бы помог специалистам в их исследованиях.

На данный момент коллективом разработан и используется программный комплекс «Атрибуция» для компьютеров Macintosh, который позволяет проводить морфологический (до 46 параметров) и синтаксический (до 23 параметров) разборы текстов. При его помощи уже обработано 49 статей из петербургских журналов «Время» и «Эпоха». Данные объединены в базу данных Microsoft Access. На языке Visual Basic for Application разработано программное обеспечение, реализующее различные алгоритмы кластерного анализа, методики, основанной на изучении закономерности расположения частей речи в рамках предложения. Кроме того, реализован механизм получения выборок заданного объема по заданным лингвостатистическим параметрам, с целью проверки данных при помощи различных критериев математической статистики.