Методы машинного обучения

В последние десятилетия при анализе литературных текстов активно используют
методы машинного обучения. Особое внимание и развитие за последнее время получили
нейронные сети, которые показали свою эффективность в машинном переводе, в задаче
ответа на вопросы и других лингвистических задач. Поэтому возникла задача сравнить их
между собой при атрибуции текстов. Сравнению подверглись следующие методы: дерево
решений, рекуррентные сети и трансформер. Рассмотрим их более подробно.

Трансформер.
За последние несколько лет заметным архитектурным достижением в
области обработки естественного языка является модель трансформера. Столь
простое, но в то же время эффективное решение продвинуло область NLP на новый
уровень. Одним из главных преимуществ является возможность захватывать
долгосрочные зависимости в данных благодаря обработке данных целиком, а не
последовательно, как это происходит в рекуррентных сетях. В совокупности с
возможностью распараллеливания вычислений, это даёт инструмент, способный
обучаться на миллионах текстах и затем генерировать новые и осмысленные.
Ограничения в количестве текстах для данного исследования предполагает возможность
использования менее сложной модели, чем оригинальный трансформер. Из модели был
выбран блок энкодера. Изменены были и гиперпараметры блока:
размер скрытого слоя и эмбеддинга были установлены в 32, а количество голов в блоке
внимания было сокращено до двух.

В качестве обучающей выборки для обучения трансформера использовались статьи
из приложения 1, за исключением текстов 280, 268, 203, 165, 201 Для независимого
тестирования использовались статьи и приложения 2 К которым были добавлены тексты
121 и 206 из приложения 1., как тексты, которые имеют установленное авторство Ф.М.
Достоевского. Разбиение текстов проводилось так же, как и раньше, однако длина отрезка
взята 500 вместо 1000 Иначе получается слишком мало данных для обучения
трансформера. Для тестируемой выборки шаг равен 100 словам, для обучающей равен
длине отрезка с целью предупреждения переобучения. Исследование проводилось как для
оригинальных текстов, так и для текстов состоящих из начальных форм слов, а также для
текстов, в которых слова были заменены частями речи со знаками препинания.

Работа трансформера проверялась с помощью независимого тестировании на
предмет выделения чужеродных фрагментов в тексте. Для этого использовались статьи и
приложения 2 К которым были добавлены тексты 121 и 206 из приложения 1 Способ
классификации отдельных фрагментов аналогичен описанному в главе по Деревьям
решений. Классификация фрагмента, который содержался в различных фрагментах
большего объема истинная классификация которых устанавливалась с помощью
трансформера, осуществлялась по большинству голосов. В результате независимого

Эксперимент 1

  • Hidden=16 – размер скрытого слоя в сети прямой связи внутри трансформера
  • Head =2 – количество голов внимания
  • Epoch=4 количество проходов по обучающему материалу (эпох).
  • Словарь=55к – количество словоформ для анализа, используются наиболее часто
    встречаемые
  • Блоки=1 – количество блоков в конструкции трансформера
  • Batch=32 – количество анализируемых отрезков за 1 проход
  • Embed=32 – преобразование слов в числовой вектор фиксированного размера

Раскраски 1

  • [врм-1861-4-стх-211] Стихотворения А. Н. Плещеева. Новое издание значительно дополненное. Москва. 1861 // Время. – 1861. – Разд. Критическое обозрение. – Т. II. – № 4. – с. 151-162. (раскраска текста)
  • [свт-1860-3-грз-109] Гроза. Драма в пяти действиях А. Н. Островского // Светоч. – 1860. – № 3. – с. 1-36. (раскраска текста)
  • [свт-1860-10-рсс-113] Рассказы из народного русского быта Марка Вовчка. Москва, 1859 г. // Светоч. – 1860. – № 10. – с. 39-48.(раскраска текста)
  • [пх-1864-7-змт-265] Заметки летописца. Июль. Определение нигилизма. // Эпоха. – 1864. – № 7. – с. 1-14.(раскраска текста)
  • [врм-1862-12-кнз-6] Князь Серебряный, повесть времен Иоанна Грозного, соч. графа Алексея Толстого. (Русский Вестник, 1862, август, сентябрь, октябрь) // Время. – 1862. – Разд. Современное обозрение. – № 12. – с. 46-52.(раскраска текста)
  • [пх-1865—змт-291] Заметки летописца, январь // Эпоха. – 1865.(раскраска текста)
  • [пх-1865—змт-284] Заметки летописца, февраль // Эпоха. – 1865.(раскраска текста)
  • [пх-1864-12-змт-282] Заметки летописца. Общий обзор и заключение. // Эпоха. – 1864. – № 12. – с. 15-25.(раскраска текста)
  • [пх-1864-11-змт-281] Заметки летописца. Идеал г. Некрасова. // Эпоха. – 1864. – № 11. – с. 1-16.(раскраска текста)
  • [пх-1864-8-змт-279] Заметки летописца. Август. Народное чувство Московских Ведомостей. // Эпоха. – 1864. – № 8. – с. 1-24.(раскраска текста)
  • [пх-1864-6-змт-264] Заметки летописца. Июнь. Свалка авторитетов. // Эпоха. – 1864. – № 6. – с. 222-243.(раскраска текста)
  • [пх-1864-5-змт-263] Заметки летописца. Май. Русские немцы. // Эпоха. – 1864. – № 5. – с. 247-254.(раскраска текста)
  • [пх-1864-4-змт-262] Заметки летописца. Апрель 1864. О том, как «слезы спят в равнине». // Эпоха. – 1864. – № 4. – с. 368-387.(раскраска текста)
  • [пх-1864-3-змт-261] Заметки летописца. 1864 март. Предисловие. // Эпоха. – 1864. – № 3. – с. 325-347.(раскраска текста)
  • [грж-1873-38-нст-206] Иностранные события // Гражданин. – 1873. – № 38. – с. 1015-1018.(раскраска текста)
  • [врм-1861-3-знм-178] Знаменитые европейские писатели перед судом русской критики // Время. – 1861. – Разд. Критическое обозрение. – Т. II. – № 3. – с. 35-59.(раскраска текста)
  • [врм-1862-3-счн-30] Сочинения К. С. Аксакова. Т. I. Москва. 1861. // Время. – 1862. – Разд. Критическое обозрение. – Т. VIII. – № 3. – с. 79-88.(раскраска текста)
  • [врм-1861-1-птр-121] Петербургские сновидения в стихах и прозе. // Время. – 1861. – Разд. Фельетон. – Т. I. – № 1. – с. 1-22.(раскраска текста)

Эксперимент 2

  • Hidden=32 – размер скрытого слоя в сети прямой связи внутри трансформера
  • Head =1 – количество голов внимания
  • Epoch=4 количество проходов по обучающему материалу (эпох).
  • Словарь=55к – количество словоформ для анализа, используются наиболее часто
    встречаемые
  • Блоки=1 – количество блоков в конструкции трансформера
  • Batch=32 – количество анализируемых отрезков за 1 проход
  • Embed=32 – преобразование слов в числовой вектор фиксированного размера

Раскраски 2

  • [врм-1861-4-стх-211] Стихотворения А. Н. Плещеева. Новое издание значительно дополненное. Москва. 1861 // Время. – 1861. – Разд. Критическое обозрение. – Т. II. – № 4. – с. 151-162.(раскраска текста)
  • [свт-1860-3-грз-109] Гроза. Драма в пяти действиях А. Н. Островского // Светоч. – 1860. – № 3. – с. 1-36.(раскраска текста)
  • [свт-1860-10-рсс-113] Рассказы из народного русского быта Марка Вовчка. Москва, 1859 г. // Светоч. – 1860. – № 10. – с. 39-48.(раскраска текста)
  • [пх-1864-7-змт-265] Заметки летописца. Июль. Определение нигилизма. // Эпоха. – 1864. – № 7. – с. 1-14.(раскраска текста)
  • [пх-1865—змт-291] Заметки летописца, январь // Эпоха. – 1865.(раскраска текста)
  • [пх-1865—змт-284] Заметки летописца, февраль // Эпоха. – 1865.(раскраска текста)
  • [пх-1864-12-змт-282] Заметки летописца. Общий обзор и заключение. // Эпоха. – 1864. – № 12. – с. 15-25.(раскраска текста)
  • [пх-1864-11-змт-281] Заметки летописца. Идеал г. Некрасова. // Эпоха. – 1864. – № 11. – с. 1-16.(раскраска текста)
  • [пх-1864-8-змт-279] Заметки летописца. Август. Народное чувство Московских Ведомостей. // Эпоха. – 1864. – № 8. – с. 1-24.(раскраска текста)
  • [пх-1864-6-змт-264] Заметки летописца. Июнь. Свалка авторитетов. // Эпоха. – 1864. – № 6. – с. 222-243.(раскраска текста)
  • [пх-1864-5-змт-263] Заметки летописца. Май. Русские немцы. // Эпоха. – 1864. – № 5. – с. 247-254.(раскраска текста)
  • [пх-1864-4-змт-262] Заметки летописца. Апрель 1864. О том, как «слезы спят в равнине». // Эпоха. – 1864. – № 4. – с. 368-387.(раскраска текста)
  • [пх-1864-3-змт-261] Заметки летописца. 1864 март. Предисловие. // Эпоха. – 1864. – № 3. – с. 325-347.(раскраска текста)
  • [грж-1873-38-нст-206] Иностранные события // Гражданин. – 1873. – № 38. – с. 1015-1018.(раскраска текста)
  • [врм-1861-3-знм-178] Знаменитые европейские писатели перед судом русской критики // Время. – 1861. – Разд. Критическое обозрение. – Т. II. – № 3. – с. 35-59.(раскраска текста)
  • [врм-1862-3-счн-30] Сочинения К. С. Аксакова. Т. I. Москва. 1861. // Время. – 1862. – Разд. Критическое обозрение. – Т. VIII. – № 3. – с. 79-88.(раскраска текста)
  • [врм-1862-12-кнз-6] Князь Серебряный, повесть времен Иоанна Грозного, соч. графа Алексея Толстого. (Русский Вестник, 1862, август, сентябрь, октябрь) // Время. – 1862. – Разд. Современное обозрение. – № 12. – с. 46-52.(раскраска текста)
  • [врм-1861-1-птр-121] Петербургские сновидения в стихах и прозе. // Время. – 1861. – Разд. Фельетон. – Т. I. – № 1. – с. 1-22.(раскраска текста)