Проблема несбалансированности данных возникает при решении целого ряда различных задач. Алгоритм предпочтительно выбирает класс, который преобладает. Критичной является ситуация, при которой миноритарный — с меньшим количеством данных — класс не предсказывается алгоритмом. Так, аналогичным является пример, когда на 10 000 (первый класс) выздоровевших выявлено 10 (второй класс) умерших, которые с субъективной точки зрения важнее, чем поправившиеся люди, но в количественном соотношении их в разы меньше.

Существует множество способов борьбы с ликвидацией классового дисбаланса: undersampling (прием, при котором удаляются примеры мажоритарного класса), oversampling (прием, при помощи которого создаются копии исходного фрагмента для получения необходимого объема для исследования), SMOTE (прием, позволяющий искусство сгенерировать данные). При использовании следующих приемов возникают некоторые проблемы. Так, если применять undersampling, то теряется информация о мажоритарном классе с большим количеством данных. Oversampling не всегда дает корректные результаты, поскольку не создает новой информации о миноритарном классе. Он ее дублирует. SMOTE не способен восстановить распределение миноритарного класса для решения поставленной задачи.

Представленные способы направлены на работу с данными. Они не применяются для самих алгоритмов, поэтому необходимо использовать модифицированные приемы, например, underbagging.

В случае задачи бинарной классификации, можно рассмотреть случай несбалансированной выборки с первым мажоритарным классом (Рисунок 1.а).

Рисунок 1 (а) – полная выборка. Синим отмечен мажоритарный класс, красным – миноритарный (б) – подвыборки, полученные с помощью случайного разбиения всей выборки

Формирование новых подвыборок (Рисунок 1.б) происходит следующим образом:
  1. выбираются все n экземпляров миноритарного класса;
  2. случайным образом выбрирается n экземпляров мажоритарного класса без возвращения.

Таким образом, получается k новых подвыборок, где .

Каждая подвыборка служит набором данных для дерева решений (Рисунок 2.а). Обученные таким образом деревья решений являются лесом и используются для предсказания новых экземпляров путем голосования (Рисунок 2.б).

Рисунок 2 (а) – полученные подвыборки используются для обучения деревьев решений (б) – метка данных определяется голосами большинства деревьев

Деревья решений построены с помощью библиотеки Scikit-Learn [1] на языке Python 3.7.

Список литературы:
  1. Pedregosa F. et al. Scikit-learn: Machine learning in Python //the Journal of machine Learning research. – 2011. – Т. 12. – С. 2825-2830.
  2. Thabtah F. et al. Data imbalance in classification: Experimental evaluation //Information Sciences. – 2020. – Т. 513. – С. 429-441.
  3. Wang S., Yao X. Diversity analysis on imbalanced data sets by using ensemble models //2009 IEEE symposium on computational intelligence and data mining. – IEEE, 2009. – С. 324-331.

Выполнен анализ ряда произведений на сопоставление Ф.М. Достоевского и Страхова методом деревьев решений:
  • [пх-1864-3-змт-261] Заметки летописца. 1864 март. Предисловие. // Эпоха. – 1864. – № 3. – с. 325-347. (раскраска текста);
  • [пх-1864-4-змт-262] Заметки летописца. Апрель 1864. О том, как «слезы спят в равнине». // Эпоха. – 1864. – № 4. – с. 368-387. (раскраска текста);
  • [пх-1864-5-змт-263] Заметки летописца. Май. Русские немцы. // Эпоха. – 1864. – № 5. – с. 247-254. (раскраска текста);
  • [пх-1864-6-змт-264] Заметки летописца. Июнь. Свалка авторитетов. // Эпоха. – 1864. – № 6. – с. 222-243. (раскраска текста);
  • [пх-1864-7-змт-265] Заметки летописца. Июль. Определение нигилизма. // Эпоха. – 1864. – № 7. – с. 1-14. (раскраска текста);
  • [пх-1864-8-змт-279] Заметки летописца. Август. Народное чувство Московских Ведомостей. // Эпоха. – 1864. – № 8. – с. 1-24. (раскраска текста);
  • [пх-1864-10-змт-280] Заметки летописца. Последние два года в Петербургской журналистике. // Эпоха. – 1864. – № 10. – с. 1-19. (раскраска текста);
  • [пх-1864-11-змт-281] Заметки летописца. Идеал г. Некрасова. // Эпоха. – 1864. – № 11. – с. 1-16. (раскраска текста);
  • [пх-1864-12-змт-282] Заметки летописца. Общий обзор и заключение. // Эпоха. – 1864. – № 12. – с. 15-25. (раскраска текста);
  • [пх-1865—змт-284] Заметки летописца, февраль // Эпоха. – 1865. (раскраска текста);
  • [пх-1865—змт-291] Заметки летописца, январь // Эпоха. – 1865. (раскраска текста).

Выполнено сопоставление Ф.М.Достоевского и кн.Мещерского методом леса решений для следующих текстов:
  • [грж-1873-33-твт-158] Ответ на протест. Письмо к редактору // Гражданин. – 1873. – № 33. (раскраска текста);
  • [грж-1873-4-сбр-159] Соборяне. Старгородская хроника. Н. Лескова (Стебницкого). // Гражданин. – 1873. – № 4. (раскраска текста);
  • [грж-1874-10-твт-160] Отвѣтъ хорошенькой женщины старичку Олицу // Гражданин. – 1874. – № 10. (раскраска текста);
  • [грж-1874-5-лбв-161] О любви къ скандалу // Гражданин. – 1874. – № 5. (раскраска текста);
  • [грж-1873-22-ншс-168] Наши студентки // Гражданин. – 1873. – № 22. (раскраска текста);
  • [грж-1873-31-свж-187] СВѢЖЕЙ ПАМЯТИ Ѳ. И. ТЮТЧЕВА. // Гражданин. – 1873. – № 31. (раскраска текста);
  • [грж-1874-9-втн-190] Вот наш ответ анониму. // Гражданин. – 1874. – № 9. (раскраска текста);
  • [грж-1873-1-лкс-266] Алексей Слободин. Семейная история. «Вестник Европы». 1872. Октябрь, ноябрь и декабрь // Гражданин. – 1873. – № 1. – с. 21-23. (раскраска текста);

Выполнено сопоставление Ф.М.Достоевского и М.М.Достоевского методом деревьев решений для следующих текстов:
  • [свт-1860-3-грз-109] Гроза // Светоч. – 1860. – № 3. (раскраска текста)
  • [свт-1860-0-рзс-113] Разсказы изъ народнаго русскаго быта Марка Вовчка // Светоч. – 1860. (раскраска текста)
  • [врм-1861-4-стх-211] Стихотворения А. Н. Плещеева. Новое издание значительно дополненное. Москва. 1861. // Время. – 1861. – Разд. Критическое обозрение. – Т. II. – № 4. – с. 151-162. (раскраска текста)
  • [врм-1862-3-счн-30] Сочинения К. С. Аксакова. Т. I. Москва. 1861. // Время. – 1862. – Разд. Критическое обозрение. – Т. VIII. – № 3. – с. 79-88. (раскраска текста)

Выполнено сравнение двух текстов методом деревьев решений на предмет внесения редакционных правок Ф.М.Достоевским:
  • [врм-1861-3-знм-178] Знаменитые европейские писатели перед судом русской критики. // Время. – 1861. – Разд. Критическое обозрение. – Т. II. – № 3. – с. 35-59. (раскраска текста);
  • [врм-1862-12-кнз-6] Князь Серебряный, повесть времен Иоанна Грозного, соч. графа Алексея Толстого. (Русский Вестник, 1862, август, сентябрь, октябрь. // Время. – 1862. – Разд. Современное обозрение. – № 12. – с. 46-52. (раскраска текста).