Справочная информация по работе с информационной системой СМАЛТ

Импорт текстов (уровень "Модератор")

Импорт текстов выполняется из текстовых файлов. Разбиение на параграфы осуществляется с помощью перевода строки, т.е. предложения в параграфе должны быть представлены без перевода строк. Для получения текстового файла из файла MS Word (*.doc, *.docx) необходимо открыть исходный файл в текстовом редакторе и сохранить его в текстовом формате (*.txt).

Для импорта текстов необходимо перейти на форму импорта через меню "Управление"->"Импорт текстов" или по прямой ссылке. Форма состоит из полей описания текста, кнопок импорта и анализа текста и блока отображения результатов обработки текста. Рекомендуется выполнять импорт текстов в следующей последовательности:

  1. Заполнить поля описания текста и указать используемый файл
  2. Нажать кнопку "Анализ текста". Проверить результат успешного анализа:
    • Отображение фразы Found ХХХ sections", где ХХХ - количество строк в файле
    • Отображение слов и их позиций в тексте (позиция в квадратных скобках, например "[1:2:5:11]"). Если слово найдено в БД, то выводится в скобках номер слова и код части речи (например, "профессоръ(12227,P=0)"). Если слово не найдено в БД, то отображается фиолетовым цветом (например, "подворотню"). ВАЖНО проверить правильность написания ненайденных слов для исключения ошибок в работе алгоритма импорта.
    • Отображение статистик после текста (например, "Miss: 395, Hit: 210, Total: 605 Not found: 57")
    Если в ходе анализа текста отображение текста прерывается сообщением об ошибке, то наиболее вероятная причина - использование неизвестного ранее символа в тексте. Необходимо сообщить разработчикам об отсутствующем символе приложив к письму текстовый файл.
  3. Нажать кнопку "Импорт текста". В результате будет отображен внутренний номер текста, результат анализа (см. работу кнопки "Анализ текста") и сообщение о загрузке файла с оформлением с кодом текста. Импорт будет успешным, если после текста отображаются статистики и код текста.

Возможное нестандартное поведение:

Импорт оригиналов и подложек текстов (уровень "Модератор")

ИС СМАЛТ поддерживает хранение оригиналов текстов для просмотра и использоватие специально оформленных текстовых файлов (файл с оформлением или подложка) для отображения оформления и пунктуационных знаков в тексте.

Импорт оригиналов и подложек текстов доступен при просмотре текста. Для импорта на странице текста необходимо нажать кнопку "Импорт текста". В форме загрузки файлов доступна загрузка файла с оформлением (только простой текст в кодировке UTF-8) и оригинального текста (поддерживаются форматы простого текста, MS Word и PDF). Допускается указание как оригинала и подложки по отдельности, так и одновременное указание обоих файлов. После указания файлов необходимо нажать кнопку "Импорт текста". В результате будут отображены сообщения с результатами импорта оригинала и подложки. Возможны следующие варианты:

Просмотр фрагмента текста

Отображение фрагментов текста позволяет выделить требуемый фрагмент в текстовом произведении. Для посмотра фрагментов текста необходимо перейти на форму просмотра через меню "Исследования"->"Фрагменты текстов" или по прямой ссылке. Форма состоит из полей определения параметров выделения (размер фрагмента, № фрагмента, размер отступа) и блока отображения результатов выделения.

Для выделения фрагмента используется размер фрагмента (размер выборки), а также его смещение относительно начала текста. Смещение вычисляется на основе номера отступа и его размера, например, 3 отступ размера 10 дает смещение в 30 слов. Номер отступа является номером фрагмента.

Пример. Размер фрагмента 15, размер отступа 10. В результате имеем следующие фрагменты:

Система позволяет указать несколько фрагментов используя общепринятое обозначение перечисления и диапазона. Например, для размера фрагмента 15 и размера отступа 10, указание номеров фрагментов в виде "1-3,5,7" приводит к выделению следующих диапазонов слов: с 10 по 45, с 50 по 65 и с 70 по 85.

Кроме просмотра фрагмента можно также выделить комбинации частей речи, используемых в тексте. Для этого в полях "Часть №..." нужно выбрать необходимую часть речи. Также можно показывать только совпадения в началах предложений указав соответствующий флаг.

После выбора текста, фрагмента(ов) и/или комбинации частей речи необходимо нажать кнопку "Отобразить". В результате будет отображена библиографическая запись текста, а также сам текст с выделением требуемых фрагментов и комбинаций часте речи.

Генератор текстов

Модуль генерации текстов позволяет создать новый текст на базе существующего. Алгоритм работы генератора: последовательно выбираются фрагменты из каждого текста, далее происходит замещение в размерах доли вставки. Модуль имеет переключатель режима работы генерации "По параметрам - По коду".

Генерация по параметрам

Выбираются заранее созданные и опубликованные списки текстов. Если включена опция "Случайные тексты", то тексты из списков выбираются случайно. При отключении опции появляются поля для выбора конкретных текстов из списков.

Доля вставки принимает значения от 0.01 до 0.95 и регулирует процентное соотношение объема замещенного текста к объему исходного текста. Размер фрагмента указывается в словах.

Опция "Делать привязку к границам предложений" позволяет скорректировать границы фрагмента в соответствии с ближайшими границами предложений (по умолчанию на расстоянии не более 10 слов). После включения данной опции доля фактической вставки может существенно отличаться от ожидаемой.

В результате работы генерации по параметрам выводятся ссылки на оригиналы текстов, код (кнопка "Создать код") или код+текст (кнопка "Создать текст"). Формат кода - "A1S0E5B2S1E6...", где A1 - id основного текста, B2 - id вставляемого текста, S0(S1) - начала, E5(E6) - концы соответствующих фрагментов. При переходе по ссылке прикрепленной к коду отображается текст. В итоговом тексте выделяются цветом новые фрагенты (из другого текста).

Генерация по коду

Генерация по коду позволяет создать текст исключительно на основе кода. В результате работы генерации выводятся ссылки на оригиналы текстов и получившийся текст.

Экспорт

Итоговый текст возможно скачать с помощью кнопки "Экспорт текста" (формат txt), а также сохранить его разбор - "Экспорт разбора" (формат csv).

Сильный граф (визуализация)

Модуль отображения позволяет визуализировать графовые представления текстов, обрабатывать их в соответствии с параметрами методики, а также сравнивать. Графовая модель для текстов строится на основе матрицы частот парной встречаемости грамматических классов.

Методике соответствуют два параметра:

Модуль имеет переключатель режима работы "Одиночный граф - Сравнение двух графов". В первом случае происходит настройка и генерация изображения одной графовой модели текста, во втором - двух с наложением и выделением общих и отличающихся частей.

Одиночный граф

В данном режиме доступны цветовые настройки вершин, ребер графа, а также фона изображения. Для формы вершин представлено 58 вариантов фигур. Для настройки отображения графа - 8 вариантов компановки. Более подробно об атрибутах настройки изображений можно узнать в документации по graphviz.

В качестве дополнительных возможностей доступны опции "Изменять размер вершин" и "Показывать двойные стрелки" для улучшения восприятия изображения. При включении опции "Изменять размер вершин" размер каждой вершины изменяется в зависимости от полустепени захода. При включении опции "Показывать двойные стрелки", если между любыми двумя вершинами есть взаимные связи, то вместо двух ребер проводится одно двунаправленное.

Сравнение двух графов

В данном режиме доступны цветовые настройки для ребер и вершин соответсвующих только 1 графу, только 2 графу и общим частям двух графов.

Помимо опций "Изменять размер вершин" и "Показывать двойные стрелки", описанных ранее, доступны опции "Показывать легенду" и "Черно-белая печать". При включении опции "Показывать легенду" рядом с изображением графовой модели выводится легенда цвета. При включении опции "Черно-белая печать" изменяются типы линий каждой части графа для их распознавания при печати изображения в черно-белом варианте, также при выводе легенды добавляются типы линий.

Экспорт

Полученные изображения можно скачать в различных популярных форматах: PNG, SVG, GIF, JPG, JPEG, PDF с помощью кнопки "Экспорт".

Также имеется возможность скачать обработанные матрицы смежности для моделей в виде таблиц Excel с помощью соответствующей кнопки.

Редактирование списка авторов (уровень "Модератор")

Список авторов хранится в отдельной таблице. Каждый автор описывается следующим набором полей:

Для редактирования авторов используется специальная форма, доступная через меню "Управление" -> "Авторы текстов" или по прямой ссылке. Форма состоит из таблицы с перечнем записей описаний текущих авторов. Ф.И.О. автора можно выбрать из списка существующих. При изменении полей соответствующая запись подсвечивается красным. Для каждой записи возможно использование следующих кнопок:

Крайне рекомендуется перед изменением или удалением записи описания автора проверить его использование с помощью кнопки "Контекст".

Для добавления новой записи описания автора низу формы закреплена отдельная строка со следующими кнопками:

Добавление автора выполняет перезагрузку страницы с отображением нового списка авторов.