Методы поиска почти-дубликатов рукописных документов в больших коллекциях текстов

Бахтеев, О.Ю.; Грабовой, А.В.; Каприелова, М.С.; Кильдяков, А.С.; Сейил, Т.Б.; Финогеев, Е.Л.; Чехович, Ю.В.

Авторы: Бахтеев Олег Юрьевич, Грабовой Андрей Валериевич, Каприелова Мариам Семеновна, Кильдяков Александр Сергеевич, Сейил Темирлан Батырбекулы, Финогеев Евгений Леонидович, Чехович Юрий Викторович
Сборник: Интеллектуализация обработки информации. 14-я Международная конференция
Год издания: 2022
Издательство: Российская академия наук
Местоположение издательства: Москва
Первая страница: 361
Последняя страница: 364
Аннотация: В работе рассматривается задача поиска почти-дубликатов текстов школьных сочинений в больших коллекциях данных. Предпосылками к решению данной задачи является возможность школьников применять для написания выпускных сочинений заранее заготовленные тексты, в том числе полученные из открытых коллекций школьных сочинений. Актуальность задачи подтверждается работами, посвященными анализу нарушений при написании академических испытаний, а также частичному переходу школьного образования на удаленный режим. Задача поиска почти-дубликатов рассматривается как задача информационного поиска, где сочинению ставится в соответствие заимствованный текст из коллекции. В рамках рассматриваемой задачи сочинение представляется набором изображений рукописного текста, написанного автором, в то время как документы из коллекции представимы в виде машиночитаемых текстов. В данной работе сравниваются два подхода к поиску почти-дубликатов: поиск на основе методов глубокого обучения и поиск на основе анализа последовательностей длин извлекаемого текста. Поиск на основе методов глубокого обучения использует нейросетевую модель, оптимизация которой производится в режиме обучения с учителем. Работа подхода на основе глубокого обучения состоит из двух этапов. На первом этапе производится распознавание рукописного текста. На втором этапе производится разбиение полученного текста на биграммы и их поиск в индексе коллекции. Второй метод предполагает рассмотрение текста, находящегося в сканах школьных сочинений, как последовательности однородных характеристик текста, например, длин обнаруженных в тексте слов. Производится выделение слов из изображения без дальнейшего его распознавания. По выделенным словам строится последовательность нормированных длин слов, которая является инвариантной для рукописных и машиночитаемых вариантов написания текста. В работе сравнивается качество поиска на примере двух выборок: выборки сочинений, написанных на бланках специального вида, соответствующих бланкам государственного экзамена, и выборки сочинений, написанных на различных видах бланков и тетрадных листах. В качестве коллекций для поиска почти-дубликатов выступает подвыборка открытой коллекции текстов Тайга. Результаты эксперимента демонстрируют применимость обоих методов к рассмотренной задаче. Показано, что нейросетевая модель является более устойчивой к неоднородности данных, и в частности лучше справляется с неодноростью подложки сочинения, а также освещенности и качества сканов. В то же время, при хорошем качестве сканирования изображений и использовании стандартизированных бланков сочинений, оба метода показывают приемлемое качество поиска.
Добавил в систему: Чехович Юрий Викторович

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ЦЭМИ РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ЦЭМИ РАН

Методы поиска почти-дубликатов рукописных документов в больших коллекциях текстовстатья