Аннотация:В работе рассматривается задача поиска почти-дубликатов текстов школьных сочинений в больших коллекциях данных. Предпосылками к решению данной задачи является возможность школьников применять для написания выпускных сочинений заранее заготовленные тексты, в том числе полученные из открытых коллекций школьных сочинений. Актуальность задачи подтверждается работами, посвященными анализу нарушений при написании академических испытаний, а также частичному переходу школьного образования на удаленный режим. Задача поиска почти-дубликатов рассматривается как задача информационного поиска, где сочинению ставится в соответствие заимствованный текст из коллекции. В рамках рассматриваемой задачи сочинение представляется набором изображений рукописного текста, написанного автором, в то время как документы из коллекции представимы в виде машиночитаемых текстов. В данной работе сравниваются два подхода к поиску почти-дубликатов: поиск на основе методов глубокого обучения и поиск на основе анализа последовательностей длин извлекаемого текста. Поиск на основе методов глубокого обучения использует нейросетевую модель, оптимизация которой производится в режиме обучения с учителем. Работа подхода на основе глубокого обучения состоит из двух этапов. На первом этапе производится распознавание рукописного текста. На втором этапе производится разбиение полученного текста на биграммы и их поиск в индексе коллекции. Второй метод предполагает рассмотрение текста, находящегося в сканах школьных сочинений, как последовательности однородных характеристик текста, например, длин обнаруженных в тексте слов. Производится выделение слов из изображения без дальнейшего его распознавания. По выделенным словам строится последовательность нормированных длин слов, которая является инвариантной для рукописных и машиночитаемых вариантов написания текста. В работе сравнивается качество поиска на примере двух выборок: выборки сочинений, написанных на бланках специального вида, соответствующих бланкам государственного экзамена, и выборки сочинений, написанных на различных видах бланков и тетрадных листах. В качестве коллекций для поиска почти-дубликатов выступает подвыборка открытой коллекции текстов Тайга. Результаты эксперимента демонстрируют применимость обоих методов к рассмотренной задаче. Показано, что нейросетевая модель является более устойчивой к неоднородности данных, и в частности лучше справляется с неодноростью подложки сочинения, а также освещенности и качества сканов. В то же время, при хорошем качестве сканирования изображений и использовании стандартизированных бланков сочинений, оба метода показывают приемлемое качество поиска.