Аннотация:Создание системы аннотирования текстов сопряжено со значительными трудностями теоретического и практического плана. Затруднена и оценка качества функционирования этой системы, т.к. документы могут различаться по объему, стилю и лексике. Параметры предложений, позволяющие включить их в резюме, учитывают взвешенную комбинацию статистических и лингвистических свойств. Статистические характеристики отбираются согласно стандартным методам информационного поиска. Лингвистические параметры могут быть получены из анализа резюме, составленных человеком.
Интерес к проблеме автоматического аннотирования вырос с появлением Всемирной паутины и крупных поисковых систем. Были предложены лингвистические, статистические и информационно-ориентированные подходы и их сочетания. Аннотирование происходит на основе сжатия текста с выделением наиболее значимых предложений. Согласно этому методу аннотация документа создается путем объединения отобранных фрагментов исходного текста. Эта парадигма переводит проблему обобщения, требующую способности понимать, интерпретировать, абстрагировать и создавать новый документ, в другую и возможно более простую задачу: ранжировать предложения исходного документа в соответствии с их адекватностью или вероятностью их включения в резюме. Выполненная человеком аннотация фиксированной длины отражает ключевые моменты, которые составитель резюме считает важными. В идеале аннотация, релевантная запросам, должна содержать информацию, которую ищет пользователь, а также исключить нерелевантную и избыточную информацию.
Автоматическое аннотирование текстов можно представить в виде трех этапов обработки: анализ, фильтрация и синтез. На этапе анализа выполняется выделение ключевых слов документа. Из множества способов выделения ключевых слов документа мы остановились на простом и логически обоснованном. К ключевым можно отнести слова, часто встречающиеся в данном тексте. Для составления списка ключевых слов строится частотный словарь документа. Далее берется отношение частоты слова в общей лексике (по словарю Шарова) к частоте слова в документе. Верхняя часть списка слов документа, упорядоченного по указанному отношению, берется в качестве списка ключевых слов. Мы применяем частотный словарь словоформ, чтобы избежать необходимости лемматизации, которая часто дает неоднозначные леммы. Кроме того, ключевые слова фильтруются по их частоте порог, принят равным 3, что исключает случайные вхождения и ошибки написания.
Далее выполняется построение формального контекста – таблицы, в которой столбцы соответствуют ключевым словам (свойства), а строки – номерам предложений содержащих хотя бы одно из ключевых слов (объекты). К формальному контексту применяется метод FCA – Формальный анализ понятий.
В результате работы алгоритма FCA получаем решетку понятий (concept lattice) отражающую иерархию объектов и их свойств. В верхней части этой решетки содержатся понятия (предложения и ключевые слова) отражающие содержание документа. Упорядочив по их номерам найденные таким образом предложения и выписав их в порядке возрастания номеров, получаем аннотацию документа с заданной степенью детализации. Полученный таким образом реферат оценивается экспертом.