ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ЦЭМИ РАН |
||
Исследуется задача автоматического выделения лексических ядер секций конференции. Данные конференции содержат названия секций и тезисы статей. Каждый доклад конференции эксперты приписывают ровно к одной секции. В тексте доклада уже выделены термины. Требуется так распределить термины по секциям, что каждый термин либо приписывается ровно к одной секции, либо не распределяется ни в одну из них. Можно сказать, что термины, приписанные некоторой секции, составляют ее лексическое ядро. Формально задача описывается трехдольной полужесткой моделью. Исходные данные представляют собой трехдольный граф, содержащий три типа вершин: документы, термины, рубрики, – между которыми задано два отношения: между документами и терминами, и между документами и рубриками. Требуется построить функциональную связь от терминов к рубрикам. Предлагаются и исследуются два метода выделения лексических ядер, основанных на многоклассовом SVM и SVM по схеме “один-против-одного” с линейным ядром соответственно. Результаты проиллюстрированы на данных конференции EURO 2013.