![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ЦЭМИ РАН |
||
Проект посвящен исследованиям, связанным с интеграцией лингвистической информации (словосочетаний, терминов, отношений между лексическими единицами) в статистические тематические модели. В рамках проекта: 1. Предложен подход к интеграции двухсловных сочетаний (биграмм) в статические тематические модели, учитывающий компонентную структуру биграмм. Подход был реализован в двух методах SIM (учитывает в тематической модели заданной число заранее извлеченных словосочетаний) и ITER (учитывает в тематической модели словосочетания, которые можно составить из слов в начале тем, построенных по униграммной модели). При тестировании методов на 4 текстовых коллекциях было показано улучшение нескольких характеристик качества тематических моделей, включая перплексию, когерентность, а также понятность тем, согласно человеческим оценкам, по сравнению как с исходными подходами. 2. Подход был расширен на использование многословных словосочетаний, а также многословных терминов из существующих тезаурусов. Эксперименты по оценке качества полученных моделей проведены на пяти текстовых коллекциях. 3. Код алгоритмов PLSA-SIM и PLSA-ITER для двухсловных словосочетаний оформлен в виде открытого программного кода и опубликован по адресу https://bitbucket.org/Meister17/dissertation. 4. Защищена диссертация на степень кандидата физико-математических наук участника проекта Нокеля М.А. «Методы улучшения вероятностных тематических моделей текстовых коллекций на основе лексико-терминологической информации» (https://cs.msu.ru/theses/2238). 5. Предложенный метод для учета словосочетаний использован в задаче определения наиболее частотного значения слова на основе сопоставления статистических тем, полученных для текстовой коллекции, и вектора близких по смыслу слов и словосочетаний, описанных в тезаурусе русского языка РуТез. Показано улучшение предсказания наиболее частотного значения слова по сравнению с униграммной моделью. 6. Предложен подход к интеграции биграмм в якорные тематические модели. К возможным якорям, т.е. словам, которые являются уникальными в конкретной теме тематической модели, добавлены словосочетания. Показано улучшение характеристик качества исходной якорной модели. 7. Предложен комплексный подход к нестатистическому тематическому моделированию, который основан на кластеризации слов и словосочетаний текстовой коллекции, на основе учета совокупности признаков, включая сходство по написанию, смысловое сходство, описанное в тезаурусе, близкое расположение в предложениях текстов, и дистрибутивное сходство. Метод использован в задаче автоматического аннотирования новостных кластеров и показал улучшение характеристик качества для автоматический аннотация (метод Rouge, метод Пирамид) по сравнению с исходным методом. 8. На основе данных ручных оценок семантической близости пар слов (http://russe.nlpub.ru/) было показано, что комбинирование мер встречаемости слов в соседних предложениях с оценкой близости на основе алгоритмов типа word2vec показывает высокое качество предсказания разных типов смысловой близости слов, включая тематическую близость, что может быть использовано в качестве дополнительных признаков в статистических тематических моделях.
грант РФФИ |
# | Сроки | Название |
3 | 19 марта 2016 г.-30 декабря 2016 г. | Исследование методов интеграции лингвистических знаний в статистические тематические модели |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".