![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ЦЭМИ РАН |
||
В настоящее время развитие технологий в области автоматической обработки текстов определяется наличием доступных программных инструментов и компьютерных ресурсов (словарей, тезаурусов, размеченных коллекций), которые имеются для данного языка. Эффективное развитие подходов к представлению знаний является фундаментальной проблемой. Наибольшим объемом различных доступных ресурсов обладает английский язык. Для русского языка таких ресурсов значительно меньше. Создание тезаурусов и лексических онтологий, описывающих знание о языке и мире в формализованной форме, является очень трудоемкой деятельностью. Однако после их создания и публикования открываются большие возможности для их использования в различных приложениях, включая интегрирование их в существующие статистические подходы. Известно, что тезаурусы типа WordNet очень востребованы и существуют в разной степени готовности для многих языков. Данный Проект направлен на развитие и применение автоматизированных методов анализа больших текстовых коллекций для поддержки тестирования и пополнения больших лексико-семантических ресурсов русского языка. В результате проекта: 1) Будут развиты методы поддержки принятия решений в области создания лексико-семантических описаний в рамках тезаурусов для автоматической обработки текстов, включая: - метод автоматического предсказания гиперонима из тезауруса для новых слов, - метод автоматического выявления устойчивых словосочетаний с семантической нерегулярностью, - метод автоматического обнаружения частотных новых значений слов, не описанных в текущей версии тезауруса, - метод автоматического обнаружения неточностей описания синонимов и отношений гипоним-гипероним в тезаурусе, - метод автоматического обнаружения проблем с транзитивностью отношений гипоним-гипероним. 2) Разработанные методы будут применены к современным текстовым коллекциям двух типов (новостная и сообщения социальных сетей) для тестирования и пополнения опубликованной версии тезауруса русского RuWordNet (http://ruwordnet.ru/ru/). 3) На основе проведенных работ будет подготовлена и опубликована (размещена в Интернете со свободным доступом) новая версия тезауруса RuWordNet. Новая версия тезауруса будут включать до 125-130 тысяч уникальных слов и словосочетаний, до 140 тысяч различных значений. Публикация новых версий тезауруса даст новые возможности для исследователей в области семантического анализа текстов на естественном языке. 4) Для новой версии RuWordNet будет произведено связывание по синсетам (наборам синонимов) с английским тезаурусом WordNet. 5) Тезаурус RuWordNet будет подсоединен к системе Open Multilingual Wordnet, что даст русскоязычным исследователям возможность применения лексико-семантических методов к текстам на различных языках. Так и зарубежные исследователи получат новый мощный инструмент работы с текстами на русском языке. 6) По итогам реализации проекта предполагается опубликовать не менее 8 статей, в том числе не менее 4 в изданиях, индексируемых в Web of Science и Scopus. Не менее двух из них будут опубликованы в изданиях, относящихся к 1 или 2 квартилям. Не менее 5 статей будут написаны совместно коллективом Проекта, относящегося к естественно-научному направлению, и коллективом Проекта, относящегося к социо-гуманитарному направлению.
Currently, the development of technologies in the field of natural language processing is determined by the availability of specialized software tools and computer resources (dictionaries, thesauri, labeled collections) existing for a specific language. Effective development of approaches to the representation of knowledge is a fundamental problem. The largest amount of computational resources is available in English. For the Russian language, such resources are much smaller. The creation of thesauri and lexical ontologies that describe knowledge of language and the world in a formalized form is a very labor-intensive activity. However, once they are created and published, there are great opportunities for using them in various applications, including integrating them into existing statistical approaches. It is known that thesauri WordNet-like thesauri are in demand and exist in varying degrees of readiness for many languages. This project is aimed at developing and applying automated methods for analyzing large text collections to support testing and enriching large lexical and semantic resources of the Russian language. The specific tasks of the project are: 1) The development of specialized methods for testing and enriching created lexical-semantic resources based on large text collections of modern Russian language in order to ensure a representative coverage of lexical system of Russian language, including lexical composition, lexical-semantic relations, and representation of lexical ambiguity, based on the distributional semantics, vector representation of words and deep learning, 2) The use of developed methods for testing and updating of the thesaurus of the Russian language RuWordNet in accordance with revealed deficiencies and inconsistencies, including representation of the most frequent vocabulary, most frequent meanings of words, collocations, used in the modern Russian language, 3) Preparation and publication of new versions of the thesaurus for natural language processing RuWordNet in the form of xml-versions and on the web-site, 4) Automated linking of synsets of Russian thesaurus RuWordNet and English thesaurus WordNet and publication of the resulting resource within the project Open Multilingual Wordnet, which will give the possibility of joining the Russian language to an international network such as WordNet thesaurus.
В результате проекта: 1) Будут развиты методы поддержки принятия решений в области создания лексико-семантических описаний в рамках тезаурусов для автоматической обработки текстов, включая: - метод автоматического предсказания гиперонима из тезауруса для новых слов, - метод автоматического выявления устойчивых словосочетаний с семантической нерегулярностью, - метод автоматического обнаружения частотных новых значений слов, не описанных в текущей версии тезауруса, - метод автоматического обнаружения неточностей описания синонимов и отношений гипоним-гипероним в тезаурусе, - метод автоматического обнаружения проблем с транзитивностью отношений гипоним-гипероним. 2) Разработанные методы будут применены к современным текстовым коллекциям двух типов (новостная и сообщения социальных сетей) для тестирования и пополнения опубликованной версии тезауруса русского RuWordNet. 3) На основе проведенных работ будет подготовлена и опубликована (размещена в Интернете со свободным доступом) новая версия тезауруса RuWordNet. Новая версия тезауруса будут включать до 125-130 тысяч уникальных слов и словосочетаний, до 140 тысяч различных значений. Публикация новых версий тезаурусов дадут новые возможности для исследователей в области семантического анализа текстов на естественном языке. 4) Для новой версии RuWordNet будет произведено связывание по синсетам (наборам синонимов) с английским тезаурусом WordNet. 5) Тезаурус RuWordNet будет подсоединен к системе Open Multilingual Wordnet, что даст русскоязычным исследователям возможность применения лексико-семантических методов к текстам на различных языках. Так и зарубежные исследователи получат новый мощный инструмент работы с текстами на русском языке. 6) По итогам реализации проекта предполагается опубликовать не менее 8 статей, в том числе не менее 4 в изданиях, индексируемых в Web of Science и Scopus. Не менее двух из них будут опубликованы в изданиях, относящихся к 1 или 2 квартилям. Не менее 5 статей будут написаны совместно коллективом Проекта, относящегося к естественно-научному направлению, и коллективом Проекта, относящегося к социо-гуманитарному направлению.
1. Разработка лексико-семантических и терминологических ресурсов Под руководством Н.В. Лукашевич разработана совокупность лингвистических и терминологических ресурсов, которые применяются в различных приложениях автоматической обработки текстов. . Автоматическая обработка текстов на основе тезаурусов и лингвистических онтологий Для использования созданных тезаурусов и лингвистических технологий были созданы ряд технологий автоматической обработки текстов. Была предложена и программно реализована модель построения тематического представления текстов, которое представляет основное содержание текста в виде совокупности тематических узлов, объединяющих близкие по смыслу термины описанные в тезаурусе. Тематические узлы делятся на основные и локальные. Основные тематические узлы моделируют основных участников ситуации, описываемой в документе. На основе создаваемого тезауруса и тематического представления текстов были реализованы технологии автоматического концептуального индексирования, автоматической классификации текстов, автоматического аннотирования. . Методы автоматического извлечения информации из текстов Ряд исследований были направлены на методы извлечения информации из текстов. Методы извлечения терминов из текстов стали основной создания тезаурусов в разных предметных областях (Лукашевич, Добров, 2001; Добров и др., 2004). С 2008 нами исследуются методы извлечения терминов из текстов на основе предварительного вычисления большого количества признаков терминов-кандидатов и последующего применения методов машинного обучения для комбинирования этих признаков (Лукашевич, Логачев 2010; Nokel, Loukachevitch, 2013).
КФУ | Координатор |
грант РФФИ |
# | Сроки | Название |
1 | 14 января 2019 г.-30 декабря 2020 г. | Автоматические методы тестирования, пополнения и связывания больших лексико-семантических ресурсов |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".