Методы структурирования трудноформализуемых предметных областей на основе автоматизированного формирования больших графов знаний и онтологий по разнородным потокам текстовых данныхНИР

Methods for structuring illformalize subject domains base on the automated generation of large knowledge graphs and ontologies on heterogeneous streams of text data

Источник финансирования НИР

госбюджет, раздел 0110 (для тем по госзаданию)

Этапы НИР

# Сроки Название
1 1 января 2020 г.-31 декабря 2020 г. Разработка методов автоматического пополнения больших лингвистических онтологий таксономическими отношениями, методов извлечения редких типов именованных сущностей
Результаты этапа: В 2020 году были получены следующие результаты. 1) В сотрудничестве с коллегами из Сколтеха было организовано и проведено научное соревнование по методам автоматического пополнения таксономических отношений больших лингвистических онтологий. Основой соревнования являлось сформированное обучающий и тестовый наборы данных. Участники тестирования должны были дополнить существующую таксономию RuWordNet новыми словами: для каждого нового слова их системы должны предоставлять ранжированный список возможных гиперонимов, т.е. ближайших родовых слов. По сравнению с предыдущими заданиями для других языков, данное тестирование имеет более реалистичную постановку задания: новые слова предоставлены без толкований. Вместо этого был предоставлен текстовый корпус, в котором встречаются эти новые слова. Для проведения тестирования был создан новый набор данных на основе неопубликованных данных тезауруса RuWordNet. Задача тестирования состоит из двух подзадач: «существительные» и «глаголы». В задании приняли участие 16 мсследовательских групп, показавших высокие результаты, более половины из них превзошли базовый подход, рассчитанный организаторами тестирования. 2) Проведено исследование моделей и методов пополнения больших лингвистических онтологий с использованием методов машинного обучения. Исследованы подходы для извлечения отношений гипоним-гипероним (класс-подкласс), которые являются основной большинства онтологий и графов знаний. Существенной является задача автоматического пополнения онтологий на основе больших текстовых корпусов. В рамках тестирования RUSSE-2020 был реализован метод для пополнения существующей таксономии в тезаурусе RuWordNet. Метод включал использование следующих признаков для пополнения таксономии: -- Дистрибутивные векторные модели (word2vec, PMI+SVD), -- Специальные типы шаблонов, -- Использование структуры существующего тезауруса, -- Нейросетевая архитектура transformer в виде модели BERT для решения задачи классификации. Результатом алгоритма является ранжированный список из 10 кандидатов гиперонимов. Оценка качества проводилась на основе метрик MAP и MRR. В результате описанный подход получил 4 место в соревновании по предсказанию гиперонимов среди существительных. Особенностью подхода является то, что среди первых 5 решений участников, только в данном решении не использовались сторонние словари и внешние векторные представления, обученные на других, более крупных, наборах данных. Это важно по той причине, что приближает к реальной ситуации, когда необходимо расширить существующий тезаурус на новый набор данных. Представленный подход является новым и уникальным для задачи предсказания гиперонимии для расширения тезауруса. То, что данный подход получил высокие результаты, не используя внешние словари и векторные представления по другим наборам данных, также является преимуществом данного подхода. 3) Разработана и опубликована обновленная версия лингвистической онтологии RuWordNet. В рамках сотрудничества с сообществом Global WordNet Association планируется публикация версии RuWordNet в формате Open Multilingual WordNet. Объем новой версии составляет более 135 тысяч слов и выражений. 4) Исследованы возможности больших предобученных моделей для решения актуальных задач при построении информационно-аналитических систем – извлечение именованных сущностей «редких» типов. Исследованы подходы к улучшению качества извлечения именованных сущностей в конкретной предметной области за счет автоматической доразметки текстовой коллекции и обучения специализированной версии юольшой языковой модели BERT для заданной предметной области. Для экспериментов был использован корпус новостных статей и комментариев в области компьютерной безопасности Sec_col. Для этого модель RuBERT была дообучена на текстовой коллекции новостей и комментариев в области компьютерной безопасности (RuCyBERT). Замена исходного RuBERT на дообученный RuCyBERT приводит к значительному росту качества извлечения именованных сущностей. Кроме того, были исследованы возможности пополнения обучающей коллекции за счет использования списка дескрипторов (слов, стоящих перед именем, например: вирус PETYA), соответствующих каждому типу именованных сущностей. Основная идея метода состоит в том, что неразмеченные предложения автоматически модифицируются, путем добавления именованных сущностей рядом или вместо дескриптора. Таким образом можно генерировать большое количество предложений с псевдо разметкой. Подобное можно сделать и уже с размеченными данными, добавляя в них новые сущности. В экспериментах было показано, что использование модели BERT, настроенной на коллекции текстов заданной предметной области и предварительно обученной на сочетании общего набора данных и дополнительно порожденных данных, обеспечивает наилучшие результаты распознавания именованных сущностей. Мы также изучили вычислительную производительность модели BERT в так называемом режиме смешанной точности. Был обучен новый вариант модели BERT для русского языка: RuNewsBERT. Обучение было выполнено следующим образом: (а) Инициализация весов от RuBERT (Burtsev et al., 2018), (б) Текстовая коллекция: 8 миллионов новостей, собранных с различных русскоязычных источников, (в) Обучение проводилось на системе DGX-2 на 16 видеокартах V100, (г) Обучение происходило только на задаче MLM, в каждом документе обрабатывались первые 512 токенов, (д) Для обучения потребовались 4 миллиона итераций, что заняло примерно один месяц. 5) Проведены исследования методов определения тональности с использованием нейросетевых методов с механизмом «внимания». Создана и опубликована новая версия словаря оценочной лексики RuSentiFrames. Тексты могут передавать несколько типов взаимосвязанной информации, касающейся мнений и отношений. Такая информация включает отношение автора к упомянутым сущностям, отношение сущностей друг к другу, положительное и отрицательное влияние на сущности в описанных ситуациях. В лексиконt RuSentiFrames для русского языка предикатные слова и выражения собраны и связаны с так называемыми оценочными фреймами, передающими несколько типов предполагаемой информации об установках и эффектах. Мы применили созданные фреймы для извлечения оценочных отношений между именованными сущностями из большой коллекции новостей. Исследованы возможности недавно появившейся архитектуры BERT по сравнению с традиционными подходами на основе нейронных сетей (CNN, LSTM, BiLSTM) на существующих размеченных наборах данных для анализа тональности на русском языке. Сравнивались два варианта архитектуры BERT, дообученной на русском языке: (а) обученный на новостях и Википедии и (б) обученный на комментариях, постах в социальных сетях (разговорный вариант). Было показано, что для всех рассмотренных задач тональности в этом исследовании разговорный вариант русского BERT работает лучше. Наилучшие результаты были достигнуты с помощью модели BERT-NLI, которая рассматривает задачи классификации тональности как задачу логического вывода на естественном языке. По одному из наборов данных эта модель практически достигает человеческого уровня. Рассмотрена задача извлечения оценочных отношений между именованными сущностями, упомянутыми в тексте. Предлагается подход на основе нейросетевых кодировщиков контекста, основанных на внимании. Для этой задачи был адаптированы кодировщики контекста двух типов: (а) функционально-ориентированные; (б) основанные на самовнимании. В исследовании использовался корпус русскоязычных аналитических текстов RuSentRel и автоматически построенный новостной датасет RuAttitude для обогащения обучающей выборки. Задача выделения отношения рассматривалась как двухклассовая (положительный, отрицательный) и трехклассовая (положительный, отрицательный, нейтральный) для всего документа. Эксперименты с корпусом RuSentRel показали, что трехклассовые модели классификации, которые используют корпус RuAttitude для обучения, приводят к увеличению на 10% и дополнительным 3% на F1, когда архитектуры моделей включают механизм внимания. Также были проанализированы распределения весов внимания в зависимости от типа контекста.
2 1 января 2021 г.-31 декабря 2021 г. Разработка методов автоматизированного формирования больших лингвистических предметной области, методов извлечения сложных типов именованных сущностей, исследование методов автоматизированного формирования графов знаний
Результаты этапа: (1) По направлению выявления сложных текстовых образов именованных сущностей – вложенных, разрывных, неполных - сформирован NEREL - новый датасет на русском языке с размеченными именованными сущностями и отношениями между ними. Особенностью NEREL является разметка вложенных именованных сущностей и их отношений. Отношения между сущностями размечаются в рамках связного текста и не ограничиваются уровнем предложения. (2) По направлению разработки методов автоматического пополнения больших лингвистических онтологий (с небольшим количеством фиксированных отношений) предметной области - получен результат, что комбинации векторных представлений, обученных на общей предметной области, рассчитанные на больших текстовых коллекциях из сети Интернет, оказывают существенное влияние на качество пополнения таксономий, таких как WordNet, RuWordNet, Онтологии Естественных Наук и Технологий (ОЕНТ). (3) По направлению разработки методов глубокого машинного обучения для интегрирования большой номенклатуры типов именованных сущностей с понятиями онтологии - реализована система предсказания гиперонимов для неизвестных заранее именованных сущностей и веб-сервис для работы с ней. (4) Велись исследования методов наполнения «текстовых вершин» графа знаний, когда элемент графа знаний представляет собой фрагмент текста, содержащий неструктурированное знание по заданной теме. Исследовались методы абстрактного аннотирования извлечения значимых текстовых фрагментов с использованием современных нейросетевых подходов. (5) Были рассмотрены методы анализа текстовых материалов вида «резюме и вакансии», учебные курсы. Для онтологии ОЕНТ получен результат, что отношения «пререквизит» могут автоматически выводиться по иерархии существующих отношений лингвистических онтологий типа РуТез, возможно, с добавлением небольшого количества отношений вручную. (6) Проводились исследования по интеграции информационных методов в биологические исследования. Практическая значимость полученных результатов заключается в снижении трудоемкости для формирования больших онтологических ресурсов, создании новых инструментов для информационно-аналитических систем, в том числе для новых предметных областей.
3 1 января 2022 г.-31 декабря 2022 г. Разработка методов автоматизированного формирования больших графов знаний предметной области
Результаты этапа: В течение 2022 года при выполнении 3го этапа «Разработка методов автоматизированного формирования больших лингвистических онтологий предметной области, методов извлечения сложных типов именованных сущностей, исследование методов автоматизированного формирования графов знаний» получены следующие результаты: 1) По направлению исследования методов автоматического извлечения неизвестных отношений показано, что применение выделяемых с использованием нейросетевых методов именованных сущностей и отношений с ними позволяет ввести метрики фактологической достоверности оценки качества экстрактивных и абстрактивных аннотаций. Разработан новый метод построения псевдо-аннотаций на основе кластеров – ClusterVote. Метод апробирован для обучения русскоязычных предобученных генеративных моделей общего назначения: mBART, ruT5. С помощью метода собрана самая большая коллекция для аннотирования русскоязычных новостей – Telegram News*CV(RU). 2) По направлению разработки методов автоматизированного формирования больших онтологий предметной области с развитым набором отношений были проведены эксперименты по извлечению отношений (49 типов) на датасете NEREL. Особенностью датасета является то, что он размечен вложенными именованными сущностями, что позволяет увеличивать полноту извлечения отношений из текстов. Была проведена коррекция входного формата данных, после чего качество извлечения отношений внутри предложения с помощью пакета OpenNRE с использованием контекстуализированных эмбеддингов RuBERT, достигло 80.5% F-меры. Для исследования извлечения таксономических отношений из текстовых коллекций в рамках проекта был создан датасет Diachronic wordnets. Был исследован подход на основе мета-эмбеддингов с функцией потерь триплет-лосс, комбинирующий векторные представления слов (word2vec, glove, fasttext) и графовые представления, с помощью которого получены лучшие результаты извлечения гиперонимов для существительных во всех вариантах датасета. 3) По направлению разработки методов связывания различных текстовых вариантов извлеченных именованных сущностей на основе результатов обработки больших текстовых коллекций были проведены эксперименты по связыванию упоминаний именованных сущностей из набора данных NEREL c объектами графа знаний Викиданные. Показано, что наиболее эффективным из рассмотренных способов оценки неопределенности является score-based подход. Для ряда категорий рассматриваемого набора данных, более высокую эффективность показывают методы, основанные на ансамблях моделей. 4) По направлению разработки методов разрешения многозначности текстового выражения именованных сущностей в разных документах был изучен подход, учитывающий априорную многозначность именованных сущностей при связывании сущностей с Викиданными. В результате комбинирования score-based оценки с предложенным методом удалось увеличить точность предсказания правильной ссылки сущности в Викиданных. Практическая значимость результатов заключается в снижении трудоемкости для формирования больших графов знаний в части подключения именованных сущностей, а также текстовых объектов в виде аннотаций.
4 1 января 2023 г.-31 декабря 2023 г. Разработка методов автоматизированного сопровождения больших графов знаний и больших онтологий по потоку разнородных текстов предметной области
Результаты этапа: При выполнении НИР в 2023 году в ходе этапа «Разработка методов автоматизированного сопровождения больших графов знаний и больших онтологий по потоку разнородных текстов предметной области» получены следующие результаты: - исследованы новые методы установления таксономических отношений между существующими концептами лингвистических онтологий и терминоподобными сущностями; - сформированы, опубликованы и исследованы, в том числе в результате участия в организации научных соревнований, новые наборы данных для выявления сложных отношений в специальных предметных областях; - исследованы задачи выявления отношений в сложных случаях вложенных иенованных сущностей; - рассматривались задачи абстрактивного аннотирования: для задачи абстрактивного аннотирования новостных кластеров предложен новый метод создания коллекций для обучения нейросетевых методов аннотирования, предназначенный моделировать особенности задачи путем учета информации в связанных документах; - исследованы предварительно обученных моделей абстрактивного реферирования в условиях ограниченных ресурсов; - выполнены исследования по воспроизведению лингвистических характеристиках текстов при применении современных методов автоматической обработки. По теме опубликовано 13 статей (1 Q1, 5 Wos+Scopus, 1 WoS, 5 Scopus, 1 РИНЦ)
5 1 января 2024 г.-31 декабря 2024 г. Разработка методов автоматизированного формирования графов знаний в форме корпоративных энциклопедий
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".