![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ЦЭМИ РАН |
||
В докладе представлены результаты работы по созданию корпуса русского языка с разметкой по синтаксическим составляющим (RuConst). Синтаксический анализ традиционно проводится в рамках одного из двух формализмов: грамматики составляющих или грамматики зависимостей. Несмотря на то, что в прикладной и корпусной лингвистике тотальное распространение получил формализм ГЗ, составляющие имеют ряд существенных преимуществ. Среди таких преимуществ: более корректное описание порядка слов, легкий доступ к уровню максимальных проекций (и, как следствие, упрощается извлечение анафорических отношений), более простое извлечение сферы действия у отрицания и рестриктивных частий и т.д. После обсуждения основных преимуществ подхода к синтаксическому анализу, основывающемуся на грамматике составляющих, будут рассмотрены примеры некоторых имеющихся на данный момент ресурсов и описаны их возможности. Далее мы затронем основные количественные характеристики корпуса RuConst. Будет освещен процесс разработки корпуса, включавший в себя проработку дизайна представления данных, создание ансамбля инструментов морфосинтаксической разметки, фильтрацию ошибочных разборов и совпадающих примеров и т.д. Мы также коснемся основных принципов работы с корпусом, опишем его базовые характеристики и приведем примеры его использования. Корпус RuConst открыт для скачивания и может быть использован для лингвистических исследований, при обучении русскому как иностранному и для машинного обучения. Одним из преимуществ корпуса является возможность его использования офф-лайн. Лингвисты-практики могут искать в нем примеры на определенные грамматические темы и использовать их в учебно-методическом процессе. Для лингвистов-исследователей корпус может быть полезен при изучении порядка слов, синтаксической и морфологической вариативности, проблем согласования, падежного маркирования и т.д.