Мультимедийный размеченный корпус текстов на говорах западных эвенковНИР

Источник финансирования НИР

грант РФФИ

Этапы НИР

# Сроки Название
1 1 января 2012 г.-31 декабря 2012 г. Мультимедийный размеченный корпус текстов на говорах западных эвенков
Результаты этапа: Целью проекта являлось построение мультимедийного размеченного корпуса текстов на говорах западных эвенков, в котором обеспечивлось бы хранение языковой и метаязыковой информации и осуществлялся поиск информации по различным параметрам, а также анализ проблем, возникающих в процессе работы над подобным корпусом. За три года работы над проектом эта цель была достигнута. На базе мультимедийного эвенкийского архива лаборатории автоматизированных лексикографических систем НИВЦ МГУ был создан мультимедийный аннотированный эвенкийский корпус, содержащий 52 текста с морфологической и дискурсивной разметкой (глоссами) общим объемом 35 тыс. словоупотреблений. Тексты, вошедшие в корпус, представляют 14 локальных говоров западных эвенков. По жанру это в основном истории жизни и охотничьи рассказы, фольклорных текстов немного: для первой версии корпуса было решено отобрать тексты, в которых представлена максимально спонтанная речь. Большинство текстов корпуса имеют графическое, звуковое и визуальное представление. Лишь для нескольких текстов визуальное представление отсутствует. Каждый текст снабжен набором метаданных. Тексты разбиты на предложения. Синхронизация графического, звукового и визуального представлений осуществлялась в программе ELAN. Графическое представление каждого предложения состоит, по меньшей мере, из четырех слоев: это фонетическая транскрипция с поморфемной разбивкой слов, приближенная к фонематической, но отражающая особенности локальных вариантов языка, поморфемные аннотации (глоссы – семантические, грамматические и дискурсивные), текст в официально принятой графике, и русский перевод. Корпус размещен на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, использующем программную платформу LAT (Language Archive Technology). В корпусе обеспечивается поиск как текстов по определенным параметрам метаданных (поселок, говор, наречие, информант, жанр и т.д.), так и внутритекстовой поиск на уровне звукового или графического представления. В звуковом представлении параметром поиска является время звучания, в графическом представлении возможен поиск в любом слое по отдельному параметру или набору параметров (морфема, слово, словосочетание, глосс, набор глосс, переводной эквивалент и т.д.), Возможен внутритекстовой поиск по любому подмножеству текстов корпуса, которое задается с помощью метапараметров. Пользователями корпуса могут стать исследователи, представляющие разные направления гуманитарной науки, но прежде всего лингвисты - тунгусоведы, типологи, компаративисты, социолингвисты, специалисты по малым языкам Сибири. В процессе работы над корпусом решались следующие задачи: 1) каталогизация текстов эвенкийского архива; 2) отбор текстов для включения в корпус таким образом, чтобы обеспечивалась его репрезентативность в отношении многообразия локальных вариантов западноых эвенкийских говоров; 3) выработка системы морфологических деривационных и дискурсивных глосс; 4) выбор формата представления текста в корпусе; 5) дополнительный сбор текстового материала в поле для заполнения территориальных лакун (было подготовлено и проведено две экспедиции – в Верхнекетский и Каргасокский районы Томской области и в Таймырский муниципальный район Красноярского края); 6) выверка полевой расшифровки (фонетической транскрипции и русского перевода) аудиозаписи эвенкийских текстов; выработка критериев разбиения эвенкийских текстов, являющихся текстами устной речи, на предложения, в частности, анализ типов и функций пауз в этих текстах; 7) морфологическая и дискурсивная индексация (глоссирование) эвенкийских текстов; 8) синхронизация звукового и видеоряда с графическим представлением текстов; 9) подготовка метаданных для каждого текста; 10) загрузка текстов в формате ELAN на сервер Languedoc. В ходе поморфемной индексации текстов был выявлен ряд ранее не описывавшихся или описанных не вполне адекватно грамматических феноменов, а также некоторое количество ранее не зафиксированных лексем, что представляется нам весьма важным результатом проекта. На сайте лаборатории автоматизированных лексикографических систем НИВЦ МГУ был создан специальный раздел, посвященный ходу работ над проектом: http://lcl.srcc.msu.ru/mainstream_pages/project.htm. Полученные в ходе работы над проектом результаты частично отражены в 10 опубликованных и 4 принятых к печати работах.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".