Цифровое описание диалектов уральских языков на основании анализа больших данных - НИР | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Руководитель НИР: Норманская Ю.В.
Ответственные исполнители: Алпатов В.М., Безенова М.П., Девяткина Е.М., Казакевич О.А.
Сторонняя организация: Институт системного программирования РАН им. В.П.Иванникова
Срок исполнения: 3 июня 2020 г. - 15 декабря 2022 г.
Номер договора (контракта, соглашения): 20-18-00403
Тип: Фундаментальная
Приоритетное направление научных исследований: другое
Приоритеты и перспективы НТР Российской Федерации согласно Стратегии НТР РФ: переход к передовым цифровым, интеллектуальным технологиям
ПН России: Информационно-телекоммуникационные системы
Направление технологического прорыва России: Стратегические информационные технологии
Рубрики ГРНТИ:
- 16.41.25 Уралоалтайские языки
Ключевые слова: этимология, большие данные, цифровизация, платформенные исследования, экспериментальная фонетика, сравнительно-историческое языкознание, уральские языки
experimental phonetics, big data, digitalization, etymology, uralic languages, comparative historical linguistics, platform studies
Описание:
Как указано в Стратегии научно-технологического развития Российской Федерации, первым приоритетом на ближайшие 10–15 лет является «переход к передовым цифровым, интеллектуальным производственным технологиям, роботизированным системам, новым материалам и способам конструирования, созданию систем обработки больших объемов данных, машинного обучения и искусственного интеллекта». Он-лайн платформу “LingvoDoc” («ЛингвоДок», lingvodoc.ispras.ru, главный редактор – Норманская Ю. В.), которая бы позволила осуществить этот переход для описания языков народов России, мы создали в рамках проекта РНФ № 15-18-00044 «Информационная система для описания малочисленных языков народов мира. Создание описаний алтайских и уральских языков России, находящихся на грани исчезновения» (2015–2019 гг.). На платформе “LingvoDoc” было выполнено описание словарей исчезающих языков России, собранных в полевых условиях (в экспедициях) в рамках проекта и найденных в архивах за XVIII–XIX вв. Эта работа позволила нам выработать механизмы перевода языковых данных в цифровой формат и проведения их анализа с помощью специальных программ, созданных нами в рамках проекта. Анализ позволяет на первом этапе выявить ошибки в обработке материала, проведенной вручную: 1) в транскрипциях новых диалектных данных путем автоматического анализа формант гласных по размеченным на отдельные звуки спектрограммам; 2) в морфологическом анализе (глоссировании) с помощью автоматического анализатора обозначения тех или иных показателей по любому количеству диалектов; 3) в этимологических сравнениях с помощью программы ступенчатого автоматического построения рядов соответствий для реконструкций любого уровня; 4) в определении диалектных изоглосс путем автоматического нанесения на карты данных следующих типов: фонетических, морфологических, семантических, лексических, этимологических и их сочетаний; 5) в построении классификации языков и диалектов путем обсчета различий в рядах соответствий для любого набора языков и диалектов. Все перечисленные вида анализа проводятся путем обсчета большого количества данных. По уральским исчезающим языкам собрано от 3000 до 30000 лексем с контекстами и парадигмами. Обсчет такого количества данных невозможен вручную. При этом становится ясно, что при увеличении количества материала и обработке его с помощью специальных программ точность анализа возрастает по экспоненте. Также ключевым моментом является тот факт, что только корректное представление входящих данных дает возможность строить правильное описание на других уровнях. Например, в основе реконструкции должна лежать корректная транскрипция. Представление всего материала на единой платформе дает возможность для каждого идиома с помощью специальных программ выявить, где именно заложены ошибки, и, устранив их, создать непротиворечивое комплексное описание диалекта.
Abstract:
Currently many Uralic dialects do not have complete grammar descriptions and dictionaries; existing descriptions are made without a single standard and are difficult to access. The languages themselves and the archives that contain materials on them are in danger of extinction. Enthusiasts from the regions often try to develop a graphic system for writing texts independently in their own dialects for creating dictionaries, textbooks, etc. In most cases these systems differ among native speakers, and the ways of fixing dialects in the 21st century are actually at a level less standardized than among the creators of the first Slavic books at the beginning of the 11th–13th centuries. It provokes conflicts in the regions. As indicated in the Strategy for Scientific and Technological Development of the Russian Federation, the first priority for the next 10–15 years is «the transition to advanced digital, intelligent manufacturing technologies, robotic systems, new materials and design methods, the creation of systems for processing big amounts of data, machine learning and artificial intelligence». On-line platform "LingvoDoc" (lingvodoc.ispras.ru headed by Yu. Normanskaya), which would allow this transition to describe the Uralic languages of Russia, we have created in the framework of the RSF grant No. 15-18-00044 «Information system for description of minority languages of the world. Development of descriptions for the endangered Altaic and Uralic languages of Russia» (2015–2019). On the "LingvoDoc" platform there are descriptions of the dictionaries of the endangered languages of Russia collected in the field conditions (expeditions) within the project and found in archives from the 18th–19th centuries. This work allowed us to develop mechanisms for translating language data into digital format and analyzing them using special programs created by us within the project. At the first stage, the analysis allows one to identify errors in the processing of material done manually: 1) in transcriptions of new dialect data by automatic analysis of vowel formants using spectrograms marked out for separate sounds; 2) in morphological analysis (glossing) using an automatic analyzer to designate certain indicators according to any number of dialects; 3) in etymological comparisons using a program of stepwise automatic construction of series of correspondences for reconstructions of any level; 4) in defining dialectal isoglosses by applying data of the following types automatically to a map: phonetic, morphological, semantic, lexical, etymological and combinations thereof, 5) in the construction of the classification of languages and dialects by differences in correspondence rows for any set of languages and dialects. All these types of analysis are carried out by calculating a big amount of data. From 3 to 30 thousand lexemes with contexts and paradigms were collected for the Uralic endangered languages. It is impossible to calculate this amount of data manually. At the same time, it becomes clear that with an increase in the amount of material and its processing using special programs, the accuracy of analysis increases exponentially. Also a key point is the fact that only the correct presentation of the incoming data makes it possible to build the correct description at other levels. For example, reconstruction should be based on the correct transcription. Presenting all the material on a single platform makes it possible for each idiom using special programs to identify exactly where the mistakes were made, and having eliminated them, to create a consistent, comprehensive description of a dialect. As far as we know, there are no other platforms in the world where analysis based on the processing of big data to describe the languages of the world is organized. The created system is unique, which was noted at the international conference «Fenno-Ugric Computational Linguistics» in Finland at the University of Helsinki in 2016. Directors of institutes and heads of laboratories for the study of the Finno-Ugric and Turkic languages: prof. B. Wagner Nagy (Hamburg), prof. J. Gippert (Frankfurt), prof. E. Winkler (Göttingen), prof. I. Ya. Selyutina (Novosibirsk), S. V. Onina (Khanty-Mansiysk), F. Sh. Nurieva (Kazan), F. G. Khisamitdinova (Ufa), N. V. Kondratieva (Izhevsk), L. S. Selendili (Crimea), N. G. Shaymerdinova (Astana) expressed a desire to transfer their materials to the "LingvoDoc" platform with the aim of calculating them using big data analysis programs and analysis in comparison with the data collected by us within the RSF project, since it was found that joint analysis of a large number of materials on one language can make its description significantly more accurate. In the framework of the RSF project No. 15-18-00044 on the "LingvoDoc" platform, we have digitally described the languages of Russia, which are included in the UNESCO category «critically endangered» (no more than 10 speakers are left for these languages). In the new project it is important and relevant, following the developed analysis scheme on the "LingvoDoc" platform, to continue the description of all dialect groups of the Uralic languages of Russia, since most of them are endangered according to UNESCO classification: «severely endangered and definitely endangered» (Karelian, Mari, Mokshan, Udmurt, Komi-Permyak, Komi-Yazvin, Khanty, Tundra Nenets, Northern Selkup). And if we turn to individual dialects, the situation is very serious with almost all the Uralic languages. Field expeditions conducted by us and our colleagues from the Moscow State University and NRU Higher School of Economics showed that often in the village only a few elderly people speak one or another dialect of the Mari, Udmurt or Khanty languages. Moreover, it is very important that the digital description of languages is built primarily on the analysis of sound and calculation of formants. Without a large amount of real sound data it is impossible to verify the correctness of transcription, which underlies morphology, lexicology, etymology, linguistic geography. Only the processing of modern audio recordings (recordings made not on digital media and stored in archives in most cases cannot be processed using modern phonetic programs due to poor quality) will allow us to establish which recordings made by scientists of the 18th– 20th centuries were made at a high scientific level and can also be involved in the analysis. It is impossible to predict the results of such check in advance, for example, it turned out that, regarding endangered languages, we can trust the data of the dictionaries of P. S. Pallas (XVIII century), K. Slovtsov (XX century), A. Kannisto (XX century), E. I. Romandeeva (XX century), and we cannot take into account the records of Yu. Klaprot (XIX century), B. Munkachi (XX century). After recording audio materials for all the dialect groups of the Uralic languages and analyzing them in "LingvoDoc", we plan to evaluate the existing most authoritative dictionaries and text collections in terms of their reliability, and also introduce the correct sources in "LingvoDoc", which, according to our forecasts, should increase the data collections by the Uralic languages of Russia around 1 mil. of the words. Based on the analysis of these data using special programs at the end of the project we plan to prepare for publication a monograph on the comprehensive digital description of the Uralic dialects, with sections on experimental phonetic, morphological, lexical and comparative historical analysis. At least 12 articles for Scopus, WoS and at least 19 intellectual creations for audio dictionaries and text corpora will be prepared.
Планируемые результаты:
В результате работы над проектом будут проведены экспедиции к носителям 19 диалектов уральских языков и созданы аудиословари диалектов уральских языков России, которые по классификации ЮНЕСКО находятся «в серьезной опасности и под угрозой исчезновения». В каждом из словарей будут представлены транскрипции в МФА (IPA), аудиозаписи нескольких произнесений в начальной форме, аудиозаписи контекстов, разметки спектрограмм аудиозаписей словоформ в программе “Praat”, информация о том, является ли слово заимствованием или принадлежит к исконной лексике, параллели из литературного языка и праформы из «Уральского этимологического словаря» под ред. К. Редеи (при наличии), этимологические связи с другими словарями уральских языков. Каждый из аудиословарей будет зарегистрирован как РИД. После создания словарей будет запущены программы обработки материала и получены следующие результаты: 1) экспериментально-фонетические описания гласных для каждого диалекта, выполненные с помощью программы “Phonology”; каждое описание ляжет в основу статьи, поскольку ранее все перечисленные идиомы не были описаны с точки зрения экспериментальной фонетики; 2) этимологический словарь уральских языков, соединяющий 19 аудиословарей, собранных в рамках настоящего проекта, со 135 словарями по другим группам уральских языков, созданных с 2012 года в рамках проектов РНФ, Президента РФ, РФФИ, РГНФ и Правительства РФ; 3) системы соответствий между всеми диалектными группами уральских языков, которые лягут в основу очерков монографии, посвященной генезису уральских диалектных систем; 4) на основе проведенного экспериментально-фонетического анализа будут выявлены существующие издания текстов на диалектах уральских языков, которые выполнены на высоком научном уровне, далее с помощью специальной программы эти тексты будут сконвертированы в корпуса диалектных текстов на платформе “LingvoDoc” (ориентировочный объем около 1 млн. словоформ); 5) по корпусам текстов будут составлены морфологические описания диалектов с указанием на частотность употребления тех или иных морфем в рассматриваемых контекстах, данные описания также войдут в качестве очерков в монографию, посвященную описанию уральских диалектов. В итоге работы над проектом будут подготовлены одна монография, не менее 12 статей в журналах, рецензируемых Scopus, WoS, и 19 этимологических аудиословарей, зарегистрированных как РИД.В результате работы над проектом будут проведены экспедиции к носителям 19 диалектов уральских языков и созданы аудиословари диалектов уральских языков России, которые по классификации ЮНЕСКО находятся «в серьезной опасности и под угрозой исчезновения». В каждом из словарей будут представлены транскрипции в МФА (IPA), аудиозаписи нескольких произнесений в начальной форме, аудиозаписи контекстов, разметки спектрограмм аудиозаписей словоформ в программе “Praat”, информация о том, является ли слово заимствованием или принадлежит к исконной лексике, параллели из литературного языка и праформы из «Уральского этимологического словаря» под ред. К. Редеи (при наличии), этимологические связи с другими словарями уральских языков. Каждый из аудиословарей будет зарегистрирован как РИД. После создания словарей будет запущены программы обработки материала и получены следующие результаты: 1) экспериментально-фонетические описания гласных для каждого диалекта, выполненные с помощью программы “Phonology”; каждое описание ляжет в основу статьи, поскольку ранее все перечисленные идиомы не были описаны с точки зрения экспериментальной фонетики; 2) этимологический словарь уральских языков, соединяющий 19 аудиословарей, собранных в рамках настоящего проекта, со 135 словарями по другим группам уральских языков, созданных с 2012 года в рамках проектов РНФ, Президента РФ, РФФИ, РГНФ и Правительства РФ; 3) системы соответствий между всеми диалектными группами уральских языков, которые лягут в основу очерков монографии, посвященной генезису уральских диалектных систем; 4) на основе проведенного экспериментально-фонетического анализа будут выявлены существующие издания текстов на диалектах уральских языков, которые выполнены на высоком научном уровне, далее с помощью специальной программы эти тексты будут сконвертированы в корпуса диалектных текстов на платформе “LingvoDoc” (ориентировочный объем около 1 млн. словоформ); 5) по корпусам текстов будут составлены морфологические описания диалектов с указанием на частотность употребления тех или иных морфем в рассматриваемых контекстах, данные описания также войдут в качестве очерков в монографию, посвященную описанию уральских диалектов. В итоге работы над проектом будут подготовлены одна монография, не менее 12 статей в журналах, рецензируемых Scopus, WoS, и 19 этимологических аудиословарей, зарегистрированных как РИД.
Добавил в систему: Норманская Юлия Викторовна

Соисполнители НИР

ИСП РАН

Координатор

Источник финансирования НИР

грант РНФ

Этапы НИР

#	Сроки	Название
1	3 июня 2020 г.-15 декабря 2022 г.	Цифровое описание диалектов уральских языков на основании анализа больших данных
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ЦЭМИ РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ЦЭМИ РАН

Цифровое описание диалектов уральских языков на основании анализа больших данныхНИР

Digital description of the dialects of the Uralic languages based on the analysis of big data

Соисполнители НИР

Источник финансирования НИР

Этапы НИР

Прикрепленные к НИР результаты