Автоматический перевод аббревиатур в фонемную запись в системе синтеза речи - дипломная работа | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Научный руководитель: Местецкий Л.М.
Автор: Девбунова Вилиана Олеговна
Тип: Магистр
Организация, в которой проходила защита: МГУ имени М.В. Ломоносова
Год защиты: 2023
Аннотация: В магистерской диссертации рассматривается задача, возникающая при разработке систем воспроизведения человеческой речи по текстовому представлению. Актуальность темы связана с развитием различных голосовых сервисов в информационных технологиях, бизнесе, искусстве и образовании. В рамках этой темы задача автоматического озвучивания аббревиатур русского языка является новой, до настоящего времени её решений не было получено. Предложенное в работе решение задачи разработано в ходе проектирования сервиса «Голосовой помощник» в компании Яндекс. В магистерской диссертации исследуется оригинальный подход к решению данной задачи, основанный на идее предобработки текста с целью выделения и классификации аббревиатур и способов их дальнейшего озвучивания с использованием известных методов перевода текста из графемной в фонемную форму. В рамках реализации подхода в работе поставлены и решены две задачи: детектирования аббревиатур в тексте, и определения варианта правильного прочтения и озвучивания каждого включения аббревиатуры. Они сформулированы как задачи классификации. Для решения обеих задач в диссертации разработаны методы, основанные на машинном обучении. В диссертации проведено исследование проблемы озвучивания аббревиатур в системах синтеза русскоязычной речи и получено её решение, которое может рассматриваться как первое практическое решение данной задачи. Основными результатами выполненной работы, которые следует рассматривать как вклад автора в решение поставленной задачи, являются: - редукция задачи перевода аббревиатур в фонемную запись к двум задачам классификации: определения принадлежности слова к классу аббревиатур, определения способа правильного произношения аббревиатуры; - разработка классификатора аббревиатур в русскоязычном контексте, основанного на принципах машинного обучения. Обучение классификатора осуществлено на основе специально собранного и размеченного в рамках исследования масштабного набора данных размером более 85000 слов, включающего более 35000 примеров аббревиатур; - разработка классификатора для определения способа чтения аббревиатур в тексте в виде системы правил, основанных на контексте и фонетических принципах русского языка. Для обоснования практической реализуемости, оценки точности и эффективности предложенного решения все разработанные алгоритмы реализованы автором и экспериментально проверены на реальных данных. Вычислительные эксперименты подтвердили работоспособность и эффективность разработанных алгоритмов. Разработанные алгоритмы предназначены для практического использования в продуктах компании Яндекс.
Добавил в систему: Местецкий Леонид Моисеевич

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ЦЭМИ РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ЦЭМИ РАН

Автоматический перевод аббревиатур в фонемную запись в системе синтеза речидипломная работа (Магистр)