![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ЦЭМИ РАН |
||
В коммуникации лицом к лицу есть две основные модальности (в психологическом значении этого слова): аудиальная для адресата (голосовая для говорящего) и визуальная для адресата (кинетическая для говорящего и жестикулирующего). В первом случае выделяют два канала — вербальный (собственно речь) и просодический (неречевые звуки; среди самых значимых признаков здесь можно назвать высоту основного тона и ее изменение, в том числе его диапазон и скорость; темп; амплитуду или громкость; паузацию; тембр — особенности фонации, такие как придыхание или скрипучий голос). К визуальным/ кинетическим каналам относят в первую очередь жесты рук, сопровождающие или замещающие речь, а также жесты головы; помимо этого, сюда можно включить движения плеч, корпуса, ног, мимические выражения, направление взгляда, расстояние между участниками коммуникации и их взаимное положение. Отдельно следует отметить данные движения глаз, полученные с помощью айтрекеров и также представляющие ценный материал для исследователей коммуникации. При том, что реальная коммуникация подразумевает одновременное использование всех этих каналов, создание такого корпуса, который включал бы их полное описание — чрезвычайно трудоемкая задача, поскольку выполняется вручную (автоматическое распознавание движений до сих пор оставляет желать лучшего; автоматическое распознавание просодии и вывод просодической транскрипции также далеки от реализации. При всем этом мы видим много попыток создать мультимодальные корпуса, размеченные с приемлемой степенью последовательности (Red Hen Lab как самый известный пример). Проблема в том, что почти все они остаются закрытыми, быстро становятся недоступными или про них знает очень малый круг исследователей. В этом плане для русского языка сделано очень многое — МУРКО в составе НКРЯ и RUPEX открыты, достаточно объемны, с подробной разметкой и продолжают развиваться. Менее удачный пример для русского языка — RAMAS, который был доступен некоторое время по запросу. Надо признать, что в несколько лучшем положении находятся корпуса и словари для жестовых языков. Как представляется, причин нынешних трудностей с мультимодальными корпусами может быть несколько. Трудоемкость сбора и описания данных сильно ограничивает потенциальный объем корпуса. Вместе с тем надо признать, что даже небольшие подборки видео были бы интересны исследователям. Развитие нейросетей позволяет предположить, что уже в ближайшие годы появятся инструменты для автоматического распознавания и описания мультимодальных данных, и наличие этих данных, размеченных хоть сколько-нибудь последовательно, несомненно, ускорило бы этот процесс. Отсутствие представления о том, что считать оптимальной разметкой (даже в случае жестикуляции) подводит к вопросу о том, как могло бы выглядеть представление мультимодального корпуса. Как пример — сплошная аннотация записи в RUPEX или выдача кликстов в МУРКО. Вероятно, любые шаги в этом направлении способствовали бы успешной дискуссии о принципах такой разметки. С другой стороны, частая проблема состоит в том, что существенная часть собранного материала оказывается неразмеченной. Предположу, что даже предварительные и неполные разметки могли бы быть полезны другим исследователям. Другой важный аргумент — огромный труд, затраченный разметчиками, можно использовать при обучении нейросетей. Еще одно препятствие к созданию открытых мультимодальных корпусов — отсутствие технических возможностей у их создателей для хранения большого объема данных. Представляется, что существование «хаба», куда можно было бы выгрузить свои видео и разметки, было бы решением для этой проблемы. Отдельно могут возникнуть трудности этического порядка — насколько допустима публикация видеозаписей в открытом доступе. Однако существует практика сбора согласия (и его отзыва), и в наше время люди гораздо меньше беспокоятся о том, что их лицо попало на видеокамеры, чем 20 лет назад, а запись пересказа фильма, игры с ребенком или попыток говорить на родном языке — не то, что вызывает беспокойство у людей, которые опасаются утечки их личных данных. Говоря об открытых мультимодальных корпусах, надо признать, что русскому языку повезло. Создание НКРЯ оказалось большим прорывом и в этом направлении тоже: в него входит мультимедийный корпус (МУРКО). В целом работа НКРЯ налажена настолько, что исследования для других языков можно проводить с помощью параллельных корпусов в НКРЯ. Возможно, он мог бы стать таким хабом, который смог бы приютить мини-корпуса, создаваемые другими исследователями. Очевидным образом, это поднимает вопрос о технических и организационных трудностях, в качестве примера можно упомянуть сбор согласий участников записи или техническую проверку подгружаемых видео. Очевидным образом, современные представления о «правильном» корпусе расходятся с тем, что может получиться в результате такой зонтичной организации: частичные, несовместимые и несравнимые друг с другом разметки, разные подходы к ним и очень разные явления, которые оказались в фокусе. Чтобы сделать этот шаг в сторону доступа большего числа исследователей к мультимодальным данным, вероятно, нам придется поменять наши представления о правильном и достойным в таких разметках и смириться с неполными описаниями, ошибками и неразрешимыми противоречиями в подходах. Именно это могло бы позволить нам прийти к полному описанию накопленных записей (с учетом возможностей нейросетей), совершенствованию и унификации описаний и в целом большему пониманию того, какие явления важны в реальном общении и как они между собой взаимосвязаны.
№ | Имя | Описание | Имя файла | Размер | Добавлен |
---|