ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ЦЭМИ РАН |
||
В докладе представлено исследование, которое направлено на выявление и оценку значимости факторов референциального выбора в устных нарративах на русском языке. Работа выполнена в когнитивной вычислительной парадигме, которая была впервые представлена А. А. Кибриком в статье 1996 года в сборнике “Studies on Anaphora” под ред. Б. Фокс. В название этого подхода заложены два основных принципа — опора на когнитивное состояние говорящего и исчисляемость влияния каждого фактора. В полученной модели референциальный выбор рассматривается как тернарный: она позволяет спрогнозировать выбор между полными ИГ, местоимениями и нулевыми выражениями. Такой набор в моделях с привлечением машинного обучения встречается нечасто в сравнении с двойственной альтернативой; перейти от бинарного набора к тернарному позволила мультиномиальная логистическая регрессия. В качестве материала в работе используются рассказы из корпуса "Веселые истории из жизни", которые относятся к устному модусу и разговорному стилю. Это позволяет существенно расширить круг обзора проблемы: в модели учтены деление рассказов на ЭДЕ, употребление дискурсивных маркеров, а также влияние на референциальный выбор хезитаций и фальстартов. Для каждого рассказа в тренировочной и контрольной выборках было вручную построено дерево риторической структуры. Таким образом, в докладе представлена готовая, математически обоснованная модель референциального выбора, которая может быть полезна как для теоретических выводов, так и для дальнейшей тренировки нейросетей на правдоподобное порождение полных ИГ, местоимений и нулевых выражений.