Аннотация:Задача автоматического разрешения многозначности (Word Sense Disambiguation, WSD) является ключевой задачей семантической обработки текста, решение которой влияет на качество более сложных семантических задач. Однако задача выбора одного из значений многозначного слова в контексте вызывает трудности даже у носителей языка. Тем более непростой она оказывается для систем автоматического разрешения многозначности. Поэтому так важны любые наблюдения и эвристики, способные упростить задачу либо повысить качество работы алгоритмов WSD.
Исследователями был выявлен ряд закономерностей распределения значений слов в корпусе. В статье будут рассмотрены три из них: 1) наиболее частотное значение (Most Frequent Sense, MFS); 2) гипотеза «одно значение на документ» (One Sense per Discourse) и 3) гипотеза «одно значение на словосочетание» (One Sense per Collocation).
По результатам экспериментов на материале корпуса русских текстов, метод, основанный на выборе самого частотного значения по корпусу во всех контекстах, достиг относительно высокого значения точности как на обучающей выборке, так и на тестовой (85.7% и 71.1%, соответственно). Гипотеза «одно значение на документ» подтвердилась в 93% текстов. Гипотеза «одно значение на словосочетание» подтверждается в 84.46% отобранных по определённым правилам пар из текстов. Исключения связаны с трудностями при семантической разметке слов в корпусе.
Эвристики, основанные на неравномерности распределения значений многозначных слов, позволяют упростить задачу автоматического разрешения многозначности, а также могут применяться при создании тренировочных данных для обучения моделей WSD.