Оценка качества кластеризации панельных данных с использованием методов Монте-Карло (на примере данных российской региональной экономики)статья
Статья опубликована в журнале из списка RSCI Web of Science
Статья опубликована в журнале из перечня ВАК
Статья опубликована в журнале из списка Web of Science и/или Scopus
Дата последнего поиска статьи во внешних источниках: 1 декабря 2021 г.
Аннотация:В работе рассматривается метод исследования панельных данных, основанный на использовании агломеративной иерархической кластеризации - группировки объектов на основании сходства и различия их признаков в иерархию вложенных друг в друга кластеров. Применялись 2 альтернативных способа вычисления евклидовых расстояний между объектами - расстояния между усредненными по интервалу наблюдений значениями и расстояния с использованием данных за все рассматриваемые годы. Сравнивались 3 альтернативных метода вычисления расстояний между кластерами. В первом случае таким расстоянием считается расстояние между ближайшими элементами из двух кластеров, во втором - среднее по парам элементов, в третьем - расстояние между наиболее удаленными элементами. Исследована эффективность использования двух индексов качества кластеризации - индекса Данна и Силуэта для выбора оптимального числа кластеров и оценки статистической значимости полученных решений. Способ оценивания статистической достоверности кластерной структуры заключался в сравнении качества кластеризации, на реальной выборке с качеством кластеризаций на искусственно сгенерированных выборках панельных данных с теми же самыми числом объектов, признаков и длиной рядов..