Аннотация:Метод градиентного бустинга представляют собой семейство мощных методов
машинного обучения, которые показали значительный успех в широком диапазоне
практических применений. Например, один из представителей данного семейства,
xgboost набрал большую популярность среди команд-победителей ряда конкурсов
по анализу данных.
Основная идея градиентного бустинга заключается в последовательном построе-
нии композиции алгоритмов машинного обучения, когда каждый следующий алго-
ритм стремится компенсировать недостатки композиции всех предыдущих алгорит-
мов. Высокая гибкость алгоритма позволяет вводит различные изменения в дизайн
метода, таким образом, делая метод подходящей для многих задач машинного обучения.
Обычно, в качестве базовых алгоритмов используются так называемые "слабые"модели. В их число относятся неглубокие деревья решений. Но бывают случаи,
когда градиентный бустинг над деревьями работает относительно плохо, например,
по сравнению с методом ближайших соседей. Здесь возникает идея в качестве базо-
вых моделей использовать метод ближайшего соседа, или лучше смешать два семей-
ство моделей. В данной работе предложен метод смешивания различных семейств
алгоритмов. На каждом шаге метод выбирает ту модель, которая показывает наи-
меньшее значение ошибки.
Однако, существует и варианты градиентного бустинга, состоящих из "силь-
ных"решающих моделей. Например, Deep Boosting, использующий глубокие де-
ревья решений и метод итеративного бэггинга с базовыми бэггинг моделями.
Для анализа работы алгоритма часто используется разложение ошибки на смещение и дисперсию. Некоторые методы машинного обучения уменьшают дисперсию
(бэггинг), а другие смещение (бустинг). Также были попытки комбинирования этих
двух технологии для уменьшения сразу двух компонентов ошибки. Например,
вышесказанный метод итеративного бэггинга. В данной работе предложен модифицированный вариант этого метода.