Разработка средств анализа, предсказания и определения первопричин сбойных ситуаций суперкомпьютера на основе формальной моделиНИР

qqqqqqqqqqqqq

Источник финансирования НИР

грант РФФИ

Этапы НИР

# Сроки Название
1 1 января 2016 г.-31 декабря 2016 г. Разработка средств анализа, предсказания и определения первопричин сбойных ситуаций суперкомпьютера на основе формальной модели (1)
Результаты этапа: Система Octotron предназначена для поддержки надежной автономной работы суперкомпьютеров и других вычислительных комплексов и сетей. Центральная идея, заложенная в систему – использование модели вычислительного комплекса. Целью настоящего проекта является добавление в систему методов и средств моделирования сбоев в суперкомпьютере, анализа первопричин сбоев и их прогнозирования. На первом этапе выполнения проекта был создан метод сохранения срезов – мгновенных слепков состояния суперкомпьютера для дальнейшего использования их совместно с системой Octotron. Было выполнено описание возможных вариантов распространения сбоев в суперкомпьютерах на основе анализа модели суперкомпьютера. Система Octotron получила возможность осуществлять моделирование аварийного состояния суперкомпьютера. Отдельное направление работ было посвящено улучшению инструментария для автоматизированного построения модели суперкомпьютеров, включающей компоненты, доступные по сетям Ethernet и Infiniband.
2 1 января 2017 г.-31 декабря 2017 г. Разработка средств анализа, предсказания и определения первопричин сбойных ситуаций суперкомпьютера на основе формальной модели (2)
Результаты этапа: Разработаны и реализованы методы определения корневых причин сбоев, возникающих в ходе работы суперкомпьютера. Разработаны подходы к анализу потока событий в суперкомпьютерном комплексе, генерируемого системой Octotron. Разработаны методы упорядочивания и агрегации информации о событиях, происходящих в суперкомпьютерном комплексе, а также методы фильтрации событий. Созданы способы уменьшения реагирования на вторичные (наведенные) события в тех случаях, когда могут быть определены корневые причины проблемы. Разработаны методы анализа потока событий на предмет поиска причинно-следственных связей между событиями, которые сходу не очевидны.
3 1 января 2018 г.-31 декабря 2018 г. Разработка средств анализа, предсказания и определения первопричин сбойных ситуаций суперкомпьютера на основе формальной модели (3)
Результаты этапа: Разработаны методы прогнозирования сбойных ситуаций на суперкомпьютерах и превентивного реагирования на них для минимизации возможных последствий. Разработанные средства интегрированы в систему обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов Octotron. Выполнена апробация разработанных методов в Суперкомпьютерном комплексе МГУ.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".