Разработка методов сохранения, реконструкции и анализа структурно-функциональных свойств суперкомпьютерных системНИР

Saving, reconstruction and analysis of structural and functional properties of supercomputers

Источник финансирования НИР

грант РФФИ

Этапы НИР

# Сроки Название
1 1 января 2020 г.-31 декабря 2020 г. Разработка методов сохранения, реконструкции и анализа структурно-функциональных свойств суперкомпьютерных систем 1
Результаты этапа: 1. Определен набор базовых структурно-функциональных свойств, важных для анализа функционирования суперкомпьютера. На данном этапе к таковым отнесены данные мониторинга служебных серверов суперкомпьютера Ломоносов-2, состояние его коммутаторов сетей Infiniband, состояние разделов и очередей суперкомпьютера и т.д. 2. Определены источники интересующих нас структурно-функциональных свойств. 3. Реализован механизм сохранения структурно-функциональных свойств. Числовые характеристики сохраняются в СУБД InfluxDB и Victoriametrics. Проводится сравнительных анализ этих СУБД на предмет оптимального соответствия задачам проекта. 4. Отработаны методы работы с сохраненными данными структурно-функциональных свойств. Реализованы базовые методы визуализации срезов состояния суперкомпьютера за выбранный период.
2 1 января 2021 г.-31 декабря 2021 г. Разработка методов сохранения, реконструкции и анализа структурно-функциональных свойств суперкомпьютерных систем 2
Результаты этапа: 1. Созданы полнофункциональные методы и средства работы с сохраненными данными структурно-функциональных свойств и реконструкции состояния структурно-функциональных свойств на заданный момент времени. Расширен состав сохраняемых данных. Налажено сохранение событий из системных журналов вычислительных узлов и служебных серверов суперкомпьютера "Ломоносов-2". 2. Собрана и проанализирована статистика по сбоям пользовательских приложений. Определен набор сбойных ситуаций, приводящих к сбою приложений. Разработаны прототипы инструментов для анализа влияния структурно-функциональных свойств суперкомпьютера на выполнение приложений. 3. Реализована пробная эксплуатация разработанных технологий и инструментов на суперкомпьютере "Ломоносов-2". Организована совместная работа с подсистемами TASC, Job Digest, DiMMon.
3 1 января 2022 г.-31 декабря 2022 г. Разработка методов сохранения, реконструкции и анализа структурно-функциональных свойств суперкомпьютерных систем 3
Результаты этапа: 1. Разработан базовый инструментарий для исследования взаимного влияния структурно-функциональных свойств компонентов при возникновении сбойных ситуаций. Был создан механизм сбора и рассылки ежедневного дайджеста событий со статистикой по сбойным задачам, вычислительным узлам и служебным серверам. Анализатор состояния суперкомпьютера во временной окрестности некорректно завершенных задач был расширен информацией о событиях из системных журналов служебных серверов суперкомпьютера "Ломоносов-2", а также статистикой по потенциально сбойным вычислительным узлам. 2. Выполнен анализ накопленных за 2021-2022 года данных о некорректно завершившихся заданиях и сопутствующих им событиям, зафиксированным на вычислительных узлах и служебных серверах суперкомпьютера "Ломоносов-2". Выделены типы событий, при возникновении которых повышается вероятность сбоев при выполнении пользовательских задач. 3. Разработанные технологии и инструменты внедрены в практику Суперкомпьютерного комплекса МГУ.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".