Разработка фундаментальных основ для сквозной цифровой платформы обеспечения качества суперкомпьютерных проектов и эффективности суперкомпьютерных системНИР

Development of fundamental principles for an end-to-end digital platform for ensuring the quality of supercomputer projects and the efficiency of HPC systems

Источник финансирования НИР

грант РФФИ

Этапы НИР

# Сроки Название
1 7 июля 2018 г.-2 июля 2019 г. Разработка фундаментальных основ для сквозной цифровой платформы обеспечения качества суперкомпьютерных проектов и эффективности суперкомпьютерных систем
Результаты этапа: Полученные в рамках первого года работ результаты сформировали необходимый фундамент для успешного выполнения работ по проекту по всем его направлениям. В рамках модели суперкомпьютерного центра рассмотрены основных составляющие и структура процессов суперкомпьютерного комплекса. Выделены основные объекты и отношения, определены возможные состояния и переходы. Рассмотрены частные случаи структуры процессов для СКЦ различного масштаба и проведен анализ соответствующих моделей. Выполнен анализ рекордных систем списка Top500 самых мощных суперкомпьютеров мира, на основании которого выделены основные источники сложности и неоднородности в их архитектуре. По полученным результатам осуществлено уточнение методов, позволяющих учесть и эффективно интегрировать источники сложности и неоднородности в модель описания суперкомпьютерных систем. Разработан подход к формированию оценок качества работы приложений, запускаемых на суперкомпьютере, основанный на анализе динамических характеристик, описывающих для каждого приложения разные аспекты производительности его выполнения. Разработан подход для формирования оценок качества использования ПО, используемого на суперкомпьютере, прежде всего, прикладных пакетов, установленных на суперкомпьютере и используемых для решения различных прикладных задач из разных предметных областей. Например, LAMMPS, VASP, Magma и т.д. Проведен ряд экспериментов на реальных данных суперкомпьютера Ломоносов-2, направленных на анализ описанных оценок качества работы приложений и ПО. Проанализированы результаты, которые на практике были получены для разных динамических характеристик по отдельным приложениям, а также была исследована различная статистика по использованию прикладных пакетов. Выполнена разработка и реализация базовых методов интеграции данных системного мониторинга приложений, запускаемых на суперкомпьютере. Определены целесообразные механизмы обеспечения самодиагностики и отказоустойчивости для поддержки создаваемого программного комплекса цифровой платформы. Проведение начального экспериментального исследования создаваемого программного комплекса в условиях системы Ломоносов-2 СКЦ МГУ. Начальный опыт эксплуатации показал высокую эффективность разработанного комплекса по сравнению с ранее использовавшимися подходами. Метод синхронизации данных через ssh с ограниченными правами показал широкие возможности при высокой степени безопасности. План на 2-й год реализации проекта в целом сохранил свою структуру и цели. Представление результатов: Всеройссийская конференция молодых ученых Ural-PDC 2018, г. Екатеринбург - доклад "Computing Cost and Accounting Challenges for Octoshell Management System" Международная конференция Параллельные вычислительные технологии (ПаВТ-2019), г.Калининград - доклад "Universal entity description method for the Octoshell HPC center management system" - доклад "Evolution of the Octoshell HPC Center Management System" - доклад "The Top50 Performance Ranking Statistical Data Processing and Visualization Methods" Публикации: Белкина, Юлия, Николаевна, Никитенко, Дмитрий, Александрович. Computing Cost and Accounting Challenges for Octoshell Management System. CEUR Workshop Proceedings, 2018, 2281, 146-158 Паокин, Андрей, Викторович, Никитенко, Дмитрий, Александрович, Жуматий, Сергей Анатольевич. Universal Entity Description Method for the Octoshell HPC Center Management System. 2019 Капридов, Антон, Андреевич, Никитенко, Дмитрий, Александрович. THE TOP50 PERFORMANCE RANKING STATISTICAL DATA PROCESSING AND VISUALIZATION METHODS. 2019 Леоненков, Сергей, Николаевич. Целевая оптимизация структуры потока задач суперкомпьютеров. Вычислительные методы и программирование: новые вычислительные технологии, 2019
2 3 июля 2019 г.-30 августа 2020 г. Разработка фундаментальных основ для сквозной цифровой платформы обеспечения качества суперкомпьютерных проектов и эффективности суперкомпьютерных систем
Результаты этапа: Исследована полнота предложенной модели суперкомпьютерного центра относительно базового набора составляющих: организации, проекты, пользователи, приложения, динамические характеристики работы отдельных приложений, параметры инфраструктуры программного обеспечения, компоненты и составные части аппаратной части суперкомпьютера. Выполнены необходимые корректировки модели для обеспечения полноты и решения задач проекта. Разработанные методы работы с моделью позволяют весь анализ выполнять на компьютерных ресурсах серверного масштаба. Исследована масштабируемости предложенных методов относительно размеров модели. Выполнен анализ основных технологических тенденций, закладываемых в экзафлопсные системы будущего, для дополнения набора основных источников сложности и неоднородности в архитектуре суперкомпьютеров. Разработаны методы интеграции найденных источников с моделью СКЦ. Разработан подход для формирования количественных оценок качества работы суперкомпьютерных приложений, опирающийся на данные о работе подсистемы памяти на вычислительном узле и на данные о работе сети межузловых коммуникаций. Проведены экспериментальные исследования для определения и комплексного анализа значений оценок качества, выделенных на первом и втором году выполнения проекта, в реальных условиях работы суперкомпьютерного комплекса по всей цепочке: организации, проекты, пользователи, приложения. Проведен анализ сформированной системы количественных оценок на предмет полноты описания всех основных сторон деятельности и объектов суперкомпьютерных центров; выделены недостающие компоненты, которые составят предмет исследования на следующем этапе. Разработаны методы интеграции данных об организациях, проектах и пользователях в программный комплекс, создаваемый в рамках проекта; проведение тестовых испытаний, показывающих работоспособность и эффективность предложенных методов оценки качества звеньев цепочки: организация – проекты – пользователи, в условиях реального большого суперкомпьютера. Разработаны механизмы обеспечения самодиагностики и отказоустойчивости программного комплекса; проведено исследование их надежности, эффективности, достаточности; Проведен запуск разработанной версии программного комплекса в тестовую эксплуатацию. Проведено экспериментальное исследование параметров работы комплекса, корректировка базовых компонентов и алгоритмов. Проведено исследование эффективности использованных подходов для обеспечения модульности, расширяемости, масштабируемости, многоязычности, функциональной полноты программного комплекса. Публикации (6 статей): Nikitenko D. A. Driving a Petascale HPC Center with Octoshell Management System 2019 Статья в журнале опубликовано Vladimir V. Voevodin, Alexander S. Antonov, Dmitry A. Nikitenko, Pavel A. Shvets, Sergey I. Sobolev, Igor Yu. Sidorov, Konstantin S. Stefanov, Vadim V. Voevodin, Sergey A. Zhumatiy Supercomputer Lomonosov-2: Large Scale, Paokin Andrei Method for Intermodular Interaction in the Octoshell HPC Center Management System 2020 Статья в сборнике опубликовано Nikitenko Dmitry Evolution of the Octoshell HPC Center Management System 2019 Статья в сборнике опубликовано Valkov Pavel Using Empirical Data for Scalability Analysis of Parallel Applications 2019 Статья в сборнике опубликовано Afanasyev Ilya V. Developing an Efficient Vector-Friendly Implementation of the Breadth-First Search Algorithm for NEC SX-Aurora TSUBASA 2020 Статья в сборнике опубликовано Представление результатов на конференциях: Международная суперкомпьютерная конференция "Суперкомпьютерные дни в России 2019", Москва Научная конференция "Ломоносовские чтения 2020", Москва Международная конференция "Параллельные вычислительные технологии 2020", Пермь (дистанционный формат в условиях пандемии)
3 1 декабря 2020 г.-12 ноября 2021 г. Разработка фундаментальных основ для сквозной цифровой платформы обеспечения качества суперкомпьютерных проектов и эффективности суперкомпьютерных систем
Результаты этапа: Главным результом проекта является комплекс моделей, методов и их программная реализация в виде программного комплекса поддержки функционирования суперкомпьютерного центра. Полученные результаты апробированы на крупнейшем междисциплинарном СКЦ Московского университета и используются в его каждодневной практике в режиме 24/7. В рамках работ над созданием формальной модели и методов ее обработки были проведены следующие работы и получены следующие результаты, что отражено в публикациях по проекту. Таким образом, в ходе выполнения проекта, предложена, описана и исследована единая модель суперкомпьютерного центра, объединяющая все его основные составляющие и их взаимосвязи. Модель в такой полноте рассматривается впервые, аналогов у системы, реализующей подобную модель в мире не появилось и на момент завершения проекта. Несмотря на огромное число элементов, составляющих модель, вся работа с ней выполняется на компьютерных ресурсах серверного масштаба. В рамках проекта было проведено исследование и разработаны методы анализа сложности и неоднородности суперкомпьютерных систем. Показано, что степень сложности и неоднородности современных вычислительных систем, а особенно будущих суперкомпьютерных систем экзафлопсного уровня производительности, исключительно велика, однако разработанные и используемые в рамках проекта методы дают основы для подходов для эффективной обработки и анализа систем любой сложности. В контексте формирования системы и методов оценки качества получены следующие результаты по направлению развития системы оценки качества: Сформирована результирующая система количественных оценок, лежащая в основе сквозной цифровой платформы обеспечения качества суперкомпьютерных проектов, приложений, систем и суперкомпьютерных центров в целом. Проведено комплексное исследование эффективности методов интеграции всех необходимых данных в формируемый программный комплекс цифровой платформы. Проведены комплексные экспериментальные исследований сформированной системы оценки качества и продемонстрирована эффективности предложенной системы оценки качества для всех звеньев цепочки: организации, проекты, пользователи, приложения. Относительно особенностей эксплуатации программной реализации разработанных методов в рамках проекта получены следующие ключевые результаты: Проведена разработка, реализация и апробация механизмов обеспечения самодиагностики и отказоустойчивости программного комплекса, теоретическое и практическое исследование их надежности, эффективности и достаточности. Программный комплекс цифровой платформы запущен в опытную эксплуатацию в круглосуточном режиме на ресурсах суперкомпьютерного комплекса МГУ, проведено экспериментальное исследование параметров работы комплекса и анализ качества самодиагностики и отказоустойчивости, подтвердившие работоспособность выбранных решений. Проведен подбор, корректировка и тонкая настройка параметров компонент комплекса. Разработан дистрибутив и средства распространения сквозной цифровой платформы обеспечения качества суперкомпьютерных проектов, приложений, систем и суперкомпьютерных центров, в качестве средства распространения выбран общедоступный сервис GitHub.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".