Карлсруэ-Российская инициатива по работе с астрофизическими данными на протяжении их жизненного цикла.НИР

Karlsruhe-Russian Astroparticle Data Life Cycle Initiative

Источник финансирования НИР

грант РНФ

Этапы НИР

# Сроки Название
1 1 января 2018 г.-31 декабря 2018 г. Карлсруэ-Российская инициатива по работе с астрофизическими данными на протяжении их жизненного цикла.
Результаты этапа: На первом этапе (2018 г.) получены следующие результаты: - аналитический обзор современной научно-технической литературы; - список критериев функционирования системы анализа больших данных для астрофизических экспериментов - список основных количественных параметров системы анализа; - формат описания данных (мета данные) для экспериментов KASCADE и TAIGA; - алгоритм агрегации данный экспериментов KASCADE и TAIGA; - предварительная версия алгоритма идентификации типа частиц в эксперименте TAIGA на основе метода машинного обучения; - архитектура системы хранения, обработки и анализа больших данных астрофизических экспериментов; - исследовательский стенд в НИИЯФ МГУ для отработки разрабатываемых методов и алгоритмов; - платформу HubZero для наполнения ее образовательными материалами в области астрофизики частиц. - публикация 3 статей с результатами рабо по проекту; - промежуточный отчет.
2 1 января 2019 г.-31 декабря 2019 г. Карлсруэ-Российская инициатива по работе с астрофизическими данными на протяжении их жизненного цикла.
Результаты этапа: Работы выполнялись в соответствии с планом работ на 2019 год. В соответствии с этим планом основное внимание было уделено программной реализации распределенного хранилища экспериментальных данных экспериментов TAIGA/TUNKA на основе модели такого хранилища, разработанной на первом году проекта. В качестве базы модели выбрана микросервисная архитектура, когда модули, входящие в состав хранилища, представляют из себя совокупность взаимодействующих друг с другом микросервисов. Главные черты этой модели следующие. 1. Доступ к данным на локальных хранилищах осуществляется в режиме "только чтение" через специальные модули-адаптеры, обеспечивающие унифицированный API. Такой подход с одной стороны обеспечивает сохранность экспериментальных данных, а с другой стороны, достаточен для выполнения анализа на удаленных ресурсах. 2. Все запросы со стороны пользователей на поиск данных производятся по метаданным на специальном сервере — каталоге метаданных. Таким образом, на локальных хранилищах не производится поиск, что существенно снижает нагрузку на них и упрощает сопровождение системы. 3. Запросы к данным могут включать фильтры как на уровне целых файлов, так и на уровне отдельных записей (событий). При этом данные, которые будут предоставлены пользователю, сохраняют структуру директорий и названия файлов. 4. Передача файлов на компьютер пользователя производится только при фактическом обращении к данным, что обеспечивает значительное снижение сетевого трафика. 5. Обеспечена возможность как работы с требуемыми данными удаленно, используя файловую систему CERNVM-FS, так и скачивание данных на компьютер пользователя для работы в режиме офлайн без подключения к интернету.
3 1 января 2020 г.-31 декабря 2020 г. Карлсруэ-Российская инициатива по работе с астрофизическими данными на протяжении их жизненного цикла.
Результаты этапа: В ходе выполнения работ, предусмотренных в 2020 году, были проведены комплексные исследования поведения распределенной системы хранения экспериментальных данных, выполнены измерения ее эксплуатационных характеристик. Исследования проводились на испытательном стенде в составе двух серверов хранения данных (Stor1, Stor2), одного сервера хранения на основе базы данных (KCDC), сервиса метадата каталога (MDC) и сервиса агрегации данных (Aggregator). Доступ к системе осуществляется с помощью браузера с рабочего места пользователя. В процессе проведения исследования системы изучалось ее поведение в различных условиях эксплуатации. В частности были проведено исследование времени обработки запросов от числа используемых источников данных, сложности запросов, включая запросы, связанные с отбором событий из файлов. Исследования показали, что система AstroDS удовлетворяет требованиям, которые были изначально заложены в проект как в части функциональных возможностей, так и в части производительности. Система обеспечивает значительное ускорение выборки данных по сравнению с традиционно используемым методам, обеспечивает быстрый и унифицированный способ подключения новых источников данных. На основе материала, полученного в ходе исследований, была проведена оценка качества работы AstroDS и оптимизация системы. В частности, в ходе проведенной оптимизации работы системы была заметно увеличена скорость ответа сервиса каталога мета данных на запросы, в которые включены критерии отбора на уровне событий. Ряд выполненных оптимизаций, выполненных по результатам проведенных исследований, позволило увеличить скорость обработки некоторых типов запросов в 2-3 раза. В целом, на типичной смеси запросов ускорение составило 35-40%. Проведенные исследования функционирования системы AstroDS подтвердили, что принципы и заложенные при ее реализации методы позволили создать высокоэффективную облачную систему хранения данных для малых и средних экспериментов в области астрофизики частиц. Особе внимание было уделено вопросу взаимодействия с хранилищами данных, построенных на базах данных. Базовая идея заключается в том, что так как метаинформация о событиях храниться непосредственно на самих хранилищах, а не на сервисе матаданных. Для этого был спроектирован и реализован унифицированный API, обеспечивающий интеграцию таких хранилищ в систему. Другим важным направлением исследований в плане 2020 года было дальнейшее совершенствование метода определения параметров широких атмосферных ливней (ШАЛ) методом глубокого машинного обучения. Проведенные исследования, связанные с уточнением структуры сверточных сетей, используемых для этой цели, а также оптимизации методики обучения сети позволило улучшить качество определения энергии ШАЛ на 10-15% по сравнению с предварительными результатами, полученными в 2019 году. Полученный результат лучше на 25-30% точности определения энергии ШАЛ традиционными методами, которая составляет примерно 50%. Предложенная методика была обобщена на случай одновременного использования данных с нескольких черенковских телескопов — стерео режим. Это позволило поднять точность определение энергии ШАЛ до 13-15%, что является существенным улучшением в технике обработки экспериментальных данных в гамма-астрономии.. В ходе выполнения проекта в 2020 году была разработана методика применения глубокого машинного обучения для моделирования изображений с черенковских телескопов в качестве замены традиционного метода, основанного на методе Монте-Карло. В качестве нейронной сети была выбрана GAN-сеть. В рамках экспериментальной проверки предложенной методики и архитектуры сетей при выборке около 25000 событий каждого типа обучение каждой из двух сетей на GPU Tesla P100 заняло приблизительно 6 часов. После обучения генерация 4000 событий (любого из типов) занимает около 10 секунд, что более чем в 1000 раз быстрее генерации с помощью программы CORSIKA. Изображения, выдаваемых генератором, который был натренирован в соответствии с разработанной методикой, с помощью сторонних программных средств была произведена оценка сгенерированных изображений на предмет их похожести на гамма-события. Результаты сравнения следующие: 85.7% сгенерированных гамма-событий были признаны гамма-событиями, при этом 4.4% сгенерированных протонных событий были признаны гамма-событиями. Одним из направлений работ в текущем году являлось дальнейшее развитие научно-популярного портала в области астрофизики частиц. Кроме текущей поддержки портала, обновления и расширения материалов, представленных на нем, основное внимание было уделено по интеграции интерактивного приложения (микросервиса) для идентификации типа первичных частиц методом машинного обучения. Микросервис Astroparticle CNN Client реализован в виде интерактивного сервиса, который предоставляет доступ к онлайн-анализу для выделения гамма-событий на фоне адронных событий с использованием разработанных в рамках данного проекта сверточных нейронных сетей. События, моделированные методом Монте-Карло для телескопов TAIGA-IACT используются как входные данные для этого микросервиса. Полученные результаты были доложены на IV международном совещании «Data life cycle in Physics», прошедшего в июне этого года, а также на международной конференции «Computer Simulation in Physics and beyond». Также результаты были опубликованы в 4 статьях в изданиях, индексируемых международными системами WoS и Scopus, получено 1 свидетельство о государственной регистрации программы.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".