Применение методов машинного и глубокого обучения для обнаружения потенциально ошибочных записей в базах данных - доклад на конференции | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Авторы: Хрисанфов М.Д., Матюшин Д.Д., Самохин А.С.
Всероссийская с международным участием Конференция : X Всероссийская конференция с международным участием «Масс-спектрометрия и ее прикладные проблемы»
Даты проведения конференции: 30 октября - 3 ноября 2023
Дата доклада: 2 ноября 2023
Тип доклада: Устный
Докладчик: Хрисанфов М.Д.
Место проведения: г. Москва, Russia
Аннотация доклада:
Базы данных индексов удерживания используются для широкого круга задач в ГХ/МС, наиболее часто применяется NIST Retention Index Database (NIST RI). При этом, в исследованиях, зачастую, данные фильтруются от возможных неточностей простым образом или не обрабатываются вообще1,2. Найти потенциальные ошибки вручную затруднительно из-за большого объема базы данных, применение статистических методов оценки невозможно, поскольку примерно для 80% пар вещество-неподвижная фаза представлено только одно значение индекса удерживания. Мы предлагаем подход для обнаружения потенциально ошибочных индексов удерживания, основанный на использовании пяти независимых моделей1 машинного и глубокого обучения, предсказывающих индексы удерживания. Для всех моделей использовали NIST17 RI, разбитую на 5 частей, где 4 части применяли для обучения, 1 – для предсказания. Процесс повторяли 5 раз для получения полностью предсказанной копии NIST17 RI для каждой из моделей. Для каждой из моделей составили список, содержащий 5% предсказанных значений индексов удерживания с наибольшим отличием (абсолютная и относительная ошибки) от экспериментальных значений из NIST17 RI. Такие индексы получали «желтую карточку», максимально возможное количество «желтых карточек» для одного индекса удерживания – 5. Значения с 5 «желтыми карточками» мы считаем потенциально ошибочными, всего их обнаружено 2093. Мы обнаружили резкое аномальное уменьшение стандартного отклонения предсказаний разных моделей при увеличении числа “желтых карточек” от 4 до 5 (рис.1). Сравнение баз данных NIST17 RI и NIST20 RI показало, что для одного из источников из 286 потенциально ошибочных значений, представленных в более ранней версии базы данных, 219 были исправлены, 65 удалены, и только 2 остались без изменений. Таким образом, мы предложили подход к обнаружению потенциально ошибочных индексов удерживания на примере базы данных NIST17 RI с использованием пяти независимых моделей машинного и глубокого обучения. Мы считаем, что этот подход можно применить и для библиотек других экспериментальных данных. Исследование выполнено за счет гранта Российского научного фонда № 22-73-10053, https://rscf.ru/project/22-73-10053/ 1.Matyushin D.D., Buryak A.K. Gas Chromatographic Retention Index Prediction Using Multimodal Machine Learning // IEEE Access. Institute of Electrical and Electronics Engineers Inc., 2020. Vol. 8. P. 223140–223155. 2.Vrzal T., Malečková M., Olšovská J. DeepReI: Deep learning-based gas chromatographic retention index predictor // Anal Chim Acta. 2021. Vol. 1147. P. 64–71.
Добавил в систему: Хрисанфов Михаил Дмитриевич

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ЦЭМИ РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ЦЭМИ РАН

Применение методов машинного и глубокого обучения для обнаружения потенциально ошибочных записей в базах данныхдоклад на конференции

Прикрепленные файлы