![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ЦЭМИ РАН |
||
Базы данных индексов удерживания используются для широкого круга задач в ГХ/МС, наиболее часто применяется NIST Retention Index Database (NIST RI). При этом, в исследованиях, зачастую, данные фильтруются от возможных неточностей простым образом или не обрабатываются вообще1,2. Найти потенциальные ошибки вручную затруднительно из-за большого объема базы данных, применение статистических методов оценки невозможно, поскольку примерно для 80% пар вещество-неподвижная фаза представлено только одно значение индекса удерживания. Мы предлагаем подход для обнаружения потенциально ошибочных индексов удерживания, основанный на использовании пяти независимых моделей1 машинного и глубокого обучения, предсказывающих индексы удерживания. Для всех моделей использовали NIST17 RI, разбитую на 5 частей, где 4 части применяли для обучения, 1 – для предсказания. Процесс повторяли 5 раз для получения полностью предсказанной копии NIST17 RI для каждой из моделей. Для каждой из моделей составили список, содержащий 5% предсказанных значений индексов удерживания с наибольшим отличием (абсолютная и относительная ошибки) от экспериментальных значений из NIST17 RI. Такие индексы получали «желтую карточку», максимально возможное количество «желтых карточек» для одного индекса удерживания – 5. Значения с 5 «желтыми карточками» мы считаем потенциально ошибочными, всего их обнаружено 2093. Мы обнаружили резкое аномальное уменьшение стандартного отклонения предсказаний разных моделей при увеличении числа “желтых карточек” от 4 до 5 (рис.1). Сравнение баз данных NIST17 RI и NIST20 RI показало, что для одного из источников из 286 потенциально ошибочных значений, представленных в более ранней версии базы данных, 219 были исправлены, 65 удалены, и только 2 остались без изменений. Таким образом, мы предложили подход к обнаружению потенциально ошибочных индексов удерживания на примере базы данных NIST17 RI с использованием пяти независимых моделей машинного и глубокого обучения. Мы считаем, что этот подход можно применить и для библиотек других экспериментальных данных. Исследование выполнено за счет гранта Российского научного фонда № 22-73-10053, https://rscf.ru/project/22-73-10053/ 1.Matyushin D.D., Buryak A.K. Gas Chromatographic Retention Index Prediction Using Multimodal Machine Learning // IEEE Access. Institute of Electrical and Electronics Engineers Inc., 2020. Vol. 8. P. 223140–223155. 2.Vrzal T., Malečková M., Olšovská J. DeepReI: Deep learning-based gas chromatographic retention index predictor // Anal Chim Acta. 2021. Vol. 1147. P. 64–71.
№ | Имя | Описание | Имя файла | Размер | Добавлен |
---|---|---|---|---|---|
3. | Краткий текст | Текст тезисов доклада в сборнике конференции | VMSO_Istina.pdf | 4,4 МБ | 4 декабря 2023 [khrisanfovmike] |