ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ЦЭМИ РАН |
||
В Мировом океане содержание органического углерода составляет ~10^12 т. Глобальный биогеохимический цикл углерода во многом определяет климат, количество и разнообразие живых организмов. Поэтому его изучение является актуальной и важной задачей. Значительная часть органического углерода в водах находится в виде гуминовых веществ (ГВ). Для количественного определения ГВ активно используются оптические, экстракционные методы, и, поскольку, содержание ГВ в морских акваториях невелико использование флуориметрических методов представляется наиболее перспективным. Учитывая разнообразие ГВ, для их определения наилучшим образом подходят 3-х мерные спектры флуоресценции возбуждения-регистрации, а для их интерпретации различные хемометрические методы. Для построения модели использовали 35 растворов из 5 типов ГВ и 2-х аминокислот, общее содержание ОВ варьировалось от 25 до 61 мкг/л. Для всех образцов были зарегистрированы спектры флуоресценции возбуждения-регистрации. Перед построением многомерных градуированных моделей для определения содержания ГВ производилась предобработка спектров флуоресценции: антистоксову область всех спектров заполняли нулями, удаляли сигнал флуоресценции в коротковолновой области (менее 240 нм), поскольку источник сигнала в этом диапазоне не до конца понятен, Cигналы упругого и комбинационного рассеяния также удаляли, и затем интерполировали данные в этих областях. Данные были разделены на обучающий (30 образцов) и тестовый (5 образцов) наборы. Для выбора оптимальных параметров моделей применяли кросс-валидацию к обучающему набору спектров. Были построены многомерные градуировочные модели с использованием наиболее распространённых алгоритмов PLS1, PLS2, для предсказания общего содержания ГВ, Тирозина и Триптофана. Также нами был протестирован модифицированный алгоритм N-PLS, его особенностью является то, что входные данные представляются не в виде матрицы, а в виде тензора. Поскольку регистрация 3-х мерных диаграмм затруднена при работе в полевых условиях, особенно, при использовании проточных систем нами был рассмотрен метод N-PLS в качестве метода, позволяющего осуществить выбор переменных, для определения оптимального набора длин волн для количественного определения ГВ. Для реализации метода N-PLS было проведено центрирование спектров. При помощи кросс-валидации, делили обучающий набор на обучающий (24 образца) и тестовый (6 образцов) поднаборы. Затем начинали процесс обучения при числе компонент 1. Получали матрицу компонент и регрессионные коэффициенты, откуда получали тензор, который вычитали из исходного тензора. При помощи регрессионных коэффициентов получали вектор, который вычитали из исходного вектора концентраций. Затем проводили проверку на тестовом поднаборе с одной компонентой, и проводили проверку на тестовом наборе. Затем повторяли весь алгоритм для числа компонент от 1 до 20. Полученные результаты сравнивали с результатами, полученными алгоритмами PLS1, PLS2. Дальше производили выбор переменных, повторяя алгоритм N-PLS для различных наборов переменных.