Исследование применимости методов машинного обучения к задаче анализа данных о генной экспрессии, полученных с помощью ДНК-микрочиповдипломная работа (Специалист)
Аннотация:В работе рассматривается задача классификации опухолевых и нормальных образцов тканей молочной железы на основе экспрессионных данных, полученных с помощью ДНК-микрочипов. Эти данные содержат несколько тысяч измерений. Поэтому, для достижения высокой точности распознавания, в первую очередь необходимо решить задачу отбора информативных признаков, которые будут использованы для обучения классификатора. Для решения этой задачи был разработан и реализован новый алгоритм. Проверка и сравнение его эффективности с другими методами осуществлялась на реальных экспрессионных данных. Показано, что предложенный алгоритм значительно превосходит по эффективности алгоритм RFE. Обученный на отобранных алгоритмом RFE признаках линейный SVM имеет точность 71% на тестовых данных, а использование разработанного алгоритма позволило достигнуть 98% точности. Предложенный метод отбора признаков может быть использован не только на экспрессионных данных.
Разработано консольное приложение для проведения классификации нормальной и опухолевой тканей молочной железы по экспрессионным данным.