![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ЦЭМИ РАН |
||
В литературе описано несколько семейств микробных родопсинов (бактериородопсины, галородопсины и др.), причем для отнесения аминокислотной последовательности к тому или иному семейству требуется сравнить её со всеми гомологичными последовательностями. Методы машинного обучения способны классифицировать последовательности без такого сравнения, однако для корректного обучения этих алгоритмов требуются достаточно большие наборы данных, недоступные в настоящее время. Решением этой проблемы может оказаться генерация псевдопоследовательностей, обладающих свойствами природных последовательностей. Данная методика расширения набора обучающих данных из уже имеющихся получила название аугментация. Целью настоящей работы являлась генерация искусственных последовательностей микробных родопсинов. Используя кластеризацию, мы разделили надсемейство микробных родопсинов на 14 семейств, и для каждого из них осуществлялась генерация псевдопоследовательностей. Особенностью нашего метода генерации является учет особенностей аминокислотного состава трансмембранных и немембранных участков белка, что позволяет максимально приблизить искусственные последовательности по структуре к природным. Так, расширение набора последовательностей природных микробных родопсинов псевдопоследовательностями может помочь в изучении структурных и функциональных особенностей различных родопсинов. Сгенерированные нами последовательности были использованы для классификатора, основанного на многослойном перцептроне. Так, нам удалось достичь точности предсказания 100% для 33 микробных родопсинов известных классов, которые не были использованы для аугментации.