Analysis of 19.9 million publications from the PubMed/MEDLINE database using artificial intelligence methods: approaches to the generalizations of accumulated data and the phenomenon of “fake newsстатья
Информация о цитировании статьи получена из
Scopus
Статья опубликована в журнале из перечня ВАК
Статья опубликована в журнале из списка Web of Science и/или Scopus
Дата последнего поиска статьи во внешних источниках: 29 сентября 2021 г.
Аннотация:Введение. Англоязычные базы данных PubMed/MEDLINE и Embase являются ценными информационными ресурсами для нахождения оригинальных публикаций по фундаментальной и клинической медицине. В настоящее время не существует систем искусственного интеллекта, позволяющих оценивать качество этих публикаций.Цель. Разработка и апробация системы для проведения сентимент-анализа (то есть анализа эмоциональной модальности) публикаций по биомедицине.Материалы и методы. Сформулирована методика анализа «больших данных» биомедицинских публикаций, основанная на топологической теории сентимент-анализа медицинских текстов. Разработаны алгоритмы, позволяющие с 90%-й точностью классифицировать тексты по 16 классам сентиментов (манипулятивные обороты речи, исследования без положительных результатов, пропаганда, подделка результатов, негативное личное отношение, агрессивность текста, негативный эмоциональный фон и др.). На основе алгоритмов предложена балльная шкала оценки сентимент-качества исследований (β-балл).Результаты. Проведен анализ текстов абстрактов 19,9 млн публикаций, зарегистрированных в PubMed/MEDLINE за последние 50 лет (1970-2019). Показано, что публикации с низким сентимент-качеством (значение β-балла текста меньше нуля, что соответствует преобладанию манипулятивных и негативных сентиментов в тексте) составляют всего 18,5% (3,68 из 19,9 млн). Наибольшими значениями β-балла характеризовались публикации по спортивной медицине, системной биологии, нутрициологии, по использованию методов прикладной математики и интеллектуального анализа данных в медицине. Рубрикация всего массива публикаций по 27840 рубрикам (MESH-система PubMed/MEDLINE) указала на повышение β-балла по годам (то есть на положительную динамику сентимент-качества текстов публикаций) для 27090 исследованных рубрик. Наиболее интенсивная положительная динамика найдена для исследований по генетике, физиологии, фармакологии и геронтологии. Выделены 249 рубрик с резко отрицательной динамикой сентимент-качества и с выраженным нарастанием манипулятивных сентиментов, характерных для «желтой» англоязычной прессы. Приведены отдельные оценки международных экспертов, которые подтверждают выявленные закономерности. Заключение. Разработанная система искусственного интеллекта позволяет проводить эффективную оценку сентимент-качества биомедицинских исследований, отфильтровывая потенциально неадекватные публикации, публикуемые под маской «доказательных».