Analysis of 19.9 million publications from the PubMed/MEDLINE database using artificial intelligence methods: approaches to the generalizations of accumulated data and the phenomenon of “fake news

Torshin, I.Y.; Gromova, O.A.; Stakhovskaya, L.V.; Vanchakova, N.P.; Galustyan, A.N.; Kobalava, Z.D.; Grishina, T.R.; Gromov, A.N.; Ilovaiskaya, I.A.; Kodentsova, V.M.; Kalacheva, A.G.; Limanova, O.A.; Maksimov, V.A.; Malyavskaya, S.I.; Mozgovaya, E.V.; Tapilskaya, N.I.; Rudakov, K.V.; Semenov, V.A.

Авторы: Torshin I.Yu, Gromova O.A., Stakhovskaya L.V., Vanchakova N.P., Galustyan A.N., Kobalava Zh D., Grishina T.R., Gromov A.N., Ilovaiskaya I.A., Kodentsova V.M., Kalacheva A.G., Limanova O.A., Maksimov V.A., Malyavskaya S.I., Mozgovaya E.V., Tapilskaya N.I., Rudakov K.V., Semenov V.A.
Журнал: Фармакоэкономика. Современная фармакоэкономика и фармакоэпидемиология.
Том: 13
Номер: 2
Год издания: 2020
Первая страница: 146
Последняя страница: 163
DOI: 10.17749/2070-4909/farmakoekonomika.2020.021
Аннотация: Введение. Англоязычные базы данных PubMed/MEDLINE и Embase являются ценными информационными ресурсами для нахождения оригинальных публикаций по фундаментальной и клинической медицине. В настоящее время не существует систем искусственного интеллекта, позволяющих оценивать качество этих публикаций.Цель. Разработка и апробация системы для проведения сентимент-анализа (то есть анализа эмоциональной модальности) публикаций по биомедицине.Материалы и методы. Сформулирована методика анализа «больших данных» биомедицинских публикаций, основанная на топологической теории сентимент-анализа медицинских текстов. Разработаны алгоритмы, позволяющие с 90%-й точностью классифицировать тексты по 16 классам сентиментов (манипулятивные обороты речи, исследования без положительных результатов, пропаганда, подделка результатов, негативное личное отношение, агрессивность текста, негативный эмоциональный фон и др.). На основе алгоритмов предложена балльная шкала оценки сентимент-качества исследований (β-балл).Результаты. Проведен анализ текстов абстрактов 19,9 млн публикаций, зарегистрированных в PubMed/MEDLINE за последние 50 лет (1970-2019). Показано, что публикации с низким сентимент-качеством (значение β-балла текста меньше нуля, что соответствует преобладанию манипулятивных и негативных сентиментов в тексте) составляют всего 18,5% (3,68 из 19,9 млн). Наибольшими значениями β-балла характеризовались публикации по спортивной медицине, системной биологии, нутрициологии, по использованию методов прикладной математики и интеллектуального анализа данных в медицине. Рубрикация всего массива публикаций по 27840 рубрикам (MESH-система PubMed/MEDLINE) указала на повышение β-балла по годам (то есть на положительную динамику сентимент-качества текстов публикаций) для 27090 исследованных рубрик. Наиболее интенсивная положительная динамика найдена для исследований по генетике, физиологии, фармакологии и геронтологии. Выделены 249 рубрик с резко отрицательной динамикой сентимент-качества и с выраженным нарастанием манипулятивных сентиментов, характерных для «желтой» англоязычной прессы. Приведены отдельные оценки международных экспертов, которые подтверждают выявленные закономерности. Заключение. Разработанная система искусственного интеллекта позволяет проводить эффективную оценку сентимент-качества биомедицинских исследований, отфильтровывая потенциально неадекватные публикации, публикуемые под маской «доказательных».
Добавил в систему: Иловайская Ирэна Адольфовна

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ЦЭМИ РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ЦЭМИ РАН

Analysis of 19.9 million publications from the PubMed/MEDLINE database using artificial intelligence methods: approaches to the generalizations of accumulated data and the phenomenon of “fake newsстатья