Аннотация:Разработанная и внедренная в МГУ имени М.В. Ломоносова с этой целью информационно-аналитическая система (ИАС) «ИСТИНА», используемая для оценки эффективности деятельности ее сотрудников, отдельных структурных подразделений и организации в целом, осуществляет сбор большого числа показателей. Такие показатели охватывают все основные сферы деятельности организации, в том числе – учитывают особенности отдельных подразделений, описывают результаты научной и/или педагогической деятельности отдельных сотрудников. На основании анализа таких показателей рассчитываются рейтинговые оценки эффективности такой деятельности. Одним из важнейших показателей, которые влияют на такую оценку, является число
публикаций, а также их цитируемость, распределение по журналам и темам. При анализе этого показателя необходимо учитывать, что авторы вводят как оригинальные статьи, так и их переводы в иностранных журналах. Переводы статей имеют большое значение для анализа цитируемости автора, в том числе – в метриках, которые определяют индексирующие центры Web Of Science и Scopus. Однако при анализе публикаций и расчете рейтинговых показателей возникает необходимость различать оригинальные статьи и переводы.
Сложность определения переводных версий статей обусловлена тем обстоятельством, что ввод в систему информации о статье и ее переводе может осуществляться не только в разное время по мере выхода изданий, но и разными авторами. В этой связи, актуальной является автоматизация процессов поиска и сопоставления переводных версий статей в процессе сбора подобной информации, поскольку ручная обработка таких объемов, данных невозможна.
Разработанный в рамках решения поставленной выше задачи алгоритм состоит из двух этапов. На первом этапе производится поиск пар журналов, которые печатают переводные статьи. На втором этапе работы алгоритма на основе полученного списка пар журналов проводится поиск пар статей, которые опубликованы в этих журналах и удовлетворяют следующим критериям: статьи опубликованы одними и теми же авторами, дата публикации отличается не более чем на год. Полученные пары статей считаются возможными вариантами перевода.
Тестирование программной реализации разработанного алгоритма проводилось на данных о публикациях сотрудников МГУ имени М.В. Ломоносова. Массив данных содержал описание 78 тыс. статей, в качестве возможных переводов было выделено 2 тыс. статей, точность оценки составила 65 %. Следует отметить, что одной из причин сложности автоматического поиска переводов является то, что некоторые авторы публикуют похожие результаты не один раз, меняя при этом название статьи. В таких случаях даже эксперту в предметной области трудно дать однозначную оценку, является ли статья не очень точным переводом или самостоятельной статьей. Несмотря на то, что результаты работы рассматриваемого программного модуля не позволяют с высокой точностью выявлять переводы, они позволяют уведомлять пользователей системы о наличии возможных переводов статей с возможностью поставить соответствующую отметку в данных о статье.
Реализованный авторами работы интерфейс в ИАС «ИСТИНА» позволяет ответственным за сопровождение информации в системе от структурного подразделения организации проверять результаты автоматического поиска переводов и подтверждать или отклонять рекомендации системы по установлению связей между оригинальными статьями и их переводами.