ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ЦЭМИ РАН |
||
В последние годы цифровые технологии оказали большое влияние на изменение подходов и методологических сдвигов в гуманитарных исследованиях. Появляющиеся области исследований, такие как лингвистика с компьютерной поддержкой и цифровые гуманитарные науки, расширили глобальную парадигму лингвистических исследований. В данной статье представлен метод визуального анализа китайских текстовых данных на основе Python. Поскольку китайский язык имеет много онтологических особенностей, таких как отсутствие разделителей слов, неоднозначная структура слов и более неоднозначные контексты [Zeng, 2019, c. 38], поэтому на этапе предварительной обработки неструктурированного текста методы предварительной обработки разделения слов европейских языков не применимы к особой языковой системе китайского языка. Для разбиения китайских слов, языковой пакет (package) «jieba», основанный на статистических словарях, Скрытая Марковская Модель (СММ), Алгоритм Витерби и других алгоритмах, имеет полный технический маршрут, и в то же время обладает преимуществами простых алгоритмов и высокой точности, что может стать важной гарантией для естественно-языковой обработки китайских текстов. Частота слов в тексте - это один из способов быстрого получения ключевой информации о тексте. Глядя на частоту слов, можно узнать, какую информацию стоит получить, или сделать вывод о структуре текста для целенаправленного анализа [Sinclair, 1991, c. 31]. Применительно к китайским политическим текстам, например, сравнение изменений высокочастотных слов в политической литературе с течением времени позволяет проанализировать изменения в соответствующей национальной политике [Wang, Liu, 2016, c. 2]. Облака слов являются хорошим методом визуализации ключевой информации и широко используются в анализе политических текстов [Zhang et al, 2022], анализе дискурса социальных сетей [Calavia et al, 2022], лингвистических исследованиях [Башмакова, 2021] и даже в преподавании иностранных языков в классе [Непрокина, 2022]. В данной работе в качестве исследовательского корпуса выбраны отчеты о работе китайского правительства за последние пять лет, содержащие в общей сумме 87 149 знаков (без пробелов), и скомпилирован код на основе среды python 3.10.7 и платформы PyCharm Community. Идея исследования разделена на этапы получения текста, предварительной обработки текста, создания визуализации и анализа результатов. Результаты исследования показали, что: 1. темой работы правительства в течение всех пяти лет было «развитие», а подтема постепенно смещалась от «реформы» к «строительству». 2. Фокус работы правительства во время вспышки значительно сместился с реформ и развития на социальные вопросы и вопросы жизнеобеспечения. 3. Вопросы рыночной экономики и инноваций на предприятиях продолжают определять работу правительства. 4. Сфера социальных услуг все больше доминирует в работе правительства. Методы и парадигмы обработки естественного языка китайских политических текстов также могут быть использованы для визуального анализа в других областях.