Особенности предварительной обработки текстовых данных при анализе тональности текстов | Интеллектуальные технологии на транспорте (сетевой электронный научный журнал)

Косых Н. Е. Петербургский государственный университет путей сообщения Императора Александра I
Молодкин И. А. Петербургский государственный университет путей сообщения Императора Александра I
Хомоненко А. Д. Петербургский государственный университет путей сообщения Императора Александра I; Военно-космическая академия имени А. Ф. Можайского

DOI:

https://doi.org/10.24412/2413-2527-2022-331-68-73

Ключевые слова:

интеллектуальный анализ, анализ данных, сентиментный анализ, нейронные сети, обработка текста

Аннотация

Объект исследования — анализ тональности русскоязычного корпуса текстов. Предмет исследования — сравнение эффективности подходов предварительной очистки текста перед анализом тональности. Цель исследования — разработка обобщенного метода предварительной очистки данных для создания модели нейросети. Отличительной чертой предложенных решений является использование современных и легковесных библиотек для возможности предварительной подготовке текста к обучению нейросетью; также апробирована гипотеза использования усеченного словаря на основе предположения об избыточности данных. Полученные результаты показывают полезность разработанного алгоритма с точки зрения получения улучшенных результатов в процессе обучения и указывают на то, что благодаря своей универсальности он может быть экстраполирован для дальнейшего использования на других текстовых данных.

PDF (English)

Опубликован

2022-12-07

Выпуск

№ 31 (2022)

Раздел

Статьи

Авторы, которые публикуются в данном журнале, соглашаются с условиями приведенными в Лицензионном договоре