Корпус текстов русского языка для тестирования алгоритмов тематического моделирования | Интеллектуальные технологии на транспорте (сетевой электронный научный журнал)

Карпович АО «Олимп»

Ключевые слова:

текстовый корпус, тематическая модель, обработка естественного языка, русский язык

Аннотация

Предложен специальный корпус текстов SCTMru для тестирования алгоритмов тематического моделирования. В условиях стремительного роста количества информационных данных остро проявляется проблема разработки инструментов и систем для их автоматической обработки. Для создания систем и тестирования алгоритмов должны существовать подходящие наборы данных. Необходимо наличие свободных коллекций документов, текстовых корпусов на русском языке для исследований методов автоматической обработки текстов на естественном языке с учетом лингвистических особенностей языка. Обозначены требования к специальному корпусу: он должен распространяться по свободной лицензии, количество документов должно быть достаточным для исследования, должен содержать тексты документов на естественном языке, а также востребованную в алгоритмах тематического моделирования информацию. Проведен сравнительный анализ корпусов на русском и иностранных языках, выявлено несоответствие характеристик существующих корпусов обозначенным требованиям.

Опубликован

2018-05-08

Выпуск

№ 13 (2018)

Раздел

Статьи

Авторы, которые публикуются в данном журнале, соглашаются с условиями приведенными в Лицензионном договоре