Корпус текстов русского языка для тестирования алгоритмов тематического моделирования
Ключевые слова:
текстовый корпус, тематическая модель, обработка естественного языка, русский языкАннотация
Предложен специальный корпус текстов SCTMru для тестирования алгоритмов тематического моделирования. В условиях стремительного роста количества информационных данных остро проявляется проблема разработки инструментов и систем для их автоматической обработки. Для создания систем и тестирования алгоритмов должны существовать подходящие наборы данных. Необходимо наличие свободных коллекций документов, текстовых корпусов на русском языке для исследований методов автоматической обработки текстов на естественном языке с учетом лингвистических особенностей языка. Обозначены требования к специальному корпусу: он должен распространяться по свободной лицензии, количество документов должно быть достаточным для исследования, должен содержать тексты документов на естественном языке, а также востребованную в алгоритмах тематического моделирования информацию. Проведен сравнительный анализ корпусов на русском и иностранных языках, выявлено несоответствие характеристик существующих корпусов обозначенным требованиям.Опубликован
2018-05-08
Выпуск
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются с условиями приведенными в Лицензионном договоре