Постоянный адрес страницы: http://itt-pgups.ru/index.php/sp/article/view/3359
Полная библиографическая ссылка: Карпович С.Н. Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI // Труды СПИИРАН. 2016. Вып. 47. C. 92-104.
УДК 004.912
МНОГОЗНАЧНАЯ КЛАССИФИКАЦИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ ВЕРОЯТНОСТНОГО ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ML-PLSI
Аннотация
В работе рассмотрен подход к многозначной классификации текстовых документов на основе вероятностного тематического моделирования. На базе корпуса SCTM-ru построена тематическая модель методом обучения с учителем, приведен алгоритм многозначной классификации. Описан состав программного прототипа, реализующего предложенный подход.
Ключевые слова
многозначная (нечеткая) классификация; обучение с учителем; тематическое моделирование; обработка текста на естественном языке
Полный текст:
PDFЛитература
- Журавлёв Ю.И., и др. Задачи распознавания и классификации со стандартной обучающей информацией // Журнал вычислительной математики и математической физики. 1980. Вып. 20. № 5. С. 1294–1309.
- Tsoumakas G., Katakis I. Multi-label classification: an overview // International Journal of Data Warehousing & Mining. 2007. vol. 3(3). pp. 1–13.
- Daud A. et al. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of computer science in China. 2010. vol. 4. no. 2. pp. 280–301.
- Ramage D., Hall D., Nallapati R., Manning C. D. Labeled lda: a supervised topic model for credit attribution in multi-labeled corpora // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. USA. 2009. vol. 1. pp. 248–256.
- Rubin T.N., Chambers A., Smyth P., Steyvers M. Statistical topic models for multilabel document classification // Machine Learning. 2012. vol. 88. no. 1–2. pp. 157–208.
- Padmanabhan D. et al. Topic Model Based Multi-Label Classification from the Crowd // arXiv preprint arXiv:1604.00783. 2016.
- Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. 2013. Вып. 1. № 6. С. 657‒686.
- Hoffman T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999. pp. 50‒57.
- Воронцов К.В., Потапенко А.А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование. 2012. Вып. 4. № 4. С. 693–706.
- Blei D., McAuliffe J. Supervised topic models //Advances in neural information processing systems. 2008. vol. 20. pp. 121–128.
- Плохотнюк В.С. Аксиоматизация семиологии и научный статус семиотики // Terra economicus. 2010. Вып. 8(4). С. 124–132.
- Карпович С.Н. Русскоязычный корпус текстов SCTM-RU для построения тематических моделей // Труды СПИИРАН. 2015. Вып. 39. С 123‒142.
- Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research // MIT Press. 2003. vol. 3(Jan). pp. 993‒1002.
- Городецкий В.И., Тушканова О.Н. Ассоциативная классификация: аналитический обзор. Часть 1 // Труды СПИИРАН. 2015. Вып. 1(38). С 183‒203.
- Городецкий В.И., Тушканова О.Н. Ассоциативная классификация: аналитический обзор. Часть 2. // Труды СПИИРАН. 2015. Вып. 2(39). С 212‒240.
- Городецкий В.И., Серебряков С.В. Методы и алгоритмы коллективного распознавания // Труды СПИИРАН. 2006. №3. С 139‒171.
DOI: http://dx.doi.org/10.15622/sp.47.5

This work is licensed under a Creative Commons Attribution 4.0 License.