УДК 004.912

МНОГОЗНАЧНАЯ КЛАССИФИКАЦИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ ВЕРОЯТНОСТНОГО ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ML-PLSI

С.Н. Карпович

Аннотация


В работе рассмотрен подход к многозначной классификации текстовых документов на основе вероятностного тематического моделирования. На базе корпуса SCTM-ru построена тематическая модель методом обучения с учителем, приведен алгоритм многозначной классификации. Описан состав программного прототипа, реализующего предложенный подход.

Ключевые слова


многозначная (нечеткая) классификация; обучение с учителем; тематическое моделирование; обработка текста на естественном языке

Полный текст:

PDF

Литература


  1. Журавлёв Ю.И., и др. Задачи распознавания и классификации со стандартной обучающей информацией // Журнал вычислительной математики и математической физики. 1980. Вып. 20. № 5. С. 1294–1309.
  2. Tsoumakas G., Katakis I. Multi-label classification: an overview // International Journal of Data Warehousing & Mining. 2007. vol. 3(3). pp. 1–13.
  3. Daud A. et al. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of computer science in China. 2010. vol. 4. no. 2. pp. 280–301.
  4. Ramage D., Hall D., Nallapati R., Manning C. D. Labeled lda: a supervised topic model for credit attribution in multi-labeled corpora // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. USA. 2009. vol. 1. pp. 248–256.
  5. Rubin T.N., Chambers A., Smyth P., Steyvers M. Statistical topic models for multilabel document classification // Machine Learning. 2012. vol. 88. no. 1–2. pp. 157–208.
  6. Padmanabhan D. et al. Topic Model Based Multi-Label Classification from the Crowd // arXiv preprint arXiv:1604.00783. 2016.
  7. Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. 2013. Вып. 1. № 6. С. 657‒686.
  8. Hoffman T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999. pp. 50‒57.
  9. Воронцов К.В., Потапенко А.А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование. 2012. Вып. 4. № 4. С. 693–706.
  10. Blei D., McAuliffe J. Supervised topic models //Advances in neural information processing systems. 2008. vol. 20. pp. 121–128.
  11. Плохотнюк В.С. Аксиоматизация семиологии и научный статус семиотики // Terra economicus. 2010. Вып. 8(4). С. 124–132.
  12. Карпович С.Н. Русскоязычный корпус текстов SCTM-RU для построения тематических моделей // Труды СПИИРАН. 2015. Вып. 39. С 123‒142.
  13. Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research // MIT Press. 2003. vol. 3(Jan). pp. 993‒1002.
  14. Городецкий В.И., Тушканова О.Н. Ассоциативная классификация: аналитический обзор. Часть 1 // Труды СПИИРАН. 2015. Вып. 1(38). С 183‒203.
  15. Городецкий В.И., Тушканова О.Н. Ассоциативная классификация: аналитический обзор. Часть 2. // Труды СПИИРАН. 2015. Вып. 2(39). С 212‒240.
  16. Городецкий В.И., Серебряков С.В. Методы и алгоритмы коллективного распознавания // Труды СПИИРАН. 2006. №3. С 139‒171.


Сергей Николаевич Карпович - руководитель направления поисковой оптимизации, ООО "Рамблер Интернет Холдинг".
Область научных интересов: тематическое моделирование, обработка текстов на естественном языке, data mining.
Число научных публикаций: 1.

Адрес (E-mail): cims@yandex.ru
Почтовый адрес: Варшавское ш., 9, стр. 1, БЦ «Даниловская мануфактура», корпус «Ряды Солдатенкова», Москва, 117105
URL: http://www.cims.ru
Телефон: +7(495)7851700




DOI: http://dx.doi.org/10.15622/sp.47.5

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 License.