КОРПУС ТЕКСТОВ РУССКОГО ЯЗЫКА ДЛЯ ТЕСТИРОВАНИЯ АЛГОРИТМОВ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ

С. Н. Карпович

Аннотация


Предложен специальный корпус текстов SCTMru для тестирования алгоритмов тематического моделирования. В условиях стремительного роста количества информационных данных остро проявляется проблема разработки инструментов и систем для их автоматической обработки. Для создания систем и тестирования алгоритмов должны существовать подходящие наборы данных. Необходимо наличие свободных коллекций документов, текстовых корпусов на русском языке для исследований методов автоматической обработки текстов на естественном языке с учетом лингвистических особенностей языка. Обозначены требования к специальному корпусу: он должен распространяться по свободной лицензии, количество документов должно быть достаточным для исследования, должен содержать тексты документов на естественном языке, а также востребованную в алгоритмах тематического моделирования информацию. Проведен сравнительный анализ корпусов на русском и иностранных языках, выявлено несоответствие характеристик существующих корпусов обозначенным требованиям.

Ключевые слова


текстовый корпус, тематическая модель, обработка естественного языка, русский язык

Полный текст:

PDF

Литература


  1. Papadimitriou Ch. H., Raghavan P., Hisao Tamaki, Vempala S. Latent semantic indexing: A probabilistic analysis. – 1998.
  2. Hoffman Th. Probabilistic Latent Semantic Indexing // Proc. 22 Annual Int. SIGIR Conf. Res. Dev. Inform. Retrieval, 1999.
  3. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet Allocation // J. Mach. Learn. Res. 2003.
  4. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Proc. Front. Comput. Sci. Chin. 2010. Р. 280-301.
  5. Национальный корпус русского языка НКРЯ. URL: www.ruscorpora.ru (дата обращения 12.01.2015).
  6. Захаров В. П. Международные стандарты в области корпусной лингвистики // Структурная и прикладная лингвистика. 2012. № 9. С. 201-221.
  7. Грановский Д. В., Бочаров В. В., Бичинева С. В. Открытый корпус: принципы работы и перспективы // Компьютерная лингвистика и развитие семантического поиска в Интернете: тр. науч. семинара XIII Всерос. Объединен. конф. «Интернет и современное общество». Санкт-Петербург, 19-22 окт. 2010 г. /под ред. В. Ш. Рубашкина. – СПб., 2010. 94 с.
  8. Открытый корпус. URL: opencorpora.org (дата обращения 10.01.2015).
  9. Small corpus of Associated Press. URL: www.cs.princeton.edu/~blei/lda-c (дата обращения 6.01.2015).
  10. The New York Times Annotated Corpus. URL: catalog.ldc.upenn.edu/LDC2008T19 (дата обращения 14.01.2015).
  11. The 20 Newsgroups data set. URL: qwone.com/~jason/20Newsgroups (дата обращения 24.01.2015).
  12. Reuters Corpora. URL: trec.nist.gov/data/reuters/reuters.html (дата обращения 24.01.2015).
  13. Reuters-21578 Text Categorization Collection Data Set. URL: archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection (дата обращения 24.01.2015).
  14. Виноградова В. Б., Кукушкина О. В., Поликарпов А. А., Савчук С. О. Компьютерный корпус текстов русских газет конца 20-го века: создание, категоризация, автоматизированный анализ языковых особенностей // Русский язык: исторические судьбы и современность: Междунар. конгресс русистов-исследователей. Москва, филологический ф-т МГУ им. М. В. Ломоносова 13-16 марта 2001 г. Труды и материалы. – М.: Изд-во Москов. ун-та, 2001. С. 398.
  15. Компьютерный корпус текстов русских газет конца XX века. URL: www.philol.msu.ru/~lex/corpus/corp_descr.html (дата обращения 24.01.2015)
  16. Венцов А. В., Грудева Е. В. О корпусе русского литературного языка (narusco.ru) // Рус. лингвистика. 2009. Т. 33, № 2. С. 195-209.
  17. Корпус русского литературного языка. URL: www.narusco.ru (дата обращения 24.01.2015).
  18. Хельсинкский аннотированный корпус русских текстов ХАНКО. URL: www.helsinki.fi /venaja/russian/e-material/hanco/index.htm (дата обращения 24.01.2015).
  19. Krizhanovsky A. А., Smirnov A. V. An approach to automated construction of a general-purpose lexical ontology based on Wiktionary // J. Comput. Syst. Sci. Int. 2013. Vol. 52, № 2. P. 215-225.
  20. Смирнов А. В., Круглов В. М., Крижановский А. А., Луговая Н. Б., Карпов А. А., Кипяткова И. С. Количественный анализ лексики русского WordNet и викисловарей // Тр. СПИИРАН. 2012. Вып. 23. С. 231-253.
  21. Программа морфологического анализа текстов на русском языке MyStem. URL: api.yandex.ru/mystem (дата обращения 12.12.2014).
  22. Xu S., Shi Q., Qiao X. et al. Author-Topic over Time (AToT): a dynamic users’ interest model, in Mobile, Ubiquitous,and Intelligent Computing. – Berlin (Germany): Springer, 2014. Р. 239-245.
  23. Ramage D., Hall D., Nallapati R., Manning C. D. Labeled LDA. A supervised topic model for credit attribution in multilabeled corpora // Empirical Methods Nat. Lang. Proc. 2009. P. 248-256.
  24. Xuerui Wang, McCallum A. Topics over Time: A Non-Markov ContinuousTime Model of Topical Trends // Proc. 12th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, Philadelphia, USA, Aug. 20-23, 2006.
  25. Gruber A., Rosen-Zvi M., Weiss Ya. Hidden Topic Markov Models // Proc. Artifi cial Intel. Statistics (AISTATS), San Juan, Puerto Rico, USA, March 21-24, 2007.
  26. Захаров В. П., Азарова И. В. Параметризация специальных корпусов текстов // Структурная и прикладная лингвистика: межвуз. сб. Вып. 9. – СПб.: СПбГУ, 2012. С. 176-184.


С. Н. Карпович - АО «Олимп».



Адрес (E-mail): cims@yandex.ru
Почтовый адрес: Москва


Ссылки на ваши статью

  • Ссылки не определены.