Корпус текстов русского языка для тестирования алгоритмов тематического моделирования

Карпович С Н

doi:doi:

Главная / Журналы / Интеллектуальные технологии на транспорте (сетевой электронный научный журнал), Intellectual Technologies on Transport / Номер 1 / Корпус текстов русского языка для тестирования алгоритмов тематического моделирования

Корпус текстов русского языка для тестирования алгоритмов тематического моделирования

Отправить рукопись

Цитировать

Цитирований:

КОРПУС ТЕКСТОВ РУССКОГО ЯЗЫКА ДЛЯ ТЕСТИРОВАНИЯ АЛГОРИТМОВ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ

Журнал: ИНТЕЛЛЕКТУАЛЬНЫЕ ТЕХНОЛОГИИ НА ТРАНСПОРТЕ (СЕТЕВОЙ ЭЛЕКТРОННЫЙ НАУЧНЫЙ ЖУРНАЛ), INTELLECTUAL TECHNOLOGIES ON TRANSPORT № 1 , 2018

Рубрики: СТАТЬИ

УДК УДК

Карпович С Н ¹

Информация об авторах и публикации

Авторы:

1. АО «Олимп»

Тип:

Статья

Страницы:

с 11 по 19

Статус:

Опубликован

Получено:

11.01.2025

Одобрено:

11.01.2025

Опубликовано:

11.01.2025

Классификаторы:

УДК УДК

Язык материала:

русский

Ключевые слова:

текстовый корпус, тематическая модель, обработка естественного языка, русский язык

Аннотация и ключевые слова

Аннотация:
Предложен специальный корпус текстов SCTMru для тестирования алгоритмов тематического моделирования. В условиях стремительного роста количества информационных данных остро проявляется проблема разработки инструментов и систем для их автоматической обработки. Для создания систем и тестирования алгоритмов должны существовать подходящие наборы данных. Необходимо наличие свободных коллекций документов, текстовых корпусов на русском языке для исследований методов автоматической обработки текстов на естественном языке с учетом лингвистических особенностей языка. Обозначены требования к специальному корпусу: он должен распространяться по свободной лицензии, количество документов должно быть достаточным для исследования, должен содержать тексты документов на естественном языке, а также востребованную в алгоритмах тематического моделирования информацию. Проведен сравнительный анализ корпусов на русском и иностранных языках, выявлено несоответствие характеристик существующих корпусов обозначенным требованиям.

Ключевые слова:
текстовый корпус, тематическая модель, обработка естественного языка, русский язык

Список литературы

1. Papadimitriou Ch. H., Raghavan P., Hisao Tamaki, Vempala S. Latent semantic indexing: A probabilistic analysis. – 1998.

3. Hoffman Th. Probabilistic Latent Semantic Indexing // Proc. 22 Annual Int. SIGIR Conf. Res. Dev. Inform. Retrieval, 1999.

5. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet Allocation // J. Mach. Learn. Res. 2003.

7. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Proc. Front. Comput. Sci. Chin. 2010. Р. 280-301.

9. Национальный корпус русского языка НКРЯ. URL: www.ruscorpora.ru (дата обращения 12.01.2015).

10.

11. Захаров В. П. Международные стандарты в области корпусной лингвистики // Структурная и прикладная лингвистика. 2012. № 9. С. 201-221.

12.

13. Грановский Д. В., Бочаров В. В., Бичинева С. В. Открытый корпус: принципы работы и перспективы // Компьютерная лингвистика и развитие семантического поиска в Интернете: тр. науч. семинара XIII Всерос. Объединен. конф. «Интернет и современное общество». Санкт-Петербург, 19-22 окт. 2010 г. /под ред. В. Ш. Рубашкина. – СПб., 2010. 94 с.

14.

15. Открытый корпус. URL: opencorpora.org (дата обращения 10.01.2015).

16.

17. Small corpus of Associated Press. URL: www.cs.princeton.edu/~blei/lda-c (дата обращения 6.01.2015).

18.

19. The New York Times Annotated Corpus. URL: catalog.ldc.upenn.edu/LDC2008T19 (дата обращения 14.01.2015).

20.

21. The 20 Newsgroups data set. URL: qwone.com/~jason/20Newsgroups (дата обращения 24.01.2015).

22.

23. Reuters Corpora. URL: trec.nist.gov/data/reuters/reuters.html (дата обращения 24.01.2015).

24.

25. Reuters-21578 Text Categorization Collection Data Set. URL: archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection (дата обращения 24.01.2015).

26.

27. Виноградова В. Б., Кукушкина О. В., Поликарпов А. А., Савчук С. О. Компьютерный корпус текстов русских газет конца 20-го века: создание, категоризация, автоматизированный анализ языковых особенностей // Русский язык: исторические судьбы и современность: Междунар. конгресс русистов-исследователей. Москва, филологический ф-т МГУ им. М. В. Ломоносова 13-16 марта 2001 г. Труды и материалы. – М.: Изд-во Москов. ун-та, 2001. С. 398.

28.

29. Компьютерный корпус текстов русских газет конца XX века. URL: www.philol.msu.ru/~lex/corpus/corp_descr.html (дата обращения 24.01.2015)

30.

31. Венцов А. В., Грудева Е. В. О корпусе русского литературного языка (narusco.ru) // Рус. лингвистика. 2009. Т. 33, № 2. С. 195-209.

32.

33. Корпус русского литературного языка. URL: www.narusco.ru (дата обращения 24.01.2015).

34.

35. Хельсинкский аннотированный корпус русских текстов ХАНКО. URL: www.helsinki.fi /venaja/russian/e-material/hanco/index.htm (дата обращения 24.01.2015).

36.

37. Krizhanovsky A. А., Smirnov A. V. An approach to automated construction of a general-purpose lexical ontology based on Wiktionary // J. Comput. Syst. Sci. Int. 2013. Vol. 52, № 2. P. 215-225.

38.

39. Смирнов А. В., Круглов В. М., Крижановский А. А., Луговая Н. Б., Карпов А. А., Кипяткова И. С. Количественный анализ лексики русского WordNet и викисловарей // Тр. СПИИРАН. 2012. Вып. 23. С. 231-253.

40.

41. Программа морфологического анализа текстов на русском языке MyStem. URL: api.yandex.ru/mystem (дата обращения 12.12.2014).

42.

43. Xu S., Shi Q., Qiao X. et al. Author-Topic over Time (AToT): a dynamic users’ interest model, in Mobile, Ubiquitous,and Intelligent Computing. – Berlin (Germany): Springer, 2014. Р. 239-245.

44.

45. Ramage D., Hall D., Nallapati R., Manning C. D. Labeled LDA. A supervised topic model for credit attribution in multilabeled corpora // Empirical Methods Nat. Lang. Proc. 2009. P. 248-256.

46.

47. Xuerui Wang, McCallum A. Topics over Time: A Non-Markov ContinuousTime Model of Topical Trends // Proc. 12th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, Philadelphia, USA, Aug. 20-23, 2006.

48.

49. Gruber A., Rosen-Zvi M., Weiss Ya. Hidden Topic Markov Models // Proc. Artifi cial Intel. Statistics (AISTATS), San Juan, Puerto Rico, USA, March 21-24, 2007.

50.

51. Захаров В. П., Азарова И. В. Параметризация специальных корпусов текстов // Структурная и прикладная лингвистика: межвуз. сб. Вып. 9. – СПб.: СПбГУ, 2012. С. 176-184.

Отправить рукопись JATS XML

Цитировать

Цитирований:

Подтверждение

Регистрация