Реализация RAG-архитектуры для автоматизированной проверки документов в корпоративных системах хранения с использованием больших языковых моделей

Костин Максим Андреевич; Давыдова Даяна Михайловна; Петров Владимир Евгеньевич

doi:doi:10.20295/2413-2527-2026-246-5-16

Главная / Журналы / Интеллектуальные технологии на транспорте / Номер 2 / Реализация RAG-архитектуры для автоматизированной проверки документов в корпоративных системах хранения с использованием больших языковых моделей

Реализация RAG-архитектуры для автоматизированной проверки документов в корпоративных системах хранения с использованием больших языковых моделей

Отправить рукопись Скачать (RU)PDF
Текст

Цитировать

Цитирований:

РЕАЛИЗАЦИЯ RAG-АРХИТЕКТУРЫ ДЛЯ АВТОМАТИЗИРОВАННОЙ ПРОВЕРКИ ДОКУМЕНТОВ В КОРПОРАТИВНЫХ СИСТЕМАХ ХРАНЕНИЯ С ИСПОЛЬЗОВАНИЕМ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ

Журнал: ИНТЕЛЛЕКТУАЛЬНЫЕ ТЕХНОЛОГИИ НА ТРАНСПОРТЕ № 2 , 2026

Рубрики: ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ И ЗАЩИТА ДАННЫХ

Костин Максим Андреевич ¹

Давыдова Даяна Михайловна ²

Петров Владимир Евгеньевич ³

Информация об авторах и публикации

Авторы:

1. Петербургский государственный университет путей сообщения Императора Александра I (кафедра "Информационные и вычислительные системы")
студент

Россия

2. Петербургский государственный университет путей сообщения Императора Александра I (Кафедра "Информационные и вычислительные системы", старший преподаватель)
сотрудник

Россия

3. Петербургский государственный университет путей сообщения Императора Александра I (Кафедра "Информационные и вычислительные системы", Доцент)
сотрудник

Россия

Тип:

Статья

DOI:

https://doi.org/10.20295/2413-2527-2026-246-5-16

EDN:

https://elibrary.ru/xcuvxi

Страницы:

с 5 по 16

Статус:

Опубликован

Получено:

26.03.2026

Одобрено:

25.05.2026

Опубликовано:

24.06.2026

Классификаторы:

ВАК 2.3.6 Методы и системы защиты информации, информационная безопасность
ВАК 1.2.1 Искусственный интеллект и машинное обучение
УДК 004.041 процедурная
УДК 004.056 Безопасность, защищённость данных

Язык материала:

русский

Ключевые слова:

большие языковые модели, автоматизированная проверка документов, векторный поиск, обработка естественного языка, корпоративные системы, Ollama, извлечение текста, семантический анализ

Аннотация и ключевые слова

Аннотация:
Предлагается специализированное решение для анализа документов, использующихся в корпоративных системах документооборота. Цель: разработка и практическая реализация RAG-архитектуры для автоматизированной проверки корпоративных документов с использованием локально развернутых больших языковых моделей, обеспечивающей выявление пропущенных обязательных полей, ошибок форматов данных и содержательных противоречий в документах транспортных и логистических систем. Методы: проведены проектирование и программная реализация Java-приложения, интегрирующего модуль извлечения текста из PDF- и DOCX-документов на основе библиотек Apache, векторное хранилище с упрощенными эмбеддингами на основе частотного анализа слов, алгоритм семантического поиска через вычисление косинусного сходства и клиент взаимодействия с LLM через API сервера Ollama. Результаты: разработанная система продемонстрировала способность к контекстному анализу содержания документов и адаптивность к вариативным форматам представления информации, что позволяет преодолеть ограничения традиционных систем. Экспериментальная проверка выполнена на тестовом наборе корпоративных документов с преднамеренно внесенными ошибками различных типов; оценка эффективности проводилась по метрикам полноты, точности и их среднего, а также по времени отклика системы. Наилучшие результаты показала модель llama3.2:latest при полном исключении передачи конфиденциальных данных за пределы инфраструктуры организации. Практическая значимость: предложенное решение применимо для автоматизации контроля качества документации в корпоративных системах документооборота транспортных предприятий, государственных учреждений и промышленных организаций. Модульная архитектура обеспечивает масштабируемость на другие типы документов и возможность интеграции с существующими информационными системами при минимальных затратах на адаптацию. Использование открытых моделей и локального сервера Ollama снижает зависимость от сторонних облачных сервисов и обеспечивает соответствие требованиям информационной безопасности.

Ключевые слова:
большие языковые модели, автоматизированная проверка документов, векторный поиск, обработка естественного языка, корпоративные системы, Ollama, извлечение текста, семантический анализ

Текст

Текст (RU) (PDF): Читать Скачать

Список литературы

1. Ротман Д. RAG и генеративный ИИ. Создаем собственные RAG-пайплайны с помощью LlamaIndex, Deep Lake и Pinecon = RAG-Driven Generative AI: Build custom retrieval augmented generation pipelines with LlamaIndex, Deep Lake, and Pinecone. СПб.: Питер, 2025. 320 с.

2. Java SE/JDK Version 26 API Speciﬁcation: Module java.base. URL: http://docs.oracle.com/en/java/javase/26/docs/api/java.base/module-summary.html (дата обращения: 30.01.2026).

3. Ollama’s Documentation. URL: http://docs.ollama.com (дата обращения: 02.02.2026).

4. Шилдт Г. Java. Полное руководство. 12-е изд. = Java: The Complete Reference. Twelfth Edition / пер. с англ. и ред. Ю. Н. Артеменко. СПб.: Диалектика, 2023. 1344 с.

5. Хорстманн К. С. Java. Библиотека профессионала. Т. 1. Основы. 10-е изд. = Core Java. Volume I — Fundamentals. Tenth Edition / пер. с англ. и ред. И. В. Берштейна. М.: Вильямс, 2016. 864 с.

6. Портянкин И. А. Swing. Эффектные пользовательские интерфейсы. 2-е изд. М.: Лори, 2011. 607 с.

7. Huang D., Wang Z. LLMs at the Edge: Performance and Efficiency Evaluation with Ollama on Diverse Hardware // Proceedings of the International Joint Conference on Neural Networks (IJCNN 2025) (Rome, Italy, 30 June — 5 July 2025). Institute of Electrical and Electronics Engineers, 2025. 8 p. DOI:https://doi.org/10.1109/IJCNN64981.2025.11228317

8. Vahaj M., Raza S. M., Nehra V. Retrieval Augmented Generation (RAG) using LLMs // Proceedings of the Annual International Conference on Data Science, Machine Learning and Blockchain Technology (AICDMB 2025) (Mysuru, India, 27–28 June 2025). Institute of Electrical and Electronics Engineers, 2025. 5 p. DOI:https://doi.org/10.1109/AICDMB64359.2025.11277692

9. Блох Д. Java. Эффективное программирование. 3-е изд. = Effective Java. Third Edition / пер. с англ. и ред. И. В. Красикова. СПб.: Диалектика, 2019. 464 с.

10. Claim Veriﬁcation in the Age of Large Language Models: a Survey / A. Dmonte [et al.] // ArXiv. 2024. Vol. 2408.14317. 9 p. DOI:https://doi.org/10.48550/arXiv.2408.14317

Отправить рукопись Скачать PDF
Текст JATS XML

Цитировать

Цитирований:

Подтверждение

Регистрация