сотрудник с 01.01.2023 по настоящее время
г. Санкт-Петербург и Ленинградская область, Россия
Россия
Россия
УДК 004.056 Безопасность, защищённость данных
Предлагается специализированное решение для анализа документов, использующихся в корпоративных системах документооборота. Цель: разработка и практическая реализация RAG-архитектуры для автоматизированной проверки корпоративных документов с использованием локально развернутых больших языковых моделей, обеспечивающей выявление пропущенных обязательных полей, ошибок форматов данных и содержательных противоречий в документах транспортных и логистических систем. Методы: проведены проектирование и программная реализация Java-приложения, интегрирующего модуль извлечения текста из PDF- и DOCX-документов на основе библиотек Apache, векторное хранилище с упрощенными эмбеддингами на основе частотного анализа слов, алгоритм семантического поиска через вычисление косинусного сходства и клиент взаимодействия с LLM через API сервера Ollama. Результаты: разработанная система продемонстрировала способность к контекстному анализу содержания документов и адаптивность к вариативным форматам представления информации, что позволяет преодолеть ограничения традиционных систем. Экспериментальная проверка выполнена на тестовом наборе корпоративных документов с преднамеренно внесенными ошибками различных типов; оценка эффективности проводилась по метрикам полноты, точности и их среднего, а также по времени отклика системы. Наилучшие результаты показала модель llama3.2:latest при полном исключении передачи конфиденциальных данных за пределы инфраструктуры организации. Практическая значимость: предложенное решение применимо для автоматизации контроля качества документации в корпоративных системах документооборота транспортных предприятий, государственных учреждений и промышленных организаций. Модульная архитектура обеспечивает масштабируемость на другие типы документов и возможность интеграции с существующими информационными системами при минимальных затратах на адаптацию. Использование открытых моделей и локального сервера Ollama снижает зависимость от сторонних облачных сервисов и обеспечивает соответствие требованиям информационной безопасности.
большие языковые модели, автоматизированная проверка документов, векторный поиск, обработка естественного языка, корпоративные системы, Ollama, извлечение текста, семантический анализ
1. Ротман Д. RAG и генеративный ИИ. Создаем собственные RAG-пайплайны с помощью LlamaIndex, Deep Lake и Pinecon = RAG-Driven Generative AI: Build custom retrieval augmented generation pipelines with LlamaIndex, Deep Lake, and Pinecone. СПб.: Питер, 2025. 320 с.
2. Java SE/JDK Version 26 API Specification: Module java.base. URL: http://docs.oracle.com/en/java/javase/26/docs/ api/java.base/module-summary.html (дата обращения: 30.01.2026).
3. Ollama’s Documentation. URL: http://docs.ollama.com (дата обращения: 02.02.2026).
4. Шилдт Г. Java. Полное руководство. 12-е изд. = Java: The Complete Reference. Twelfth Edition / пер. с англ. и ред. Ю. Н. Артеменко. СПб.: Диалектика, 2023. 1344 с.
5. Хорстманн К. С. Java. Библиотека профессионала. Т. 1. Основы. 10-е изд. = Core Java. Volume I — Fundamentals. Tenth Edition / пер. с англ. и ред. И. В. Берштейна. М.: Вильямс, 2016. 864 с.
6. Портянкин И. А. Swing. Эффектные пользовательские интерфейсы. 2-е изд. М.: Лори, 2011. 607 с.
7. Huang D., Wang Z. LLMs at the Edge: Performance and Efficiency Evaluation with Ollama on Diverse Hardware // Proceedings of the International Joint Conference on Neural Networks (IJCNN 2025) (Rome, Italy, 30 June — 5 July 2025). Institute of Electrical and Electronics Engineers, 2025. 8 p. DOI:https://doi.org/10.1109/IJCNN64981.2025.11228317
8. Vahaj M., Raza S. M., Nehra V. Retrieval Augmented Generation (RAG) using LLMs // Proceedings of the Annual International Conference on Data Science, Machine Learning and Blockchain Technology (AICDMB 2025) (Mysuru, India, 27–28 June 2025). Institute of Electrical and Electronics Engineers, 2025. 5 p. DOI:https://doi.org/10.1109/AICDMB64359.2025.11277692
9. Блох Д. Java. Эффективное программирование. 3-е изд. = Effective Java. Third Edition / пер. с англ. и ред. И. В. Красикова. СПб.: Диалектика, 2019. 464 с.
10. Claim Verification in the Age of Large Language Models: a Survey / A. Dmonte [et al.] // ArXiv. 2024. Vol. 2408.14317. 9 p. DOI:https://doi.org/10.48550/arXiv.2408.14317



