<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Intellectual Technologies on Transport</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Intellectual Technologies on Transport</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Интеллектуальные технологии на транспорте</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="online">2413-2527</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">118162</article-id>
   <article-id pub-id-type="doi">10.20295/2413-2527-2026-246-5-16</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ И ЗАЩИТА ДАННЫХ</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>INFORMATION SECURITY AND DATA PROTECTION</subject>
    </subj-group>
    <subj-group>
     <subject>ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ И ЗАЩИТА ДАННЫХ</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">Implementation of RAG Architecture for Automated Document Verification in Corporate Storage Systems Using Large Language Models</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Реализация RAG-архитектуры для автоматизированной проверки документов в корпоративных системах хранения с использованием больших языковых моделей</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Давыдова</surname>
       <given-names>Даяна Михайловна</given-names>
      </name>
      <name xml:lang="en">
       <surname>Davydova</surname>
       <given-names>Dayana Mihaylovna</given-names>
      </name>
     </name-alternatives>
     <email>dayana-0820@bk.ru</email>
     <xref ref-type="aff" rid="aff-1"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Костин</surname>
       <given-names>Максим Андреевич</given-names>
      </name>
      <name xml:lang="en">
       <surname>Kostin</surname>
       <given-names>Maksim Andreevich</given-names>
      </name>
     </name-alternatives>
     <email>m.kkostin@yandex.ru</email>
     <xref ref-type="aff" rid="aff-2"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Петров</surname>
       <given-names>Владимир Евгеньевич</given-names>
      </name>
      <name xml:lang="en">
       <surname>Petrov</surname>
       <given-names>Vladimir Evgen'evich</given-names>
      </name>
     </name-alternatives>
     <email>petroffve@mail.ru</email>
     <bio xml:lang="ru">
      <p>кандидат военных наук;</p>
     </bio>
     <bio xml:lang="en">
      <p>candidate of military sciences;</p>
     </bio>
     <xref ref-type="aff" rid="aff-3"/>
    </contrib>
   </contrib-group>
   <aff-alternatives id="aff-1">
    <aff>
     <institution xml:lang="ru">ФГБОУ ВО &quot;Петербургский государственный университет путей сообщения Императора Александра I&quot;</institution>
     <country>RU</country>
    </aff>
    <aff>
     <institution xml:lang="en">FSBEI HE &quot;Emperor Alexander I St. Petersburg State Transport University&quot;</institution>
     <country>RU</country>
    </aff>
   </aff-alternatives>
   <aff-alternatives id="aff-2">
    <aff>
     <institution xml:lang="ru">Петербургский государственный университет путей сообщения Императора Александра I</institution>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">Emperor Alexander I St. Petersburg State Transport University</institution>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <aff-alternatives id="aff-3">
    <aff>
     <institution xml:lang="ru">Петербургский государственный университет путей сообщения Императора Александра I</institution>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">Emperor Alexander I St. Petersburg State Transport University</institution>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2026-06-24T12:26:23+03:00">
    <day>24</day>
    <month>06</month>
    <year>2026</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2026-06-24T12:26:23+03:00">
    <day>24</day>
    <month>06</month>
    <year>2026</year>
   </pub-date>
   <issue>2</issue>
   <fpage>5</fpage>
   <lpage>16</lpage>
   <history>
    <date date-type="received" iso-8601-date="2026-03-26T00:00:00+03:00">
     <day>26</day>
     <month>03</month>
     <year>2026</year>
    </date>
    <date date-type="accepted" iso-8601-date="2026-05-25T00:00:00+03:00">
     <day>25</day>
     <month>05</month>
     <year>2026</year>
    </date>
   </history>
   <self-uri xlink:href="https://itt-pgups.ru/en/nauka/article/118162/view">https://itt-pgups.ru/en/nauka/article/118162/view</self-uri>
   <abstract xml:lang="ru">
    <p>Предлагается специализированное решение для анализа документов, использующихся в корпоративных системах документооборота. Цель: разработка и практическая реализация RAG-архитектуры для автоматизированной проверки корпоративных документов с использованием локально развернутых больших языковых моделей, обеспечивающей выявление пропущенных обязательных полей, ошибок форматов данных и содержательных противоречий в документах транспортных и логистических систем. Методы: проведены проектирование и программная реализация Java-приложения, интегрирующего модуль извлечения текста из PDF- и DOCX-документов на основе библиотек Apache, векторное хранилище с упрощенными эмбеддингами на основе частотного анализа слов, алгоритм семантического поиска через вычисление косинусного сходства и клиент взаимодействия с LLM через API сервера Ollama. Результаты: разработанная система продемонстрировала способность к контекстному анализу содержания документов и адаптивность к вариативным форматам представления информации, что позволяет преодолеть ограничения традиционных систем. Экспериментальная проверка выполнена на тестовом наборе корпоративных документов с преднамеренно внесенными ошибками различных типов; оценка эффективности проводилась по метрикам полноты, точности и их среднего, а также по времени отклика системы. Наилучшие результаты показала модель llama3.2:latest при полном исключении передачи конфиденциальных данных за пределы инфраструктуры организации. Практическая значимость: предложенное решение применимо для автоматизации контроля качества документации в корпоративных системах документооборота транспортных предприятий, государственных учреждений и промышленных организаций. Модульная архитектура обеспечивает масштабируемость на другие типы документов и возможность интеграции с существующими информационными системами при минимальных затратах на адаптацию. Использование открытых моделей и локального сервера Ollama снижает зависимость от сторонних облачных сервисов и обеспечивает соответствие требованиям информационной безопасности.</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>A specialized solution is offered for analyzing documents used in corporate document management systems.&#13;
Purpose: to develop and implement a RAG architecture for automated verification of corporate documents using locally deployed large language models that identify missing required fields, data format errors, and substantive&#13;
contradictions in documents of transport and logistics systems. Methods: Java application was designed and implemented programmatically, integrating a text extraction module from PDF and DOCX documents based on Apache libraries, a vector storage with simplified embeddings based on frequency analysis of words, a semantic search algorithm through cosine similarity calculation and an LLM interaction client via the Ollama server API. Results: the developed system has demonstrated the ability to contextually analyze the content of documents and adaptability to variable information presentation formats, which makes it possible to overcome the limitations of traditional systems. The experimental verification was performed on a test set of corporate documents with intentionally introduced errors of various types; the effectiveness was assessed by the metrics of completeness, accuracy and their average, as well as by system response time. The llama3.2:latest model showed the best results, while completely excluding the transfer of confidential data outside the organization’s infrastructure. Practical significance: the proposed solution is applicable for automation of documentation quality control in corporate document management systems of transport enterprises, government agencies and industrial organizations. The modular architecture provides scalability to other types of documents and the ability to integrate with existing information systems at minimal cost of adaptation. Using open models and a local Ollama server reduces dependence on thirdparty cloud services and ensures compliance with information security requirements.</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>большие языковые модели</kwd>
    <kwd>автоматизированная проверка документов</kwd>
    <kwd>векторный поиск</kwd>
    <kwd>обработка естественного языка</kwd>
    <kwd>корпоративные системы</kwd>
    <kwd>Ollama</kwd>
    <kwd>извлечение текста</kwd>
    <kwd>семантический анализ</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>large language models</kwd>
    <kwd>automated document verification</kwd>
    <kwd>vector search</kwd>
    <kwd>natural language processing</kwd>
    <kwd>corporate systems</kwd>
    <kwd>Ollama</kwd>
    <kwd>text extraction</kwd>
    <kwd>semantic analysis</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p></p>
 </body>
 <back>
  <ref-list>
   <ref id="B1">
    <label>1.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Ротман Д. RAG и генеративный ИИ. Создаем собственные RAG-пайплайны с помощью LlamaIndex, Deep Lake и Pinecon = RAG-Driven Generative AI: Build custom retrieval augmented generation pipelines with LlamaIndex, Deep Lake, and Pinecone. СПб.: Питер, 2025. 320 с.</mixed-citation>
     <mixed-citation xml:lang="en">Rotman D. RAG i generativnyy II. Sozdaem sobstvennye RAG-payplayny s pomosch'yu LlamaIndex, Deep Lake i Pinecon = RAG-Driven Generative AI: Build custom retrieval augmented generation pipelines with LlamaIndex, Deep Lake, and Pinecone. SPb.: Piter, 2025. 320 s.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B2">
    <label>2.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Java SE/JDK Version 26 API Specification: Module java.base. URL: http://docs.oracle.com/en/java/javase/26/docs/ api/java.base/module-summary.html (дата обращения: 30.01.2026).</mixed-citation>
     <mixed-citation xml:lang="en">Java SE/JDK Version 26 API Specification: Module java.base. URL: http://docs.oracle.com/en/java/javase/26/docs/ api/java.base/module-summary.html (data obrascheniya: 30.01.2026).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B3">
    <label>3.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Ollama’s Documentation. URL: http://docs.ollama.com (дата обращения: 02.02.2026).</mixed-citation>
     <mixed-citation xml:lang="en">Ollama’s Documentation. URL: http://docs.ollama.com (data obrascheniya: 02.02.2026).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B4">
    <label>4.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Шилдт Г. Java. Полное руководство. 12-е изд. = Java: The Complete Reference. Twelfth Edition / пер. с англ. и ред. Ю. Н. Артеменко. СПб.: Диалектика, 2023. 1344 с.</mixed-citation>
     <mixed-citation xml:lang="en">Shildt G. Java. Polnoe rukovodstvo. 12-e izd. = Java: The Complete Reference. Twelfth Edition / per. s angl. i red. Yu. N. Artemenko. SPb.: Dialektika, 2023. 1344 s.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B5">
    <label>5.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Хорстманн К. С. Java. Библиотека профессионала. Т. 1. Основы. 10-е изд. = Core Java. Volume I — Fundamentals. Tenth Edition / пер. с англ. и ред. И. В. Берштейна. М.: Вильямс, 2016. 864 с.</mixed-citation>
     <mixed-citation xml:lang="en">Horstmann K. S. Java. Biblioteka professionala. T. 1. Osnovy. 10-e izd. = Core Java. Volume I — Fundamentals. Tenth Edition / per. s angl. i red. I. V. Bershteyna. M.: Vil'yams, 2016. 864 s.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B6">
    <label>6.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Портянкин И. А. Swing. Эффектные пользовательские интерфейсы. 2-е изд. М.: Лори, 2011. 607 с.</mixed-citation>
     <mixed-citation xml:lang="en">Portyankin I. A. Swing. Effektnye pol'zovatel'skie interfeysy. 2-e izd. M.: Lori, 2011. 607 s.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B7">
    <label>7.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Huang D., Wang Z. LLMs at the Edge: Performance and Efficiency Evaluation with Ollama on Diverse Hardware // Proceedings of the International Joint Conference on Neural Networks (IJCNN 2025) (Rome, Italy, 30 June — 5 July 2025). Institute of Electrical and Electronics Engineers, 2025. 8 p. DOI: 10.1109/IJCNN64981.2025.11228317</mixed-citation>
     <mixed-citation xml:lang="en">Huang D., Wang Z. LLMs at the Edge: Performance and Efficiency Evaluation with Ollama on Diverse Hardware // Proceedings of the International Joint Conference on Neural Networks (IJCNN 2025) (Rome, Italy, 30 June — 5 July 2025). Institute of Electrical and Electronics Engineers, 2025. 8 p. DOI: 10.1109/IJCNN64981.2025.11228317</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B8">
    <label>8.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Vahaj M., Raza S. M., Nehra V. Retrieval Augmented Generation (RAG) using LLMs // Proceedings of the Annual International Conference on Data Science, Machine Learning and Blockchain Technology (AICDMB 2025) (Mysuru, India, 27–28 June 2025). Institute of Electrical and Electronics Engineers, 2025. 5 p. DOI: 10.1109/AICDMB64359.2025.11277692</mixed-citation>
     <mixed-citation xml:lang="en">Vahaj M., Raza S. M., Nehra V. Retrieval Augmented Generation (RAG) using LLMs // Proceedings of the Annual International Conference on Data Science, Machine Learning and Blockchain Technology (AICDMB 2025) (Mysuru, India, 27–28 June 2025). Institute of Electrical and Electronics Engineers, 2025. 5 p. DOI: 10.1109/AICDMB64359.2025.11277692</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B9">
    <label>9.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Блох Д. Java. Эффективное программирование. 3-е изд. = Effective Java. Third Edition / пер. с англ. и ред. И. В. Красикова. СПб.: Диалектика, 2019. 464 с.</mixed-citation>
     <mixed-citation xml:lang="en">Bloh D. Java. Effektivnoe programmirovanie. 3-e izd. = Effective Java. Third Edition / per. s angl. i red. I. V. Krasikova. SPb.: Dialektika, 2019. 464 s.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B10">
    <label>10.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Claim Verification in the Age of Large Language Models: a Survey / A. Dmonte [et al.] // ArXiv. 2024. Vol. 2408.14317. 9 p. DOI: 10.48550/arXiv.2408.14317</mixed-citation>
     <mixed-citation xml:lang="en">Claim Verification in the Age of Large Language Models: a Survey / A. Dmonte [et al.] // ArXiv. 2024. Vol. 2408.14317. 9 p. DOI: 10.48550/arXiv.2408.14317</mixed-citation>
    </citation-alternatives>
   </ref>
  </ref-list>
 </back>
</article>
