Выявление аномалий в масштабных данных с применением Isolation Forest и Autoencoder

Герасимов Максим; Забродин Андрей Владимирович

doi:doi:10.20295/2413-2527-2025-444-17-25

Главная / Журналы / Интеллектуальные технологии на транспорте / Номер 4 / Выявление аномалий в масштабных данных с применением Isolation Forest и Autoencoder

Выявление аномалий в масштабных данных с применением Isolation Forest и Autoencoder

Отправить рукопись Скачать PDF
Текст

Цитировать

Цитирований:

ВЫЯВЛЕНИЕ АНОМАЛИЙ В МАСШТАБНЫХ ДАННЫХ С ПРИМЕНЕНИЕМ ISOLATION FOREST И AUTOENCODER

Журнал: ИНТЕЛЛЕКТУАЛЬНЫЕ ТЕХНОЛОГИИ НА ТРАНСПОРТЕ № 4 , 2025

Рубрики: ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И ТРАНСПОРТНЫЕ СИСТЕМЫ

ВАК 1.2.1 Искусственный интеллект и машинное обучение

УДК 004.89 Прикладные системы искусственного интеллекта. Интеллектуальные системы, обладающие знаниями

Герасимов Максим ¹

Забродин Андрей Владимирович ²

Информация об авторах и публикации

Авторы:

1. Петербургский государственный университет путей сообщения Императора Александра I (Кафедра «Информационные и вычислительные системы»)
студент

Россия

2. Петербургский государственный университет путей сообщения Императора Александра I (Кафедра «Информационные и вычислительные системы», Доцент)

Россия

Тип:

Статья

DOI:

https://doi.org/10.20295/2413-2527-2025-444-17-25

EDN:

https://elibrary.ru/zcjukj

Страницы:

с 17 по 25

Статус:

Опубликован

Получено:

29.10.2025

Одобрено:

22.11.2025

Опубликовано:

15.12.2025

Классификаторы:

ВАК 1.2.1 Искусственный интеллект и машинное обучение
УДК 004.89 Прикладные системы искусственного интеллекта. Интеллектуальные системы, обладающие знаниями

Язык материала:

русский

Ключевые слова:

большие данные, аномалии, машинное обучение, нейронные сети, Autoencoder, Isolation Forest, транзакционные данные

Аннотация и ключевые слова

Аннотация:
Цель: сравнительный анализ двух методов обнаружения аномалий в больших массивах данных — ансамблевого алгоритма Isolation Forest и нейросетевого Autoencoder. Методы: проведено моделирование и экспериментальное сравнение алгоритмов на реальном датасете транзакций по кредитным картам. Использованы стандартные метрики эффективности (precision, recall, F1-score, ROC-AUC), а также матрица ошибок для анализа структуры ложных срабатываний и пропусков аномалий. Результаты: обе модели достигли высоких значений ROC-AUC, что подтверждает их способность надежно различать нормальные и аномальные транзакции. Практическая значимость: разработанные подходы применимы для автоматизированного мониторинга транзакционных потоков, предотвращения мошенничества и анализа больших данных. Наиболее эффективно комбинированное использование Isolation Forest и Autoencoder в гибридных системах, что позволяет повысить точность и снизить количество ложных тревог при обнаружении аномалий.

Ключевые слова:
большие данные, аномалии, машинное обучение, нейронные сети, Autoencoder, Isolation Forest, транзакционные данные

Текст

Текст (PDF): Читать Скачать

Список литературы

1. Обзор методов обнаружения аномалий в потоках данных / В. П. Шкодырев, К. И. Ягафаров, В. А. Баштовенко, Е. Э. Ильина // Proceedings of the Second Conference on Software Engineering and Information Management (SEIM-2017), (Saint Petersburg, Russia, 21 April 2017). CEUR Workshop Proceedings. 2017. Vol. 1864. Pp. 50–56.

2. Анализ данных и процессов: учебное пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод [и др.]. 3-е изд., перераб. и доп. СПб.: БХВ-Петербург, 2009. 512 с.

3. Liu F. T., Ting K. M., Zhou Z.-H. Isolation Forest // Proceedings of the Eighth IEEE International Conference on Data Mining (Pisa, Italy, 15–19 December 2008). Institute of Electrical and Electronics Engineers, 2008. Pp. 413-422. DOI:https://doi.org/10.1109/ICDM.2008.17.

4. Scikit-learn: Machine Learning in Python. URL: http://scikit-learn.org (дата обращения: 18.10.2025).

5. Pandas: Python Data Analysis Library. URL: http://pandas.pydata.org (дата обращения: 18.10.2025).

6. NumPy v2.3 Documentation. URL: http://numpy.org/doc/2.3 (дата обращения: 18.10.2025).

7. SciPy v1.16.2 Documentation. URL: http://docs.scipy.org/doc/scipy (дата обращения: 18.10.2025).

8. PyOD V2 Documentation. URL: http://pyod.readthedocs.io (дата обращения: 18.10.2025).

9. Matplotlib: Visualization with Python. URL: http://matplotlib.org (дата обращения: 18.10.2025).

10. Seaborn: Statistical Data Visualization. URL: http://seaborn.pydata.org (дата обращения: 18.10.2025).

11. Plotly Open Source Graphing Library for Python. URL: http://plotly.com/python (дата обращения: 18.10.2025).

12. Goodfellow I., Bengio Y., Courville A. Autoencoders // Goodfellow I., Bengio Y., Courville A. Deep Learning. Cambridge (MA): MIT Press, 2016. Pp. 499–523.

13. Hinton G. E., Salakhutdinov R. R. // Science. 2006. Vol. 313, Iss. 5786. Pp. 504–507. DOI:https://doi.org/10.1126/science.112764.

14. Credit Card Fraud Detection: Anonymized Credit Card Transactions Labeled as Fraudulent or Genuine // Kaggle. URL: http://www.kaggle.com/datasets/mlg-ulb/creditcardfraud (дата обращения: 18.10.2025).

15. The Numenta Anomaly Benchmark // GitHub. URL: http://github.com/numenta/NAB (дата обращения: 18.10.2025).

16. Imbalanced-learn v0.14.0 Documentation. URL: http://imbalanced-learn.org (дата обращения: 18.10.2025).

17. Макшанов А. В., Журавлев А. Е., Тындыкарь Л. Н. Большие данные. Big Data: учебник для вузов. 4-е изд., стер. Санкт-Петербург: Лань, 2024. 188 с.

18. Фельдман Е. В., Ручай А. Н., Чербаджи Д. Ю. Модель выявления аномальных банковских транзакций на основе машинного обучения // Вестник УрФО. Безопасность в информационной сфере. 2021. № 1 (39). С. 27–35. DOI:https://doi.org/10.14529/secur210104. EDN: https://elibrary.ru/MEVVAM

19. Novelty and Outlier Detection — Scikit-learn 1.7.2 Documentation. URL: http://scikit-learn.org/stable/modules/outlier_detection.html (дата обращения: 18.10.2025).

Отправить рукопись Скачать PDF
Текст JATS XML

Цитировать

Цитирований:

Подтверждение

Регистрация