Россия
Цель: сравнительный анализ двух методов обнаружения аномалий в больших массивах данных — ансамблевого алгоритма Isolation Forest и нейросетевого Autoencoder. Методы: проведено моделирование и экспериментальное сравнение алгоритмов на реальном датасете транзакций по кредитным картам. Использованы стандартные метрики эффективности (precision, recall, F1-score, ROC-AUC), а также матрица ошибок для анализа структуры ложных срабатываний и пропусков аномалий. Результаты: обе модели достигли высоких значений ROC-AUC, что подтверждает их способность надежно различать нормальные и аномальные транзакции. Практическая значимость: разработанные подходы применимы для автоматизированного мониторинга транзакционных потоков, предотвращения мошенничества и анализа больших данных. Наиболее эффективно комбинированное использование Isolation Forest и Autoencoder в гибридных системах, что позволяет повысить точность и снизить количество ложных тревог при обнаружении аномалий.
большие данные, аномалии, машинное обучение, нейронные сети, Autoencoder, Isolation Forest, транзакционные данные
1. Обзор методов обнаружения аномалий в потоках данных / В. П. Шкодырев, К. И. Ягафаров, В. А. Баштовенко, Е. Э. Ильина // Proceedings of the Second Conference on Software Engineering and Information Management (SEIM-2017), (Saint Petersburg, Russia, 21 April 2017). CEUR Workshop Proceedings. 2017. Vol. 1864. Pp. 50–56.
2. Анализ данных и процессов: учебное пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод [и др.]. 3-е изд., перераб. и доп. СПб.: БХВ-Петербург, 2009. 512 с.
3. Liu F. T., Ting K. M., Zhou Z.-H. Isolation Forest // Proceedings of the Eighth IEEE International Conference on Data Mining (Pisa, Italy, 15–19 December 2008). Institute of Electrical and Electronics Engineers, 2008. Pp. 413–422. DOI:https://doi.org/10.1109/ICDM.2008.17.
4. Scikit-learn: Machine Learning in Python. URL: http://scikit-learn.org (дата обращения: 18.10.2025).
5. Pandas: Python Data Analysis Library. URL: http://pandas.pydata.org (дата обращения: 18.10.2025).
6. NumPy v2.3 Documentation. URL: http://numpy.org/doc/2.3 (дата обращения: 18.10.2025).
7. SciPy v1.16.2 Documentation. URL: http://docs.scipy.org/doc/scipy (дата обращения: 18.10.2025).
8. PyOD V2 Documentation. URL: http://pyod.readthedocs.io (дата обращения: 18.10.2025).
9. Matplotlib: Visualization with Python. URL: http://matplotlib.org (дата обращения: 18.10.2025).
10. Seaborn: Statistical Data Visualization. URL: http://seaborn.pydata.org (дата обращения: 18.10.2025).
11. Plotly Open Source Graphing Library for Python. URL: http://plotly.com/python (дата обращения: 18.10.2025).
12. Goodfellow I., Bengio Y., Courville A. Autoencoders // Goodfellow I., Bengio Y., Courville A. Deep Learning. Cambridge (MA): MIT Press, 2016. Pp. 499–523.
13. Hinton G. E., Salakhutdinov R. R. // Science. 2006. Vol. 313, Iss. 5786. Pp. 504–507. DOI:https://doi.org/10.1126/science.112764.
14. Credit Card Fraud Detection: Anonymized Credit Card Transactions Labeled as Fraudulent or Genuine // Kaggle. URL: http://www.kaggle.com/datasets/mlg-ulb/creditcardfraud (дата обращения: 18.10.2025).
15. The Numenta Anomaly Benchmark // GitHub. URL: http://github.com/numenta/NAB (дата обращения: 18.10.2025).
16. Imbalanced-learn v0.14.0 Documentation. URL: http://imbalanced-learn.org (дата обращения: 18.10.2025).
17. Макшанов А. В., Журавлев А. Е., Тындыкарь Л. Н. Большие данные. Big Data: учебник для вузов. 4-е изд., стер. Санкт-Петербург: Лань, 2024. 188 с.
18. Фельдман Е. В., Ручай А. Н., Чербаджи Д. Ю. Модель выявления аномальных банковских транзакций на основе машинного обучения // Вестник УрФО. Безопасность в информационной сфере. 2021. № 1 (39). С. 27–35. DOI:https://doi.org/10.14529/secur210104.
19. Novelty and Outlier Detection — Scikit-learn 1.7.2 Documentation. URL: http://scikit-learn.org/stable/modules/ outlier_detection.html (дата обращения: 18.10.2025).



