МЕТОДИКА ПАРИРОВАНИЯ СБОЕВ И ОТКАЗОВ В МНОГОМОДУЛЬНОЙ ВЫЧИСЛИТЕЛЬНОЙ СИСТЕМЕ НА ОСНОВЕ СОЗДАНИЯ И РЕПЛИКАЦИИ КОНТРОЛЬНЫХ ТОЧЕК
Аннотация и ключевые слова
Аннотация (русский):
Задача по повышению оперативности обработки целевой информации требует новых подходов к возможности быстрого восстановления вычислительной системы после сбоев и отказов. Цель: описать методику парирования сбоев и отказов в многомодульной вычислительной системе, которая реализует периодическое сохранение состояния вычислений (контрольных точек) и обмен ими между всеми вычислительными модулями. Результаты: сформулирована постановка задачи планирования такого вычислительного процесса, предполагающая определение оптимального количества и моментов времени создания контрольных точек. Обоснованы моменты времени создания контрольных точек в зависимости от закона распределения моментов времени отказов вычислительных модулей. Практическая значимость: представлены результаты имитационного моделирования вычислений в рамках предлагаемого подхода, доказывающие целесообразность применения предлагаемой методики.

Ключевые слова:
многомодульная вычислительная система, модель вычислительного процесса, контрольная точка
Список литературы

1. Бондаренко А. А., Якобовский М. В. Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек // Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика». 2014. Т. 3, № 3. С. 20–36.

2. Поляков А. Ю., Данекина А. А. Оптимизация времени создания и объема контрольных точек восстановления параллельных программ // Вестник СибГУТИ. 2010. № 2 (10). С. 87–100.

3. A Survey of Rollback-Recovery Protocols in Message-Passing Systems / E. N. Elnozahy, L. Alvisi, Y.-M. Wang, D. B. Johnson // ACM Computing Surveys. 2002. Vol. 34, Iss. 3. Pp. 375–408. DOI:https://doi.org/10.1145/568522.568525.

4. Метод отказоустойчивой параллельной обработки информации в бортовых вычислительных системах летательных аппаратов на основе временной избыточности вычислительного процесса / А. Г. Басыров, С. С. Зыкова, И. Н. Кошель, В. В. Кузнецов // Авиакосмическое приборостроение. 2023. № 6. С. 33–39. DOI:https://doi.org/10.25791/aviakosmos. 6.2023.1345.

5. Зыкова С. С. Модель и алгоритм планирования параллельной обработки информации в отказоустойчивой бортовой вычислительной системе на основе временной избыточности вычислительного процесса // Интеллектуальные технологии на транспорте. 2023. № 4 (36). С. 28–33. DOI:https://doi.org/10.24412/2413-2527-2023-436-28-33.

6. ГОСТ Р ИСО/МЭК 25010—2015. Информационные технологии. Системная и программная инженерия. Требования и оценка качества систем и программного обеспечения (SQuaRE). Модели качества систем и программных продуктов = Information technology. Systems and software engineering. Systems and software Quality Requirements and Evaluation (SQuaRE). System and software quality models: национальный стандарт Российской Федерации: утвержден и введен в действие приказом Федерального агентства по техническому регулированию и метрологии от 29 мая 2015 года № 464-ст: дата введения 2016-06-01. М.: Стандартинформ, 2015. 36 с.

7. Rathore N. Checkpointing: Fault Tolerance Mechanism // i-manager’s Journal on Cloud Computing. 2017. Vol. 4, No. 1. Pp. 28–35. DOI:https://doi.org/10.26634/jcc.4.1.13756.

8. Koren I., Mani Krishna C. Fault-Tolerant Systems. Second Edition. Cambridge (MA): Morgan Kaufmann Publishers, 2020. 416 p.

9. Elnozahy E. N., Plank J. S. Checkpointing for Peta-Scale Systems: A Look into the Future of Practical Rollback- Recovery // IEEE Transactions on Dependable and Secure Computing. 2004. Vol. 1, Iss. 2. Pp. 97–108. DOI: 10.1109/ TDSC.2004.15.

10. Optimal Checkpointing Period: Time vs. Energy / G. Aupy, A. Benoit, T. Hérault [et al.] // High Performance Computing Systems. Performance Modeling, Benchmarking and Simulation (PMBS 2013): Revised Selected Papers of the 4th International Workshop (Denver, CO, USA, 18 November 2013). Lecture Notes in Computer Science. Vol. 8551. Cham: Springer International Publishing, 2013. Pp. 203–214. DOI:https://doi.org/10.1007/978-3-319-10214-6_10.

Войти или Создать
* Забыли пароль?