Octotron: обеспечение оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов
Современный суперкомпьютерный комплекс – это сложная, дорогостоящая и крайне энергонасыщенная система. В его составе вычислительное и коммуникационное оборудование, подсистема обеспечения электропитанием, средства охлаждения аппаратуры; это и программное обеспечение: операционная система, система управления прохождением заданий, средства параллельного программирования, прикладные пакеты программ. Каждый из компонентов потенциально ненадежен и может выйти из строя практически в любой момент. Последствия могут быть разными: отказ одного вычислительного узла, скорее всего, приведет к аварийному завершению выполнявшихся на нем задач; при отказе коммутатора из вычислительного поля может быть выведена целая стойка; сбой в системе управления прохождением заданий приведет к фактическому прекращению работы пользователей; авария кондиционера может стать причиной физической поломки дорогостоящего оборудования. Состояние компонентов суперкомпьютерного комплекса меняется каждую секунду, поэтому необходим постоянный оперативный контроль, позволяющий гарантировать сохранность компонентов и эффективную автономную работу суперкомпьютера в целом.
В НИВЦ МГУ разработан программный комплекс Octotron для оперативного контроля и автоматического реагирования на аварийные ситуации в работе суперкомпьютерных систем. В основу комплекса положена модель суперкомпьютерной системы, представленная в виде мультиграфа. Такой подход позволяет обеспечить полноту определения аварийных ситуаций, а также вести учет накопленного опыта эксплуатации больших и сверхбольших вычислительных систем. Программный комплекс Octotron внедрен в Суперкомпьютерном комплексе МГУ. Octotron разработан как универсальное и свободное ПО, дистрибутивы открыты и доступны.
Внедрение: Суперкомпьютерный комплекс МГУ.
S. I. Sobolev, A. S. Antonov, P. A. Shvets, D. A. Nikitenko, K. S. Stefanov, Vad V. Voevodin, Vl V. Voevodin, S. A. Zhumatiy. Evaluation of the octotron system on the lomonosov-2 supercomputer. In Параллельные вычислительные технологии (ПаВТ'2018): труды международной научной конференции (2-6 апреля 2018 г., г. Ростов-на-Дону), с. 176–184. Издательский центр ЮУрГУ Челябинск, 2018.
С. И. Соболев, А. С. Антонов, П. А. Швец, Д. А. Никитенко, К. С. Стефанов, Вад В. Воеводин, С. А. Жуматий. Методы обработки и анализа потока событий в суперкомпьютере и подходы к определению корневых причин сбоев в системе Octotron. Параллельные вычислительные технологии (ПаВТ'2018): труды международной научной конференции (2-6 апреля 2018 г., г. Ростов-на-Дону), с. 345–352. Издательский центр ЮУрГУ Челябинск, 2018.
Alexander Antonov, Dmitry Nikitenko, Pavel Shvets, Sergey Sobolev, Konstantin Stefanov, Vadim Voevodin, Vladimir Voevodin, and Sergey Zhumatiy. An approach for ensuring reliable functioning of a supercomputer based on a formal model. In Parallel Processing and Applied Mathematics. 11th International Conference, PPAM 2015, Krakow, Poland, September 6-9, 2015. Revised Selected Papers, Part I, volume 9573 of Lecture Notes in Computer Science, pages 12–22. Springer International Publishing, 2016. DOI: 10.1007/978-3-319-32149-3_2
Sergey Sobolev, Konstantin Stefanov, and Vadim Voevodin. Automatic discovery of the communication network topology for building a supercomputer model. In: NUMERICAL COMPUTATIONS: THEORY AND ALGORITHMS (NUMTA–2016): Proceedings of the 2nd International Conference “Numerical Computations: Theory and Algorithms”, volume 1776 of AIP Conference Proceedings, pages 090014–1–090014–4, 2016. DOI: 10.1063/1.4965378
П. А. Швец, Вад В. Воеводин, С. И. Соболев. Об одном подходе к моделированию суперкомпьютерных комплексов. Вестник Южно-Уральского государственного университета. Серия "Вычислительная математика и информатика", 4(1):33–43, 2015.
Сергей Игоревич Соболев, Александр Сергеевич Антонов, Вадим Владимирович Воеводин, Артем Александрович Даугель-Дауге, Сергей Анатольевич Жуматий, Дмитрий Александрович Никитенко, Константин Сергеевич Стефанов, Павел Артемович Швец. Обеспечение оперативного контроля и эффективной автономной работы Суперкомпьютерного комплекса МГУ. Вестник Южно-Уральского государственного университета. Серия "Вычислительная математика и информатика", 4(2):33–43, 2015.
А. С. Антонов, Вад В. Воеводин, Вл В. Воеводин, С. А. Жуматий, Д. А. Никитенко, С. И. Соболев, К. С. Стефанов, П. А. Швец. Разработка принципов построения и реализация прототипа системы обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов. Вестник Уфимского государственного авиационного технического университета, 18(2):227–236, 2014.
С. И. Соболев. Суперкомпьютер в штатном режиме. Открытые системы. СУБД, (8):12–13, 2014.