Octotron: обеспечение оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов

Начало проекта: 
2012

Современный суперкомпьютерный комплекс – это сложная, дорогостоящая и крайне энергонасыщенная система. В его составе вычислительное и коммуникационное оборудование, подсистема обеспечения электропитанием, средства охлаждения аппаратуры; это и программное обеспечение: операционная система, система управления прохождением заданий, средства параллельного программирования, прикладные пакеты программ. Каждый из компонентов потенциально ненадежен и может выйти из строя практически в любой момент. Последствия могут быть разными: отказ одного вычислительного узла, скорее всего, приведет к аварийному завершению выполнявшихся на нем задач; при отказе коммутатора из вычислительного поля может быть выведена целая стойка; сбой в системе управления прохождением заданий приведет к фактическому прекращению работы пользователей; авария кондиционера может стать причиной физической поломки дорогостоящего оборудования. Состояние компонентов суперкомпьютерного комплекса меняется каждую секунду, поэтому необходим постоянный оперативный контроль, позволяющий гарантировать сохранность компонентов и эффективную автономную работу суперкомпьютера в целом.

В НИВЦ МГУ разработан программный комплекс Octotron для оперативного контроля и автоматического реагирования на аварийные ситуации в работе суперкомпьютерных систем. В основу комплекса положена модель суперкомпьютерной системы, представленная в виде мультиграфа. Такой подход позволяет обеспечить полноту определения аварийных ситуаций, а также вести учет накопленного опыта эксплуатации больших и сверхбольших вычислительных систем. Программный комплекс Octotron внедрен в Суперкомпьютерном комплексе МГУ. Octotron разработан как универсальное и свободное ПО, дистрибутивы открыты и доступны.

Внедрение: Суперкомпьютерный комплекс МГУ.

Избранные публикации по проекту : 

S. I. Sobolev, A. S. Antonov, P. A. Shvets, D. A. Nikitenko, K. S. Stefanov, Vad V. Voevodin, Vl V. Voevodin, S. A. Zhumatiy. Evaluation of the octotron system on the lomonosov-2 supercomputer. In Параллельные вычислительные технологии (ПаВТ'2018): труды международной научной конференции (2-6 апреля 2018 г., г. Ростов-на-Дону), с. 176–184. Издательский центр ЮУрГУ Челябинск, 2018.

С. И. Соболев, А. С. Антонов, П. А. Швец, Д. А. Никитенко, К. С. Стефанов, Вад В. Воеводин, С. А. Жуматий. Методы обработки и анализа потока событий в суперкомпьютере и подходы к определению корневых причин сбоев в системе Octotron. Параллельные вычислительные технологии (ПаВТ'2018): труды международной научной конференции (2-6 апреля 2018 г., г. Ростов-на-Дону), с. 345–352. Издательский центр ЮУрГУ Челябинск, 2018.

Alexander Antonov, Dmitry Nikitenko, Pavel Shvets, Sergey Sobolev, Konstantin Stefanov, Vadim Voevodin, Vladimir Voevodin, and Sergey Zhumatiy. An approach for ensuring reliable functioning of a supercomputer based on a formal model. In Parallel Processing and Applied Mathematics. 11th International Conference, PPAM 2015, Krakow, Poland, September 6-9, 2015. Revised Selected Papers, Part I, volume 9573 of Lecture Notes in Computer Science, pages 12–22. Springer International Publishing, 2016. DOI: 10.1007/978-3-319-32149-3_2

Sergey Sobolev, Konstantin Stefanov, and Vadim Voevodin. Automatic discovery of the communication network topology for building a supercomputer model. In: NUMERICAL COMPUTATIONS: THEORY AND ALGORITHMS (NUMTA–2016): Proceedings of the 2nd International Conference “Numerical Computations: Theory and Algorithms”, volume 1776 of AIP Conference Proceedings, pages 090014–1–090014–4, 2016. DOI: 10.1063/1.4965378 

П. А. Швец, Вад В. Воеводин, С. И. Соболев. Об одном подходе к моделированию суперкомпьютерных комплексов. Вестник Южно-Уральского государственного университета. Серия "Вычислительная математика и информатика", 4(1):33–43, 2015.

Сергей Игоревич Соболев, Александр Сергеевич Антонов, Вадим Владимирович Воеводин, Артем Александрович Даугель-Дауге, Сергей Анатольевич Жуматий, Дмитрий Александрович Никитенко, Константин Сергеевич Стефанов, Павел Артемович Швец. Обеспечение оперативного контроля и эффективной автономной работы Суперкомпьютерного комплекса МГУ. Вестник Южно-Уральского государственного университета. Серия "Вычислительная математика и информатика", 4(2):33–43, 2015.

А. С. Антонов, Вад В. Воеводин, Вл В. Воеводин, С. А. Жуматий, Д. А. Никитенко, С. И. Соболев, К. С. Стефанов, П. А. Швец. Разработка принципов построения и реализация прототипа системы обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов. Вестник Уфимского государственного авиационного технического университета, 18(2):227–236, 2014.

С. И. Соболев. Суперкомпьютер в штатном режиме. Открытые системы. СУБД, (8):12–13, 2014.