Тотальный мониторинг суперкомпьютеров
Мониторинг производительности вычислительных комплексов в целом и отдельных программ, важная задача, решение которой позволяет оценить эффективность использования имеющихся ресурсов и предложить пути увеличения эффективности выполняемых программ.
Distrubuted Modular Monitoring (DiMMon) - распределенная модульная система мониторинга производительности суперкомпьютеров, в основе которой лежит подход, позволяющий исследовать производительность всего потока задач, выполняющихся на вычислительном комплексе. Предлагаемый подход основан на возможности направления разных потоков данных по различным путям передачи, динамической реконфигурации режимов работы системы, обеспечении вычисления метрик производительности без промежуточного сохранения данных мониторинга на диск и переносе части обработки данных на вычислительные узлы суперкомпьютера.
K. Stefanov and Vl Voevodin. Distributed modular monitoring (dimmon) approach to supercomputer monitoring. In Proceedings of the 2015 IEEE International Conference on Cluster Computing, pages 502–503. IEEE Computer Society Conference Publishing Services, 2015. DOI: 10.1109/CLUSTER.2015.83
K. Stefanov, Vl Voevodin, S. Zhumatiy, and Vad Voevodin. Dynamically reconfigurable distributed modular monitoring system for supercomputers (dimmon). In 4th International Young Scientist Conference on Computational Science, volume 66 of Procedia Computer Science, pages 625–634. Elsevier B.V Netherlands, 2015. DOI: 10.1016/j.procs.2015.11.071
Konstantin Stefanov and Alexey Gradskov. Analysis of cpu usage data properties and their possible impact on performance monitoring. Supercomputing Frontiers and Innovations, 3(4):66–73, 2016. DOI: 10.14529/jsfi160405