Поиск аномалий в потоке задач суперкомпьютера

Координаторы проекта: 
Начало проекта: 
2016

Многие современные суперкомпьютерные приложения используют вычислительные ресурсы очень неэффективно. Для уменьшения числа таких приложений, необходимо разработать инструмент, который будет анализировать весь поток задач, исполняющихся на суперкомпьютере, и выделять среди них неэффективные запуски приложений. В данном исследовании рассматриваются различные методы машинного обучения для решения этой задачи. Классификация выполняется на основе различных данных системного мониторинга, таких как загрузка процессора, интенсивность работы с памятью и передачи данных по сети и т.д.
 

Избранные публикации по проекту : 

Data mining method for anomaly detection in the supercomputer task flow / V. Voevodin, V. Voevodin, Д. Шайхисламов, D. Nikitenko // NUMERICAL COMPUTATIONS: THEORY AND ALGORITHMS (NUMTA–2016): Proceedings of the 2nd International Conference “Numerical Computations: Theory and Algorithms”. — Vol. 1776 of AIP Conference Proceedings. — 2016. — P. 090015–1–090015–4. DOI: 10.1063/1.4965379

Shaykhislamov D. Using machine learning methods to detect applications with abnormal efficiency // Russian Supercomputing Days. — Springer, 2016. — P. 345–355. DOI 10.1007/978-3-319-55669-7_27

Shaykhislamov D., Voevodin V. An approach for detecting abnormal parallel applications based on time series analysis methods // Parallel Processing and Applied Mathematics. — Vol. 10777 of Lecture Notes in Computer Science. — Springer International Publishing, 2018. — P. 359–369. DOI: 10.1007/978-3-319-78024-5_32