Aller au contenu

SLURM c'est quoi?

SLURM (aussi écrit Slurm), dont l'acronyme signifie "Simple Linux Utility for Resource Management", est un système de gestion de plateforme de calcul largement utilisé sur les supercalculateurs pour le calcul haute-performance (HPC).

Slurm est open-source et est largement utilisé dans de nombreux centres de calcul dans le monde. Il est devenu un standard pour la gestion des ressources dans les environnements de calcul haute performance et de supercalculateur en raison de sa fiabilité, de ses performances et de sa flexibilité.

Il est conçu pour la gestion du temps CPU et de l'accès à la mémoire, de manière efficace et équitable entre les utilisatrices et utilisateurs et les applications fonctionnant sur une grappe de calcul.

Fonctionnalités principales :

  • Planification des ressources : SLURM est responsable de la planification et de l'allocation des ressources de calcul, telles que les nœuds de calcul, les cœurs de processeur et la mémoire, en fonction des demandes des utilisatrices et utilisateurs et des exigences des tâches.

  • Gestion des files d'attente : Il gère les files d'attente des travaux en attribuant des priorités aux différentes tâches en attente, en fonction des politiques de planification configurées.

  • Suivi et surveillance des travaux : SLURM fournit des outils pour suivre et surveiller l'état des travaux en cours d'exécution, ainsi que des informations sur les ressources utilisées et les performances.

  • Gestion des ressources partagées : Il prend en charge le partage des ressources entre plusieurs utilisatrices et utilisateurs et groupes, en garantissant un accès équitable et efficace aux ressources de la plateforme.

  • Flexibilité et personnalisation : SLURM est configurable, avec des extensions (plugins) il peut prendre en charge différentes fonctionnalités et s’intégrer avec d'autres logiciels.