Slurm

Es uno de los gestores de colas más utilizados (60% del top 500 de supercomputadoras), de libre distribución (gratuito y de código abierto) y tiene una gran comunidad y grupo de usuarios. Entre sus características permite una gestión de trabajos completa, ofreciendo calidad de servicio, configurar y categorizar colas (particiones), límites de recursos por usuario o grupo y reservas dinámicas.

Cuando hay más trabajos que nodos, hay que establecer un método justo que determine cuál es el próximo trabajo en ser despachado. Slurm realiza cálculos periódicamente basándose en un algoritmo de gestión de prioridades con varios parámetros configurables por el administrador. Por ejemplo:

  • Tamaño del trabajo (número de nodos/núcleos)
  • Duración de los trabajos (se especifica a la hora de encolarlo)
  • Edad del trabajo en la cola
  • Número de trabajos en cola

Toda la documentación de Slurm está disponible en https://slurm.schedmd.com.