¡Esta es una revisión vieja del documento!

Tabla de Contenidos

SLURM

SLURM

Slurm (Simple Linux Utility for Resource Management) es un sistema de gestión de recursos en clusters de computadoras. Nos permite asignar los recursos computacionales (núcleos, memoria, gpu, etc.) de una forma equitativa a medida de su disposición.

Entidades manejadas por los servicios de Slurm

Nodos: Sistema multiprocesador perteneciente al cluster

Particiones: es un mecanismo de agrupar en forma lógica los nodos. Sin importar el número de nodos que se disponen se puede crear la cantidad de particiones que uno desee. Un nodo puede pertenecer a varias particiones. Cada partición tiene sus propios parámetros: tiempo límite de trabajo, usuarios permitidos, que nodos la componen, etc.

Trabajos: Un trabajo o job es la asignación de recursos a un usuario específico por una cantidad de tiempo determinada.

Tareas: Son el conjunto de programas (seriales o paralelas) que serán ejecutadas dentro de un trabajo.

Modo uso de Slurm

Slurm proporciona una interfaz de usuario donde se pueden ejecutar comandos slurm desde el shell del sistema operativo.
El usuario envía los trabajos y Slurm se encarga de ubicarlo en la cola de espera. Si hay recursos pasa a ejecutar el trabajo.
En caso de estar ocupado el trabajo se ejecutará cuando estén disponibles los recursos.

En general, los pasos a seguir para ejecutar un trabajo son:

1. Analizar los recursos que dispone el cluster y las necesidades del trabajo. Utilizar los comandos "sinfo" y "squeue".

2. Enviar el trabajo : A) Interactivamente. Se utiliza "srun" con los parámetros de configuración del trabajo. Es una forma rápida de enviar el trabajo a ejecución, pero con varias restricciones. B) Utilizar scripts. Se debe crear un script con la configuración del trabajo. Usar "sbatch" y sus parámetros.

3. (Opcional) Verificar la correcta configuración. Utilizar el comando "scontrol show job <JOBID>".

4. (Opcional) Recuperar la información que resulta de la ejecución del trabajo. Interactivamente: los resultados, errores, etc. se verán en el shell.
Scripts: se guardan en un archivo llamado slurm-<JOBID>.out

Comandos para ejecutar un trabajo

Envía el trabajo para ser ejecutado a Slurm. Si no posee recursos para el trabajo el shell queda esperando a que se desocupen. Si posee recursos ejecuta el programa y nos proporciona por la consola los resultados de la ejecución

[usuario@clemente ~]$ srun <NombrePrograma>

Parámetros de srun

-n, --ntasks: especifica la cantidad de tareas para correr. Por default 1 tarea por 1 CPU.

-j, --job-name: especifica el nombre de la tarea

-N, --nodes: especifica el mínimo de nodos que deben ser reservado para el trabajo

-p, --partition: especifica la partición donde el trabajo se va a ejecutar.

-v -vv -vvv : Aumenta el nivel de verbosidad.

-o <ArchivoSalida>: Redirecciona la salida al archivo especificado.

Ejemplos srun

[usuario@clemente ~]$ srun -n 2 miPrograma

Ejecuta miPrograma en 2 tareas, cada una en diferentes CPUs

[usuario@clemente ~]$ srun -n 6 --tasks-per-node=3 --partition=debug miPrograma

Ejecuta miPrograma en 6 tareas distribuida en dos nodos, en la partición debug.

SBATCH es la forma más adecuada de ejecutar un trabajo. Se utiliza un archivo script para la configuración de Slurm y del sistema operativo para ejecutar el trabajo.

[usuario@clemente ~]$ srun <NombreScriptSlurm>

Parámetros de sbatch

-n, --ntasks: especifica la cantidad de tareas (procesos) para correr

-j, --job-name: especifica el nombre de la tarea

-N, --nodes: especifica el mínimo de nodos que deben ser reservado para el trabajo

-p, --partition: especifica la partición donde el trabajo se va a ejecutar.

--mail-user <email>--mail-type=ALL: Envía un mail notificando el cambio de estado en el trabajo

Ejemplos sbatch

[usuario@clemente ~]$ sbatch -N2 --name=<nombre> --mail-user= <email@address.com> --mail-type=ALL <NombreScriptSlurm> /li>

Ejecuta el script NombreScriptSlurm en 2 nodos y enviá mail por cambios de estados

[usuario@clemente ~]$ sbatch -N3 --time=60

Ejecuta el script NombreScriptSlurm en 3 nodos y como limite máximo de tiempo 1 hora .

Para más información ver la sección "Script de lanzamientos y comandos SBATCH".

Comandos para ver información

Ejemplo de sinfo en el cluster Clemente

[usuario@clemente ~]$ sinfo
PARTIT AVAIL TIMELIMIT NODES STATE NODELIST
debug up 2:00 4 idle clemente[01-04]
batch* up 5-00:00:00 3 idle clemente[01-03]
small up 1:00:00 1 drain clemente04
gpu up 3-00:00:00 1 drain clemente04

Información que brinda sinfo:

PARTIT: Nombre de la partición. El sufijo * indica que es la partición por defecto.

AVAIL: Estado de la partición: UP es disponible y DOWN no disponible.

TIMELIMIT: Tiempo máximo de ejecución de un trabajo, en formato días-horas:minutos:segundos.

NODES: Cantidad de nodos.

STATE: Estados de los nodos en formato:

      ALLOCATED: El nodo esta asignado a uno o más trabajos.

      ALLOCATED+: El nodo esta asignado a uno o más trabajos. Y uno o más trabajos estan completados.

      COMPLETING: Todos los trabajos asociados con este nodo están en proceso de COMPLETAR. Este estado de nodo se eliminará cuando todos los procesos del trabajo hayan finalizado y el programa epilog SLURM (si lo hubiera) haya finalizado.

      DOWN: El nodo no está disponible para su uso. SLURM puede colocar nodos automáticamente en este estado si ocurre alguna falla. Los administradores del sistema también pueden colocar nodos explícitamente en este estado

      DRAINED: El nodo no está disponible para su uso por solicitud del administrador del sistema.

      DRAINING: El nodo está actualmente ejecutando un trabajo, pero no se asignará a trabajos adicionales. El estado del nodo se cambiará para indicar DRAINED cuando finalice el último trabajo en él.

      FAIL: Se espera que el nodo falle pronto y no esté disponible para su uso por solicitud del administrador del sistema.

      IDLE: El nodo no está asignado a ningún trabajo y está disponible para su uso.

      MAINT: El nodo está actualmente en una reserva con un valor de bandera de "mantenimiento" o está programado para reiniciarse.

      UNKNOWN: El controlador SLURM acaba de comenzar y el estado del nodo aún no se ha determinado.

NODELIST: Nombres de los nodos.

Ejemplo de squeue en el cluster Clemente

[usuario@clemente ~]$ squeue
PARTITION JOBID PRIO NAME USER ST TIME NO CPU GRES NODELIST(REASON)
batch 2255 4294 flash usuario3 PD 0:00 2 112 (null) (Resources)
batch 2254 4294 IM3SHAPE usuario2 R 5:10:30 2 112 (null) clemente[1-2]
batch 2253 4294 cli usuario1 R 1:05:07 1 56 (null) clemente3

Información que brinda squeue:

PARTITION: El nombre de la partición en que esta asignado el trabajo.

JOBID: El identificador del trabajo. Es útil tener presente este identificador porque es muy usados, tanto para los nombre por estándar y como parámetro en la ejecución de otros comandos slurm.

PRIO: La prioridad del trabajo. Actualmente todos tienen la misma prioridad y se van asignando por orden de llegada.

NAME: Nombre del trabajo.

USER: El usuario que envío el trabajo.

TIME: El tiempo que lleva ejecutando en formato días-horas:minutos:segundos. Si su tiempo es 0:00:00 significa que esta esperando por recursos.

NO: La cantidad de nodos reservados para el trabajo.

CPU: La cantidad de cores totales que se reservo.

GRES: Los aceleradores que reservo.

NODELIST(REASON): Los nodos en los que está corriendo el trabajo, o la razón por la que no se está ejecutando todavía. Algunas razones comunes son:

      Resources: No hay recursos libres en el cluster para ejecutarlo.

      Priority: Hay trabajos con mayor prioridad esperando a ser ejecutados.

      AssociationJobLimit: El usuario ya excede la cantidad de trabajos máxima en ejecución simultánea.

      JobHeldUser: El usuario ha suspendido el trabajo.

      JobHeldAdmin: Un administrador ha suspendido el trabajo.

      Launch failed requeued held: SLURM encontró un error al iniciar el trabajo y lo ha suspendido.

Para mostrar la información de todos los nodos "scontrol show nodes".
Para mostrar la información de un nodo en particular scontrol show nodes <NombreNodo>

Ejemplo de scontrol show nodes <NombreNodo>

[usuario@clemente ~]$scontrol show nodes clemente01
NodeName=clemente01 Arch=x86_64 CoresPerSocket=14
CPUAlloc=56 CPUErr=0 CPUTot=56 CPULoad=56.02
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=gpu:0
NodeAddr=clemente01 NodeHostName=clemente01 Version=17.11
OS=Linux 3.10.0-514.el7.x86_64 #1 SMP Tue Nov 22 16:42:41 UTC 2016
RealMemory=1 AllocMem=0 FreeMem=107711 Sockets=2 Boards=1
State=ALLOCATED ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
Partitions=debug,batch
BootTime=2018-06-04T14:56:55 SlurmdStartTime=2018-06-25T11:53:33
CfgTRES=cpu=56,mem=1M,billing=56
AllocTRES=cpu=56
CapWatts=n/a
CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s

Explicación de scontrol show nodes

Resaltado en color rojo se puede observar los datos más importantes: la cantidad de núcleos del nodo, si posee GPU, el nombre del nodo y las particiones a la que pertenece

Por la complejidad de la configuración existen muchos casos donde el trabajo se realiza incorrectamente, para corroborar los parámetros del trabajo podemos utilizar el comando "scontrol show job <JOBID>".

Ejemplo de scontrol show job <JOBID>

[usuario@clemente ~]$scontrol show nodes
JobId=2256 JobName=nombreTrabajo
UserId=usuario GroupId=usuarios MCS_label=N/A/li>
Priority=4294900462 Nice=0 Account=iate QOS=normal
JobState=RUNNING Reason=None Dependency=(null)
Requeue=1 Restarts=0 BatchFlag=1 Reboot=0 ExitCode=0:0
RunTime=00:34:52 TimeLimit=3-00:00:00 TimeMin=N/A
SubmitTime=2018-07-19T14:07:48 EligibleTime=2018-07-19T14:07:48
StartTime=2018-07-19T16:42:06 EndTime=2018-07-22T16:42:06 Deadline=N/A
PreemptTime=None SuspendTime=None SecsPreSuspend=0
LastSchedEval=2018-07-19T16:42:06
Partition=batch AllocNode:Sid=clemente:3638
ReqNodeList=(null) ExcNodeList=(null)
NodeList=clemente02
BatchHost=clemente02
NumNodes=1 NumCPUs=56 NumTasks=1 CPUs/Task= 56 ReqB:S:C:T=0:0:*:*
TRES=cpu=56,node=1,billing=56
Socks/Node=* NtasksPerN:B:S:C=0:0:*:* CoreSpec=*
MinCPUsNode=56 MinMemoryNode=0 MinTmpDiskNode=0
Features=(null) DelayBoot=00:00:00
Gres=(null) Reservation=(null)
OverSubscribe=OK Contiguous=0 Licenses=(null) Network=(null)
Command=/mnt/test/submit.sh
WorkDir=/mnt/test
StdErr=/mnt/test/slurm-2256.out
StdIn=/dev/null
StdOut=/mnt/test/slurm-2256.out
Power=

Explicación de scontrol show job <JOBID>

En rojo   se puede observar el id del trabajo(JOBID) y el nombre del trabajo, los cuales son útiles para identificarlos cuando se utilizan otros comandos.

En amarillo   el tiempo transcurrido y el tiempo máximo que puede ejecutarse el trabajo, en formato días-horas:minutos:segundos.

En gris el nombre de la partición y la lista de nodos que tiene asignado el trabajo.

En naranja   el número de nodos, de CPU y de tareas.

En celeste   si al trabajo se le asigno una GPU.

En rosa   las dirección y los nombres del archivo suministrado a Slurm, el archivo donde se escribirán los errores, el archivo de entrada de parámetros y el archivo donde se guardan los logs del trabajo.

Ejemplos Script Slurm

Tarea: ejecutar programas utilizando gpu
Ejecución: sbatch submit_gpu_job.sh
Partición: gpu
Tiempo máximo: 3 días

submit_gpu_job.sh

                #!/bin/bash
 
                ### Las líneas #SBATCH configuran los recursos de la tarea
                ### (aunque parezcan estar comentadas)
 
                ### Nombre de la tarea
                #SBATCH --job-name=gpu_job
 
                ### Cola de trabajos a la cual enviar.
                #SBATCH --partition=gpu
                #SBATCH --gres=gpu:1
 
                ### Procesos a largar.
                ### Por defecto, se usa un solo proceso para tareas GPU.
                #SBATCH --ntasks-per-node=1
 
                ### Tiempo de ejecucion. Formato dias-horas:minutos.
                #SBATCH --time 3-0:00
 
                ### Script que se ejecuta al arrancar el trabajo
 
                ### Cargar el entorno del usuario incluyendo la funcionalidad de modules
                ### No tocar
                . /etc/profile
 
                ### Cargar los módulos para la tarea
                # FALTA: Agregar los módulos necesarios
                module load gcc
                module load cuda
                ### Largar el programa
                # FALTA: Cambiar el nombre del programa
                srun NOMBRE_DEL_PROGRAMA

Tarea: ejecutar programas utilizando mpi
Ejecución: sbatch submit_mpi_job.sh
Partición: batch
Tiempo máximo: 3 días

submit_mpi_job.sh

            #!/bin/bash
 
            ### Las líneas #SBATCH configuran los recursos de la tarea
            ### (aunque parezcan estar comentadas)
 
            ### Nombre de la tarea
            #SBATCH --job-name=mpi_job
 
            ### Tiempo de ejecucion. Formato dias-horas:minutos.
            #SBATCH --time 3-0:00
 
            ### Numero de procesos a ser lanzados.
            #SBATCH --ntasks=2
 
            ### Nombre de partcion
            #SBATCH --partition=batch
 
            ### Script que se ejecuta al arrancar el trabajo
 
            ### Cargar el entorno del usuario incluyendo la funcionalidad de modules
            ### No tocar
            . /etc/profile
 
            ### Cargar los módulos para la tarea
            # FALTA: Agregar los módulos necesarios
            module load gcc
            module load openmpi
 
            ### Largar el programa con los cores detectados
            ### La cantidad de nodos y cores se detecta automáticamente
            # FALTA: Cambiar el nombre del programa
            srun NOMBRE_DEL_PROGRAMA

Tarea: ejecutar programas utilizando OPENMP
Ejecución: sbatch openmp
Partición: batch
Tiempo máximo: 3 días

submit_openmp_job.sh

            #!/bin/bash
 
            ### Las líneas #SBATCH configuran los recursos de la tarea
            ### (aunque parezcan estar comentadas)
 
            ### Nombre de la tarea
            #SBATCH --job-name=openmp_job
 
            ### Cola de trabajos a la cual enviar.
            #SBATCH --partition=batch
 
            ### Procesos a largar.
            ### Es OpenMP, o sea que un proceso en un nodo y muchos hilos.
            #SBATCH --ntasks=1
 
            ### Hilos por proceso
            ### Poner el mismo valor acá que en OMP_NUM_THREADS/MKL_NUM_THREADS
            #SBATCH --cpus-per-task=56
 
            ### Tiempo de ejecucion. Formato dias-horas:minutos.
            #SBATCH --time 3-0:00
 
            ### Script que se ejecuta al arrancar el trabajo
 
            ### Cargar el entorno del usuario incluyendo la funcionalidad de modules
            ### No tocar
            . /etc/profile
 
            ### Configurar OpenMP/MKL/etc con la cantidad de cores detectada.
            export OMP_NUM_THREADS=56
            export MKL_NUM_THREADS=56
 
            ### Cargar los módulos para la tarea
            # FALTA: Agregar los módulos necesarios
            module load gcc
 
            ### Largar el programa
            # FALTA: Cambiar el nombre del programa
            srun NOMBRE_DEL_PROGRAMA