wiki:SoftWare/SignalCheckpoint/OAR

Version 2 (modified by g7moreau, 12 years ago) (diff)
  • Simple case

SoftWare/SignalCheckpoint / OAR - utilisation avec le scheduleur OAR

OAR est un gestionnaire de batch. C'est celui que nous utilisons au LEGI. Il est développé sur Grenoble : http://oar.imag.fr/

Sur cette page ne sont décrit que les spécificité de l'utilisation de la bibliothèque SignalCheckpoint avec le scheduleur OAR.

L'objectif est de lancer un code avec l'option de relance automatique en fin de traitement tant que le calcul n'est pas finit (idempotent). On lance un calcul de 24h et 10min avant la fin, OAR envoie le signal SIGUSR2 au code pour lui demander de s'arrêter.

A noter que les scripts de soumission sont écrit en bash mais devrait fonctionner à l'identique sous ksh. Il faut cependant oublier le {csh (et le tcsh) qui ne gère pas les signaux correctement.

Cas simple - sans post-traitement

Le script de soumission configure l'environnement du calcul en chargeant quelques modules puis en exécutant un pré-traitement.

Comme il n'y a pas de post-traitement à réaliser, le plus simple est de passer la main au programme de calcul via la directive du shell exec. Ainsi, le script de soumission s'arrête très rapidement et OAR enverra ces signaux directement au code de calcul. A lui de les gérer.

#!/bin/bash

#OAR -n MYCODE
#OAR -t idempotent
#OAR --checkpoint 600
#OAR -l /core=1,walltime=24:00:00

# Load environment
. /etc/profile

module load intel/2011.7


# Pretreatment possible here


# Start / give the hand to the code
exec ./mycode