Version 2 (modified by 12 years ago) (diff) | ,
---|
SoftWare/SignalCheckpoint / OAR - utilisation avec le scheduleur OAR
OAR est un gestionnaire de batch. C'est celui que nous utilisons au LEGI. Il est développé sur Grenoble : http://oar.imag.fr/
Sur cette page ne sont décrit que les spécificité de l'utilisation
de la bibliothèque SignalCheckpoint
avec le scheduleur OAR.
L'objectif est de lancer un code avec l'option de relance automatique en fin de traitement
tant que le calcul n'est pas finit (idempotent
).
On lance un calcul de 24h et 10min avant la fin,
OAR
envoie le signal SIGUSR2
au code pour lui demander de s'arrêter.
A noter que les scripts de soumission sont écrit en bash
mais devrait fonctionner à l'identique sous ksh
.
Il faut cependant oublier le {csh
(et le tcsh
) qui ne gère pas les signaux correctement.
Cas simple - sans post-traitement
Le script de soumission configure l'environnement du calcul en chargeant quelques modules puis en exécutant un pré-traitement.
Comme il n'y a pas de post-traitement à réaliser,
le plus simple est de passer la main au programme de calcul
via la directive du shell exec
.
Ainsi, le script de soumission s'arrête très rapidement
et OAR
enverra ces signaux directement au code de calcul.
A lui de les gérer.
#!/bin/bash #OAR -n MYCODE #OAR -t idempotent #OAR --checkpoint 600 #OAR -l /core=1,walltime=24:00:00 # Load environment . /etc/profile module load intel/2011.7 # Pretreatment possible here # Start / give the hand to the code exec ./mycode