CoriolisCluster
Gestionnaire de jobs
SGE Sun Grid Engine
Il existe diferentes files d'attentes (queue) : civ.q pour les calculs civ et fast.q pour les calculs interactifs.
La soumission sur civ.q par
qsub -q civ.q script_sge_a_executer
ajoute le script en fin de liste d'attente
La soumission sur fast.q par
qrsh -q fast.q commande_a_executer
distribue immediatement la commande , ATTENTION au retour de la commande, il est possible que la soumission echoue et dans ce cas la commande n'est pas executée.
Etat des differentes files d'attente:
qstat -f
verifier que le systeme tourne:
echo "date > /coriolis/bigone/tmp/hostn"|qsub -q civ.q
check which nodes are working properly
wwlist
Liste des jobs d'un utilisateur :
qstat -u username
Nombre de jobs :
qstat -u username | wc -l watch qstat -u username | wc -l
Impression de l'ID des jobs :
qstat -u flor|grep job_| awk -F" " '{print$1}'
Changement priorité de ces jobs :
for i in `qstat -u flor|grep job_| awk -F" " '{print$1}'`;do qalter -p 100 $i;done
Supprimer les jobs en erreur:
qmod -c civ.q
Supprimer tous les jobs en attente :
qstat | cut -f 1 -d ' '| tail -n +3 | xargs qdel
Integration de MPI
Nous avons integrer lam-mpi dans sge , le path de lam est /usr/local/lam-7.1.2
Pour lancer un job mpi il faut specifier le parallel environnement "lam"<br/> Par exemple :
qsub -q lam.q -pe lam 20 /coriolis/bigone/PROJETS/063D3C/run2/j1.job
va lancer le jo j1.job sur 20 slots , dans la queue lam.q en utilisant le "pe" lam.
En bypassant sge il faut :
/usr/local/lam-7.1.2/bin/lamboot -v -ssi boot rsh /usr/local/lam-7.1.2/etc/hostList.ALL mpirun -np 20 /CIVX/bin/civ3d3c -p /coriolis/bigone/PROJETS/063D3C/run2/1.xml
Calculs
Calculs CIV : utiliser la fonction/bouton BATCH pour que vos jobs soient traités sur le cluster; pour visualiser l'etat de la file d'attente, vous pouvez dans une fenetre terminal utiliser les fonctions : pour afficher toute la file :
qstat -q civ.q
pour afficher vos jobs dans la file :
qstat -q civ.q -u username
pour compter le nombre de jobs en attente :
qstat -q civ.q | grep w | wc -l
pour afficher les jobs en erreur :
qstat -q civ.q | grep Eqw
pour compter le nombre de jobs en erreur :
qstat -q civ.q | grep Eqw | wc -l
pour avoir des informations sur un job en erreur
qstat -j job_number
Monitoring
Ganglia permet de suivre l'utilisation des ressources disques, memoire et CPU : http://bigone/ganglia
Froggy enregistre et trace la temperature, pression et humidité : http://bigone/froggy
La baie de disque est accessible sur http://10.0.0.252 (depuis le cluster uniquement!), toutes les operations d'administrations peuvent etre effectuées par cette interface.
Deouis bigone, pour voir le statut des noeuds :
wwlist
TODO
Cups et imprimante
Nut
ACL
WareWulf
Image des noeuds dans /vnfs/default/
creation de l'image
wwvnfs --build 2.6.18-3diskless
creation de l'initrd :
wwmkinitrd 2.6.18-3diskless -v