wiki:CoriolisCluster

CoriolisCluster

Gestionnaire de jobs

SGE Sun Grid Engine

Il existe diferentes files d'attentes (queue) : civ.q pour les calculs civ et fast.q pour les calculs interactifs.

La soumission sur civ.q par

 qsub -q civ.q script_sge_a_executer

ajoute le script en fin de liste d'attente

La soumission sur fast.q par

 qrsh -q fast.q commande_a_executer

distribue immediatement la commande , ATTENTION au retour de la commande, il est possible que la soumission echoue et dans ce cas la commande n'est pas executée.

Etat des differentes files d'attente:

 qstat -f

verifier que le systeme tourne:

 echo "date > /coriolis/bigone/tmp/hostn"|qsub -q civ.q

check which nodes are working properly

 wwlist

Liste des jobs d'un utilisateur :

 qstat -u username

Nombre de jobs :

 qstat -u username | wc -l
 watch qstat -u username | wc -l

Impression de l'ID des jobs :

qstat -u flor|grep job_| awk -F" " '{print$1}'

Changement priorité de ces jobs :

for i in `qstat -u flor|grep job_| awk -F" " '{print$1}'`;do qalter -p 100 $i;done

Supprimer les jobs en erreur:

qmod -c civ.q

Supprimer tous les jobs en attente :

qstat | cut -f 1 -d ' '| tail  -n +3 | xargs  qdel

Integration de MPI

Nous avons integrer lam-mpi dans sge , le path de lam est /usr/local/lam-7.1.2

Pour lancer un job mpi il faut specifier le parallel environnement "lam"<br/> Par exemple :

qsub -q lam.q -pe lam 20 /coriolis/bigone/PROJETS/063D3C/run2/j1.job

va lancer le jo j1.job sur 20 slots , dans la queue lam.q en utilisant le "pe" lam.

En bypassant sge il faut :

/usr/local/lam-7.1.2/bin/lamboot -v -ssi boot rsh /usr/local/lam-7.1.2/etc/hostList.ALL 
mpirun -np 20 /CIVX/bin/civ3d3c -p /coriolis/bigone/PROJETS/063D3C/run2/1.xml

Calculs

Calculs CIV : utiliser la fonction/bouton BATCH pour que vos jobs soient traités sur le cluster; pour visualiser l'etat de la file d'attente, vous pouvez dans une fenetre terminal utiliser les fonctions : pour afficher toute la file :

 qstat -q civ.q 

pour afficher vos jobs dans la file :

qstat -q civ.q -u username

pour compter le nombre de jobs en attente :

qstat -q civ.q | grep w | wc -l

pour afficher les jobs en erreur :

qstat -q civ.q | grep Eqw 

pour compter le nombre de jobs en erreur :

qstat -q civ.q | grep Eqw | wc -l

pour avoir des informations sur un job en erreur

qstat -j job_number

Monitoring

Ganglia permet de suivre l'utilisation des ressources disques, memoire et CPU : http://bigone/ganglia

Froggy enregistre et trace la temperature, pression et humidité : http://bigone/froggy

La baie de disque est accessible sur http://10.0.0.252 (depuis le cluster uniquement!), toutes les operations d'administrations peuvent etre effectuées par cette interface.

Deouis bigone, pour voir le statut des noeuds :

  wwlist

TODO

Cups et imprimante

Nut

ACL

WareWulf

Image des noeuds dans /vnfs/default/

creation de l'image

 wwvnfs --build 2.6.18-3diskless

creation de l'initrd :

 wwmkinitrd 2.6.18-3diskless -v
Last modified 13 years ago Last modified on Jul 13, 2011, 11:29:44 AM