= CoriolisCluster = == Gestionnaire de jobs == === SGE Sun Grid Engine === Il existe diferentes files d'attentes (queue) : civ.q pour les calculs civ et fast.q pour les calculs interactifs. La soumission sur civ.q par {{{ qsub -q civ.q script_sge_a_executer }}} ajoute le script en fin de liste d'attente La soumission sur fast.q par {{{ qrsh -q fast.q commande_a_executer }}} distribue immediatement la commande , ATTENTION au retour de la commande, il est possible que la soumission echoue et dans ce cas la commande n'est pas executée. Etat des differentes files d'attente: {{{ qstat -f }}} verifier que le systeme tourne: {{{ echo "date > /coriolis/bigone/tmp/hostn"|qsub -q civ.q }}} check which nodes are working properly {{{ wwlist }}} Liste des jobs d'un utilisateur : {{{ qstat -u username }}} Nombre de jobs : {{{ qstat -u username | wc -l watch qstat -u username | wc -l }}} Impression de l'ID des jobs : {{{ qstat -u flor|grep job_| awk -F" " '{print$1}' }}} Changement priorité de ces jobs : {{{ for i in `qstat -u flor|grep job_| awk -F" " '{print$1}'`;do qalter -p 100 $i;done }}} Supprimer les jobs en erreur: qmod -c civ.q Supprimer tous les jobs en attente : {{{ qstat | cut -f 1 -d ' '| tail -n +3 | xargs qdel }}} === Integration de MPI === Nous avons integrer lam-mpi dans sge , le path de lam est /usr/local/lam-7.1.2 Pour lancer un job mpi il faut specifier le parallel environnement "lam"
Par exemple : {{{ qsub -q lam.q -pe lam 20 /coriolis/bigone/PROJETS/063D3C/run2/j1.job }}} va lancer le jo j1.job sur 20 slots , dans la queue lam.q en utilisant le "pe" lam. En bypassant sge il faut : {{{ /usr/local/lam-7.1.2/bin/lamboot -v -ssi boot rsh /usr/local/lam-7.1.2/etc/hostList.ALL mpirun -np 20 /CIVX/bin/civ3d3c -p /coriolis/bigone/PROJETS/063D3C/run2/1.xml }}} == Calculs == Calculs CIV : utiliser la fonction/bouton BATCH pour que vos jobs soient traités sur le cluster; pour visualiser l'etat de la file d'attente, vous pouvez dans une fenetre terminal utiliser les fonctions : pour afficher toute la file : {{{ qstat -q civ.q }}} pour afficher vos jobs dans la file : {{{ qstat -q civ.q -u username }}} pour compter le nombre de jobs en attente : {{{ qstat -q civ.q | grep w | wc -l }}} pour afficher les jobs en erreur : {{{ qstat -q civ.q | grep Eqw }}} pour compter le nombre de jobs en erreur : {{{ qstat -q civ.q | grep Eqw | wc -l }}} pour avoir des informations sur un job en erreur {{{ qstat -j job_number }}} == Monitoring == Ganglia permet de suivre l'utilisation des ressources disques, memoire et CPU : http://bigone/ganglia Froggy enregistre et trace la temperature, pression et humidité : http://bigone/froggy La baie de disque est accessible sur http://10.0.0.252 (depuis le cluster uniquement!), toutes les operations d'administrations peuvent etre effectuées par cette interface. Deouis bigone, pour voir le statut des noeuds : {{{ wwlist }}} == TODO == Cups et imprimante Nut ACL == !WareWulf == Image des noeuds dans /vnfs/default/ creation de l'image {{{ wwvnfs --build 2.6.18-3diskless }}} creation de l'initrd : {{{ wwmkinitrd 2.6.18-3diskless -v }}}