Changes between Initial Version and Version 1 of CoriolisCluster


Ignore:
Timestamp:
Apr 20, 2011, 9:10:48 AM (15 years ago)
Author:
g7moreau
Comment:

Create page

Legend:

Unmodified
Added
Removed
Modified
  • CoriolisCluster

    v1 v1  
     1= CoriolisCluster =
     2
     3== Acces ==
     4
     5=== Client Terminaux ===
     6
     7Utiliser NXClient version 2 , telechargeable sur http://www.nomachine.com/download.php  section          NX Client Desktop Edition
     8
     9Configurer la connection, le nom d'hote est bigone.coriolis-legi.org; Si vous accedez depuis l'exterieur de coriolis il faut cocher la case " Enable SSL for all traffic" dans le menu 'Advanced'.
     10
     11 * De l'interieur, selectionner l'option 'General/LAN'.
     12 * Pour un clavier francais, utiliser le menu 'Advanced/Keyboard/French(Alternative)' ET si vous avez toujours des problemes sous KDE :
     13   * tapez la commande setxkbmap fr
     14   * dans le menu "Control Center" puis "Regional & Accessibility" puis Keyboard Layout choisissez Model 105 Keys et layout France,
     15     vous devriez avoir un petit drapeau dans la barre de menu en bas a droite pour selectionner votre clavier francais.
     16 * If the graphical response is slow,select options in the configuration  menu of NXclient:
     17   * Disable !DirectDraw
     18   * Disble deferred screen update
     19
     20=== Acces données ===
     21
     22L'acces aux données depuis l'exterieur necessite un client scp/ssh , par exemple filezilla
     23
     24Configurer le client !FileZilla (http://sourceforge.net/project/showfiles.php?group_id=21558) ainsi :
     25
     26Menu Fichier : gestionnaire de site : Nouveau site
     27
     28Hote : bigone.coriolis-legi.org
     29
     30Tpe de serveur : SFTP
     31
     32compte : normal
     33
     34nom d'utilisateur etc
     35
     36
     37
     38== Espace de stockage ==
     39
     40Une baie de 10TB utile est connectée sous /coriolis/bigone/PROJETS
     41
     42Les disques partagés des autres PC sont dans /coriolis ; me demander pour ajouter un partage particulier.
     43
     44== Matlab ==
     45
     46executer matlab depuis un terminal, ou en entrant matlab dans le champ s'affichant apres avoir pressé les touches Alt+F2
     47
     48Par defaut, matlab est lancé avec une priorité basse de 10 afin de ne pas perdre de reactivité du système lors de l'execution de longues routines de matlab.
     49
     50Matlab est installé, le fichier contenant les paths n'est pas modifiable , si vous desirez ajouter vos propres repertoires il faut creer votre propre  A COMPLETER
     51
     52== Gestionnaire de jobs ==
     53
     54=== SGE Sun Grid Engine ===
     55
     56Il existe diferentes files d'attentes (queue) : civ.q pour les calculs civ et fast.q pour les calculs interactifs.
     57
     58La soumission sur civ.q par
     59{{{
     60 qsub -q civ.q script_sge_a_executer
     61}}}
     62ajoute le script en fin de liste d'attente
     63
     64La soumission sur fast.q par
     65{{{
     66 qrsh -q fast.q commande_a_executer
     67}}}
     68distribue immediatement la commande , ATTENTION au retour de la commande, il est possible que la soumission echoue et dans ce cas la commande n'est pas executée.
     69
     70Etat des differentes files d'attente:
     71{{{
     72 qstat -f
     73}}}
     74
     75verifier que le systeme tourne:
     76{{{
     77 echo "date > /coriolis/bigone/tmp/hostn"|qsub -q civ.q
     78}}}
     79
     80check which nodes are working properly
     81{{{
     82 wwlist
     83}}}
     84
     85Liste des jobs d'un utilisateur :
     86{{{
     87 qstat -u username
     88}}}
     89
     90Nombre de jobs :
     91{{{
     92 qstat -u username | wc -l
     93 watch qstat -u username | wc -l
     94}}}
     95
     96Impression de l'ID des jobs :
     97{{{
     98qstat -u flor|grep job_| awk -F" " '{print$1}'
     99}}}
     100
     101Changement priorité de ces jobs :
     102{{{
     103for i in `qstat -u flor|grep job_| awk -F" " '{print$1}'`;do qalter -p 100 $i;done
     104}}}
     105
     106Supprimer les jobs en erreur:
     107 qmod -c civ.q
     108
     109Supprimer tous les jobs en attente :
     110{{{
     111qstat | cut -f 1 -d ' '| tail  -n +3 | xargs  qdel
     112}}}
     113
     114=== Integration de MPI ===
     115
     116Nous avons integrer lam-mpi dans sge , le path de lam est /usr/local/lam-7.1.2
     117
     118Pour lancer un job mpi il faut specifier le parallel environnement "lam"<br/>
     119Par exemple :
     120{{{
     121qsub -q lam.q -pe lam 20 /coriolis/bigone/PROJETS/063D3C/run2/j1.job
     122}}}
     123va lancer le jo j1.job sur 20 slots , dans la queue lam.q en utilisant le "pe" lam.
     124
     125En bypassant sge il faut :
     126{{{
     127/usr/local/lam-7.1.2/bin/lamboot -v -ssi boot rsh /usr/local/lam-7.1.2/etc/hostList.ALL
     128mpirun -np 20 /CIVX/bin/civ3d3c -p /coriolis/bigone/PROJETS/063D3C/run2/1.xml
     129}}}
     130
     131== Calculs ==
     132
     133
     134Calculs CIV : utiliser la fonction/bouton BATCH pour que vos jobs soient traités sur le cluster; pour visualiser l'etat de la file d'attente, vous pouvez dans une fenetre terminal utiliser les fonctions :
     135pour afficher toute la file :
     136{{{
     137 qstat -q civ.q
     138}}}
     139
     140pour afficher vos jobs dans la file :
     141{{{
     142qstat -q civ.q -u username
     143}}}
     144
     145pour compter le nombre de jobs en attente :
     146{{{
     147qstat -q civ.q | grep w | wc -l
     148}}}
     149
     150pour afficher les jobs en erreur :
     151{{{
     152qstat -q civ.q | grep Eqw
     153}}}
     154
     155pour compter le nombre de jobs en erreur :
     156{{{
     157qstat -q civ.q | grep Eqw | wc -l
     158}}}
     159
     160pour avoir des informations sur un job en erreur
     161{{{
     162qstat -j job_number
     163}}}
     164
     165== Monitoring ==
     166
     167Ganglia permet de suivre l'utilisation des ressources disques, memoire et CPU : http://bigone/ganglia
     168
     169Froggy enregistre et trace la temperature, pression et humidité :  http://bigone/froggy
     170
     171La baie de disque est accessible sur http://10.0.0.252 (depuis le cluster uniquement!), toutes les operations d'administrations peuvent etre effectuées par cette interface.
     172
     173Deouis bigone, pour voir le statut des noeuds :
     174{{{
     175  wwlist
     176}}}
     177
     178
     179
     180== TODO ==
     181
     182Cups et imprimante
     183
     184Nut
     185
     186ACL
     187
     188== !WareWulf ==
     189
     190Image des noeuds dans /vnfs/default/
     191
     192creation de l'image
     193{{{
     194 wwvnfs --build 2.6.18-3diskless
     195}}}
     196
     197creation de l'initrd :
     198{{{
     199 wwmkinitrd 2.6.18-3diskless -v
     200}}}