[[servizi:cluster:docs|Main Page]] ===== Shutdown e Reboot ===== Allestire una postazione per root in sala macchine (monitor e tastiera sono su tavolino con ruote). Sia il monitor che la tastiera vanno opportunamente collegati al front-end; il monitor va allacciato all'alimentazione elettrica (la presa si trova sul retro del rack). Si apre una sessione di root sul front-end e si impedisce l'accesso agli utenti tramite: touch /etc/nologin Si bloccano le code tramite: qdisable @tartaglia.local qstat -q il secondo comando serve per verificare l'esito del precedente. In fondo alle righe deve comparire //D R// (//D// per disable). Si procede poi con l'eliminazione degli eventuali job accodati/running. Il comando: qstat fornisce l'elenco. Se non vuoto, i job vanno eliminati manualmente una alla volta tramite: qdel xxxx ove xxxx è un codice di 4 cifre fornito dal comando qstat. Esauriti i preliminari si procede con lo spegnimento vero e proprio.\\ Spegnere prima tutte le blade: cluster-fork "shutdown -h now" e solo dopo il front-end tramite: shutdown -h now Nel caso delle blade il led centrale da verde diventa arancione. Rimangono accesi lo storage, l'enclosure e le ventole. Per spegnere lo storage si chiudono gli interruttori retroilluminati con luce rossa che si trovato sul retro del rack (sollevare il coperchietto di plastica). Viene contestualmente tolta l'alimentazione anche del front-end.\\ Ora si può procedere allo spegnimento delle enclosure. Per la "nuova" (quella in basso) si preme la parte OFF degli interrutori posti a sinistra sugli alimentatori posti alla base del rack. Per la "vecchia" enclosure la faccenda assume aspetti biofisici. Gli alimentatori sono stati inseriti sulle fiancate del rack, all'interno, uno per parte. Per spegnere quello di sinistra, con la chiavetta si aprono le 2 chiusure della fiancata laterale sinistra. Si toglie il pezzo centrale (che va appoggiato da qualche parte) e poi si toglie la copertura superiore, che va pure appoggiata da qualche parte. Si spegne l'interruttore. La fiancata destra è appoggiata ad un altro rack per cui serve una persona di alta statura e braccia magre. Si infila il braccio tra l'enclosure e la fiancata ed a tentoni si individua il tasto. Lo si spegne (per maggiori dettagli rivolgersi a Giorgio). Non basta spegnere un solo alimentatore: essendo ridondati, spegnendo uno l'altro si accolla l'onere di mandare avanti il tutto. Quindi vanno spenti tutti e due. Ora il rack è completamente spento.\\ \\ \\ Per la riaccensione si accendono i 4 alimentatori. Ricordarsi di mettere a posto la fiancata. Attenzione: riattivando le enclosures poco dopo partono anche le blade. Vanno spente.\\ Riaccendere, tramite i pulsanti retroilluminati e posti sul retro del rack, lo storage. Dovrebbe partire anche il front-end, ma la cosa non è sempre garantita. Ad ogni buon conto riavviare il front-end (premendo il pulsante sul frontalino, a destra) ed aprire una sessione come root\\ **La manovra elimina il file /etc/nologin, che, se del caso, va prontamente ricreato** \\ Ora è la volta delle blade. La prima ad essere accesa è quella in alto a sinistra perché è connessa ad InfiniBand. Basta premere il led centrale cha da arancione passa a verde. Prima di accendere -sempre manualmente- le rimanenti è necessario lasciarle il tempo di completare lo startup (un paio di minuti).\\ Se una blade non ne vuol sapere di accendersi, bisogna sfilarla per qualche centimentro dall'alloggiamento e poi rimetterla posto, evitando movimenti bruschi. In tal caso l'accensione -automatica- avviene dopo una decina di secondi.\\ Dopo qualche minuto, a boot delle blade ultimato, accertarsi del funzionamento di InfiniBand. Aprire una connessione sulla blade 0 (da root sul frontend si accede via ssh con //ssh compute-0-0//) e lanciare: ibstat controllare le righe State e Physical State: devono essere rispettivamente Active e LinkUp. Per conoscere i nodi che afferiscono ad InfiniBand usare il comando: ibnodes le blade riconosciute solo elencate alla rovescia. L'elenco comprende gli switch. Accertato lo stato della rete Infiniband si esce dalla blade (comando //exit//).\\ \\ A questo punto avviare il servizio mom (vedi pbs-torque) sui nodi con il comando: cluster-fork "/etc/init.d/pbs start" e poi sul front-end tramite: /etc/init.d/pbs start Sul solo front-end avviare il servizio maui tramite il comando: /etc/init.d/maui start Accertarsi dello state delle code tramite: qstat -q Osservare l'ultima colonna (State). Allo stato attuale tutte le code, ad eccezione della //all//, devono risultare //E// (sta per Enabled) e //R// (sta per Ready). La coda verylong fa eccezione. Normalmente è //S// (stopped). È //R// (ready) solo tra le 13:00 di venerdì e le 13:00 di sabato. Se del caso, sistemare tramite: qenable @tartaglia.local qstop verylong (oppure qstart verylong) qdisable all Il primo comando abilita tutte le code. Il secondo disabilita la coda //all// Dare il comando: showbf per accertarsi del buon funzionamento di Maui (80 procs available) Osservare il file ///etc/motd//, togliendo eventuali informazioni. Infine consegnare la macchina all'utenza cancellando il file ///etc/nologin//. ======= [[servizi:cluster:docs|Main Page]]