Line: 1 to 1 | |||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Test sul trasporto dati di DGAS tramite Active MQL'installazione del testbed, la configurazione e i test sono stati effettuati seguendo il piano di test proposto da Andrea Guarise. Il testebed e' cosi' composto:
Installazione CE e HLRDopo aver installato il CE gLite 3.2 SL5 x86_64 (profilo ig_CREAM_torque), seguendo la guida, abbiamo installato i pacchetti di DGAS indicati nel piano i test:
Configurazione CEPer la configurazione con SSL disattivo, nel file /opt/glite/etc/dgas_sensors.conf abbiamo aggiunti i seguenti parametri:
Configurazione HLR AMQPer la configurazione con SSL disattivo, abbiamo creato il file /opt/glite/etc/dgas-activemq-consumer.conf con i seguenti parametri:
TestPer passare da SSL attivo a disattivo e viceversa, dopo aver eseguito le modifiche alle configurazioni, abbiamo fatto ripartire tutti i servizi dgas.Test A-B: Test di comunicazione CE - HLR (senza e con SSL)Seguendo la guida i test sono stati effettuati con successo.Test C: Test di comunicazione cambiando valore di dgasAMQTopic (senza e con SSL)Seguendo la guida i test sono stati effettuati con successo.Test D-E: Test di un ciclo completo di accounting (senza e con SSL)Seguendo la guida i test sono stati effettuati con successo.Test G: Test di integrita' dei dati (stessi dati su HLR e HLR-AMQ) (SSL attivo)Abbiamo lanciato 2 serie di job con 2 certificati diversi (Cristofori e Fattibene). Alla fine (dopo circa 2 giorni di servizi attivi) sui 2 DB risulta un totale di 7834 job ed esattamente gli stessi risultati aggregati, in termini di numero di job, CPU time e Wall time per entrambi i gridUser. Inoltre il numero di job presenti nei DB corrisponde esattamente al numero di job sottomessi. Per un paio di job a campione abbiamo controllato con successo nei log del CE che le informazioni prese su Wall time e CPU time fossero esatte. Successivamente abbiamo lanciato una terza serie di job con SSL attivo (utente Cristofori) con 1410 job processati nei DB, stessi dati sui 2 DB. Dopo abbiamo spento i servizi sui 2 HLR e sul CE.Test F: Test di integrita' dei dati (stessi dati su HLR e HLR-AMQ) (SSL disattivo)Con i servizi spenti abbiamo configurato in modo da disattivare SSL. Dopo abbiamo fatto ripartire i servizi per continuare a processare i job di Cristofori. Abbiamo sottomesso un'altra serie di job (utente Fattibene). Il giorno successivo abbiamo controllato sui DB e risultano gli stessi dati aggregati. Inoltre il numero di job presenti nei DB corrisponde esattamente al numero di job sottomessi.Test H-I: Test di affidabilita' e robustezza del servizio (SSL disattivo e attivo)- Servizi HLR accesi Questo test si ritiene effettuato con successo contestualmente ai test precedenti. - Servizio glite-dgas-hlrd spento Abbiamo spento il servizio hlrd sui 2 HLR e lanciato due serie di job (utenti Cristofori e Fattibene), venerdi' 23/9. Abbiamo tenuto il sistema in questo stato per tutto il fine settimana. Lunedi' mattina abbiamo riavviato hlrd sui 2 HLR e i dati sono arrivati uguali su entrambi e non si sono persi job. Nota: con tutti i servizi accesi abbiamo riavviato le macchine e abbiamo notato che i servizi AMQ sull'HLR (Consumer e RecordManager) non sono tornati su. - Servizi sull'HLR AMQ spenti Lunedi 27/9 pomeriggio abbiamo spento tutti i servizi sugli HLR (hlrd e i servizi AMQ) e lanciato altre 2 serie di job. Mercoledi' 29/9 mattina abbiamo copiato poco piu' di 3 mesi di log da un CE del T1 (ce04-lcg.cr.cnaf.infn.it) e li abbiamo messi sul CE del testbed. Ci aspettiamo che questi log contangano circa 1,5 milioni di job. Dopo abbiamo opportunamente configurato il CE come se fosse un CE LSF. Il sistema si e' inceppato perche' i log non erano stati copiati sul CE in modo corretto, pertanto giovedi' 30/9 mattina abbiamo riprocessato i job. Giovedi 30/9 pomeriggio alle 17.30 abbiamo avviato i servizi sui 2 HLR. Venerdi' 1/10 mattina verso le 7.00 il disco dell'HLR AMQ si e' riempito e il sistema si e' bloccato. Fino a quel momento erano stati inseriti nel database circa 16000 job (in 13 ore e mezza). Il log dgas-hlr-amq-manager.log era 6,2 GB e hlr_qmgrd.log era 7,7 GB. Dopo averli cancellati abbiamo riavviato i servizi e dopo circa 5 ore (alle 16) rileviamo che sono stati inseriti nel database del HLR AMQ circa 12000 job. Alle 16 abbiamo riconfigurato il sistema abilitando SSL e abbiamo disabilitato l'invio verso l'HLR standard, in modo da lasciare il solo HLR AMQ. Alle 11 di mercoledi' 6 ottobre la directory /tmp/dgasamq/ era totalmente piena di record e l'HLR li processava. Non era possibile nemmeno fare il listing dei file in questa directory. L'unica soluzione estrema e' stata quella di cancellare tutti i record rm -rfv -/tmp/dgasamq/ Sul CE la directory /opt/glite/var/dgasURBox/ e ERR risultavano essere vuote ma il solo listing dei file in dgasURBox richiedeva diversi minuti drwxr-x--- 3 root root 33480704 Oct 6 11:40 dgasURBox rimossa e ricreata. Anche la rimozione ha richiesto diversi minuti. Dopo aver ricostruito le directory, rimosso il file dgasCollectorBuffer.lsf e riavviato l'urcollector "nuovi" record sono comparsi nella dgasURBox e spediti con successo al broker: AMQSTATUS=0 I record sembrano arrivare all'HLR ma sono senza contenuto: cat -A DGASAMQ20101006145741_3973 $ L'11/10 abbiamo notato che il binario /opt/glite/libexec/glite_dgas_recordComposer era vuoto, senza riuscire a capirne il motivo. Abbiamo provato a reinstallare il pacchetto glite-dgas-hlr-activemq-producer-0.0.0-0.centos5.x86_64.rpm ma non siamo riusciti. Il problema era nel fatto che l'urcollector rimaneva acceso. Il 19/10, dopo aver killato a mano l'urcollector, abbiamo installato con successo l'rpm, ripulito i log del collector e del manager AMQ e riavviato i servizi. I job hanno ripreso ad arrivare regolarmente al DB.Test L: Misure di throughput (SSL disattivo e attivo, e HLR standard)Abbiamo effettuato il test L misurando il numero di job processati dal sistema in un giorno intero in diverse configurazioni. Il set di job utilizzato e' stato lo stesso per le diverse configurazioni. Di seguito i risultati. | |||||||||||||||||||||||||||||||||||||||||||
Changed: | |||||||||||||||||||||||||||||||||||||||||||
< < | - HLR AMQ, SSL attivo | ||||||||||||||||||||||||||||||||||||||||||
> > | - HLR AMQ, SSL attivo, broker di Torino (dgas-broker.to.infn.it) | ||||||||||||||||||||||||||||||||||||||||||
Numero di record in jobTransSummary e in trans_in: 33371 Numero di record in trans_queue: 129918 | |||||||||||||||||||||||||||||||||||||||||||
Changed: | |||||||||||||||||||||||||||||||||||||||||||
< < | - HLR AMQ, SSL disattivo | ||||||||||||||||||||||||||||||||||||||||||
> > | - HLR AMQ, SSL disattivo, broker di Torino (dgas-broker.to.infn.it) | ||||||||||||||||||||||||||||||||||||||||||
Numero di record in jobTransSummary e in trans_in: 33955 Numero di record in trans_queue: 131391 | |||||||||||||||||||||||||||||||||||||||||||
Changed: | |||||||||||||||||||||||||||||||||||||||||||
< < | - HLR standard | ||||||||||||||||||||||||||||||||||||||||||
> > | - HLR standard, broker di Torino (dgas-broker.to.infn.it) | ||||||||||||||||||||||||||||||||||||||||||
Numero di record in jobTransSummary e in trans_in: 62590 Numero di record in trans_queue: 265748 | |||||||||||||||||||||||||||||||||||||||||||
Changed: | |||||||||||||||||||||||||||||||||||||||||||
< < | - HLR AMQ, SSL attivo, broker CERN (gridmsg001.cern.ch) | ||||||||||||||||||||||||||||||||||||||||||
> > | - HLR AMQ, SSL attivo, broker del CERN (gridmsg001.cern.ch) | ||||||||||||||||||||||||||||||||||||||||||
Numero di record in jobTransSummary e in trans_in: 34609 Numero di record in trans_queue: 134244 | |||||||||||||||||||||||||||||||||||||||||||
Added: | |||||||||||||||||||||||||||||||||||||||||||
> > | Considerazioni finaliDurante l'installazione sono stati riscontrati dei problemi di dipendenze, derivanti soprattutto dal fatto che non sono ancora disponibili i pacchetti RPM. Riteniamo che questi problemi si risolveranno con la disponibilita' di tali pacchetti. In generale abbiamo notato che la dimensione dei log cresce molto velocemente, tanto da raggiungere una dimensione di ~10 GB in poche ore. In particolare i file di log che abbiamo notato crescere rapidamente sono: - sul CE: pushdAscii.log - sull'HLR: dgas-hlr-amq-manager.log ; hlr_qmgrd.log ; hlrd.log Riteniamo utile poter settare il livello di verbosita' di questi log e la possibilita' di attivare/disattivare la registrazione di questi log. Nel corso di questi test abbiamo dovuto ruotare i log in questione per evitare un riempimento rapido del disco. Affinche' la rotazione avesse effetto abbiamo dovuto riavviare i servizi ad ogni giro di rotate; senza riavviare i servizi infatti, il servizio continuava a puntare al vecchio file descriptor e il nuovo file creato rimane vuoto (almeno questo e' quello che crediamo sia successo). Inoltre abbiamo notato la mancanza della informazione relativa al broker contattato sia nei log del producer che del consumer: per evitare che l'hostname del broker sia ripetuto per ogni invio/richiesta di UR, potrebbe essere un'idea quella di annotare nel log la configurazione allo start del servizio (sia nel CE che nell'HLR). | ||||||||||||||||||||||||||||||||||||||||||
|