Supporto di secondo livello per DGAS

La seguente pagina contiene appunti su problemi relativi a DGAS. Per ogni caso e' riportato il tipo di problema, quando e dove si' e verificato e cosa e' stato fatto per risolverlo. Se presente, e' riportato anche il link al ticket con il quale il problema e' stato seguito. Lo scopo e' quello di tenere traccia dei problemi riscontrati e mantenere un unico posto per trovare la loro storia.

urForward muore continuamente

Descrizione

Il processo urForward e' a volte running a volte no. Lanciando infatti il comando /etc/init.d/glite-dgas-hlrd status si ha a volte:
...
generic: error trying to contact the server.
listener seems'to be frozen
/opt/glite/var/lock/dgas_hlr_urforward.lock
Process urForward: 31256
root 31256 0.8 0.4 29508 4468 pts/0 Sl 16:52 0:00 /opt/glite//libexec/glite-dgas-hlr-urforward -c /opt/glite//etc/dgas_hlr.conf -d
The process is running.

A volte invece:
...
Process urForward:
The process is not running.

Dove e quando si e' verificato e ticket di riferimento

INFN-FRASCATI - Aprile 2011
https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=10238
https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=10340

Approccio

Avendo fatto girare gli script di check su CE e HLR, ci siamo accorti che i CE mandano correttamente i dati all'HLR e l'HLR li riceveva bene, ma questi non sono presenti nella jobTransSummary. Allora pensiamo che i dati siano presenti nella trans_queue ma non vengono trasferiti nella jobTransSummary. Facciamo eseguire il comando /opt/glite/sbin/glite-dgas-hlr-translatedb ed infatti il risultato e':
Another instance of hlr-translatedb put a lock. Exiting.

Soluzione

Facciamo cercare il file di lock del translatedb (che non e' configurabile ma scritto hardcoded) e lo facciamo cancellare. Il translatedb e' partito e i dati sono arrivati.

ATTENZIONE: il problema si e' ripresentato e al momento e' seguito nel tkt 10340.

riprocessamento di log gia' processati in passato

Descrizione

Dai log del CE sembra che il pushd provi a mandare all'HLR record gia' mandati in passato, in quanto gia' presenti sull' HLR, come indica l'existatus=70. Puo' essere che per qualche motivo sia stato cancellato il file /opt/glite/var/dgasCollectorBuffer che contiene il timestamp prima del quale il sistema non processa i job.

Dove e quando si e' verificato e ticket di riferimento

INFN-PERUGIA - Aprile 2011
https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=10271

Approccio

Sembra che il sistema stia riprocessando tutti i log indietro nel tempo. Dovrebbe arrivare alla data indicata come ignoreJobsLoggedBefore nel file dgas_sensors.conf e poi cominciare a processare log recenti.

Soluzione

Aspettare che il giro finisca, senza riavviare l'urlcollector, e vedere se i log nuovi vengono processati. Quando arrivano i dati recenti all'HLR, verificare che le cartelle dgasURBox e dgasURBox/ERR si siano svuotate.


This topic: DGAS > WebHome > SecondLevelSupport
Topic revision: r1 - 2011-05-02 - EnricoFattibene
 
This site is powered by the TWiki collaboration platformCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback