Supporto di secondo livello per DGAS
La seguente pagina contiene appunti su problemi relativi a DGAS. Per ogni caso e' riportato il tipo di problema, quando e dove si' e verificato e cosa e' stato fatto per risolverlo. Se presente, e' riportato anche il link al ticket con il quale il problema e' stato seguito. Lo scopo e' quello di tenere traccia dei problemi riscontrati e mantenere un unico posto per trovare la loro storia.
urForward muore continuamente
Descrizione
Il processo urForward e' a volte running a volte no.
Lanciando infatti il comando
/etc/init.d/glite-dgas-hlrd status si ha a volte:
...
generic: error trying to contact the server.
listener seems'to be frozen
/opt/glite/var/lock/dgas_hlr_urforward.lock
Process urForward: 31256
root 31256 0.8 0.4 29508 4468 pts/0 Sl 16:52 0:00 /opt/glite//libexec/glite-dgas-hlr-urforward -c /opt/glite//etc/dgas_hlr.conf -d
The process is running.
A volte invece:
...
Process urForward:
The process is not running.
Dove e quando si e' verificato e ticket di riferimento
INFN-FRASCATI - Aprile 2011
https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=10238
https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=10340
Approccio
Avendo fatto girare gli script di check su CE e HLR, ci siamo accorti che i CE mandano correttamente i dati all'HLR e l'HLR li riceveva bene, ma questi non sono presenti nella
jobTransSummary. Allora pensiamo che i dati siano presenti nella
trans_queue ma non vengono trasferiti nella
jobTransSummary.
Facciamo eseguire il comando
/opt/glite/sbin/glite-dgas-hlr-translatedb ed infatti il risultato e':
Another instance of hlr-translatedb put a lock. Exiting.
Soluzione
Facciamo cercare il file di lock del translatedb (che non e' configurabile ma scritto hardcoded) e lo facciamo cancellare.
Il translatedb e' partito e i dati sono arrivati.
ATTENZIONE: il problema si e' ripresentato e al momento e' seguito nel tkt 10340.
riprocessamento di log gia' processati in passato
Descrizione
Dai log del CE sembra che il pushd provi a mandare all'HLR record gia' mandati in passato, in quanto gia' presenti sull' HLR, come indica l'existatus=70. Puo' essere che per qualche motivo sia stato cancellato il file
/opt/glite/var/dgasCollectorBuffer che contiene il timestamp prima del quale il sistema non processa i job.
Dove e quando si e' verificato e ticket di riferimento
INFN-PERUGIA - Aprile 2011
https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=10271
Approccio
Sembra che il sistema stia riprocessando tutti i log indietro nel tempo. Dovrebbe arrivare alla data indicata come
ignoreJobsLoggedBefore nel file
dgas_sensors.conf e poi cominciare a processare log recenti.
Soluzione
Aspettare che il giro finisca, senza riavviare l'urlcollector, e vedere se i log nuovi vengono processati. Quando arrivano i dati recenti all'HLR, verificare che le cartelle
dgasURBox e
dgasURBox/ERR si siano svuotate.