Tags:
create new tag
,
view all tags
---+ Supporto di secondo livello per DGAS La seguente pagina contiene appunti su problemi relativi a DGAS. Per ogni caso e' riportato il tipo di problema, quando e dove si' e verificato e cosa e' stato fatto per risolverlo. Se presente, e' riportato anche il link al ticket con il quale il problema e' stato seguito. Lo scopo e' quello di tenere traccia dei problemi riscontrati e mantenere un unico posto per trovare la loro storia. %TOC{depth="2"}% ---++ urForward muore continuamente ---+++ Descrizione Il processo urForward e' a volte running a volte no. Lanciando infatti il comando _/etc/init.d/glite-dgas-hlrd status_ si ha a volte:<br /> ...<br /> _generic: error trying to contact the server._ <br /> _listener seems'to be frozen_ <br /> _/opt/glite/var/lock/dgas_hlr_urforward.lock_ <br /> _Process urForward: 31256_ <br /> _root 31256 0.8 0.4 29508 4468 pts/0 Sl 16:52 0:00 /opt/glite//libexec/glite-dgas-hlr-urforward -c /opt/glite//etc/dgas_hlr.conf -d_ <br /> _The process is running._ A volte invece:<br /> ...<br /> _Process urForward:_ <br /> _The process is not running._ ---+++ Dove e quando si e' verificato e ticket di riferimento INFN-FRASCATI - Aprile 2011 <br /> https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=10238 <br /> https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=10340 ---+++ Approccio Avendo fatto girare gli script di check su CE e HLR, ci siamo accorti che i CE mandano correttamente i dati all'HLR e l'HLR li riceveva bene, ma questi non sono presenti nella _jobTransSummary_. Allora pensiamo che i dati siano presenti nella _trans_queue_ ma non vengono trasferiti nella _jobTransSummary_. Facciamo eseguire il comando _/opt/glite/sbin/glite-dgas-hlr-translatedb_ ed infatti il risultato e':<br /> _Another instance of hlr-translatedb put a lock. Exiting._ ---+++ Soluzione Facciamo cercare il file di lock del translatedb (che non e' configurabile ma scritto hardcoded) e lo facciamo cancellare. Il translatedb e' partito e i dati sono arrivati. ATTENZIONE: il problema si e' ripresentato e al momento e' seguito nel tkt 10340. ---++ riprocessamento di log gia' processati in passato ---+++ Descrizione Dai log del CE sembra che il pushd provi a mandare all'HLR record gia' mandati in passato, in quanto gia' presenti sull' HLR, come indica l'existatus=70. Puo' essere che per qualche motivo sia stato cancellato il file _/opt/glite/var/dgasCollectorBuffer_ che contiene il timestamp prima del quale il sistema non processa i job. ---+++ Dove e quando si e' verificato e ticket di riferimento INFN-PERUGIA - Aprile 2011 <br /> https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=10271 ---+++ Approccio Sembra che il sistema stia riprocessando tutti i log indietro nel tempo. Dovrebbe arrivare alla data indicata come _ignoreJobsLoggedBefore_ nel file _dgas_sensors.conf_ e poi cominciare a processare log recenti. ---+++ Soluzione Aspettare che il giro finisca, senza riavviare l'urlcollector, e vedere se i log nuovi vengono processati. Quando arrivano i dati recenti all'HLR, verificare che le cartelle _dgasURBox_ e _dgasURBox/ERR_ si siano svuotate. ---++ record che rimangono indietro e frequenti errori di connessione all'hlr di secondo livello nel log di urForward ---+++ Descrizione Il log dell'urforward sull'HLR di primo livello segnala alcuni errori del tipo: _LOG (5) 2011 May 04 09:59:55 : Entering contactServer()_ <br /> _LOG (3) 2011 May 04 09:59:55 : 2lw-hlr.to.infn.it:56568:_ <br /> _LOG (3) 2011 May 04 10:00:20 : Got error sending XML!_ <br /> _LOG (3) 2011 May 04 10:00:20 : Error sending UR to:2lw-hlr.to.infn.it_ <br /> _LOG (4) 2011 May 04 10:00:20 : run(),Contacting server:hlr2-test-26.to.infn.it_ <br /> _LOG (3) 2011 May 04 10:00:20 : Entering getInfo()_ <br /> _LOG (6) 2011 May 04 10:00:20 : Performing query:select max(id) FROM jobTransSummary_ <br /> _LOG (5) 2011 May 04 10:00:20 : Entering contactServer()_ <br /> _LOG (3) 2011 May 04 10:00:20 : hlr2-test-26.to.infn.it:56568:_ <br /> _LOG (3) 2011 May 04 10:03:29 : getInfo():error contacting server._ <br /> _LOG (3) 2011 May 04 10:03:29 : Error retrieving info from 2LHLR:hlr2-test-26.to.infn.it_ ---+++ Dove e quando si e' verificato e ticket di riferimento INFN-ROMA1 - Maggio 2011 <br /> https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=10366 ---+++ Approccio La causa e' il crash pariodico (3/4 volte al giorno) dei servizi dgas sull'hlr di secondo livello, imputabile al bug 55062 di mysql. Non esistono per il momento gli rpm per scientific 5 della versione 5.6 di mysql che fissa il bug. ---+++ Soluzione Nel file _/opt/glite/etc/dgas_hlr.conf_ sull'HLR portare il valore di forwardPeriod a 1800 e defConnTimeOut a 600. Se quest'ultima non esiste, crearla ex novo.<br /> Questo chiaramente e' un workaround che evita l'accumulo di un backlog eccessivo di record da inviare. ---++ tabella transInLog piena ---+++ Descrizione Il log hlr_qmgr.log segnala diversi errori del tipo: _Error inserting info in transInLog table._ ---+++ Dove e quando si e' verificato e ticket di riferimento INFN-MILANO-ATLASC - Giugno 2011 <br /> https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=11725 ---+++ Approccio L'errore indica una impossibilita' a inserire record nella tabella transInLog. Probabilmente e' piena. Per verificare si suggeriscono le seguenti query: _show table status like 'transInLog' \G_ <br /> _show table status like 'jobTransSummary \G_ <br /> _show table status like 'trans_in' \G_ Dall'output per la transInLog si nota che questa e' piena: _..._ <br /> _Data_length: 4294966800_ <br /> _Max_data_length: 4294967295_ <br /> _..._ ---+++ Soluzione Aumentare il numero di righe per la tabella transInLog dell'HLR: _ALTER TABLE transInLog MAX_ROWS = 40000000;_ indicando circa 10 volte il numero delle righe attualmente presenti (Rows: 4555712) ---++ cambio versione torque ---+++ Descrizione Nel log dell'urCollector non ci sono entry dal giorno in cui e' stato aggiornato Torque. ---+++ Dove e quando si e' verificato e ticket di riferimento INFN-PARMA - Luglio 2011 <br /> https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=11746 ---+++ Approccio L'errore indica che i log non sono stati processati, forse a causa del fatto che non vengono piu' trovati. Si suggerisce di controllare nel dgas_sensors.conf se il valore della variabile _pbsAcctLogDir_ corrisponde al path dove sono i log realmente. Da questa verifica si nota che il path e' cambiato. ---+++ Soluzione Modificare il valore di _pbsAcctLogDir_ in dgas_sensor.conf e anche nel site_info.def. Questa ultima operazione viene fatta per evitare che alla successiva riconfigurazione il file dgas_sensors.conf venga riscritto con il valore sbagliato.
E
dit
|
A
ttach
|
PDF
|
H
istory
: r2
<
r1
|
B
acklinks
|
V
iew topic
|
M
ore topic actions
Topic revision: r2 - 2011-07-07
-
EnricoFattibene
Home
Site map
CEMon web
CREAM web
Cloud web
Cyclops web
DGAS web
EgeeJra1It web
Gows web
GridOversight web
IGIPortal web
IGIRelease web
MPI web
Main web
MarcheCloud web
MarcheCloudPilotaCNAF web
Middleware web
Operations web
Sandbox web
Security web
SiteAdminCorner web
TWiki web
Training web
UserSupport web
VOMS web
WMS web
WMSMonitor web
WeNMR web
DGAS Web
Create New Topic
Index
Search
Changes
Notifications
RSS Feed
Statistics
Preferences
View
Raw View
Print version
Find backlinks
History
More topic actions
Edit
Raw edit
Attach file or image
Edit topic preference settings
Set new parent
More topic actions
Account
Log In
E
dit
A
ttach
Copyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki?
Send feedback