Tags:
,
view all tags
---+!!Supporto primo livello accounting E' bene che i problemi riguardanti il sistema di accounting vengano gestiti tramite ticket, in modo da poter tenere traccia della loro evoluzione e che piu' persone possano intervenire sullo stesso problema in maniera organizzata. ---++Controllo allarme APEL sulla dashboard Sulla [[https://operations-portal.in2p3.fr/dashboard][dashboard]], per ogni sito monitorato, e' stata inserita un'icona *APEL* che indica lo stato della pubblicazione dei dati di accounting sull'EGI accounting portal. Il messaggio visualizzato sull'icona e' il risultato di un test Nagios che controlla la presenza dei dati sul GOC database. I possibili messaggi visualizzati sono: * _ok_ (icona verde): il GOC DB contiene almeno una entry relativa al sito per gli ultimi 7 giorni * _warn_ (icona gialla): il GOC DB non contiene dati relativi al sito almeno per gli ultimi 7 giorni * _crit_ (icona rossa): il GOC DB non contiene dati relativi al sito almeno per gli ultimi 30 giorni *Attenzione*: il test che controlla la presenza dei dati di accounting gira una volta al giorno e non puo' essere forzato a girare nel moneto che si desidera. Inoltre i dati dei siti italiani vengono inviati da DGAS al GOCDB una volta al giorno. Puo' succedere quindi che la dashboard presenti allarmi per siti che avevano avuto dei problemi con l'invio dei dati, ma che in realta' hanno ripreso a funzionare. ---++Controllo allarmi in HLRmon Gli allarmi HLRmon vanno controllati solo in caso di allarme *APEL* _warn_ o _crit_ sulla dashboard. La [[https://dgas.cnaf.infn.it/hlrmon/report/charts.php][pagina principale di HLRmon di IGI]] indica la presenza dei dati sul database del server HLRmon. Questi dati vengono presi giornalmente dall' HLR di secondo livello di Torino. In alto a sinistra nel menu' c'e' la tendina _Select first level HLR_ che elenca tutti gli HLR di primo livello; selezionando un HLR, la sottostante lista dei siti verra' automaticamente rigenerata e conterra' solo i siti che mandano i dati all'HLR selezionato. Per ogni sito che compare in questa lista e' possibile visualizzare il nome dell'HLR corrispondente posizionando il cursore del mouse sul nome del sito. I siti per i quali non ci sono dati nel database di HLRmon da almeno 6 giorni e che risultano nello stato *certified* nel GOCDB vengono contrassegnati con un colore di sfondo giallo-arancio. ---++Procedura da seguire in caso di allarme APEL warn o crit sulla dashboard Se sulla dashboard l'icona *APEL* mostra uno stato _warn_, controllare su HLRmon se il sito ha uno sfondo giallo-arancio nella lista dei siti nel menu sulla sinistra. Se il sito e' segnato in giallo-arancio allora vuol dire che HLRmon, e probabilmente anche l'HLR di secondo livello di Torino, non hanno i dati di quel sito da almeno 6 giorni; in tal caso, il problema puo' essere del sito o dell'HLR di primo livello (in caso di sito che manda i dati ad un HLR multisito).<br> Per individuare meglio il problema, verificare se HLRmon ha i dati degli altri siti che mandano i dati allo stesso HLR nel seguente modo: * posizionare il cursore del mouse sul nome del sito nella lista del menu' per individuare l'HLR * selezionare l'HLR nella tendina _Select first level HLR_ * verificare se sono presenti i dati degli altri siti che mandano i dati allo stesso HLR Se i dati degli altri siti che usano lo stesso HLR sono presenti, aprire un ticket dal sistema Xoops al *sito* segnalando il problema.<br> Se anche i dati degli altri siti che usano lo stesso HLR non sono presenti, aprire un ticket dal sistema Xoops al *sito che ospita l'HLR* segnalando il problema. L'associazione tra hostname dell'HLR e sito ospitante e' riportata nel box che compare posizionando il cursore del mouse sul nome del sito nel menu' di HLRmon. Se invece il sito non e' segnato in giallo-arancio in HLRmon, allora probabilmente il problema si e' verificato nell'invio dei dati dall'HLR di secondo livello di Torino al GOC database; in questo caso, aprire un ticket dal sistema Xoops al *dipartimento Accounting&HLR* segnalando il problema. Se sulla dashboard l'icona *APEL* mostra uno stato _crit_, contattare gli operatori dei turni precedenti per chiedere informazioni. ---++Apertura di un ticket Per segnalare un problema di accounting sul *sistema di ticketing Xoops* procedere in questo modo: * Cliccare su _Submit Ticket_ * Selezionare il sito per quale si vuole segnalare il problema * Selezionare _Accounting_ come categoria del problema *NB*: E' importante selezionare _Accounting_ dal menu delle categorie, per permettere una ricerca piu' agevole dei ticket. ---++++Operazioni da richiedere all'apertura di un ticket ---++++++Problema su un CE di un sito * Verificare lo stato dei sensori: se sono spenti, chiedere di riavviarli. <verbatim> # ps ax | grep dgas </verbatim> Opzioni possibili: <verbatim> service glite-dgas-urcollector [start | stop | restart | status] </verbatim> <verbatim> service glite-dgas-pushd [start | stop | restart | status] </verbatim> <verbatim> /etc/init.d/glite-dgas-pushd restart /etc/init.d/glite-dgas-urcollector restart </verbatim> * controllare se si sono accumulati file in /opt/glite/var/dgasURBox/ERR/; in caso affermativo, spostarli nella directory superiore per far riprocessare i job * controllare quale valore di EXITSTATUS compare nel log di pushd /opt/glite/var/log/dgas_pushd.log * verificare scadenza e permessi dei certificati * verificare la sincronizzazione dell'orologio nel CE Se il problema si e' risolto chiudere il ticket. Se il problema non si e' risolto: * riportare le operazioni svolte nel ticket * far eseguire sul CE il seguente script: [[http://www.to.infn.it/grid/INFNGRID/TESTING/TESTING/files/dgas-ce-check.sh][DGAS CE CHECK]] * far mettere in attach l'output dello script in formato .txt * scalare il ticket al supporto di secondo livello cambiando l'assegnazione in _DGAS_ ---++++++Problema su un HLR * Verificare lo stato del servizio HLR: se e' spento, chiedere di riavviarlo. Opzioni possibili: <verbatim> service glite-dgas-hlrd [status | start | stop |restart] </verbatim> * verificare scadenza e permessi dei certificati * verificare la sincronizzazione dell'orologio nel CE Se il problema si e' risolto chiudere il ticket. Se il problema non si e' risolto: * riportare le operazioni svolte nel ticket * far eseguire sull' HLR il seguente script: [[http://www.to.infn.it/grid/INFNGRID/TESTING/TESTING/files/dgas-hlr-check.sh][DGAS HLR CHECK]] * far mettere in attach l'output dello script in formato .txt * scalare il ticket al supporto di secondo livello cambiando l'assegnazione in _DGAS_ In generale, per avere conferma che un problema di mancanza di dati di accounting per un certo periodo e' risolto, puo' essere oppurtuno verificare che non siano rimasti buchi significativi generando e analizzando su HLRmon i grafici relativi all'andamento temporale per il sito in questione. -- Main.EnricoFattibene - 2011-10-27
Edit
|
Attach
|
PDF
|
H
istory
:
r5
<
r4
<
r3
<
r2
<
r1
|
B
acklinks
|
V
iew topic
|
More topic actions...
Topic revision: r4 - 2012-03-22
-
AlessandroPaolini
Home
Site map
CEMon web
CREAM web
Cloud web
Cyclops web
DGAS web
EgeeJra1It web
Gows web
GridOversight web
IGIPortal web
IGIRelease web
MPI web
Main web
MarcheCloud web
MarcheCloudPilotaCNAF web
Middleware web
Operations web
Sandbox web
Security web
SiteAdminCorner web
TWiki web
Training web
UserSupport web
VOMS web
WMS web
WMSMonitor web
WeNMR web
GridOversight Web
Create New Topic
Index
Search
Changes
Notifications
RSS Feed
Statistics
Preferences
View
Raw View
Print version
Find backlinks
History
More topic actions
Edit
Raw edit
Attach file or image
Edit topic preference settings
Set new parent
More topic actions
Account
Log In
Edit
Attach
Copyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki?
Send feedback