Supporto primo livello accounting

E' bene che i problemi riguardanti il sistema di accounting vengano gestiti tramite ticket, in modo da poter tenere traccia della loro evoluzione e che piu' persone possano intervenire sullo stesso problema in maniera organizzata.

Controllo allarme APEL sulla dashboard

Sulla dashboard, per ogni sito monitorato, e' stata inserita un'icona APEL che indica lo stato della pubblicazione dei dati di accounting sull'EGI accounting portal. Il messaggio visualizzato sull'icona e' il risultato di un test Nagios che controlla la presenza dei dati sul GOC database. I possibili messaggi visualizzati sono:

  • ok (icona verde): il GOC DB contiene almeno una entry relativa al sito per gli ultimi 7 giorni
  • warn (icona gialla): il GOC DB non contiene dati relativi al sito almeno per gli ultimi 7 giorni
  • crit (icona rossa): il GOC DB non contiene dati relativi al sito almeno per gli ultimi 30 giorni

Attenzione: il test che controlla la presenza dei dati di accounting gira una volta al giorno e non puo' essere forzato a girare nel moneto che si desidera. Inoltre i dati dei siti italiani vengono inviati da DGAS al GOCDB una volta al giorno. Puo' succedere quindi che la dashboard presenti allarmi per siti che avevano avuto dei problemi con l'invio dei dati, ma che in realta' hanno ripreso a funzionare.

Controllo allarmi in HLRmon

Gli allarmi HLRmon vanno controllati solo in caso di allarme APEL warn o crit sulla dashboard.

La pagina principale di HLRmon di IGI indica la presenza dei dati sul database del server HLRmon. Questi dati vengono presi giornalmente dall' HLR di secondo livello di Torino. In alto a sinistra nel menu' c'e' la tendina Select first level HLR che elenca tutti gli HLR di primo livello; selezionando un HLR, la sottostante lista dei siti verra' automaticamente rigenerata e conterra' solo i siti che mandano i dati all'HLR selezionato. Per ogni sito che compare in questa lista e' possibile visualizzare il nome dell'HLR corrispondente posizionando il cursore del mouse sul nome del sito.

I siti per i quali non ci sono dati nel database di HLRmon da almeno 6 giorni e che risultano nello stato certified nel GOCDB vengono contrassegnati con un colore di sfondo giallo-arancio.

Procedura da seguire in caso di allarme APEL warn o crit sulla dashboard

Se sulla dashboard l'icona APEL mostra uno stato warn, controllare su HLRmon se il sito ha uno sfondo giallo-arancio nella lista dei siti nel menu sulla sinistra.

Se il sito e' segnato in giallo-arancio allora vuol dire che HLRmon, e probabilmente anche l'HLR di secondo livello di Torino, non hanno i dati di quel sito da almeno 6 giorni; in tal caso, il problema puo' essere del sito o dell'HLR di primo livello (in caso di sito che manda i dati ad un HLR multisito).
Per individuare meglio il problema, verificare se HLRmon ha i dati degli altri siti che mandano i dati allo stesso HLR nel seguente modo:

  • posizionare il cursore del mouse sul nome del sito nella lista del menu' per individuare l'HLR
  • selezionare l'HLR nella tendina Select first level HLR
  • verificare se sono presenti i dati degli altri siti che mandano i dati allo stesso HLR

Se i dati degli altri siti che usano lo stesso HLR sono presenti, aprire un ticket dal sistema Xoops al sito segnalando il problema.
Se anche i dati degli altri siti che usano lo stesso HLR non sono presenti, aprire un ticket dal sistema Xoops al sito che ospita l'HLR segnalando il problema. L'associazione tra hostname dell'HLR e sito ospitante e' riportata nel box che compare posizionando il cursore del mouse sul nome del sito nel menu' di HLRmon.

Se invece il sito non e' segnato in giallo-arancio in HLRmon, allora probabilmente il problema si e' verificato nell'invio dei dati dall'HLR di secondo livello di Torino al GOC database; in questo caso, aprire un ticket dal sistema Xoops al dipartimento Accounting&HLR segnalando il problema.

Se sulla dashboard l'icona APEL mostra uno stato crit, contattare gli operatori dei turni precedenti per chiedere informazioni.

Apertura di un ticket

Per segnalare un problema di accounting sul sistema di ticketing Xoops procedere in questo modo:

  • Cliccare su Submit Ticket
  • Selezionare il sito per quale si vuole segnalare il problema
  • Selezionare Accounting come categoria del problema

NB: E' importante selezionare Accounting dal menu delle categorie, per permettere una ricerca piu' agevole dei ticket.

Operazioni da richiedere all'apertura di un ticket

Problema su un CE di un sito

  • Verificare lo stato dei sensori: se sono spenti, chiedere di riavviarli.

# ps ax | grep dgas

Opzioni possibili:

service glite-dgas-urcollector [start | stop | restart | status]

service glite-dgas-pushd [start | stop | restart | status]

/etc/init.d/glite-dgas-pushd restart
/etc/init.d/glite-dgas-urcollector restart

  • controllare se si sono accumulati file in /opt/glite/var/dgasURBox/ERR/; in caso affermativo, spostarli nella directory superiore per far riprocessare i job
  • controllare quale valore di EXITSTATUS compare nel log di pushd /opt/glite/var/log/dgas_pushd.log
  • verificare scadenza e permessi dei certificati
  • verificare la sincronizzazione dell'orologio nel CE

Se il problema si e' risolto chiudere il ticket.

Se il problema non si e' risolto:

  • riportare le operazioni svolte nel ticket
  • far eseguire sul CE il seguente script: DGAS CE CHECK
  • far mettere in attach l'output dello script in formato .txt
  • scalare il ticket al supporto di secondo livello cambiando l'assegnazione in DGAS

Problema su un HLR

  • Verificare lo stato del servizio HLR: se e' spento, chiedere di riavviarlo.

Opzioni possibili:

service glite-dgas-hlrd [status | start | stop |restart]

  • verificare scadenza e permessi dei certificati
  • verificare la sincronizzazione dell'orologio nel CE

Se il problema si e' risolto chiudere il ticket.

Se il problema non si e' risolto:

  • riportare le operazioni svolte nel ticket
  • far eseguire sull' HLR il seguente script: DGAS HLR CHECK
  • far mettere in attach l'output dello script in formato .txt
  • scalare il ticket al supporto di secondo livello cambiando l'assegnazione in DGAS

In generale, per avere conferma che un problema di mancanza di dati di accounting per un certo periodo e' risolto, puo' essere oppurtuno verificare che non siano rimasti buchi significativi generando e analizzando su HLRmon i grafici relativi all'andamento temporale per il sito in questione.

-- EnricoFattibene - 2011-10-27


This topic: GridOversight > WebHome > ControlliAccounting
Topic revision: r4 - 2012-03-22 - AlessandroPaolini
 
This site is powered by the TWiki collaboration platformCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback