Stato dell`Infrastruttura Hardware e Software del Sistema

Download Report

Transcript Stato dell`Infrastruttura Hardware e Software del Sistema

Stato dell’Infrastruttura
Hardware e Software del Sistema
Informativo INFN
Barbara Martelli
INFN - CNAF
Team del CNAF
• Coordinamento: Barbara Martelli
• Guido Guizzunti: sistemi operativi e cluster, macchine
virtuali, software di gestione orologi marcatempo
(VamWeb), software di gestione presenze, gestione
software TLQSincro per mandato elettronico
• Claudio Galli: amministrazione Oracle Applications e
Oracle database
• Marco Canaparo: amministrazione portale utente PHP,
gestione software presenze
• 20% Massimo Donatelli per supporto sistemistico,
hardware e gestione del backup
23/06/2011
Incontro con Responsabili Amministrativi
2
Migrazione (1)
•
Il primo aprile 2011 sono iniziate le
attivita’ di migrazione del sistema
contabile da piattaforma SUN Solaris
a piattaforma Linux RedHat
•
Dopo
un
paio
di
giorni
di
assestamento durante i quali sono
stati
necessari
interventi
di
ottimizzazione sui sistemi Oracle, il
sistema e’ tornato completamente
funzionante
• Dalle prove effettuate al CNAF si evince che il migloramento
di performance e’ stimabile in un fattore 5
• Grazie alle patch installate durante le operazioni di
migrazione non e’ piu’ necessario utilizzare Jinitiator, e’
sufficiente una Java Virtual Machine Standard
23/06/2011
Incontro con Responsabili Amministrativi
3
Migrazione (2)
• Risparmio economico:
– Hardware piu’ economico (semplici biprocessori usati
comunemente nei centri di calcolo)
• Risparmio di circa 100k euro annuali per manutenzione
hardware
– Software open source ben conosciuto all’interno dell’INFN
• Risparmio di circa 50k euro annuali per manutenzione
sistemistica che da Software Design passa al CNAF
– Gestione del sistema (Oracle Database, Oracle Applications)
passa al CNAF
• Risparmio di circa 50k euro annuali per
amministrazione Oracle che da Software Design passa
al CNAF
23/06/2011
Incontro con Responsabili Amministrativi
4
Cluster RedHat (contabilita’ di produzione)
• Alta affidabilita’: tutte le componenti sono ridondate
• Failover: in caso di fallimento di un server, il servizio
viene automaticamente reso disponibile su uno dei server
ancora attivi
– Tollerati fino a 3 server guasti
23/06/2011
Incontro con Responsabili Amministrativi
5
Ambienti disponibili
•
Ambiente di produzione
– Oracle DB, Oracle Applications, portale utente, software di gestione presenze
• Backup notturno (disco e nastro) con possibilita’ di recupero dei dati
fino a 30 gg nel passato
•
Ambiente di test preproduzione contabilita’
– Identico all’ambiente di produzione (ma installato su un minor numero di
server)
– Utilizzato per test dei rilasci software SD, patch di sistema operativo, patch
Oracle
•
Ambiente di sviluppo SD
•
Ambiente di test SD
•
Ambiente di test Mandato Elettronico + Formazione
– Utilizzato per corsi di formazione e test mandato elettronico
•
Totale di 33 server (virtuali e fisici), 5 istanze Oracle E-BusinessSuite, 7
database Oracle
23/06/2011
Incontro con Responsabili Amministrativi
6
Possibilita’ di istanza per reportistica
• Allo studio un’ipotesi evolutiva per creare un database
server readonly dedicato alla reportistica
• Uno dei server che in condizioni di assenza di guasti non
viene utilizzato, potrebbe ospitare un istanza DB readonly
allineata con il database principale
– Possibilita’ di effettuare reportistica su dati “freschi”
senza impattare sul server della contabilita’
23/06/2011
Incontro con Responsabili Amministrativi
7
Monitoraggio
Il sistema informativo e’ stato inserito nel monitoring generale del CNAF (CNAF
Dashboard), viene quindi controllato dal turnista h24 durante normali turni di
monitoraggio del centro di calcolo, svolti da tutto il personale CNAF.
23/06/2011
Incontro con Responsabili Amministrativi
8
Monitoraggio (2)
Utilizzati due sistemi di monitoring:
• Nagios
– Sistema utilizzato per tutte le risorse del calcolo CNAF
– Monitoring sistemi operativi, hardware, backup
– Invio di allarmi via email e SMS in caso di errore
• Oracle Grid Console
– Specifica per monitoraggio di oggetti Oracle
– Consente un controllo molto fine di tutti gli aspetti del
funzionamento e configurazione di un Oracle Database
e Oracle EBS
– Invio allarmi via email (a breve anche via SMS)
23/06/2011
Incontro con Responsabili Amministrativi
9
Monitoraggio (3) Nagios
23/06/2011
Incontro con Responsabili Amministrativi
10
Monitoraggio (4) Oracle Grid Console
23/06/2011
Incontro con Responsabili Amministrativi
11
Gestione Rilasci Software (1)
•
Attualmente le procedure di rilascio del software sono inadeguate
– Rilasci molto ravvicinati, sviluppati velocemente, messi in
produzione senza un’adeguata fase di test
– Procedure non strutturate, che possono facilmente indurre in
errore chi gestisce la messa in produzione
•
Stiamo mettendo a punto, insieme ad SD, una procedura ben definita
per la gestione delle release
– Tracciamento delle modifiche fatte nel tempo e possibilita’ di
“rollback” (ripristino versioni precedenti del software)
– Definizione di procedure standard per il passaggio del software
da SD a INFN (formati dei file, documentazione, script di
installazione)
– Definizione di procedure di test che garantiscano la messa in
produzione di modifiche che non introducano ulteriori bachi
23/06/2011
Incontro con Responsabili Amministrativi
12
Gestione Rilasci Software (2)
• Idea di massima:
– Effettuare rilasci in produzione di patch cumulative (per
esempio tutti i bachi e le migliorie delle ultime 2
settimane)
• Minimizza il numero di interventi in produzione
• Scegliamo insieme un giorno della settimana in cui
effettuare i rilasci in produzione
• Ovviamente saranno gestite le eccezioni dei rilasci
urgenti, ma dovremo lavorare perche’ restino
effettivamente eccezioni
– Testare il software nell’ambiente di test prima di
rilasciarlo in produzione
• Necessaria collaborazione degli utenti amministrativi
per effettuare I test
23/06/2011
Incontro con Responsabili Amministrativi
13
Inserimento Sezioni nel Sistema Presenze
• Il gruppo CNAF si sta predisponendo per accogliere le
sezioni mancanti all’interno del sistema di gestione dell
presenze
• Abbiamo terminato un documento tecnico riguardante
l’installazione e la configurazione degli orologi
marcatempo
– Sara’ inviato alla CCR in modo da favorire un
coordinamento dei vari servizi di calcolo
• Pianificazione entrata in esercizio delle varie strutture
(riunione del 5 luglio)
23/06/2011
Incontro con Responsabili Amministrativi
14
Problemi notificati dalle
amministrazioni
Contabilita’ (1)
• Timeout di connessione troppo breve
– Si tratta di una questione di configurazione facilmente
modificabile
– Il timeout esiste per aumentare la sicurezza del
sistema: nell’eventualita’ che una finestra Oracle
Applications con login effettuato sia dimenticata
aperta e utilizzata da qualcuno non autorizzato
– Discutiamone e concordiamo un valore che possa
soddisfare tutti
• Lentezza nella numerazione dei mandati
– Segnalata da Milano Bicocca
23/06/2011
Incontro con Responsabili Amministrativi
15
Problemi notificati dalle
amministrazioni
Contabilita’ (2)
• Necessita’ di doppio collegamento al primo login
– Si tratta di un problema di sessione mantenuta sui browser
– Accertarsi di aver memorizzato il link indirizzato dal sito
web del sistema informativo
https://sysinfo-c2.cnaf.infn.it:8099/OA_HTML/AppsLocalLogin.jsp
– Non devono essere memorizzati nei segnalibri link
contenenti informazioni aggiuntive come ad esempio:
https://sysinfoc2.cnaf.infn.it:8099/OA_HTML/OA.jsp?OAFunc=OAHOMEPAGE&akRegion
ApplicationId=0&navRespId=50694&navRespAppId=90000&navSecGrpId=0&transact
ionid=1659612549&oapc=2&oas=ZDzX8q4Lsf1_JlWyk3quuQ..
– Accertarsi di cliccare su “disconnetti” quando si esce dalle
Oracle Applications
• Se il problema persiste, e’ necessario fare un’analisi piu’
approfondita: contattate [email protected]
23/06/2011
Incontro con Responsabili Amministrativi
16
Problemi notificati dalle
amministrazioni
Contabilita’ (3)
•
Accesso alle Oracle Applications da postazioni non INFN
– Necessario per lavorare da casa o in trasferta presso sedi non INFN
– Il sistema Oracle non puo’ essere accessibile liberamente dall’esterno
a causa del fatto che non puo’ esser facilmente aggiornato, e’ quindi
esposto a possibili buchi di sicurezza
– Necessario trovare soluzioni basate su VPN
• Per l’utente significa avviare un client VPN con un semplice “click”
• Per i servizi calcolo significa installare un piccolo software su ogni PC
che intende connettersi dall’esterno
– Possibili opzioni:
• Configurazione delle VPN delle singole sezioni in modo che gli
indirizzi IP del sistema Oracle Applications siano accessibili
– Necessita del coordinamento di CCR
• Creazione di una VPN al CNAF dedicata al sistema informativo
– Necessita del coinvolgimento del gruppo calcolo e reti del CNAF o
in alternativa dell’installazione da parte del gruppo sistema
informativo di un apparato dedicato
– In entrambi i casi e’ necessario avviare una discussione in ambito
CCR
23/06/2011
Incontro con Responsabili Amministrativi
17
Problemi notificati dalle amministrazioni
Contabilita’ (4)
• E’ possibile evitare l’apparizione
della console Java all’avvio delle
Oracle Applications?
– Si’, ma non si tratta di una
configurazione del server
CNAF, bensi’ dei PC delle
amministrazioni
– Su ogni PC e’ necessario
accedere a
Pannello di Controllo ->
Programmi -> Java ->
Avanzate -> Console Java e
cliccare su Nascondi Console
23/06/2011
Incontro con Responsabili Amministrativi
18
Problemi notificati dalle
amministrazioni
Gestione Presenze (1)
• Talvolta la connessione si interrompe all’improvviso o resta
“appesa”
– Il problema era causato da un baco dell’applicazione a causa del quale
alcune connessioni non venivano rilasciate al termine del lavoro
dell’utente. L’applicazione e’ configurata per consentire un massimo di
50 connessioni contemporanee per ogni modulo, il fatto che la
connessione non venisse liberata causava una “sedimentazione” di
risorse allocate e non utilizzate. Una volta raggiunto il limite di 50
connessioni, il sistema si bloccava ed era necessario un riavvio del
servizio. Quest’azione causava l’interruzione di tutte le connessioni
utente attive in quel momento.
– Problema risolto con l’ultimo rilascio in produzione
– Il servizio presenze non verra’ piu’ riavviato durante il
giorno
– Nel caso che il sintomo persista, contattateci sulla lista
[email protected]
23/06/2011
Incontro con Responsabili Amministrativi
19
Problemi notificati dalle
amministrazioni
Gestione Presenze (2)
• Lentezza nell’autorizzazione dei giustificativi
– Il problema e’ causato dal fatto che l’autorizzazione di
piu’ giustificativi e’ implementata con l’invio in serie
al database di un comando per ogni giustificativo:
• tempo per l’approvazione di un giustificativo ~ 5 sec
• tempo per l’apporvazione di n giustificativi ~ n * 5 sec
– Il codice dovrebbe essere ottimizzato in modo da
inviare al database un solo comando contenente
l’approvazione di tutti i giustificativi richiesti in
un’unica istruzione, in modo che il DB Oracle possa
ottimizzare l’esecuzione
– La questione e’ stata presa in carico da SD, ma e’
stata classificata come “miglioria” e schedulata in
bassa priorita’
23/06/2011
Incontro con Responsabili Amministrativi
20
Domande?
23/06/2011
Incontro con Responsabili Amministrativi
21
Backup Slides
23/06/2011
Incontro con Responsabili Amministrativi
22
Oracle Grid Console: grafici utilizzo Oracle Applications
23/06/2011
Incontro con Responsabili Amministrativi
23
Oracle Grid Console: grafici performance Oracle Applications
23/06/2011
Incontro con Responsabili Amministrativi
24
Oracle Grid Console: grafici performance Oracle Applications
23/06/2011
Incontro con Responsabili Amministrativi
25
Grafico utilizzo giornaliero di Oracle Applications
23/06/2011
Incontro con Responsabili Amministrativi
26