Event Management på ICA - HUGS Presentation 2012

Download Report

Transcript Event Management på ICA - HUGS Presentation 2012

Event Management på ICA
Johan Södergren & Nicklas Ahlroth
2012-10-09
Innehåll
Detta är ICA
Detta är ICA IT Services
Event och monitoring – en bakgrund
Eventprocessen och roller
Verktyg, integrationer och anpassningar
Hur mäter vi och utvecklar Eventprocessen
Utvecklingsplan – Event och verktyg
2
Event Management på ICA
Detta är ICA
3
Event Management på ICA
Vision
Vi ska göra varje dag lite enklare.
Mission
Vi ska bli det ledande detaljhandelsföretaget
med fokus på mat och måltider.
4
Event Management på ICA
Affärsmodellen ger intäkter från flera håll
Varu- och tjänsteförsörjning
ICA Sverige
Leveranser till
ICA-butikerna
Försäljning av
tjänster till
ICA-butikerna
ICA Norge
Leveranser
till franchisebutikerna
Försäljning
av tjänster
till franchisebutikerna
56,5%
ICA
Sverige
ICA
Norge
Bank
Försäljning av
finansiella tjänster
Andra aktörers
nyttjande av
bankens infrastruktur
ICA Sverige
Royalty och/eller
vinstdelning
Från slutkunderna
genom MAXI
Special
5
Event Management på ICA
Bank
0,7%
ICA
Sverige
Rimi
Baltic
ICA
Norge
40,4%
Butiker
2,4%
Fastigheter
Fastigheter
Fastighetsförvaltning
Fastighetsförsäljning
Rimi Baltic
Via helägda
butiker
ICA Norge
Franchiseavgifter och
via helägda
butiker
Stort butiksnät i fem länder
Region
Antal butiker
31 december 2011
Sverige
1 334
Norge
6
550
Estland
82
Lettland
111
Litauen
46
TOTALT
2 123
Event Management på ICA
Två ägare med gemensamt inflytande
Hakon Invest AB
Royal Ahold N.V.
40%
60%
ICA AB
9
Event Management på ICA
Detta är ICA
IT Services
10
Event Management på ICA
ICA IT Services
Personal
• 500 anställda och 100 konsulter
• Stockholm, Västerås och Borås
Plattformar och miljöer:
• IBM System z (driftas av Volvo IT)
• IBM System i (driftas av Logica)
• Unix servers ~ 600 st
• Windows servers ~ 1400 st
• Oracle och MSSQL DB ~ 1500 st
• IBM WAS och Oracle WebLogic ~ 600 st
• Egenutvecklade affärssystem skall bytas ut
mot ”Larger Footprint Oracle”
11
Event Management på ICA
Operations
Service Availability Center
Organisation
Applications
ICA Sweden
Service Management
Service
Availability Center
Timo Iso
Operational
Security
Conny Richardsson
•
•
•
•
•
•
•
•
SAC Processes
SAC Tools
Joakim Anuell
Joakim Anuell
Incident Management
Change Management
Release Management
Problem Management
Configuration Management
Handover
Event Management
Availability Management
•
HP Tools
- Monitoring
- CMS
- APM
- ITSM
Service Availability
24/7
Kristina Johansson
Skift 1
Skift 2
Skift 3
Skift 4
Skift 5
Skift 6
12
Event Management på ICA
Event och monitoring
- en bakgrund
13
Event Management på ICA
Event och monitoring
-Vad har gjorts?
Eventgenomgång för
infrastrukturkomponenter
Djupare eventgenomgång för
11 utvalda kritiska
applikationer
IBM Tivoli implementation
Monitoring and Event projekt
startas
24/7 organisation etablerad
2000
……
2008
HP Operations implementation
HP OMW
HP BAC – EUM/SLM
HP NNM
HP SiteScope
2009
2010
Event process implementerad
Generell eventgenomgång för
223 applikationer
Events uppdaterade för 80
applikationer
14
Event Management på ICA
2011
Related
processes
Eventprocessen och
roller
Asignee
Monitoring tool
24/7
15
Event Management på ICA
Event management - roller
Process manager
Har ett direkt, “hands-on” ansvar för den detaljerade processdesignen, uppföljning av processen och det dagliga arbetet
med processen. Arbetar också med processförbättringar.
Group manager/Förvaltningsledare
Följer upp arbetet med events och är ansvarig för att processen implementeras och efterlevs i sin respektive
grupp/förvaltningsorganisation.
Event owner – Technical Owner/Product Owner
Beställer och äger eventspecifikationen, bidrar därmed med input till aktiviteten Event configuration. Är ansvarig för att
förvalta event och tillhörande instruktioner så att övervakningen och informationen alltid är korrekt. Är ansvarig för att följa
upp kvaliteten på eventet och förbättra om nödvändigt.
Event coordinator – 24/7
First line för alla events, mottar och utför en första analys av eventet. Vidarebefordrar till rätt resurs för lösning.
Assignee
Löser events enligt instruktioner och följer upp om åtgärden var effektiv. Vidarebefordrar event till annan åtgärdsgrupp om
det inte går att lösa. Har ett stort ansvar att logga vilka åtgärder som utförs i Service Manager! Stänger eventet när det är
löst. Rollen innehas av diverse resurser i organisationen.
Event configuration manager
Tar fram och underhåller event configuration policies och guidelines. Faciliterar granskningsmöten och är ansvarig för att
övervakning implementeras. Agerar som stöd till Event owner.
16
Event Management på ICA
Eventflödet
24/7
Event uppstår
17
Event Management på ICA
Event fångas och
bearbetas av HP OM
Event mottas och
analyseras av Event
coordinator
24/7
PM skapas i Service
Manager
Assignee
Event löses enligt
instruktion eller
egen analys
Assignee
Event stängs
Beställningsflödet
• Gå igenom incidenter som har inträffat den senaste tiden. Skulle några ha kunnat undvikas
mha event?
• Finns det manuella rutiner och kontroller som man förlitar sig på för att kontrollera systemets
status? Kan några av dessa flyttas över till HP OM?
• Gå igenom ”inofficiella larm”, dvs hur blir man notifierad idag om något är fel i applikationen?
Kan exempelvis vara mail, sms, loggfil osv. Kan något av detta flyttas över till HP OM?
• Gå igenom tidigare Problems för att hitta idéer till nya events.
• Gå igenom krav inför kommande releaser, kan något krav innebära en risk för incidenter när
det implementeras? Behövs det då sättas upp en övervakningspunkt?
• Gå igenom befintliga loggfiler för att se om det finns något felmeddelande som kan vara
lämpligt att skapa events på.
• Gå igenom eventuella BAC-mätningar och fundera på om något larm skulle kunna generas
därifrån.
• Gå igenom befintlig övervakning i HP OM med syfte att kontrollera relevans, severity,
prioritering och att instruktioner finns och är tydliga.
Event
owner
Gransknings
protokoll
Event
owner
Event
Eventembryo
embryo Event
Event embryo
embryo
Idéer till och ej klara
event beställningar
Event
owner
Event
configuration
manager
Pågående arbete
med event
beställningar
Event Management på ICA
Event
owner
Tool
administrator
Förgranskning av
event beställningar
Service Order
18
24/7
Kvalitetssäkring av
event beställning
Intern beställning
Event beställning
Event beställning
(OPS instruktion)
(OPS instruktion)
(BAC -> HP OM
beställning)
Granskningsprotokoll
Implementation av
events i
produktionsmiljö
Event
implementerat och
färdigt
Verktyg, integrationer
och anpassningar
19
Event Management på ICA
Verktyg
Produkt
20
HP Operations Manager Server - Windows
2 servers varav en är fokalpunkt för alla larm
HP Operations Manager Agents
~2000 st
HP SiteScope
1 server
~ 200 points
HP BAC
2 servers (1 GW och 1 DP)
~ 80 st applikationer
~300 st EUM transaktioner
HP NNM
2 servers
~ 5000 noder
HP uCMDB
1 server
Event Management på ICA
Monitoring modell och lager
HP Operations Manager
Server & Console
HTTPS agent
HP Agents
Oracle EM
Incident WS
HP NNM
HP SiteScope
Microsoft SCOM
SNMP
HP BAC
ICA Incident WS
HP SIM
webMethods
Applications
Web and Application servers – IBM WAS, Oracle WebLogic etc
Integration – webMethods, Oracle SOA etc
Databases – MS SQL , Oracle and MySQL
OS – Windows, Solaris, AIX and Linux
Storage – IBM Tapelibraries, EMC, IBM TSM Backups etc
Network – routers and switches
21
Event Management på ICA
HP OM – Integrationer och anpassningar
HP Service Manager
Open incident
Incident
Incident Info
ICA Event Knowledge
Database
CMDB
Acknowledge
Message
Additional event
information and
ops-instructions
Event
enrichment with
CI-information
HP Operations Manager
Server & Console
22
Event Management på ICA
HP OM – Event Enrichment
• Vi berikar HP OM larm med följande CMDB CI-information om hosten:
–
–
–
–
Environment type (Production, Test, Development, Verification)
Status (Active, Planned , Retired)
Area (Mat, Bank)
Servertype (Unix, Windows)
• Applikationslarm är idag hårdkodade med namnet på den applikation som
larmet berör.
• Läggs in som CMA attribut
23
Event Management på ICA
ICA Event Knowledge DB
• Berikar larmet med information:
–
–
–
–
Varför vi har denna övervakning
Vad som hänt
Första åtgärd för operatören
Andra åtgärd för operatören
• Möjlighet att kunna skapa HP ServiceManager ticket
–
–
–
–
24
Ändra Prio-nivå
Assignement group
Operator Text
Hämta
Event Management på ICA
ICA Event Knowledge Database
Launch Tool
25
Event Management på ICA
…ICA Event Knowledge DB
ICA Event Knowledge Database - exempel
26
Event Management på ICA
Hur mäter vi och
utvecklar
Eventprocessen
29
Event Management på ICA
Event management
Hur vi mäter
Implementerade mätningar
•
Täckningsgrad
•
30
Hur stor del av alla hostar och applikationer övervakas.
•
Lösningstider event kontra användarrapporterade
•
Antal öppnade / stängda varningar
•
Procentuell del av prioritet 1 samt prioritet 2 incidenter som initieras från events.
•
Antal dubblettregistreringar
Event Management på ICA
Event management
Vad kan vi se?
31
Event Management på ICA
Procentuell fördelning prio 1 och 2 incidenter
Event vs. användarinitierade incidenter 4 mån.
Åtgärdsgrupp
32
Fördelning
Network
47,62%
Storage
100%
Microsoft
10,34%
Integration
93,26%
AOB
82,14%
EMS
96,3%
Total
66,42%
Event Management på ICA
Hur utvecklar och driver vi Event framåt
• Problemutredningar
– Vilka larm fick vi?
– Vilka borde vi fått?
– Rätt instruktioner?
• Handover och projekt
– Säkerställa larm och instruktioner
• Möten med 24/7
– Kommande produktionssättningar
– Förbättringsförslag på larm, rutiner, instruktioner, verktyg
– Avstämningar mellan 24/7 och åtgärdsgrupper
• Regelbundna förvaltningsmöten med plattformsgrupper
– Förbättringsförslag på larm, rutiner, instruktioner, verktyg
• Event genomgångar med applikationsförvalntningar
33
Event Management på ICA
Event management –review
34
Event Management på ICA
Event management –review
35
Event Management på ICA
Event management –review
36
Event Management på ICA
Event management –EMS Assortment
37
Event Management på ICA
Goda exempel ICA.se
Vad vi övervakar och mäter
• Plattformsövervakning
–
–
–
–
MS Windows server
MS IIS
MS SQL
Network
• Teknisk applikationsövervakning
–
–
–
–
–
Portping
Windows Services
NAS konnektivitet
GSA funktionalitet
Windows Eventlog
• Funktionell applikationsövervakning (HP BAC)
– 37 EUM transaktioner varav 25 går förbi lastbalanserare
– HP BAC
HP OM larm på felande transaktioner
39
Event Management på ICA
Goda exempel ICA.se
Procentuell fördelning event vs. användarrapporterade incidenter
24/7 lösningsandel
40
Event Management på ICA
•
Prio 1: 50%
•
Prio 2: 42%
•
Prio 3:18%
•
Prio 4: 70%
ICA.se
•
•
41
ICA.se är:
•
74% snabbare än medelapplikationen på att lösa prio 1 incidenter
•
58% snabbare än medelapplikationen på att lösa prio 2 incidenter
•
22% långsammare än medelapplikationen på att lösa prio 3 incidenter
•
74% snabbare än medelapplikationen på att lösa prio 4 incidenter
Hur kom de dit?
•
Relevant monitorering
•
Goda instruktioner till 24/7
•
Kontinuerlig utveckling av events & instruktioner
•
BAC larm
Event Management på ICA
Utvecklingsplan
Verktyg och process
42
Event Management på ICA
Utvecklingar
• ”Impact on….”
• Impaktanalys av event ( och change)
• Symptom & Cause
• Impact & Urgency
• Mer stöd av SLA:er vid arbete med events
• Ny version av ICA Event Knowledge DB
• Mätning av hur stor del av alla middleware (databaser,
WAS etc) övervakas
43
Event Management på ICA
HP Roadmap – Integration diagram
No. of Open Incidents,
Change and Problems
KPI
Incidents Exchange
OMi and SM
Launch capabilites
BSM
CI Sync –
Applications
to BSM9
CI Sync –
AppResources to
HP SM
1
CI Sync –
Servicemodels
to BSM9
Events
and CIs
SM
4
CI Sync –
Servicemodels
to uCDMB
uCMDB
Measurements
Discovered CIs &
Topologies
OMW
EUM
NNMi
44
Event Management på ICA
DDMA
3rd party
3
2