Transcript PPT - TUKE
Prevádzka služieb (Service Operation) Martin Sarnovský Katedra kybernetiky a umelej inteligencie Fakulta elektrotechniky a informatiky Technická univerzita v Košiciach Obsah Úvod / ITIL v.3 Základné koncepty a procesy prevádzky služieb Event management Incident management Problem management Request fullfillment Change management Prevádzka služieb (Service operation) Dodávka dohodnutých úrovní služieb – užívateľom/zákazníkom Správa aplikácií Správa technológií Správa infraštruktúry V tejto fáze životného cyklu – služby produkujú „hodnotu“ pre používateľa Prevádzka služieb (Service operation) II. Cieľ – zabezpečiť rovnováhu medzi Vnútorný pohľad IT vs. Biznis pohľad Stabilita vs. Odozva (Vnímavosť/Responsiveness) Kvalita služby vs. Náklady na službu Reaktívnosť vs. Proaktívnosť Identifikácia podstatných príznakov pre „zdravie prevádzky“ Manažment udalostí (Event management) Základné pojmy Udalosť (Event) – zmena stavu, ktorá nejakým spôsobom ovplyvňuje konfiguračné položky, alebo priamo IT služby Môže indikovať, že niečo nepracuje korektne => zaznamenanie incidentu (výpadok pripojenia k internetu) Môže indikovať normálnu aktivitu, či potrebu vykonania rutinnej činnosti (normálna aktivita – log o prihlásení sa užívateľa do systému, rutinná činnosť – výmena náplne v tlačiarni) Proces manažmentu udalostí – úzko prepojený s monitorovaním Na rozdiel od monitorovania nekontroluje stav komponentov, aj keď k ničomu nedochádza • Udalosť nastane • Nie všetky detekované a registrované •Notifikácia udalosti • CI vygeneruje notifikáciu (schopnosť ich generovania musí byť v návrhu) • Štandardná množina udalostí • Detekovanie udalosti • Akonáhle je vygenerovaná notifikácia, detekuje sa udalosť • Filtrovanie udalostí • Cieľ – rozhodnúť či udalosť zaradiť na spracovanie management toolom, alebo ignorovať • Dôležitosť udalosti •Informatívna (user sa prihlásil) •Varovanie (zaťaženie pamäte 65%, ak bude 75%, kritický stav) •Výnimka (Server spadol) • Porovnanie udalosti •Ak je udalosť významná, treba rozhodnúť ako veľmi a aké akcie treba uplatniť • Correlation engine •Porovnávanie s existujúcimi udalosťami • Trigger - rozhoduje, aký typ odpovede bude vykonaný • Zalogovať udalosť (logy) • Autoresponse (reštart zariadenia) • Zásah osoby – ak je vyžadovaný – možnosť eskalácie (vymeň náplň) • Incident/Problém/Zmena • Review • Uzavretie udalosti Manažment Incidentov (Incident Management) Základné pojmy Incident – akákoľvek udalosť, ktorá nie je súčasťou štandardnej činnosti služby a ktorá spôsobí alebo môže spôsobiť prerušenie alebo zníženie kvality služby Manažment incidentov - zaistiť čo najrýchlejšie obnovenie dodávky služby a minimalizovať dôsledky výpadku služby na obchodnú činnosť Často ide len o implementáciu dočasného náhradného riešenia (workaround), ktoré ma za úlohu čo najrýchlejšie aspoň čiastočne sprístupniť dotknutú službu Analýza dôvodov vzniku incidentu/prevencia nie je úlohou IM, ale PM Manažment Incidentov Jedna z najdoležitejších častí ITSM – „highly visible“ pre business – veľmi ľahko je možné demonštrovať jej hodnotu Častokrát práve IM sa implementuje ako prvý pri zavádzaní ITSM Dôsledky implementácie pre organizáciu: Schopnosť detekovať a riešiť incidenty vedie k zvýšeniu dostupnosti služieb (nižší čas potrebný na reakciu, keď k incidentu dôjde) Možnosť nachádzať spôsoby vylepšenia služieb (pochopením príčin, prečo incidenty vznikajú) Modely Incidentov Mnohé z incidentov – Pramenia z niečoho, čo sa už udialo Pravdepodobne sa budú opakovať aj v budúcnosti Dôležitosť modelovania incidentov – definícia štandardných krokov, ako sa správať ak sa vyskytnú Model by mal obsahovať Kroky nutné k spracovaniu incidentu Chronologické poradie vykonávania týchto krokov Určenie zodpovedností Časové rámce Procedúry eskalácie • Identifikácia incidentu • Neakceptovateľné čakať na kontakt zákazníka • Zalogovanie incidentu • Všetky musia byť zalogované • id, kategóriu, čas, dátum, CI, príbuzný problém, používateľa, riešiteľa, zaznamenané, notifikáciu... • Kategorizácia incidentu • Stanovenie priority • urgencia incidentu/dopad, ktorý spôsobuje • Počiatočná diagnostika • či je schopný byť vyriešený na súčasnej úrovni (napr. Service Desk) • Eskalácia • Funkčná (SD presunie na IT) • Hierarchická (potreba notifikovať manažéra) • Vyšetrovanie príčin/diagnóza • identifikácia udalostí, ktoré spôsobili incident • pochopenie následností • Vyriešenie a obnova funkcie • po nájdení riešenia obnovy dodávky služby, je tento prístup nasadený • Uzavretie incidentu • Dotazník pre používateľa • Dokumentácia incidentu • Typ uzavretia (correct/incorrect) • Opakujúci sa incident? • Formálne uzavretie Roly Eskalácia Prvá línia podpory („First-line support“) - agenti zákazníckeho centra zodpovedný za záznam, klasifikáciu, porovnávanie, vedenie, vyriešenie (okrem prípadu eskalácie incidentu inej skupine podpory) a uzatvorenie incidentu Druhá línia podpory („Second-line support“) – špecialisti členený podľa oblastí ich znalostí Tretia línia podpory („Third-line support“) – externí špecialisti tretích strán Incident manažér („Incident Manager“) – Service Desk Manager Problémy Používatelia a aj zamestnanci obchádzajú procedúry – riešia problémy sami, sami kontaktujú špecialistov Následok – stráca sa informácia o incidente, ktorá môže byť vhodná pre PM, CM a pod. Priveľa incidentov, preťaženie a oneskorovanie – nedostatok času na ich zaznamenanie, nepresná evidencia => nejasný popis => nevhodné riešenie Eskalácia – ak sa incidenty nevyriešia na prvej línii sú posúvané ďalej smerom na špecialistov, príliš veľa takýchto presunov => problémy Nejasné definície a zmluvy – problémy s riešením incidentov, ak sú v katalógu služieb nejasne definované SLA, OLA Nedostatok nadšenia Manažment Problémov (Problem Management) Základné pojmy Problém – neznáma základná príčina jedného alebo viacerých incidentov Známa chyba (Known Error) – incident alebo problém, pre ktorý je známa hlavná príčina a pre ktorý existuje dočasné náhradné riešenie, alebo bola zaistená trvalá náhrada Rozdiel medzi manažmentom incidentov a problémov IM - najrýchlejšie obnoviť poskytovanie služby a minimalizovať dopady incidentu na obchodnú činnosť Nie vždy je incident vyriešený a môže sa v budúcnosti zopakovať PM – analýza a odhaľovanie príčin incidentov Roly Problem manažér – zodpovednosť za všetky činnosti procesu riadenia problémov Riešiteľské skupiny („Problem Support“) Reaktívne činnosti: identifikovanie a zaznamenanie problémov analýzou detailov incidentov skúmanie a riešenie problémov podľa ich priority monitorovanie pokroku na vyriešení známych chýb poskytovanie odporúčaní a poradenstva IM s náhradnými dočasnými riešeniami incidentov a známych chýb tvorba výkazov o problémoch Preventívne činnosti: identifikovanie trendov a potenciálnych zdrojov problémov iniciovanie žiadostí o zmenu návrh preventívnych opatrení, rozšírenie alebo aktualizácia systémov a podobne • Detekcia problému • Príčina incidentu (neznáma) • Analýza incidentu • Detekcia chyby v infraštruktúre • Notifikácia od zákazníka • Zalogovanie problému (User, služba, čas, incidenty, priority) • Kategorizácia problému • Prioritizácia problému – ako incidenty • koľko to bude stáť • recovery vs. Replacement • personál potrebný na vyriešenie problému • čas, ktorý to zaberie • Vyšetrenie a diagnóza • Množstvo všeobecných techník • Brainstorming • Chronologické analýzy • Pareto analýza • Workarounds • dočasné riešenia • Záznam o chybe – DB • známe chyby musia byť uložené v DB • Riešenie problému • Uzatvorenie problému • Review • čo sa urobilo správne • čo nesprávne • ako by mohol byť problém vyriešený lepšie • prevencia zopakovania Problémy Slabé prepojenie medzi PM a IM Chýbajúca väzba medzi záznamami o incidentoch a informáciami o problémoch Slabá informovanosť o známych chybách medzi vývojárskym a produkčným prostredím softvér a technickú infraštruktúru prechádzajúcu do produkčného prostredia by mala sprevádzať informácia o známych chybách – táto informácia v budúcnosti ušetrí čas strávený nad hľadaním príčin chyby, ktorá je už vlastne známa Nedostatok nadšenia – nechuť púšťať sa do formalizácie postupov Vykonávanie požiadaviek (Request Fulfilment) Základné koncepty Servisná požiadavka (Service Request) – požiadavka používateľa na informáciu, radu, štandardnú zmenu, alebo prístup k IT službe Účelom tohto procesu je Umožniť používateľom vyžiadať si použitie služby Príjmať štandardné služby Poskytovať informácie pre užívateľov o službách a postupoch na ich získanie Požiadavky sú archivované a sledované Proces efektívne redukuje byrokraciu v organizácii, čo sa týka poskytovania služieb Request Models – definícia často sa vyskytujúcich požiadaviek a spôsob ich jednotného konzistentného spracovávania Proces Užívateľ generuje požiadavku – v management tooloch, častokrát interface umožňujúci voliť typ požiadavku z menu poskytovaných typov požiadavok Vstupom je rovnako zoznam splnených očakávaní Pred samotným vykonaním procesu vykonania požiadavok – nutné ich schváliť Finančné schvaľovanie Typ schvaľovania potrebný pri každom type schvaľovaní Požiadavky majú finančný dopad na organizáciu Iné typy schvaľovania Musia byť zadefinované v procese Vykonanie Závisí na povahe požiadavky – jednoduché je možné vyriešit priamo na Service Desku (1st line support), iné vyžadujú aktivitu/personál Správa Prístupov (Access Management) Základné pojmy Účel – poskytnúť práva užívateľom, aby boli schopní pristupovať k službe, alebo skupine služieb , ale zároveň aby prístup nebol umožnený neautorizovaným používateľom Trust/security Celý proces definuje Identita indivíduí Práva prístupu Overovanie identity a práv prístupu Cieľ – zefektívniť využívanie služieb zabezpečením prístupu a autorizácie, minimalizovať s tým spojené chyby a schopnosť jednoducho odhaliť nekorektné použitie služby Proces Vyžiadanie prístupu Generovaný používateľom Požiadavok na zmenu Požiadavok na službu Verifikácia Či je používateľ ten, za ktorého sa vydáva (username/password) Či vlastní legitímne oprávnenie na používanie služby Niekoľko rôznych typov verifikácie podľa typu požiadavky Autorizácia určitého stupňa Existencia politík (policies), ktoré oprávňujú užívateľa k ... Poskytovanie práv Nerozhoduje o udeľovaní práv, vykonáva policies Monitoring stavu identity Zmena stavu služieb, povýšenia/degradácie, odchod do dôchodku, disciplinárne akcie ... Logovanie a sledovanie prístupov Odstránenie/obmedzenie prístupov Ostatné činnosti Činnosti, ktoré nie sú súčasťou procesu: Monitorovanie a kontrola Detekcia stavov služieb a konfiguračných položiek Správa infraštruktúry Pamäte, databáz, middleware, dátové centrá ... Aspekty služieb z iných fáz životného cyklu služby, ktoré sa týkajú prevádzky Manažment zmien Manažment konfigurácií Manažment vydaní Manažment dostupnosti Manažment kapacity... Kľúčové funkcie Service Desk Poskytuje primárny centrálny bod kontaktu pre všetkých používateľov IT Zaznamenáva a spravuje všetky incidenty, servisné požiadavky, požiadavky na prístupy Je rozhraním pre všetky ostatné procesy a aktivity Prevádzky služieb Špecifické zodpovednosti Záznam všetkých incidentov a požiadaviek, kategorizácia a prioritizácia Vyšetrenie a diagnóza na prvej línii supportu Správa životného cyklu incidentov a požiadaviek, zodpovedajúca eskalácia na ďalšie stupne, uzatváranie Priebežné informovanie o stave služieb, incidentov a požiadaviek Typy Service Desk-u Lokálny SD Fyzicky v blízkosti používateľov Centralizovaný SD Výhoda – menší team zvládne viac volaní Virtuálny SD Team SD rozmiestnený fyzicky na viacerých stanovištiach, pre používateľa sa javí ako jednotný celok Nepretržitá prevádzka (Follow the sun) SD v rôznych časových zónach, nepretržitý čas behu, presmerovávanie na stanovisko, ktoré je aktívne Ostatné funkcie Technická správa (Technical Management) Zodpovednosť za správu infraštruktúry IT Správa aplikácií (Applications Management) Zameranie podobné ako technická správa, ale nie HW, ale SW Správa prevádzky IT (IT Operations Management) Otázky?