Transcript Wykład 7
Metody analizy decyzji Wykład 7 – sekwencyjne problemy decyzyjne Cele dzisiejszego wykładu • Specyfika sekwencyjnych problemów decyzyjnych • Model sekwencyjnego problemu decyzyjnego • Parametryzacja modelu • Rozwiązywanie problemów sekwencyjnych (indukcja wsteczna) 2 Sekwencyjne sytuacje decyzyjne • Problemy decyzyjne są często częścią większych problemów • Wybór dotyczy ciągu działań odseparowanego w czasie • Akcje spotykają się z reakcjami środowiska – trudno podjąć wszystkie decyzje na zapas – zależności strukturalne (dostępność akcji zależy od reakcji) – trudno postrzegać „jednocześnie” • Akcje podejmowane po to, żeby zbadać stan świata (nawet bez 100% pewności) 3 Przykład Firma zdała sobie sprawę, że wypuściła na rynek wadliwy produkt. Nie jest pewna skali zjawiska – może być duża (40%) lub mała. Jeśli firma nie da po sobie znać, to wina za duży problem na 25% nie zostanie przypisana firmie (za mały na pewno nie). Firma może zignorować problem, upublicznić sprawę lub wszcząć wewnętrzne śledztwo. Wewnętrzne śledztwo na 80% faktycznie pozostanie w ukryciu i da pewną informację nt. skali problemu. Wtedy firma będzie mogła ponownie podjąć decyzję o upublicznieniu lub zignorowaniu przy zachowaniu ww. prawdopodobieństw. Jeśli śledztwo się wyda, pozostaje jedynie niepewność co do skali problemu i reakcji ludzi. Straty – konieczność rekompensat i wymiany sprzętu – wynikające z dużego problemu wynoszą 100 [wszystkie kwoty w mln $], z małego 30. Jeśli problem jest duży, to dodatkowa strata wyniesie: 100 – jeśli firma ignorowała problem, 50 – jeśli firma badała kwestię, ale w ukryciu. Koszt upublicznienia jest równy 1, zaś śledztwa 5. 4 Przykład – pytania • Jakie warianty decyzyjne są dostępne, ile ich jest? • Jakie są możliwe konsekwencje dla poszczególnych wariantów? Jakie są związane z nimi wypłaty i prawdopodobieństwa wystąpienia? • Jaka jest optymalna decyzja? Jakie zachowania przewiduje? • Jak wpływa wzrost prawdopodobieństwa przecieku ze śledztwa? • Ile jest warta możliwość przeprowadzenia śledztwa? • Ile maksymalnie warto zapłacić za informację o skali problemu? 5 Model sekwencyjnego problemu decyzyjnego – złe podejście Skala jest duża, ale sama z siebie nie wyjdzie; sekretne badania wyjdą na jaw … … Zignoruj problem … … … … … … … Prowadź badania, jeśli uda się utrzymać sekret i okaże się, że …, to … … … … • • • • Brak uwidocznienia struktury Trudność odgadnięcia niezbędnych parametrów Trudność reewaluacji Niewidoczne współzależności między parametrami 6 Model sekwencyjnego problemu decyzyjnego – drzewa decyzyjne • Elementy modelu: – struktura (dostępne działania, następstwo czasowe) – parametry (prawdopodobieństwa, koszty, wypłaty) • Struktura: drzewo decyzyjne – graf (nieskierowany, spójny, acykliczny) – korzeń reprezentuje początek sytuacji decyzyjnej – wierzchołki reprezentują moment oczekiwania lub zakończenie problemu – wierzchołki: decyzyjne, losowe, końcowe – krawędzie między wierzchołkami reprezentują działania/reakcje – odległość wierzchołków od korzenia reprezentuje następstwo czasowe 7 8 Model sekwencyjnego problemu decyzyjnego – drzewa decyzyjne, c.d. • Elementy modelu: – struktura (dostępne działania, następstwo czasowe) – parametry (prawdopodobieństwa, koszty, wypłaty) • Struktura: … • Parametry: – miary prawdopodobieństwa dla wierzchołków losowych – … 9 10 Model sekwencyjnego problemu decyzyjnego – drzewa decyzyjne, c.d. • Elementy modelu: – struktura (dostępne działania, następstwo czasowe) – parametry (prawdopodobieństwa, koszty, wypłaty) • Struktura: … • Parametry: – miary prawdopodobieństwa dla wierzchołków losowych – wypłaty dla wierzchołków końcowych – koszty dla działań i reakcji (krawędzi wychodzących z odpowiednich węzłów) 11 12 Przyjęte uproszczenia modelu • Stałość parametrów • Czas tylko porządkowo (tylko następstwo czasowe) • Jeden decydent • Jedno kryterium • Liniowa f. użyteczności (ew. wypłaty w węzłach końcowych jako użyteczność) 13 Model sekwencyjnych problemów decyzyjnych – warianty decyzyjne • Wariant decyzyjny jednoznacznie określa zachowanie decydenta poprzez podanie reguł: „jeśli wystąpi stan świata X, podejmij działanie Y” • Wariant decyzyjny to maksymalny spójny podgraf, w którym każdy wierzchołek decyzyjny ma dokładnie jeden następnik • Ile jest wariantów decyzyjnych w naszym problemie? 14 15 Przykładowe warianty decyzyjne 16 Konsekwencje • Każdemu wariantowi odpowiada co najmniej jedna konsekwencja, tj. ścieżka działań i reakcji, która może zajść w wyniku wybrania tego wariantu • Konsekwencje reprezentowane są przez maksymalne spójne podgrafy, w których każdy węzeł (poza końcowymi) ma jeden następnik • Każdy wariant ma tyle konsekwencji, ile węzłów końcowych • Konsekwencjom odpowiadają wypłaty dla decydenta oraz prawdopodobieństwo (przy założeniu wybrania wariantu, dla którego dana konsekwencja możliwa) 17 Przykładowe konsekwencje 18 Konsekwencje, c.d. • Każdemu wariantowi odpowiada co najmniej jedna konsekwencja, tj. ścieżka działań i reakcji, która może zajść w wyniku wybrania tego wariantu • Konsekwencje reprezentowane są przez maksymalne spójne podgrafy, w których każdy węzeł (poza końcowymi) ma jeden następnik • Każdy wariant ma tyle konsekwencji, ile węzłów końcowych • Konsekwencjom odpowiadają wypłaty dla decydenta oraz prawdopodobieństwo (przy założeniu wybrania wariantu, dla którego dana konsekwencja możliwa) • Ta sama konsekwencja może wynikać z kilku różnych wariantów (różniących się po reakcjach, które nie zaszły) – wtedy ma takie same wypłaty i prawdopodobieństwa dla każdego wariantu 19 Ocena wariantu i wybór • Każdej konsekwencji odpowiada: – koszt – suma kosztów na ścieżce konsekwencji – wypłata – z węzła końcowego – prawdopodobieństwo – iloczyn prawdopodobieństw • Każdemu wariantowi przypisać można rozkład prawdopodobieństwa zysku (wypłat pomniejszonych o koszty) • Przy porównywaniu można stosować metody poznane na poprzednim wykładzie,… • …w dalszej części będziemy wykorzystywać wartość oczekiwaną zysku (liniowa funkcja użyteczności) 20 Wybór metodą indukcji wstecznej • W dużych problemach łatwiej wybrać metodą indukcji wstecznej: – przesuwamy się od węzłów końcowych do wierzchołka – dla węzłów końcowych mamy zdefiniowaną wypłatę – z każdym węzłem losowym utożsamiamy wypłatę jako wartość oczekiwaną wypłaty dla jego następników – z każdym węzłem decyzyjnym utożsamiamy wypłatę jako najwyższą wypłatę dla któregoś następnika pomniejszoną o koszt działania • Uwaga: – dla każdego węzła decyzyjnego dokonaliśmy wyboru – te wybory definiują wariant decyzyjny, który jest rozwiązaniem! – wartość obliczona w korzeniu drzewa definiuje oczekiwaną wypłatę przy wybraniu rozwiązania – to jest także wartość całego problemu 21 22 Podsumowanie rozwiązania • Optymalny wariant przewiduje prowadzenie badań i upublicznienie wyników (o ile samoistnie nie nastąpił przeciek), jeśli okaże się, że skala problemu jest duża • Oczekiwana strata w tej sytuacji decyzyjnej dla optymalnego wariantu wynosi 58,6 mln $ • Druga najlepsza opcja to natychmiastowe upublicznienie wyników – oczekiwana strata jest wówczas równa 59 mln $ 23 Przykład 2 – czarne złoto Rockefeller ma pole w umiarkowanie roponośnej okolicy. Zgłosił się do niego oferent, proponując mu za to pole od ręki 750 tys. $, jeśli do transakcji dojdzie natychmiast. Rockefeller może jednak próbować zarobić większe pieniądze. Wiadomo, że połowa pól w tej okolicy rzeczywiście obfituje w ropę. Można (za 250 tys. $) zbudować instalację pozwalającą na wydobycie. Jeśli pod polem znajdują się złoża, przychód wyniesie 2,5 mln. $. Jeśli nie, przychód wyniesie 0$. Co więcej, wykonanie odwiertu uniemożliwia sprzedaż pola (wszyscy wiedzą, że oznaczać to może wyłącznie to, że pole jest bezwartościowe) Alternatywnie można zdecydować się na próbne odwierty połączone z badaniami geologicznymi, które kosztują 100 tys. $. Wyniki takich badań są mylne w 10%, jeśli pole jest roponośne (sensitivity = 90%), i w 30%, jeśli ropy nie ma (specificity = 70%). Po wykonaniu badania można podjąć decyzję o budowaniu instalacji na powyższych warunkach lub sprzedaży pola. Co więcej, uzyskanie pozytywnego sygnału daje możliwość sprzedaży za wyższą kwotę, bo za 1 mln. $ (dostaje się odpowiedni certyfikat). Uzyskanie negatywnego wyniku można ukryć i sprzedać pole za 500 tys. $. 24 Ustal strukturę drzewa 25 Wpisz wypłaty i koszty 26 Podaj prawdopodobieństwa 27 Prawdopodobieństwo warunkowe Bayes • Prawdopodobieństwo zdarzenia pod warunkiem innego zdarzenia P( A | H ) • P( A H ) P( H ) Prawdopodobieństwo całkowite zdarzenia w zależności od zajścia którejś z rozłącznych możliwości H1 , , H n ; i j H i H j ; H1 H n A ( A H1 ) ( A H n ) P ( A) P ( A H1 ) P ( A H n ) P ( A) P ( A | H1 ) P( H1 ) P ( A | H n ) P ( H n ) • Prawdopodobieństwo zajścia hipotezy pod warunkiem zajścia skutku P( H1 A) P ( A | H 1 ) P ( H1 ) P( H1 | A) P( A) P ( A | H1 ) P ( H 1 ) P ( A | H n ) P ( H n ) Paradox Monty Hall’a • http://www.math.ucsd.edu/~crypto/Monty/m ontybg.html Przykład z testowaniem wirusa HIV • Prawdopodobieństwo, że dana osoba jest zakażona wirusem HIV w danej populacji jest 0,1% • Test się myli w 1% przypadków, jeśli osoba jest zakażona (sensitivity = 99%) • Test się myli w 5% przypadków, jeśli osoba jest niezakażona (specificity = 95%) • Jakie jest prawdopodobieństwo, że dana osoba jest zakażona pod warunkiem, że test wskazał „positive”? • Jakie jest prawdopodobieństwo, że dana osoba nie jest zakażona pod warunkiem, że test wskazał „negative”? Probability tree flipping 0,099% 0,001% 4,995% 94,905% 0,099% 4,995% 0,001% 94,905% Czarne złoto – prawdopodobieńśtwa • Oznaczenia: • Potrzebujemy: – hipotezy: • H1 – jest ropa • H2 – nie ma ropy – zdarzenie A – pozytywny wynik testu • Dane: – – – – – – P(H1)= P(H2)= P(A|H1)= P(A|H2)= P(~A|H1)= P(~A|H2)= 50% 50% 90% 30% 10% 70% – P(A)=… – P(H1|A)=… – P(H1|~A)=… • Obliczenia: P(A) = P(A|H1)P(H1)+P(A|H2)P(H2)= =90%*50%+30%*50%=60% P(H1|A)=P(A|H1)P(H1)/P(A)= 90%*50%/60% = 75% P(H1|~A)=P(~A|H1)P(H1)/P(~A)= 10%*50%/40% = 12,5% Prawdopodobieństwa warunkowe intuicyjnie Pr(test + | wiersz) Pr(test - | wiersz) Pr. wiersza jest ropa 90% 10% 50% nie ma 30% 70% 50% SUMA n.a. n.a. 100% test + test - SUMA jest ropa 45% 5% 50% nie ma 15% 35% 50% SUMA 60% 40% 100% test + test - SUMA Pr(jest ropa | kolumna) 75% 12,5% n.a. Pr(nie ma | kolumna) 25% 87,5% n.a. Pr. kolumny 60% 40% 100% 34 Podaj prawdopodobieństwa 35 Rozwiąż metodą indukcji wstecznej 36 Podsumowanie rozwiązania • Optymalny wariant przewiduje prowadzenie badań i sprzedaż pola dla negatywnego wyniku oraz budowanie instalacji dla pozytywnego • Oczekiwany zysk dla optymalnego wariantu wynosi 1,075 mln $ • Druga najlepsza opcja to natychmiastowe budowanie instalacji – oczekiwany zysk jest wówczas równy 1 mln $ 37 Narzędzia • Darmowe (do celów niekomercyjnych): – InsightTree: http://www.visionarytools.com/License.htm • Płatne, wiele funkcji, dostępna wersja testowa: – TreeAge: http://www.treeage.com/ 38 39 Podsumowanie • Drzewo decyzyjne jako model sekwencyjnego problemu decyzyjnego (to nie to samo co drzewo klasyfikacyjne z data miningu!) • Drzewo decyzyjne ułatwia strukturyzację modelu, ale wciąż występują pułapki (jak zawsze) – trzeba zachować perspektywę decydenta • Parametryzacja często wymaga metod bayesowskich • Do rozwiązywania można podejść globalnie (wypisanie wariantów) albo rekurencyjnie (indukcja wsteczna) – w ramach modelu i ograniczeń stosowanych dzisiaj podejścia te są równoważne 40