Transcript Wykład 7

Metody analizy decyzji
Wykład 7 – sekwencyjne problemy decyzyjne
Cele dzisiejszego wykładu
• Specyfika sekwencyjnych problemów decyzyjnych
• Model sekwencyjnego problemu decyzyjnego
• Parametryzacja modelu
• Rozwiązywanie problemów sekwencyjnych
(indukcja wsteczna)
2
Sekwencyjne sytuacje decyzyjne
• Problemy decyzyjne są często częścią większych problemów
• Wybór dotyczy ciągu działań odseparowanego w czasie
• Akcje spotykają się z reakcjami środowiska
– trudno podjąć wszystkie decyzje na zapas
– zależności strukturalne (dostępność akcji zależy od reakcji) –
trudno postrzegać „jednocześnie”
• Akcje podejmowane po to, żeby zbadać stan świata (nawet
bez 100% pewności)
3
Przykład
Firma zdała sobie sprawę, że wypuściła na rynek wadliwy produkt. Nie
jest pewna skali zjawiska – może być duża (40%) lub mała. Jeśli firma
nie da po sobie znać, to wina za duży problem na 25% nie zostanie
przypisana firmie (za mały na pewno nie).
Firma może zignorować problem, upublicznić sprawę lub wszcząć
wewnętrzne śledztwo. Wewnętrzne śledztwo na 80% faktycznie
pozostanie w ukryciu i da pewną informację nt. skali problemu. Wtedy
firma będzie mogła ponownie podjąć decyzję o upublicznieniu lub
zignorowaniu przy zachowaniu ww. prawdopodobieństw. Jeśli
śledztwo się wyda, pozostaje jedynie niepewność co do skali
problemu i reakcji ludzi.
Straty – konieczność rekompensat i wymiany sprzętu – wynikające
z dużego problemu wynoszą 100 [wszystkie kwoty w mln $], z małego
30. Jeśli problem jest duży, to dodatkowa strata wyniesie: 100 – jeśli
firma ignorowała problem, 50 – jeśli firma badała kwestię, ale
w ukryciu.
Koszt upublicznienia jest równy 1, zaś śledztwa 5.
4
Przykład – pytania
• Jakie warianty decyzyjne są dostępne, ile ich jest?
• Jakie są możliwe konsekwencje dla poszczególnych
wariantów? Jakie są związane z nimi wypłaty i
prawdopodobieństwa wystąpienia?
• Jaka jest optymalna decyzja? Jakie zachowania
przewiduje?
• Jak wpływa wzrost prawdopodobieństwa przecieku ze
śledztwa?
• Ile jest warta możliwość przeprowadzenia śledztwa?
• Ile maksymalnie warto zapłacić za informację o skali
problemu?
5
Model sekwencyjnego problemu
decyzyjnego – złe podejście
Skala jest duża, ale sama z siebie
nie wyjdzie; sekretne badania
wyjdą na jaw
…
…
Zignoruj problem
…
…
…
…
…
…
…
Prowadź badania, jeśli uda się utrzymać
sekret i okaże się, że …, to …
…
…
…
•
•
•
•
Brak uwidocznienia struktury
Trudność odgadnięcia niezbędnych parametrów
Trudność reewaluacji
Niewidoczne współzależności między
parametrami
6
Model sekwencyjnego problemu
decyzyjnego – drzewa decyzyjne
• Elementy modelu:
– struktura (dostępne działania, następstwo czasowe)
– parametry (prawdopodobieństwa, koszty, wypłaty)
• Struktura: drzewo decyzyjne – graf (nieskierowany, spójny,
acykliczny)
– korzeń reprezentuje początek sytuacji decyzyjnej
– wierzchołki reprezentują moment oczekiwania lub zakończenie
problemu
– wierzchołki: decyzyjne, losowe, końcowe
– krawędzie między wierzchołkami reprezentują działania/reakcje
– odległość wierzchołków od korzenia reprezentuje następstwo czasowe
7
8
Model sekwencyjnego problemu
decyzyjnego – drzewa decyzyjne, c.d.
• Elementy modelu:
– struktura (dostępne działania, następstwo czasowe)
– parametry (prawdopodobieństwa, koszty, wypłaty)
• Struktura: …
• Parametry:
– miary prawdopodobieństwa dla wierzchołków losowych
– …
9
10
Model sekwencyjnego problemu
decyzyjnego – drzewa decyzyjne, c.d.
• Elementy modelu:
– struktura (dostępne działania, następstwo czasowe)
– parametry (prawdopodobieństwa, koszty, wypłaty)
• Struktura: …
• Parametry:
– miary prawdopodobieństwa dla wierzchołków losowych
– wypłaty dla wierzchołków końcowych
– koszty dla działań i reakcji (krawędzi wychodzących z odpowiednich
węzłów)
11
12
Przyjęte uproszczenia modelu
• Stałość parametrów
• Czas tylko porządkowo (tylko następstwo
czasowe)
• Jeden decydent
• Jedno kryterium
• Liniowa f. użyteczności (ew. wypłaty w
węzłach końcowych jako użyteczność)
13
Model sekwencyjnych problemów
decyzyjnych – warianty decyzyjne
• Wariant decyzyjny jednoznacznie określa
zachowanie decydenta poprzez podanie reguł:
„jeśli wystąpi stan świata X, podejmij działanie Y”
• Wariant decyzyjny to maksymalny spójny podgraf,
w którym każdy wierzchołek decyzyjny ma
dokładnie jeden następnik
• Ile jest wariantów decyzyjnych w naszym
problemie?
14
15
Przykładowe warianty decyzyjne
16
Konsekwencje
• Każdemu wariantowi odpowiada co najmniej jedna konsekwencja,
tj. ścieżka działań i reakcji, która może zajść w wyniku wybrania tego
wariantu
• Konsekwencje reprezentowane są przez maksymalne spójne
podgrafy, w których każdy węzeł (poza końcowymi) ma jeden
następnik
• Każdy wariant ma tyle konsekwencji, ile węzłów końcowych
• Konsekwencjom odpowiadają wypłaty dla decydenta oraz
prawdopodobieństwo (przy założeniu wybrania wariantu, dla
którego dana konsekwencja możliwa)
17
Przykładowe konsekwencje
18
Konsekwencje, c.d.
•
Każdemu wariantowi odpowiada co najmniej jedna konsekwencja, tj. ścieżka
działań i reakcji, która może zajść w wyniku wybrania tego wariantu
•
Konsekwencje reprezentowane są przez maksymalne spójne podgrafy, w których
każdy węzeł (poza końcowymi) ma jeden następnik
•
Każdy wariant ma tyle konsekwencji, ile węzłów końcowych
•
Konsekwencjom odpowiadają wypłaty dla decydenta oraz prawdopodobieństwo
(przy założeniu wybrania wariantu, dla którego dana konsekwencja możliwa)
• Ta sama konsekwencja może wynikać z kilku różnych wariantów
(różniących się po reakcjach, które nie zaszły) – wtedy ma takie same
wypłaty i prawdopodobieństwa dla każdego wariantu
19
Ocena wariantu i wybór
• Każdej konsekwencji odpowiada:
– koszt – suma kosztów na ścieżce konsekwencji
– wypłata – z węzła końcowego
– prawdopodobieństwo – iloczyn prawdopodobieństw
• Każdemu wariantowi przypisać można rozkład
prawdopodobieństwa zysku (wypłat pomniejszonych o koszty)
• Przy porównywaniu można stosować metody poznane na
poprzednim wykładzie,…
• …w dalszej części będziemy wykorzystywać wartość oczekiwaną
zysku (liniowa funkcja użyteczności)
20
Wybór metodą indukcji wstecznej
• W dużych problemach łatwiej wybrać metodą indukcji wstecznej:
– przesuwamy się od węzłów końcowych do wierzchołka
– dla węzłów końcowych mamy zdefiniowaną wypłatę
– z każdym węzłem losowym utożsamiamy wypłatę jako wartość oczekiwaną
wypłaty dla jego następników
– z każdym węzłem decyzyjnym utożsamiamy wypłatę jako najwyższą
wypłatę dla któregoś następnika pomniejszoną o koszt działania
• Uwaga:
– dla każdego węzła decyzyjnego dokonaliśmy wyboru – te wybory definiują
wariant decyzyjny, który jest rozwiązaniem!
– wartość obliczona w korzeniu drzewa definiuje oczekiwaną wypłatę przy
wybraniu rozwiązania – to jest także wartość całego problemu
21
22
Podsumowanie rozwiązania
• Optymalny wariant przewiduje prowadzenie
badań i upublicznienie wyników (o ile samoistnie
nie nastąpił przeciek), jeśli okaże się, że skala
problemu jest duża
• Oczekiwana strata w tej sytuacji decyzyjnej dla
optymalnego wariantu wynosi 58,6 mln $
• Druga najlepsza opcja to natychmiastowe
upublicznienie wyników – oczekiwana strata jest
wówczas równa 59 mln $
23
Przykład 2 – czarne złoto
Rockefeller ma pole w umiarkowanie roponośnej okolicy. Zgłosił się do niego oferent,
proponując mu za to pole od ręki 750 tys. $, jeśli do transakcji dojdzie natychmiast.
Rockefeller może jednak próbować zarobić większe pieniądze. Wiadomo, że połowa
pól w tej okolicy rzeczywiście obfituje w ropę. Można (za 250 tys. $) zbudować
instalację pozwalającą na wydobycie. Jeśli pod polem znajdują się złoża, przychód
wyniesie 2,5 mln. $. Jeśli nie, przychód wyniesie 0$. Co więcej, wykonanie odwiertu
uniemożliwia sprzedaż pola (wszyscy wiedzą, że oznaczać to może wyłącznie to, że
pole jest bezwartościowe)
Alternatywnie można zdecydować się na próbne odwierty połączone z badaniami
geologicznymi, które kosztują 100 tys. $. Wyniki takich badań są mylne w 10%, jeśli
pole jest roponośne (sensitivity = 90%), i w 30%, jeśli ropy nie ma (specificity = 70%).
Po wykonaniu badania można podjąć decyzję o budowaniu instalacji na powyższych
warunkach lub sprzedaży pola. Co więcej, uzyskanie pozytywnego sygnału daje
możliwość sprzedaży za wyższą kwotę, bo za 1 mln. $ (dostaje się odpowiedni
certyfikat). Uzyskanie negatywnego wyniku można ukryć i sprzedać pole za 500 tys. $.
24
Ustal strukturę drzewa
25
Wpisz wypłaty i koszty
26
Podaj prawdopodobieństwa
27
Prawdopodobieństwo warunkowe
Bayes
•
Prawdopodobieństwo zdarzenia pod warunkiem innego zdarzenia
P( A | H ) 
•
P( A  H )
P( H )
Prawdopodobieństwo całkowite zdarzenia w zależności od zajścia którejś z
rozłącznych możliwości
H1 ,  , H n ; i  j  H i  H j  ; H1    H n  
A  ( A  H1 )    ( A  H n )
P ( A)  P ( A  H1 )    P ( A  H n )
P ( A)  P ( A | H1 ) P( H1 )    P ( A | H n ) P ( H n )
•
Prawdopodobieństwo zajścia hipotezy pod warunkiem zajścia skutku
P( H1  A)
P ( A | H 1 ) P ( H1 )
P( H1 | A) 

P( A)
P ( A | H1 ) P ( H 1 )    P ( A | H n ) P ( H n )
Paradox Monty Hall’a
• http://www.math.ucsd.edu/~crypto/Monty/m
ontybg.html
Przykład z testowaniem wirusa HIV
• Prawdopodobieństwo, że dana
osoba jest zakażona wirusem HIV
w danej populacji jest 0,1%
• Test się myli w 1% przypadków,
jeśli osoba jest zakażona
(sensitivity = 99%)
• Test się myli w 5% przypadków,
jeśli osoba jest niezakażona
(specificity = 95%)
• Jakie jest prawdopodobieństwo,
że dana osoba jest zakażona pod
warunkiem, że test wskazał
„positive”?
• Jakie jest prawdopodobieństwo,
że dana osoba nie jest zakażona
pod warunkiem, że test wskazał
„negative”?
Probability tree flipping
0,099%
0,001%
4,995%
94,905%
0,099%
4,995%
0,001%
94,905%
Czarne złoto – prawdopodobieńśtwa
• Oznaczenia:
• Potrzebujemy:
– hipotezy:
• H1 – jest ropa
• H2 – nie ma ropy
– zdarzenie A – pozytywny wynik
testu
• Dane:
–
–
–
–
–
–
P(H1)=
P(H2)=
P(A|H1)=
P(A|H2)=
P(~A|H1)=
P(~A|H2)=
50%
50%
90%
30%
10%
70%
– P(A)=…
– P(H1|A)=…
– P(H1|~A)=…
• Obliczenia:
P(A) =
P(A|H1)P(H1)+P(A|H2)P(H2)=
=90%*50%+30%*50%=60%
P(H1|A)=P(A|H1)P(H1)/P(A)=
90%*50%/60% = 75%
P(H1|~A)=P(~A|H1)P(H1)/P(~A)=
10%*50%/40% = 12,5%
Prawdopodobieństwa warunkowe
intuicyjnie
Pr(test + | wiersz)
Pr(test - | wiersz)
Pr. wiersza
jest ropa
90%
10%
50%
nie ma
30%
70%
50%
SUMA
n.a.
n.a.
100%
test +
test -
SUMA
jest ropa
45%
5%
50%
nie ma
15%
35%
50%
SUMA
60%
40%
100%
test +
test -
SUMA
Pr(jest ropa | kolumna)
75%
12,5%
n.a.
Pr(nie ma | kolumna)
25%
87,5%
n.a.
Pr. kolumny
60%
40%
100%
34
Podaj prawdopodobieństwa
35
Rozwiąż metodą indukcji wstecznej
36
Podsumowanie rozwiązania
• Optymalny wariant przewiduje prowadzenie
badań i sprzedaż pola dla negatywnego wyniku
oraz budowanie instalacji dla pozytywnego
• Oczekiwany zysk dla optymalnego wariantu
wynosi 1,075 mln $
• Druga najlepsza opcja to natychmiastowe
budowanie instalacji – oczekiwany zysk jest
wówczas równy 1 mln $
37
Narzędzia
• Darmowe (do celów niekomercyjnych):
– InsightTree:
http://www.visionarytools.com/License.htm
• Płatne, wiele funkcji, dostępna wersja
testowa:
– TreeAge: http://www.treeage.com/
38
39
Podsumowanie
• Drzewo decyzyjne jako model sekwencyjnego problemu
decyzyjnego (to nie to samo co drzewo klasyfikacyjne z data
miningu!)
• Drzewo decyzyjne ułatwia strukturyzację modelu, ale wciąż
występują pułapki (jak zawsze) – trzeba zachować perspektywę
decydenta
• Parametryzacja często wymaga metod bayesowskich
• Do rozwiązywania można podejść globalnie (wypisanie wariantów)
albo rekurencyjnie (indukcja wsteczna) – w ramach modelu
i ograniczeń stosowanych dzisiaj podejścia te są równoważne
40