Transcript Wyk??ad 12

Tomasz Szumlak, WFiIS, 19/06/2013
1
Jeszcze na temat estymacji – funkcja największej wiarygodności (nie
na egzamin)
Wiemy, że możemy parametry populacji estymować:
• punktowo (jedna liczba)
• przedziałowo (wartość centralna + niepewność -> poziom ufności)
Drugi typ estymacji jest zwykle preferowany (możliwość porównania wyników dla
dwóch różnych eksperymentów), jednakże, często potrzebujemy „najlepszego”
punktowego oszacowania dla danego parametru. W takich przypadkach stosujemy
technikę funkcji największej wiarygodności (Maximum Likelihood Estimate MLE).
Podstawą tej metody jest założenie, że R.G.P. badanej populacji może być opisany
za pomocą funkcji (modelu), która zależy od parametru . Parametr ten, z kolei,
chcemy oszacować przy pomocy pewnej statystyki:
Załóżmy, że dokonujemy n niezależnych obserwacji i dostajemy próbę:
2
Funkcję R.G.P. możemy zapisać w postaci (tak jak robiliśmy to już wcześniej np. dla
przypadku dwóch zmiennych niezależnych):
Funkcję tę nazywamy wiarygodnością. Możemy powyższą formułę przepisać jako:
Stosując technikę MLE, traktujemy Z.L. Xi jako parametry (eksperyment się
zakończył i znamy jego wyniki). Spodziewamy się, że jeżeli wybraliśmy „dobrą”
funkcję R.G.P. i parametr  wówczas prob. zaobserwowania danych jest wysokie.
Aby wyznaczyć optymalną („najlepszą”) wartość parametru  szukamy maksimum
funkcji wiarygodności (z uwagi na wygodę, często używamy logarytmu funkcji
wiarygodności).
3
Sprawdźmy MLE w akcji:
Załóżmy, że pobieramy próbę o rozmiarze n z populacji o rozkładzie Poisson’a, którego wartość
oczekiwana wynosi . Funkcja wiarygodności przybiera postać:
Logarytmujemy obie strony (zamieniamy iloczyn na sumę):
Różniczkujemy:
Rozwiązując powyższe dostajemy:
4
Testowanie hipotez – przypomnienie (poprzedni wykład)
1. Decyzja statystyczna
2. Hipoteza statystyczna („zerowa” i „alternatywna”, H0 i H1)
3. Statystycznie znacząca różnica i odrzucanie hipotez
4. Testowanie statystyczne… (test of significance, decision rules)
5
Testowanie hipotez – ryzyko…
Testowanie hipotez oparte jest o probabilistykę – odpowiedzi (wnioski), których
udzielamy mogą być błędne mimo naszych najlepszych chęci!
Nowy (dokładniejszy) eksperyment/wiedza może zmodyfikować nasz pogląd
i zmienić wyniki wcześniejszej analizy (częsty przypadek).
Ilościowo ujmujemy to wprowadzając dwa (tzw. typy) rodzaje błędów:
• Typ I – odrzucamy prawdziwą hipotezę
• Typ II – przyjmujemy fałszywą hipotezę
W każdym z powyższych popełniliśmy błąd – żaden z tych scenariuszy nie jest
mniej niebezpieczny (musimy brać pod uwagę potencjalne konsekwencje)
Ogólnie projektowanie testów statystycznych – optymalizacja (minimalizacja)
błędów obu typów – delikatna gra, zwykle musimy zadowolić się jakimś
kompromisem!
Skomplikowany problem – potencjalnie może spowodować straty – np.
materialne
• dla danej próbki zmniejszenie błędów Typu I zwiększa ryzyko wystąpienia błędów
Typu II
• w praktyce jeden z nich może mieć znacznie poważniejsze konsekwencje niż drugi
• rozmiar próbki krytyczny
6
Testowanie hipotez – ryzyko…
Testowanie hipotez oparte jest o probabilistykę – odpowiedzi (wnioski), których
udzielamy mogą być błędne!
Nowy (dokładniejszy) eksperyment/wiedza może zmodyfikować nasz pogląd
i zmienić wyniki wcześniejszej analizy (częsty przypadek).
Ilościowo ujmujemy to wprowadzając dwa (tzw. typy) rodzaje błędów:
• Typ I – odrzucamy prawdziwą hipotezę
• Typ II – przyjmujemy fałszywą hipotezę
W każdym z powyższych popełniliśmy błąd – żaden z tych scenariuszy nie jest
mniej niebezpieczny (musimy brać pod uwagę potencjalne konsekwencje)
Ogólnie projektowanie testów statystycznych – optymalizacja (minimalizacja)
błędów obu typów – delikatna gra, zwykle musimy zadowolić się jakimś
kompromisem!
Skomplikowany problem – potencjalnie może spowodować straty – np.
materialne
• dla danej próbki zmniejszenie błędów Typu I zwiększa ryzyko wystąpienia błędów
Typu II
• w praktyce jeden z nich może mieć znacznie poważniejsze konsekwencje niż drugi
• rozmiar próbki krytyczny
7
Testowanie hipotez – poziom istotności
W procesie testowania hipotez maksymalne prob. popełnienia błędu (ryzyko na
które się „zgadzamy”) Typu I nazywamy poziomem istotności (P.I.)
Zwykle poziom istotności ustalany jest przed pobraniem próby
• np. zwyczajowo dla danego typu eksperymentu przyjmujemy P.I. równy  = 0.05 (5%)
Załóżmy, że wybieramy P.I.  = 0.05 do zaprojektowania testu statystycznego
• mówimy, że ryzyko odrzucenia poprawnej hipotezy istnieje w „5 przypadkach na 100”
• inaczej: jesteśmy w 95% pewni, że jeżeli dana hipoteza „zerowa” jest prawdziwa to nasz
test ją zaakceptuje
• dana hipoteza alternatywna jest, z kolei, odrzucana na poziomie istotności 5%
• inaczej: możemy się mylić co do odrzucenia hipotezy alternatywnej z prob. 5%
8
9
Testowanie hipotez – rozkład normalny (ogólny przykład)
Hipoteza „zerowa” H0:
• statystyka St podlega rozkładowi normalnemu N(St, St)
• powiedzmy, że chcemy odrzucić hipotezę, jeżeli wartość badanej statystyki jest zbyt
duża lub zbyt mała
• badamy oczywiście odpowiednią zmienną standardową:
• tzw. przedział krytyczny ustalamy na podstawie przyjętego P.I.
• np. dla  = 0.05
Obszar
krytyczny
Wartości
krytyczne
10
Testowanie hipotez – rozkład normalny (ogólny przykład)
• jeżeli H0 prawdziwa, wówczas, dla konkretnej próby wartość statystyki St powinna być
taka, że odpowiadająca jej wartość zmiennej losowej z leży w przedziale z  (-1.96, 1.96)
• przypadek, dla którego nie jest to prawdą może zdarzyć się z prob. 5%, jeżeli H0 jest
prawdziwa!
• w drugim przypadku, możemy stwierdzić, że obserwowany wynik jest istotnie różny od
spodziewanego (gdy hipoteza zerowa jest prawdziwa)
• daje nam to ilościowe narzędzie do przyjęcia lub odrzucenia danej hipotezy (pomiar
znajduje się w obszarze krytycznym)
• zwykle silne stwierdzenie dotyczy odrzucenia danej hipotezy
Możemy przyjąć więc następującą strategię:
• odrzucić daną hipotezę „zerową” na P.I.  = 0.05 gdy dla badanej statystyki
odpowiadająca jej wartość Z.L. standardowej znajduje się w obszarze krytycznym
• mówimy, że eksperymentalna statystyka z próby jest znacząca na poziomie 0.05
• zaakceptować (lub nie formułować żadnych wniosków) w przeciwnym przypadku
11
Testowanie hipotez – testy jedno- i dwustronne
Podział testów jest intuicyjny:
• jeżeli interesuje nas przedział krytyczny po obu stronach wartości oczekiwanej badanej
statystyki – test dwustronny
• gdy interesuje nas przedział krytyczny tylko po jednej stronie (np. badamy, czy nowy
proces, technologia, lekarstwo itp. jest lepsze/gorsze od obecnie stosowanego) – test
jednostronny
Poziom istotności 
Wartości krytyczne dla
testu jednostronnego
lub
lub
lub
lub
lub
Wartości krytyczne dla
testu dwustronnego
i
i
i
i
i
12
p-wartość (p-value) – graniczny poziom istotności
p-wartość – jest prob. otrzymania statystyki testowej o wartości co najmniej
takiej samej jak zaobserwowana w eksperymencie, zakładając że hipoteza „zerowa”
jest prawdziwa
Jak możemy wykorzystać p-wartość?
W praktyce, nasz test bada hipotezę H0, która stwierdza, że wartość parametru
populacji ma pewną konkretną wartość oraz hipotezę alternatywną H1, która może
stwierdzać co następuje:
• parametr jest większy niż przewidywany przez H0 (test prawostronny)
• parametr jest mniejszy niż przewidywany przez H0 (test lewostronny)
• parametr jest większy/mniejszy niż przewidywany przez H0 (test dwustronny)
Przykład
Załóżmy, że zmienna losowa podlega rozkładowi N o  = 3, natomiast H0 stanowi: µ = 12.
Losujemy próbę o rozmiarze n = 36, dla której wartość średnia wynosi: = 12.95. Statystyka
testowa:
13
c.d. Przykład
p-wartość zależy oczywiście od hipotezy alternatywnej:
• H1: µ > 12 (test prawostronny) – p-wartość to prob., że wartość średnia dla próby
losowej (n = 36) wyniesie 12.95 lub więcej, jeżeli prawdziwa średnia populacji wynosi 12
(hipoteza „zerowa”) czyli:
Co odpowiada stwierdzeniu: w 3 przypadkach na 100, wartość średnia z próby o rozmiarze
n = 36 może być większa (bądź równa) 12.95 jeżeli prawdziwa wartość średnia populacji
wynosi 12 (fluktuacja statystyczna!)
• H1: µ < 12 (test lewostronny) – p-wartość to prob., że wartość średnia dla próby losowej
(n = 36) wyniesie 12.95 lub mniej, jeżeli prawdziwa średnia populacji wynosi 12, czyli:
To jest równoznaczne ze stwierdzeniem: w 97 przypadkach na 100 wartość średnia z
próby da wartość 12.95 lub mniejszą, gdy prawdziwa wartość średnia populacji wynosi 12
• H1: µ ≠ 12 (test dwustronny) – p-wartość to prob., że wartość średnia dla próby losowej
(n = 36) będzie odchylona o 0.95 lub więcej (pamiętamy o jednostkach!) od wartości
prawdziwej 12:
p-wartość wyniesie w tym przypadku:
14
c.d. Przykład
Komentarz…
W ogólności – gdy p-wartość jest mała – mamy przesłanki do odrzucona hipotezy „zerowej”
i przyjęcie alternatywnej
• H1: µ > 12 (test prawostronny) – p-wartość mała (0.029), powinniśmy stwierdzić, że
istnieje duże prob., że prawdziwa wartość oczekiwana populacji jest większa niż 12
• H1: µ < 12 (test lewostronny) – p-wartość jest duża (0.97), silny dowód na to, że hipoteza
„zerowa” nie powinna być odrzucona na rzecz alternatynej
• H1: µ ≠ 12 (test dwustronny) – p-wartość mała (0.057), sugeruje możliwość odrzucenia
hipotezy „zerowej” na rzecz alternatywnej
UWAGA – istotna cecha testowania hipotez: test nie pozwala odrzucać bądź przyjmować
hipotez „zerowych” bez odniesienia do hipotez alternatywnych. Identyczne p-wartości lub P.I.
mogą prowadzić do różnych wniosków co do H0 w zależności od tego jaka jest hipoteza
alternatywna.
15
16
Testowanie hipotez – duża próba, wartość średnia
Przykład
Dostawca lin stalowych twierdzi, że opracował nową technologię produkcji, dzięki której liny
charakteryzują się większą wytrzymałością na zrywanie. Pobrano losową próbę w celu
weryfikacji tego twierdzenia, n = 50, i znaleziono, że średnia siła zrywająca FMAX’ = 25 kN.
Parametry starego typu lin charakteryzują się wartością maksymalnej siły zrywającej FMAX =
24.3 kN oraz Fmax = 1.4 kN. Czy stwierdzenie producenta są uzasadnione?
Wybierzmy P.I.  = 0.01, H0: µ = 24.3 kN, H0: µ > 24.3 kN
17
Przykład (c.d.)
Decyzja statystyczna:
• jeżeli wartość Z.L. standardowej w pobranej próbce przekroczy założony P.I. (2.33),
powiemy, że uzyskany rezultat jest znaczący na poziomie 0.01 – odrzucimy wówczas
hipotezę „zerową”
• w przeciwnym przypadku nie mamy podstaw do jej odrzucenia, policzmy…
Uzyskany wynik znacząco przekracza wartość krytyczną, 2.33 , wynikającą z przyjętego P.I.
Wniosek – uzyskany rezultat jest znaczący na P.I.  = 0.01
p-wartość dla naszego przypadku wynosi: P(Z ≥ 3.53) ≈ 0.0002, odpowiada to prob., że
zaobserwowana (bądź większa) wartość siły zrywającej jest efektem fluktuacji statystycznej.
18
Testowanie hipotez – duża próba, różnica wartości średnich
Dla dużych próbek rozkład eksperymentalny statystyki będącej różnicą średnich jest
w przybliżeniu normalny, mamy więc:
Używając powyższej Z.L. standardowej możemy testować istotność zaobserwowanej różnicy
względem hipotez alternatywnych na wybranym P.I.
19
Testowanie hipotez – mała próba, wartość średnia
W przypadku, gdy mamy do czynienia z małymi próbami (n < 30) możemy
sformułować testy statystyczne analogiczne do omówionych, z tą różnicą, że
zamiast wartości krytycznych wyznaczonych na podstawie rozkładu normalnego
stosujemy rozkład t-Studenta.
W takim przypadku, aby przetestować hipotezę H0, że pewien rozkład normalny
posiada wartość oczekiwaną  możemy zastosować następującą Z.L.:
W tym przypadku odpowiednie wartości krytyczne t dobieramy na podstawie
rozkładu t-Studenta
Przykład
Parametry nominalne lin produkowanych przez firmę A zawierają średnią wartość maksymalnej
siły zrywającej, która wynosi 25 kN. Dział badawczy pobrał próbę składającą się z 6
fragmentów lin. Średnia wartość siły zrywającej otrzymanej z próby wyniosła 24.3 kN
a odchylenie standardowe 0.45 kN. Czy otrzymane wartości są zgodne z parametrami
nominalnymi?
20
Przykład (c.d.)
Wybierzmy P.I.  = 0.01, H0: µ = 25 kN, H1: µ < 25 kN
Zastosujemy test jednostronny.
Zakładając, że hipoteza „zerowa” jest prawdziwa mamy:
Decyzja statystyczna:
• zaakceptujemy H0 gdy T > -t0.95, wartość krytyczną dla rozkładu t-Studenta
odczytujemy z tablic: -t0.95 = -2.01 (dla 6 – 1 stopni swobody) – T > -2.01
• odrzucamy w przeciwnym przypadku
Dla naszego przykładu T = -3.47 – odrzucamy więc hipotezę „zerową”.
21
Związek pomiędzy testowaniem hipotez i estymacją
Popatrzmy na dwustronny test dla wartości średniej:
W tym przypadku, zaakceptowaliśmy hipotezę „zerową” na P.I.  = 0.05, łatwo
możemy przepisać to w następującej formie:
Powyższe wyrażenie, możemy zinterpretować jako 95% przedział ufności dla
parametru „a”. Możemy więc, w przypadku testu dwustronnego, zastosować
technikę przedziałów ufności do testowania hipotez statystycznych!
22
Test 2
Załóżmy, że interesuje nas porównanie teoretycznego R.G.P. opisującego rozkład
zmiennej losowej X będącej liczbą oczek na ściance kostki a eksperymentem.
Przeprowadzamy eksperyment polegający na N = 120 krotnym rzucie pojedynczą
kostką. Jeżeli prob. wyrzucenia poszczególnych ścian zapiszemy jako pi {i = 1,…, 6}
to spodziewamy się, że odpowiednie częstości obserwacji wyniosą ni = N pi = 20.
Pytanie (1): w jaki sposób zmierzyć odchyłkę pomiędzy rozkładem teoretycznym
a eksperymentalnym?
Pytanie (2): jakie wnioski możemy na tej podstawie (pomiar odchylenia) wyciągnąć
(np. kostka jest fałszywa)?
Okazuje się, że istnieje statystyka, którą można się posłużyć do wyznaczenia
miary tego odchylenia, oraz na tej podstawie przeprowadzić odpowiedni test.
Zapiszmy:
23
Aby zapoznać się z praktycznym zastosowaniem techniki testu 2 rozważmy
następujący przykład:
Tzw. detektor wierzchołka w eksperymencie LHCb składa się z sensorów przedstawionych na
rysunku:
Załóżmy, że interesuje nas czy cząstki rejestrowane w takim detektorze posiadają rozkład
płaski w funkcji kąta azymutalnego . Dla wybranego sensora rejestrujemy 20000 cząstek.
Zgodnie z naszą hipotezą „zerową”, R.G.P. opisujący rozkład cząstek („teoretyczny”) ma postać:
24
Rozkład eksperymentalny (częstość) liczby cząstek na bin w kącie azymutalnym:
Chcemy wiedzieć, czy odchyłka pomiędzy zmierzonym rozkładem a linią prostą
reprezentującą rozkład płaski wynika z fluktuacji statystycznej czy przedstawia
inny rozkład, który różni się istotnie od proponowanego.
25
Statystyka testowa dla naszego przykładu ma postać:
Przy zadanym P.I. (np. 0.05) możemy na podstawie tablic statystycznych wyznaczyć
krytyczną wartość statystyki testowej:
Jeżeli wyznaczona przez nas wartość eksperymentalna 2 jest większa od
krytycznej mamy podstawy do odrzucenia hipotezy o płaskim rozkładzie cząstek.
Zachęcam do przeliczenia powyższego przykładu do końca (odpowiednie tablice
będą dostępne na stronie). Liczba stopni swobody: 24 – 1.
26
27