Hipotezy statystyczne Definicja, sformułowanie i weryfikacja Autor: Janusz Górczyński Definicja Hipotezą statystyczną jest dowolne zdanie orzekające o parametrach populacji lub jej rozkładzie.

Download Report

Transcript Hipotezy statystyczne Definicja, sformułowanie i weryfikacja Autor: Janusz Górczyński Definicja Hipotezą statystyczną jest dowolne zdanie orzekające o parametrach populacji lub jej rozkładzie.

Slide 1

Hipotezy statystyczne
Definicja, sformułowanie i
weryfikacja

Autor: Janusz Górczyński

1


Slide 2

Definicja
Hipotezą statystyczną jest dowolne zdanie orzekające o
parametrach populacji lub jej rozkładzie. Prawdziwość hipotezy
jest oceniana na podstawie wyników próby losowej.
Hipoteza statystyczna może orzekać o parametrach populacji i
takie hipotezy nazywamy hipotezami parametrycznymi.

Pozostałe hipotezy statystyczne (te, które nie dotyczą
parametrów), nazywamy hipotezami nieparametrycznymi.

Autor: Janusz Górczyński

2


Slide 3

Hipotezy parametryczne
Przykład 1.
Interesuje nas wydajność pracy pracowników pewnego
zakładu produkcyjnego. Zakładamy, że modelem tej cechy
może być zmienna losowa normalna o nieznanych
parametrach m i .
Przypuszczamy, że średnia wydajność (w populacji) jest
równa znanej wartości m0. Tym samym sformułowaliśmy
hipotezę statystyczną dotyczącą parametru m:

H 0 : m  m0
Autor: Janusz Górczyński

3


Slide 4

Hipotezy nieparametryczne
Przykład 2.
W poprzednim przykładzie założyliśmy, że interesująca nas
cecha (wydajność pracy pracowników) może być
modelowana zmienną losową normalną. Możemy więc
sformułować hipotezę dotyczącą rozkładu tej cechy:
H 0 : X ~ N ( m;  )

Autor: Janusz Górczyński

4


Slide 5

Weryfikacja hipotezy
Hipoteza statystyczna musi być na podstawie wyników próby
zweryfikowana.
Testem statystycznym nazywamy regułę postępowania,
która każdej możliwej próbie przyporządkowuje decyzję
odrzucenia hipotezy lub nie daje podstaw do podjęcia takiej
decyzji.
Proces weryfikacji hipotezy statystycznej obejmuje z jednej
strony jej sformułowanie (jako tzw. hipotezy zerowej), z
drugiej strony musimy sformułować hipotezę alternatywną
oznaczaną z reguły symbolem H1.
Autor: Janusz Górczyński

5


Slide 6

Weryfikacja hipotez statystycznych
Rozpatrzmy hipotezę parametryczną z przykładu 1, gdzie
wypowiadaliśmy się o możliwej wartości średniej
generalnej. Odpowiednią hipotezę zerową i alternatywną
możemy zapisać jako:

H 0 : m  m0

H 1: m  m0

Na podstawie wyników próby losowej chcemy teraz
skonstruować taki test statystyczny, który da możliwość
podjęcia decyzji co do prawdziwości hipotezy zerowej.

Autor: Janusz Górczyński

6


Slide 7

Weryfikacja hipotez statystycznych (c.d.)
Przy konstrukcji testu skorzystamy z faktu, że statystyka:
t

x  m0
sx

ma, przy prawdziwości H0:m=m0, rozkład t-Studenta z liczbą
stopni swobody v = n - 1.
Załóżmy, że H0:m=m0 jest prawdziwa.

Jeżeli tak, to m  m0 = 0 oraz x  m 0  0 (ponieważ x  m ).
Tym samym wartość statystyki t powinna niewiele odbiegać
od zera (jeżeli H0 jest prawdziwa).
Autor: Janusz Górczyński

7


Slide 8

Weryfikacja hipotez statystycznych (c.d.)
W sytuacji, gdy wartości statystyki t będą odbiegać od zera
dość znacznie, to powinniśmy zacząć wątpić w prawdziwość
naszego założenia (o tym, że m  m 0 ).
Pozostaje do rozstrzygnięcia kwestia, kiedy można uznać, że
wyniki naszej próby świadczą przeciwko prawdziwości hipotezy zerowej. Wykorzystamy do tego celu fakt, że dla każdego
t

x  m0
sx

znajdziemy taką wartość t  , v
równość

, dla której spełniona jest

P ( t  t  ,v )  
Autor: Janusz Górczyński

8


Slide 9

Weryfikacja hipotez statystycznych (c.d.)
Tym samym wartość t  , v wyznacza nam obszar krytyczny
dla naszej hipotezy H0:
(  ;  t  ,v )  ( t  , v ;   )

Jeżeli wartość empiryczna statystyki t znajdzie się w tym
obszarze, to H0 musimy odrzucić jako zbyt mało
prawdopodobną.
Obszar (  t  ,v ; t  , v ) jest obszarem dopuszczalnym dla H0 ,
mówimy, że wyniki naszej próby nie przeczą hipotezie zerowej.
Proszę zauważyć, że nie jest to równoważne zdaniu, że hipoteza
zerowa jest prawdziwa! (my jej tylko nie możemy odrzucić).
Autor: Janusz Górczyński

9


Slide 10

Błędy weryfikacji
Wyniki próby mogą być takie, że uznamy za fałszywą i
odrzucimy hipotezę H0 , która w rzeczywistości jest
prawdziwa. Jest to tzw. błąd I rodzaju, a prawdopodobieństwo jego popełnienia jest równe .
Możliwa jest także sytuacja odwrotna: wyniki próby nie
pozwoliły na odrzucenie H0 , która w rzeczywistości była
fałszywa. Popełniamy wtedy tzw. błąd II rodzaju, a jego
prawdopodobieństwo jest równe .
Zwiększenie liczebności próby powoduje zmniejszenie
prawdopodobieństwa .

Autor: Janusz Górczyński

10


Slide 11

Błędy weryfikacji cd.
Brak podstaw do
odrzucenia H0

1

P-stwo 
Błąd I rodzaju

P-stwo 
Błąd II rodzaju

P-stwo 1  
Moc testu

H0 prawdziwa P-stwo
H0 fałszywa

Odrzucenie H0

Autor: Janusz Górczyński

11


Slide 12

Hipoteza o średniej generalnej m
Niech zmienna losowa X ma rozkład normalny o nieznanych
parametrach m i . Na podstawie n-elementowej próby
losowej chcemy zweryfikować hipotezę zerową H 0 : m  m 0
wobec alternatywy H 1 : m  m 0
Procedura testowa:
1. Ustalamy poziom istotności 
2. Obliczamy wartość empiryczną statystyki t-Studenta
t emp . 

x  m0
Sx

3. Odczytujemy z tablic statystycznych wartość krytyczną
statystyki t  , v  n 1
Autor: Janusz Górczyński

12


Slide 13

Hipoteza o średniej generalnej m (c.d)
Wnioskowanie:
Jeżeli t em p .  t  , v , to H0 odrzucamy na korzyść H1.

Jeżeli t em p .  t  , v , to nie mamy podstaw do odrzucenia
H0.

Autor: Janusz Górczyński

13


Slide 14

Hipoteza o średniej generalnej m (c.d.)
Hipoteza H 0 : m  m 0 może być także weryfikowana przy
inaczej skonstruowanej hipotezie alternatywnej ( H 1 : m  m 0
lub H 1 : m  m 0 ). Procedura weryfikacyjna przebiega
podobnie, zmienia się tylko obszar krytyczny:
Hipoteza zerowa

Alternatywa (jednostronna)

H 0 : m  m0

H 1: m  m0

Obszar krytyczny

(  ,  t 2  , v )

( t 2  ,v ,   )

H0 odrzucamy, jeżeli:

t em p   t 2  , v

t em p  t 2  , v

Autor: Janusz Górczyński

H 1: m  m0

14


Slide 15

Hipoteza o równości dwóch średnich
generalnych
Niech X 1 ~ N ( m1 ;  ) oraz X 2 ~ N ( m 2 ;  ) . Na podstawie
odpowiednich prób losowych chcemy zweryfikować hipotezę:
H 0 : m1  m 2 wobec H 1 : m1  m 2
Procedura testowa:
1. Ustalamy poziom istotności 
2. Obliczamy wartość empiryczną statystyki t-Studenta
t em p . 

x1  x 2
sr

3. Odczytujemy z tablic statystycznych wartość krytyczną
statystyki t
 , v  n1  n 2  2

Autor: Janusz Górczyński

15


Slide 16

Hipoteza o równości dwóch średnich
generalnych (c.d.)
Wnioskowanie o prawdziwości
H 0 : m1  m 2 wobec

H 1 : m1  m 2

Jeżeli t em p .  t  , v , to H0 odrzucamy jako zbyt mało
prawdopodobną.

Jeżeli t em p .  t  , v , to nie mamy podstaw do odrzucenia H0.

Autor: Janusz Górczyński

16


Slide 17

Hipoteza o różnicy średnich generalnych
(c.d.)
Niech X 1 ~ N ( m1 ;  ) oraz X 2 ~ N ( m 2 ;  ) . Na podstawie
odpowiednich prób losowych chcemy zweryfikować
hipotezę: H 0 : m1  m 2
Hipoteza alternatywna może być jednostronna ( H 1 : m1  m 2
lub H 1 : m1  m 2 )
Procedura testowa przebiega podobnie jak poprzednio,
zmieniają się jedynie obszary krytyczne.
Hipoteza zerowa
Hipotezy alternatywne
H 0 : m1  m 2

Obszar krytyczny

H 1 : m1  m 2

H 1 : m1  m 2

(  ,  t 2  , v )

( t 2  ,v ,   )

Autor: Janusz Górczyński

17


Slide 18

Inny sposób weryfikacji hipotezy o
równości średnich. NIR
Hipoteza
H 0 : m1  m 2
odrzucana wtedy, gdy:

przy

H 1 : m1  m 2

jest

t em p .  t  , v
x1  x 2
sr

 t  ,v 

x1  x 2
sr

 t  ,v  x 1  x 2  t  ,v sr

Iloczyn t  , v sr nazywamy najmniejszą istotną różnicą
(least significant difference) i oznaczamy skrótem NIR
(LSD).
Autor: Janusz Górczyński

18


Slide 19

Najmniejsza istotna różnica
Hipotezę H 0 : m1  m 2 przy alternatywie H 1 : m1  m 2 będziemy
odrzucać wtedy, gdy:
x 1  x 2  N IR

NIR (LSD) jest taką różnicą wartości danej cechy w dwóch
populacjach, którą jeszcze można uznać za losową
(przypadkową).
Różnice większe od NIR są już spowodowane własnościami
danych populacji (nie są przypadkowe).

Autor: Janusz Górczyński

19


Slide 20

Test istotności dla frakcji
Niech zmienna X ma w populacji rozkład zero-jedynkowy z
prawdopodobieństwem sukcesu p. Parametr ten można
interpretować jako wskaźnik struktury w populacji.
Interesuje nas weryfikacja hipotezy zerowej:
H 0 : p  p 0 wobec H 1 : p  p 0
Procedura weryfikacyjna wykorzystuje rozkład N(0, 1):
1. Obliczamy z em p . 

p  p 0
p (1  p )

gdzie

p 

k
n

n

2. H0 odrzucamy, jeżeli

z em p .  z 
Autor: Janusz Górczyński

20


Slide 21

Test istotności dla różnicy frakcji
Rozważmy dwie zmienne zero-jedynkowe z parametrami
odpowiednio p1 i p2. Interesuje nas weryfikacja H 0 : p1  p 2
przy alternatywie H 1 : p1  p 2 .
Niech p  k oraz p 2  k 2 oznaczają odpowiednio frakcje
n
n2
elementów wyróżnionych w obu próbach.
1

1

1

Wiadomo, że


p (1  p 1 )
p (1  p 2 ) 
p 1  p 2 ~ N  p 1  p 2 ; 1
 2

n1
n2



Jeżeli H 0 : p1  p 2  p jest prawdziwa, to

 1
1 
p 1  p 2 ~ N  0 ; p (1  p ) 


 n1 n 2  


gdzie p oznacza wspólną wartość dla obu zmiennych.
Autor: Janusz Górczyński

21


Slide 22

Test istotności dla różnicy frakcji (c.d.)
Jako ocenę wspólnego prawdopodobieństwa sukcesu dla obu
zmiennych przyjmuje się wyrażenie:
p 

k1  k 2
n1  n 2

Ostatecznie statystyka

ma rozkład N(0, 1).
Hipotezę H 0 : p1  p 2
jeżeli

z em p 

p 1  p 2
 1
1
p (1  p ) 


n
n
 1
2 

przy H 1 : p1  p 2

odrzucamy,

z em p .  z 
Autor: Janusz Górczyński

22


Slide 23

Test istotności dla wariancji
Niech X

~ N (m;  )
2

, interesuje nas weryfikacja hipotezy
2
2
2
2
przy
alternatywie
.
H
:



H 0 :   0
1
0
W praktyce nie formułuje się H1 jako dwustronnej czy
lewostronnej, co wynika z faktu, że duża wariancja jest
niekorzystna.
Weryfikację hipotezy zerowej przeprowadzamy w oparciu o nelementową próbę wykorzystując fakt, że statystyka
( n  1) s



2

2

ma rozkład 

2

z liczbą stopni swobody v = n – 1.

Autor: Janusz Górczyński

23


Slide 24

Test istotności dla wariancji (c.d.)
Jeżeli prawdziwa jest H0, to statystyka  em p 
2

( n  1) s

ma rozkład  2 z liczbą stopni swobody v = n - 1.

2

0
2

Wnioskowanie:
2
2
Jeżeli  em p    , v  n  1 , to H0 odrzucamy na korzyść H1.
Jeżeli  em p    , v  n  1
2

2

, to nie mamy podstaw do odrzucenia

H0 .

Autor: Janusz Górczyński

24


Slide 25

Test istotności dla dwóch wariancji
Niech X 1 ~ N ( m1 ;  1 ) oraz X 2 ~ N .( m 2 ;  2 )
Na podstawie odpowiednich prób losowych chcemy
2
2
zweryfikować H 0 :  12   22 przy alternatywie H 1 :  1   2
Statystyka

2

F 

2

s1

s2

1

2

2

2

ma rozkład Fishera-Snedecora z liczbami stopni swobody
u  n1  1 oraz v  n 2  1

.

Autor: Janusz Górczyński

.
25


Slide 26

Test istotności dla dwóch wariancji (c.d.)
Jeżeli H 0 :  12   22

F 

jest prawdziwa, to również statystyka
2

s1
s

2
2

ma rozkład Fishera-Snedecora z liczbami stopni swobody
u  n1  1 oraz v  n 2  1 .
Z uwagi na konstrukcję tablic statystycznych, które zawierają
wartości tylko dla prawostronnego obszaru krytycznego,
wartość empiryczną statystyki F budujemy tak, aby była
większa od 1 (w liczniku umieszczamy większą wariancję z
próby).
Autor: Janusz Górczyński

26


Slide 27

Test istotności dla dwóch wariancji (c.d.)
Wnioskowanie:
2
s1
1. Obliczamy wartość empiryczną statystyki Fem p  2
s2

2. Dla ustalonego  odczytujemy z tablic wartość krytyczną
F , u , v gdzie u i v są odpowiednio liczbami stopni swobody
dla średnich kwadratów w liczniku i mianowniku.
3. Jeżeli

Fem p  F , u , v

, to H 0 :  12   22 odrzucamy na

korzyść H 1 :  12   22

Autor: Janusz Górczyński

27


Slide 28

Hipotezy nieparametryczne
Hipotezy tego typu dotyczą z reguły zgodności rozkładu
empirycznego z rozkładem określonym przez hipotezę lub
zgodności rozkładów pewnej cechy w kilku populacjach bez
określania, o jaki rozkład chodzi. Z tego też powodu testy
służące do weryfikacji takich hipotez nazywamy testami
zgodności.
Do najczęściej stosowanych testów zgodności należą:
2 (chi-kwadrat) Pearsona
 (lambda) Kołmogorowa-Smirnowa
w Shapiro-Wilka

Autor: Janusz Górczyński

28


Slide 29

Test zgodności



2

Niech hipotezą zerową będzie przypuszczenie, że cecha X ma
w populacji rozkład określony dystrybuantą F0(x):
H 0 : F ( x )  F0 ( x )
wobec H 1 : F ( x )  F0 ( x )
t 2
Statystyka
(
n

n
)
j
j
2
 
t
j

nj

przy prawdziwości H0 ma asymptotyczny rozkład  2 z
liczbą stopni swobody v = k -u - 1.

Autor: Janusz Górczyński

29


Slide 30

Test zgodności



2

(c.d.)

n j  np j
t

Wielkość
jest teoretyczną liczebnością w j-tym
przedziale, k jest liczbą przedziałów klasowych, a u liczbą
parametrów szacowanych z próby.
Wartość empiryczną statystyki
(n j  n j )
t

 em p 
2


j

2

t

nj

porównujemy z wartością krytyczną   ,v  k  u  1
wnioskując analogicznie jak w pozostałych hipotezach.
2

Autor: Janusz Górczyński

30


Slide 31

Test zgodności Chi-kwadrat
Elementem kluczowym przy wykorzystaniu statystyki Chikwadrat jest wielkość

p  P ( x  ( x1 j ; x 2 j ))
t
j

Która jest teoretycznym prawdopodobieństwem
wystąpienia obserwacji w j-tym przedziale przy
założeniu prawdziwości H0.

Autor: Janusz Górczyński

31


Slide 32

Test 2 zgodności kilku rozkładów
Obserwujemy tę samą cechę w kilku populacjach. Interesuje
nas odpowiedź na pytanie, czy rozkłady te są takie same (co
pociąga za sobą równość parametrów!).
Jeżeli dystrybuantę danej cechy w i-tej populacji oznaczymy
jako Fi, to hipoteza zerowa ma postać:
H 0 : F1  F2  ...  Fk

Zastosowanie testu 2 wymaga zestawienia próby w postaci
tabeli dwukierunkowej. W jednym kierunku umieszczamy
poziomy danej cechy, w drugim populacje.

Autor: Janusz Górczyński

32


Slide 33

Test 2 zgodności kilku rozkładów (c.d.)
Klasy
cechy X
1
2
:
r

1
n11
n12

n1r

Numer populacji
2
....
n21
....
n22
....
nij
n2r
....

k
nk1
nk2

nkr

Autor: Janusz Górczyński

33


Slide 34

Test 2 zgodności kilku rozkładów (c.d.)
k

Statystyka testowa ma postać:

 
2

r



i 1 j 1

gdzie n 
t
ij

n

ij

n

t
ij



2

t

n ij

ni   n j
n

Przy prawdziwości H0 statystyka ta ma rozkład 2 Pearsona z
liczbą stopni swobody v=(k-1)(r-1).
Wnioskowanie przebiega analogicznie jak przy innych
hipotezach.
Autor: Janusz Górczyński

34


Slide 35

Podejmowanie decyzji weryfikacyjnych na
podstawie krytycznego poziomu istotności
Dotychczas podejmowaliśmy decyzje weryfikacyjne poprzez
zbadanie, czy wartość empiryczna statystyki testowej
znajduje się w obszarze krytycznym danej hipotezy (przy z
góry ustalonym poziomie istotności ).
W pakietach statystycznych stosuje się inne podejście
polegające na obliczeniu dla konkretnej statystyki z próby
prawdopodobieństwa odrzucenia hipotezy zerowej.
Prześledźmy to na przykładzie weryfikacji hipotezy
H 0 : m  m0

w obec H 1 : m  m 0

Autor: Janusz Górczyński

35


Slide 36

Krytyczny poziom istotności
(c.d.)
Dla wartości empirycznej statystyki temp wyznaczonej na
podstawie n-elemnetowej próby obliczane jest prawdopodobieństwo otrzymania wartości statystyki testującej co
najmniej tak dużej, jak ta uzyskana z próby, czyli
p  P ( t  t emp )
Kryterium odrzucenia hipotezy zerowej jest relacja
wyznaczonego prawdopodobieństwa do przyjętego
poziomu istotności .

Jeżeli p   , to H0 odrzucamy.

Jeżeli p   , to nie mamy podstaw do odrzucenia H0.

Autor: Janusz Górczyński

36