Wnioskowanie statystyczne

Download Report

Transcript Wnioskowanie statystyczne

Wnioskowanie statystyczne
CZEŚĆ III
dr Urszula Gierałtowska
Wnioskowanie statystyczne
Zadaniem statystyki matematycznej jest wnioskowanie o populacji generalnej na podstawie
populacji próbnej. Wnioskowanie to polegać może na weryfikacji przyjętego modelu teoretycznego.
Na jego podstawie formułowana jest hipoteza, z kolei wnioskowanie ma ją potwierdzić lub
odrzucić. Hipoteza powinna być tak sformułowana, aby można było ją łatwo przyjąć lub odrzucić.
Hipoteza statystyczna – każde przypuszczenie dotyczące poszczególnych parametrów
(charakterystyk) lub rozkładu określonej zmiennej losowej, że o prawdziwości lub fałszywości tego
przypuszczenia można wnioskować w oparciu o losowo pobraną próbę realizacji tej zmiennej losowej.
Wnioskowanie o słuszności postawionej hipotezy nazywamy sprawdzianem hipotezy lub weryfikacją
hipotezy.
Wnioskowanie statystyczne
Rodzaje hipotez:
Hipoteza statystyczna
PARAMETRYCZNA
(parametryczne testy istotności)
precyzuje wartość parametru
w rozkładzie populacji gen.
NIEPARAMETRYCZNA
(nieparametryczne testy istotności)
orzeka o typie rozkładu
TESTY ZGODNOŚCI
sprawdzają hipotezę, że populacja ma
określony typ rozkładu
TESTY SPRAWDZAJĄCE
CZY 2 PRÓBY POCHODZĄ
Z JEDNEJ POPULACJI
Hipotezy:
– proste – w jednoznaczny sposób określa zarówno typ rozkładu (rodzinę dystrybuant), jak i wartości
parametrów, od których zależy dystrybuanta rozpatrywanej zmiennej losowej,
– złożona – nie określa rozkładu w sposób jednoznaczny (hipotezy nieparametryczne mają charakter
złożony, gdyż nie uwzględniają wartości parametrów rozkładu)
Wnioskowanie statystyczne
Weryfikacja hipotez statystycznych polega na zastosowaniu określonego schematu postępowania
zwanego testu statystycznego, który rozstrzyga, przy jakich wynikach z próby sprawdzoną hipotezę należy
odrzucić, a przy jakich nie ma podstaw do jej odrzucenia.
Hipoteza zerowa – hipoteza sprawdzająca oznaczana H0 – jest to hipoteza poddana procedurze
weryfikacyjnej, w której zakładamy, że różnica między analizowanymi parametrami lub
rozkładami wynosi zero.
Hipoteza alternatywna – hipoteza, którą skłonni jesteśmy przyjąć, jeżeli w świetle wyników próby
statystycznej należy odrzucić hipotezę H0. Oznaczamy ją H1.
Dla kształtu rozkładu pewnej zmiennej losowej określa się hipotezę zerową w następujący sposób:
H 0 : F( x)  ,
która mówi, że dana dystrybuanta rozkładu empirycznego uzyskanego z próby F(x) jest elementem
pewnego zbioru funkcji rozkładu teoretycznego  o określonej dystrybuancie. Hipoteza alternatywna
będzie w tym przypadku sformułowana następująco: H 1: F( x)  ,
Testem statystycznym nazywamy regułę postępowania rozstrzygająca, przy jakich wynikach próby
hipotezę sprawdzaną H0 można przyjąć oraz przy jakich należy ją odrzucić.
Wnioskowanie statystyczne
Podejmując decyzję przyjęcia lub odrzucenia hipotezy narażamy się na popełnienie błędu I rodzaju,
polegającego na odrzuceniu hipotezy prawdziwej, jak i na popełnienie błędu II rodzaju, polegającego na
przyjęciu hipotezy fałszywej. Konstrukcja testu zależy od postaci hipotezy zerowej H0 (bezpośrednio
weryfikowanej) oraz postaci hipotezy alternatywnej H1 (konkurencyjnej do H0).
Hipoteza H0
Decyzja
Przyjąć H0
Odrzucić H0
jest prawdziwa
jest fałszywa
decyzja poprawna
1-a
decyzja błędna
b
Błąd drugiego rodzaju
decyzja błędna
a
Błąd pierwszego rodzaju
(poziom istotności)
decyzja poprawna
1–b
Moc testu
Wnioskowanie statystyczne
Błąd pierwszego rodzaju (a), który polega na odrzuceniu hipotezy zerowej, mimo że jest ona
prawdziwa. Błąd ten zwany jest poziomem istotności. Poziom istotności wskazuje, na jak mały błąd
„zgadzamy się” przy weryfikacji hipotezy zerowej. Poziom istotności określa dopuszczalną częstość
wystąpienia wyników niezgodnych z przyjętymi założeniami na skutek losowego charakteru próby.
Błąd drugiego rodzaju (b) polega na przyjęciu hipotezy zerowej, gdy jest ona w rzeczywistości fałszywa.
Moc testu: prawdopodobieństwo 1-b, tj. prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona
fałszywa, a hipoteza alternatywna jest prawdziwa. Testem najmocniejszym jest ten, którego, przy
ustalonym poziome istotności a, wartość b jest najmniejsza.
1.
Moc zależy od odległości między wartością parametru zakładaną w hipotezie zerowej a
prawdziwą wartością parametru – im większa odległość tym większa moc.
2.
Moc zależy od wielkości odchylenia standardowego w populacji – im mniejsze odchylenie,
tym większa moc.
3.
Moc zależy od liczebności próby – im liczniejsza próba, tym większa moc.
4.
Moc zależy od poziomu istotności testu – im niższy poziom istotności, tym mniejsza moc
testu.
Wnioskowanie statystyczne
Budowa testu istotności:
1. określić hipotezę zerową H0 i alternatywną H1;
2. określić poziom istotności a oraz wielkość próby n (lub prób), a w pewnych przypadkach
wielkości zbiorowości generalnej N;
3. określić zastosowany sposób losowania;
4. w przypadku testu parametrycznego sprawdzić rozkład zbiorowości generalnej;
5. wybrać odpowiedni test statystyczny dla oceny hipotezy zerowej;
6. obliczyć wartość charakterystyki testu na podstawie danych uzyskanych z próby (lub prób);
7. znaleźć w tablicach statystycznych wartość krytyczną na danym poziomie istotności a i
wyznaczyć obszar przyjęcia i odrzucenia hipotezy zerowej;
8. podjąć decyzję.
Wnioskowanie statystyczne
Do weryfikacji hipotez parametrycznych najczęściej wykorzystywanymi testami są: dla dużej próby
statystyka u, dla małej próby statystyka t-Studenta. Są to tzw. testy istotności, które znajdują
zastosowanie w sytuacji, gdy interesuje nas pytanie, czy hipotezę zerową można odrzucić – a nie
badamy innych hipotez. Z tym, że statystyka u wykorzystuje rozkład normalny, z kolei statystyka t rozkład
t-Studenta.
Reguła decyzyjna przy testowaniu hipotezy statystycznej polega na porównaniu wartości sprawdzianu z
wartościami rozgraniczającymi obszary odrzucenia i nieodrzucenia. Hipotezę zerową odrzucamy wtedy i
tylko wtedy, gdy sprawdzian wpada w obszar odrzucenia przy przyjętym poziomie istotności a.
Obszarem odrzucenia hipotezy statystycznej jest taki zbiór liczb, że jeżeli sprawdzian
przyjmie wartość z tego zbioru, to hipotezę zerową odrzucimy. Obszar odrzucenia określany
jest jako obszar krytyczny.
Obszarem nieodrzucenia (przyjęcia) hipotezy statystycznej jest taki zbiór liczb, że jeżeli
sprawdzian przyjmie wartość z tego zbioru, to hipotezy zerowej nie odrzucimy.
Wartość krytyczna testu – wartość zmiennej losowej o określonym rozkładzie, która przy danym poziomie
istotności stanowi koniec przedziału odrzucenia.
Wnioskowanie statystyczne
Przed przystąpieniem do testowania muszą być sformułowane obie hipotezy: zerowa i alternatywna.
Testem dwustronnym jest test, którego obszar odrzucenia
składa się z wartości położonych pod dwoma „ogonami”
krzywej gęstości rozkładu sprawdzianu (przy założeniu
prawdziwości hipotezy zerowej)
Test jednostronny zostanie zastosowany, jeżeli chcemy sprawdzić, czy parametr przyjmie wartość
większą lub mniejszą od określonej liczby. Wybór jedno- lub dwustronnego testu hipotezy
statystycznej jest wyznaczony przez potrzebę działania.
Jeżeli działanie będzie podjęte, gdy parametr przekroczy
pewną wartość a, to alternatywną hipotezą będzie, że
parametr jest większy od a i zastosujemy test prawostronny.
Jeżeli zaś działanie będzie podjęte, gdy parametr przyjmie
wartość mniejszą od a, to alternatywną hipotezą będzie, że
parametr jest mniejszy od a i zastosujemy test lewostronny.
W przypadku testów jednostronnych prawdopodobieństwo popełnienia błędu pierwszego rodzaju a,
wyobraża pole pod jednym „ogonem” krzywej gęstości
Wnioskowanie statystyczne
Wnioskowanie w testach istotności
Jeżeli wartość statystyki z próby należy do obszaru krytycznego
 odrzucamy H0 na korzyść H1 (przyjmujemy H1)
Jeżeli wartość statystyki z próby nie należy do obszaru krytycznego
 brak podstaw do odrzucenia H0 (co nie jest jednoznaczne z przyjęciem H0)
Jeżeli hipotezę zerową odrzucimy na poziomie istotności a, to odrzucimy ją na każdym większym
poziomie istotności.
Jeżeli hipotezę zerową odrzucimy na poziomie istotności a, to możemy jej nie odrzucić na mniejszym
poziomie istotności.
Wnioskowanie statystyczne
Wartość p (p-value)
Wartością p jest najniższy poziom istotności a, przy którym hipoteza zerowa mogłaby być odrzucona
przy otrzymanej wartości sprawdziany.
Wartość p to prawdopodobieństwo otrzymania takiej wartości sprawdzianu, jaką otrzymaliśmy – lub
wartości skrajniejszej – przy założeniu że hipoteza zerowa jest prawdziwa.
W przypadku testu dwustronnego wartość p jest miarą sumy dwóch pól pod krzywą gęstości rozkładu
znajdujących się na prawo od dodatniej o na lewo od ujemnej wartości sprawdzianu. W przypadku
testów jednostronnych jest miarą pola pod krzywą gęstości rozkładu na prawo od wartości sprawdzianu
(test prawostronny) lub na lewo (test lewostronny).
Przy danym poziomie istotności a odrzucić hipotezę zerową można wtedy i tylko wtedy, jeżeli
a ≥ wartość p. Jeżeli p > a, to brak jest podstaw do odrzucenia H0.
Wnioskowanie statystyczne
Test dla średniej
H0: m = m0
H1: m ≠ m0 lub m > m0
lub m < m0
1° zakładamy, że zmienna losowa X ma rozkład normalny o znanym odchyleniu standardowym s, próba
jest dość duża (powyżej 30), pobrana z populacji o rozkładzie N(m, s). Estymatorem parametru m jest
Standaryzując otrzymujemy zmienną losową
która ma rozkład N(0, 1).
2° zakładamy, że zbiorowość generalna ma dowolny rozkład ciągły o nieznanych parametrach, a próba jest
duża (n > 50). Estymatorem parametru m jest
Wartość statystyki testu:
która ma rozkład N(0, 1).
W obu przypadkach obszar krytyczny uzależniony jest od postaci hipotezy alternatywnej:

a) jeżeli H1: m ≠ m0
OK :  ;  u1 a2  u1 a2 ; 
b) jeżeli H1: m > m0
OK : u1a ; )
c) jeżeli H1: m < m0
OK :  ;  u1a
)
Wnioskowanie statystyczne
3° Zbiorowość generalna ma rozkład normalny o parametrach N(m, s) o nieznanych parametrach, a próba
jest mała (n < 30). Korzystamy ze statystyki t- Studenta z n-1 stopniami swobody. Statystyka testowa
ma postać:
a) jeżeli H1: m ≠ m0
b) jeżeli H1: m > m0
c) jeżeli H1: m < m0
Obszary krytyczne mają postać:
Wnioskowanie statystyczne
Test dla dwóch średnich
H0: m1 = m2
H1: m1 ≠ m2 lub m1 > m2
lub m1 < m2
1° Badamy dwie populacje generalne mające rozkłady normalne N(m1, s1) i N(m2, s2), przy czym
odchylenie standardowe s1 i s2 są znane. Statystyka testu ma postać:
u
x1  x 2
s12 s 22

n1 n 2
2° Zmienna X ma w jednej populacji generalnej ma rozkład N(m1, s1) i w drugiej populacji generalnej ma
rozkład N(m2, s2) lub dowolny inny rozkład o odpowiednio: średniej wartości m1 i o skończonej, ale
nieznanej wartości wariancji s12 oraz średniej wartości m2 i o skończonej, ale nieznanej wartości s22.
Próby duże. Statystyka testu ma postać:
u
x1  x 2
s x 1 ) s x 2 )

n1
n2
2
2
3° Badamy dwie populacje generalne mające rozkłady normalne N(m1, s1) i N(m2, s2), przy czym
odchylenie standardowe nie są znane, ale wiadomo, że s1 = s2 (wariancje nie różnią się istotnie
między sobą). Próby małe. Statystyka testu ma postać:
t
x1  x 2
n1sx1 )  n 2sx 2 )
n1  n 2  2
2
2
 1
1 
  
 n1 n 2 
Wnioskowanie statystyczne
Przykład
W dwóch sklepach badano utargi:
Utarg
2-4
4-6
6-8
8-10
10-12
Suma
A
40
100
30
20
10
200
B
4
26
49
18
3
100
a) w sklepie A przeciętny utarg wynosi 5,5 tyś. zł (a = 0,1)
b) w sklepie B przeciętny utarg jest mniejszy niż 7 tyś. zł (a = 0,01)
c) sklep A osiąga niższą wartość utargu niż sklep B (a = 0,01)
Wnioskowanie statystyczne
Test dla dwóch średnich – próby powiązane
Dane pochodzą z dwóch populacji powiązanych i są powiązane w pary. Dla każdej z par wyznaczmy
różnicę di = yi – xi Zakładamy, że populacja różnic ma rozkład normalny
H0 : z  0
H1 : z  0
z0
z0
– w przypadku małej próby (n – 1 < 30) statystyką testową jest
t
z
 n 1
sz )
– w przypadku dużej próby (n – 1 > 30) statystyką testową jest
u
z
 n
sz )
Przykład
Dla 7 losowo wybranych roślin chmielu wykonano pewne doświadczenie: zapylono połowę roślin, a drugą – nie.
Zapylono 0,75 0,73 0,4 0,89 0,83 0,56 0,65
Nie
0,18 0,09 0,29 0,26 0,27 0,17 0,11
Na poziomie istotności 0,05 zweryfikować hipotezę, że zapylanie roślin zwiększa masę nasion.
Wnioskowanie statystyczne
Test dla wariancji
H0: s2 = s02
H1: s2 ≠ s02 lub s2 > s02
lub s2 < s02
1° zakładamy, że zmienna losowa X ma rozkład normalny o nieznanym odchyleniu standardowym s i
średniej m, próba jest mała (poniżej 30), pobrana z populacji o rozkładzie N(m, s). Estymatorem
parametru s2 jest
a) jeżeli H1: s2 ≠ s20
b) jeżeli H1: s2 > s20
c) jeżeli H1: s2 < s20
2° zakładamy, że badana cecha populacji ma rozkład N(m, s) o nieznanym m i s. Duża próba.
Estymatorem parametru jest
Wnioskowanie statystyczne
Test dla wskaźnika struktury
H0: p = p0
H1: p ≠ p0 lub
p > p0
lub p < p0
Zbiorowość generalna ma rozkład dwupunktowy z parametrem p. Wylosowano próbę n > 100. W
próbie losowej o liczebności n jest m elementów spełniających pewien warunek (wartość proporcji z
próby powinna spełniać warunek: 0,2 < p < 0,8). Wówczas statystyką testową jest
Test dla dwóch wskaźników struktury
H0: p1 = p2
H1: p1 ≠ p2 lub
p1 > p2 lub p1 < p2
Zbiorowości generalne mają rozkład dwupunktowy z parametrami p1 i p2. Liczebności prób powinny
spełniać relacje: n1 > 100 i n2 > 100. Statystka testowa wynosi
u
p – proporcja dla próby połączonej
m1 m 2

n1 n 2
 )
p 1 p
n
m  m2
n .n
p 1
, n 1 2
n1  n 2
n1  n 2
Wnioskowanie statystyczne
Przykład
1. Podczas juwenaliów studentom zadano pytanie „czy lubi Pan/Pani alkohol”. Przebadano 180 studentek i
120 studentów. Na pytanie twierdząco odpowiedziało 50 studentek i 40 studentów. Czy można twierdzić,
że frakcja lubiących alkohol mężczyzn jest taka sama jak kobiet (współczynnik istotności 0,04).
2. W spółdzielni mieszkaniowej przeprowadzono badanie struktury mieszkań oddawanych do zasiedlenia
według ich powierzchni. Otrzymano wyniki:
Powierzchnia [m2]
Liczba mieszkań
a)
30-40
40-50
50-60
60-70
70-80
13
17
48
30
15
sprawdzić na poziomie istotności 0,05, że odchylenie standardowe powierzchni mieszkania jest
mniejsze od 14 m2
b) czy można twierdzić, że odsetek dużych mieszkań (powyżej 60 m2) stanowi więcej niż 20 %
ogółu mieszkań (współczynnik istotności 0,03)
Wnioskowanie statystyczne
Test dla współczynnika korelacji
H0: r = 0
H1: r ≠ 0 lub r > 0 lub r < 0
Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny,
bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów
– mała próba (n – 2 ≤ 120)
– duża próba (n – 2 > 120)
H0: r = r0
H1: r ≠ r0
lub r > r0
lub r < r0
Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny,
bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów (niekoniecznie dużo).
Jeżeli rxy jest współczynnikiem korelacji liniowej z próby i r jest współczynnikiem korelacji w tej
zbiorowości, to rozkład zmiennej losowej
jest w przybliżeniu normalny N(0, 1).
 1 1  rxy 1 1  r0
r0 
u   ln
 ln

 n 3
 2 1  rxy 2 1  r0 2n  1) 


Wnioskowanie statystyczne
Przykład
Na podstawie transakcji kupna-sprzedaży działek budowlanych w Szczecinie w grudniu 1995 roku
otrzymano następujące informacje:
Wartość działki [w tys. zł]
9
10
15
16
18
18
19
19
Powierzchnia działki [w arach]
2
3
3
3
4
5
4
4
a)
zbadać istotność współczynnika korelacji pomiędzy wartością działki a jej powierzchnią (poziom
istotności 0,05),
b) czy można twierdzić, że współczynnik korelacji pomiędzy wartością działki a powierzchnią jest
większy od 0,7 (poziom istotności 0,04).
Wnioskowanie statystyczne
Weryfikacja nieparametryczna
Testów parametrycznych nie stosujemy, gdy zmienne mają charakter jakościowy czy też
uporządkowany. Testy nieparametryczne wykorzystujemy w sytuacji, gdy nie są spełnione założenia
wymagane przez testy parametryczne, jak: zmienne mierzalne, posiadające rozkład zgodny normalnym
(w odniesieniu do dużych populacji n > 100 zamiast testów nieparametrycznych możemy stosować
testy parametryczne, mimo że sama zmienna nie posiada rozkładu normalnego. Jest to możliwe ze
względu na fakt, że rozkład średnich z tych prób ulega normalizacji).
Testy nieparametryczne oparte są na porównywaniu całych rozkładów, a nie określonych parametrów
tych rozkładów. Testy nieparametryczne mają znacznie mniejszą moc niż testy parametryczne, co
oznacza, że za ich pomocą trudniej jest odrzucić hipotezę zerową niż za pomocą testów
parametrycznych. Łatwiej więc popełnić błąd II rodzaju, tzn. przyjąć nieprawdziwą hipotezę zerową.
W testach nieparametrycznych do odrzucenia hipotezy zerowej potrzebne są zwykle próby o większej
liczebności niż w odpowiadających im testach parametrycznych.
Wnioskowanie statystyczne
Nieparametryczne testy istotności można podzielić na trzy zasadnicze grupy:
– testy zgodności – zawdzięczają swoją nazwę temu, że sprawdza się za ich pomocą zgodność rozkładu
empirycznego z próby z rozkładem hipotetycznym (zmiennej skokowej lub ciągłej) lub też zgodność
dwóch lub więcej rozkładów empirycznych z próby. Spośród najbardziej popularnych testów wyróżnia się
test zgodności c2, test zgodności l Kołmogorowa, test Kołmogorowa – Smirnowa.
a)
test zgodności c2 możemy wykorzystywać do badania zgodności cech mierzalnych, jak i
niemierzalnych (jedyny test do badania zgodności cech niemierzalnych). W celu weryfikacji hipotezy
zerowej buduje się szereg rozdzielczy o r klasach (r ≥ 5) i liczebnościach ni (ni ≥ 5). Następnie
porównuje się liczebności teoretyczne (wyznaczone w oparciu o prawdopodobieństwo p i
charakterystyczne dla rozkładu hipotetycznego), które powinny występować w klasie i (gdyby
hipoteza H0 była poprawna) z liczebnościami empirycznymi. Statystyką testową jest statystyka c2, a
obszar krytyczny jest prawostronny wyznaczany w oparciu o statystykę c2 odczytaną dla zadanego
poziomu istotności oraz r-k-1 stopni swobody (k – liczba szacowanych parametrów rozkładu
hipotetycznego). Test ten może być stosowany zarówno kiedy dystrybuanta hipotetyczna jest
skokowa, jak i ciągła (statystyka c2 nie zależy od tego, jaka jest postać dystrybuanty zmiennej X),
Wnioskowanie statystyczne
b) test l Kołmogorowa – sprawdza, czy rozkład w populacji dla pewnej zmiennej losowej, różni się
od założonego rozkładu teoretycznego, gdy znana jest jedynie pewna skończona liczba obserwacji
tej zmiennej. Często wykorzystywany jest on w celu sprawdzenia, czy zmienna ma rozkład
normalny. Punktem wyjścia jest analiza bezwzględnych różnic pomiędzy dystrybuantą
hipotetyczną a dystrybuantą empiryczną. Największa różnica służy do budowy statystyki l, której
rozkład służy do budowy obszaru krytycznego. Test ten może być stosowany jedynie, kiedy
dystrybuanta hipotetyczna jest ciągła, a liczebność próby duża (powyżej 100),
c)
test Kołmogorowa-Smirnowa jest uogólnieniem wcześniejszego testu – jest używany do
sprawdzenia, czy dwa jednowymiarowe rozkłady prawdopodobieństwa różnią się od siebie (dwie
próby pochodzą z tej samej populacji). W teście analizuje się jedynie różnice pomiędzy
dystrybuantami empirycznymi. Niewątpliwą zaletą testu jest możliwość wykorzystania go w
trakcie badań rozkładów bardzo nielicznych prób (poniżej 100).
– testy losowości – weryfikujące hipotezę, że próba ma charakter losowy, np. test serii (test serii Stevensa,
Walda-Wolfowitza) – np. test medianowy (elementom poniżej mediany przyporządkowuje się np.
symbol A, a elementom powyżej mediany – symbol B; pod pojęciem serii rozumiemy każdy ciąg
identycznych elementów w zbiorze uporządkowanym według ustalonego wcześniej kryterium),
Wnioskowanie statystyczne
– testy niezależności – sprawdzające hipotezę o niezależności dwóch zmiennych losowych, np. test
niezależności c2, który stosowany jest w przypadku badania niezależności cech niemierzalnych
(jakościowych) lub w przypadku badania niezależności cechy jakościowej z ilościową.
Przedmiotem badania jest populacja generalna, z której pobrano n-elementową próbę (n > 30), a wyniki
sklasyfikowano w postaci tablicy wg jednej cechy w r wierszach i wg drugiej cechy w k kolumnach.
Wnętrze tablicy niezależności stanowią liczebności nij elementów próby, które spełniają jednocześnie
kryteria zawarte w i-tym wierszu i j-tej kolumnie. Tablica niezależności jest podstawą weryfikacji
nieparametrycznej hipotezy zerowej głoszącej, że w populacji nie ma zależności między cechami
(zmiennymi) X i Y.
Wnioskowanie statystyczne
H0: P(X = xi, Y = yj) = P(X = xi) · P(Y = yj), czyli, że cechy X i Y są niezależne
H1: P(X = xi, Y = yj) ≠ P(X = xi) · P(Y = yj), czyli, że cechy X i Y są zależne,
Do weryfikacji powyższych hipotez stosuje się statystykę c2:
k
r
c  
2
(n ij  nˆ ij ) 2
nˆ ij
j1 i 1
Liczebności teoretyczne wyznacza się wg formuły:
nˆ ij 
n i.  n . j
n
gdzie ni., n.j – liczebności brzegowe
Z tablic rozkładu c2 odczytujemy wartość statystyki c2 odczytaną przy poziomie istotności a i przy
(r – 1)(k – 1) stopniach swobody (r – liczba wierszy w tablicy niezależności, k – liczba kolumn).
Obszar krytyczny jest obszarem prawostronnym, zatem decyzja weryfikacyjna może być następująca:
– jeżeli c2 ≥ c2a; (r - 1)(k - 1) – H0 odrzucamy na rzecz hipotezy alternatywnej H1
– jeżeli c2 < c2a; (r - 1)(k - 1) – nie ma podstaw do odrzucenia H0 o niezależności cech
Wnioskowanie statystyczne
Przykład
Badając wpływ lokalizacji na cenę uzbrojonych działek budowlanych otrzymano poniższą tablicę:
Lokalizacja
Cena 1
m2
niemodna
przeciętna
modna
60-80
12
3
1
80-100
2
9
3
100-120
2
4
15
Zbadać, czy cechy są zależne (poziom istotności 0,05)