4. előadás

Download Report

Transcript 4. előadás

Két változó közötti összefüggés
Hipotézisvizsgálat (Statisztikai
szignifikanciapróbák): A khi-négyzet
Babbie, E. A társadalomtudományi kutatás
gyakorlata, Balassi Kiadó 1995.
511-523.old.
Összefüggés két változó között a
Összefüggés az
mintában
alapsokaságban
1.
Dohányzás
igen
nem
összesen
2.
Dohányzás
igen
nem
összesen
3.
Dohányzás
igen
nem
összesen
igen
100
0
100
Alkohol
nem
0
100
100
összesen
100
100
200
nem
50
50
100
összesen
100
100
200
Alkohol
igen
50
50
100
Alkohol
igen
60
40
100
nem
40
60
100
összesen
100
100
200
A dohányzás és az
alkoholfogyasztás összefüggése az
egyes táblák adatai szerint
1. tábla: Minden dohányos alkoholizál, és
minden alkoholfogyasztó dohányzik. Az
összefüggés determinisztikus.
2. Tábla: A dohányosok között éppen annyi
az absztinens, mint az alkoholfogyasztó.
A dohányzás NEM befolyásolja az
alkoholfogyasztást, és fordítva. A két
változó független.
A dohányzás és az
alkoholfogyasztás összefüggése
az egyes táblák adatai szerint
3. tábla: a dohányosok 60%-a iszik, 40%-a nem,
az antinikotinisták 40%-a fogyaszt alkoholt,
60%-uk absztinens.
Érdemes a dohánybolt-hálózatunkban szeszesital
árusítási engedélyt kérni?
(az engedély drága)
Elég erős a 3. táblában az összefüggés, hogy
érvényesnek tekintsük az alapsokaságra?
Mérőszám, amely az adott tábla
gyakoriságainak és a „függetlenségi tábla” gyakoriságainak
eltéréseit méri
A 3. tábla gyakoriságait nevezzük fm-nek, a
2. (függetlenségi)tábla gyakoriságait fenek.
A létrehozandó mérőszám neve:
khi-négyzet.
A khi-négyzet képlete
khi-négyzet=
∑
( fm  fe )
fe
2
Példa1.
megfigyelt gyakoriságok
Alkohol
Dohányzás
igen
nem
összesen
igen
60
40
100
nem
40
60
100
összesen
100
100
200
elméleti gyakoriságok
Alkohol
Dohányzás
igen
nem
összesen
igen
50
50
100
nem
50
50
100
összesen
100
100
200
Khi négyzet= (60-50)2/50+(40-50)2/50+(40-50)2/50+
+(60-50)2/50=4*100/50=8
A khi-négyzet mint valószínűségi
változó
Válasszunk a „N” elemszámú
alapsokaságból minden lehetséges módon
egyszerű véletlen módszerrel „n”
elemszámú mintákat!
A többszázmillió darab minta mindegyikében
vessük össze 2 változó (pl. a dohányzás és
alkoholfogyasztás) együttállását jelző fmket a függetlenséget jelentő fe-kkel!
Számoljunk rengeteg sok khi-négyzetet!
A khi-négyzet eloszlás ábrája (15-ös szabadságfok)
Mekkora konkrét (képlettel
kiszámolt) khi-négyzetek adódnak a
rengeteg sok „n”- elemű mintából?
Tegyük fel, hogy az alapsokaságban
(melyből az „n” elemű mintákat
választottuk) a dohányzás és az
alkoholfogyasztás függetlenek.
A minták jelentős részében az fm-k nagyon
közel lesznek az fe-khez. A khi-négyzetek
„kicsik” lesznek.
Előadódhatnak olyan minták, amelyekhez „nagy” khi-négyzet-ek tartoznak?
5%
0
„kicsi” khi-négyzetek
„nagy” khi-négyzetek
Ha egy olyan alapsokaságból, amelyben két változó független
egymástól, minden lehetséges módon „n” elemű mintákat választunk
véletlen módszerrel, a minták 5%-ában „nagy” khi-négyzetet kapunk.
Tegyük fel, hogy az alapsokaságban a két változó független! (Nullhipotézis)
Ha csak egyetlen mintát választunk, akkor mindössze 5 % annak a
valószínűsége, hogy a mintában a 2 változó kapcsolatát egy „nagy” khinégyzet jellemzi, hiszen az alapsokaságban a két változó független
egymástól.
Határozzuk el, hogy minden olyan esetben, ha(a 2 változó kapcsolatát
jellemzendő) „nagy” khi-négyzetet számolunk ki egy mintában, akkor
ebből azt a következtetést vonjuk le, hogy az alapsokaságban nem
független egymástól a két változó.
Elvetjük a null-hipotézist. Azt mondjuk, hogy a két változó az
alapsokaságban (is) összefügg egymással.
MIT KOCKÁZTATUNK?
5% annak a valószínűsége, hogy tévedünk.
Ez az 5% annak a hibának (elsőfajú hiba) a valószínűsége, hogy egy igaz
hipotézist (null-hipotézis) hamisnak ítélünk.
Null-hipotézis: az alapsokaságban a 2 változó független
Mire következtetünk, ha egy adott mintában 2 változó kapcsolatát „kicsi”
khi-négyzet jellemzi?
Ebből arra következtetünk, hogy az alapsokaságban független egymástól
a két változó. Megtartjuk a null-hipotézist
(Miért nem nulla ilyenkor a khi-négyzet értéke?)
Mit kockáztatunk?
Egy hamis hipotézist tartottunk meg (másodfajú hiba).
Mekkora lehet a másodfajú hiba elkövetésének valószínűsége?
Mikor „nagy” és mikor ”kicsi” a khinégyzet értéke?
Szabadságfok:
(oszlopok száma -1)*(sorok száma – 1)
Khi-négyzet-eloszlás táblázata
Oszlopokban: szignifikanciák,
Sorokban: szabadságfokok
Táblázatban: khi-négyzet „küszöbérték”
A dohányzás----alkoholfogyasztás egy 2*2-es táblában
Számított khi-négyzet értéke:8
A táblázat szabadságfoka: (2-1)*(2-1)=1
A khi-négyzet küszöbértéke (5 %-os szignifikanciánál):3,84
15
A számított khi-négyzet és a khi-négyzet küszöbértéke
A null-hipotézis
megtartása, a két
változó független
A null-hipotézis
elvetése, a két
változó összefügg
a khi-négyzet
küszöbértéke
0
„kicsi” khi-négyzetek
5%
3,84
„nagy” khi-négyzetek
Példa 2.
megfigyelt gyakoriságok
iskolai végzettség
lakóhely
nagyváros kisváros falu Összesen
alapfok
80
54
227
361
szakmunkásképzettség
78
80
96
254
középfok
132
78
60
270
felsőfok
60
28
27
115
Összesen
350
240
410 1000
elméleti (a függetlenség esetén előálló) gyakoriságok
iskolai végzettség
lakóhely
nagyváros kisváros falu Összesen
alapfok
126
87
148
361
szakmunkásképzettség
89
61
104
254
középfok
94
65
111
270
felsőfok
40
28
47
115
Összesen
350
240
410
1000
Khi-négyzet= (80-126)2/126+(54-87)2/87+
+(227-148)2/148+(78-89)2/89+(80-61)2/61+
+(96-104)2/104+(132-94)2/94+(78-65)2/65+
+(60-111)2/111+(60-40)2/40+(28-28)2/28+
+(27-47)2/47=138,47
Egy 4*3-as kereszttáblához tartozó khi-négyzet
szabadságfoka: 3*2=6
A khi-négyzet küszöbértéke:12,59
Következtetés?
Mitől függ a (számított) khi-négyzet értéke?
megfigyelt gyakoriságok
Alkohol
Dohányzás igen
igen
55
nem
45
összesen
100
nem összesen
45
100
55
100
100
200
elméleti gyakoriságok
Alkohol
Dohányzás igen nem összesen
igen
50
50
100
nem
50
50
100
összesen
100 100
200
Khi négyzet= (55-50)2/50+(45-50)2/50+(4550)2/50+(55-50)2/50=4*25/50=2
Ha kétszer akkora mintát veszünk:
megfigyelt gyakoriságok
Dohányzás
igen
nem
összesen
Alkohol
igen
nem
110
90
90
110
200
200
összesen
200
200
400
elméleti gyakoriságok
Dohányzás
igen
nem
összesen
Alkohol
igen
nem
100
100
100
100
200
200
összesen
200
200
400
Khi négyzet= (110-100)2/100+(90100)2/100+(90-100)2/100+(110-100)2/100=
=4*100/100=4
A 200 fős és a 400 fős minta számított khi-négyzete
Következtetés?
A 400 fős minta
számított khinégyzete
a khi-négyzet
küszöbértéke
A 200 fős minta
számított khinégyzete
0
2,00
3,84
5%
4,00
A khi-négyzet elemszámérzékeny
(2-szer akkora mintában 2-szeresére nő a számított khi-négyzet értéke,
pedig a kereszttábla gyakoriságai azonos „szerkezetűek”
Hipotézisvizsgálat
1. Null-hipotézis (az alapsokaságban a 2 változó függyetlen)
2. Szignifikancia „választás”, elsőfajú hiba elkövetésének
valószínűsége (5%)
3. A kereszttábla szabadságfoka
4. A khi-négyzet küszöbértékének „kikeresése”
5. A függetlenségi tábla gyakoriságainak kiszámítása
6. A khi-négyzet kiszámítása
5. Következtetés: a számított khi-négyzet és a khi-négyzet
küszöbértékének összevetése:
ha a számított khi-négyzet
nagyobb a küszöbértéknél, a nullhipotézist elvetjük,
kisebb a küszöbértéknél, a nullhipotézist megtartjuk.