Transcript 4. előadás
Két változó közötti összefüggés Hipotézisvizsgálat (Statisztikai szignifikanciapróbák): A khi-négyzet Babbie, E. A társadalomtudományi kutatás gyakorlata, Balassi Kiadó 1995. 511-523.old. Összefüggés két változó között a Összefüggés az mintában alapsokaságban 1. Dohányzás igen nem összesen 2. Dohányzás igen nem összesen 3. Dohányzás igen nem összesen igen 100 0 100 Alkohol nem 0 100 100 összesen 100 100 200 nem 50 50 100 összesen 100 100 200 Alkohol igen 50 50 100 Alkohol igen 60 40 100 nem 40 60 100 összesen 100 100 200 A dohányzás és az alkoholfogyasztás összefüggése az egyes táblák adatai szerint 1. tábla: Minden dohányos alkoholizál, és minden alkoholfogyasztó dohányzik. Az összefüggés determinisztikus. 2. Tábla: A dohányosok között éppen annyi az absztinens, mint az alkoholfogyasztó. A dohányzás NEM befolyásolja az alkoholfogyasztást, és fordítva. A két változó független. A dohányzás és az alkoholfogyasztás összefüggése az egyes táblák adatai szerint 3. tábla: a dohányosok 60%-a iszik, 40%-a nem, az antinikotinisták 40%-a fogyaszt alkoholt, 60%-uk absztinens. Érdemes a dohánybolt-hálózatunkban szeszesital árusítási engedélyt kérni? (az engedély drága) Elég erős a 3. táblában az összefüggés, hogy érvényesnek tekintsük az alapsokaságra? Mérőszám, amely az adott tábla gyakoriságainak és a „függetlenségi tábla” gyakoriságainak eltéréseit méri A 3. tábla gyakoriságait nevezzük fm-nek, a 2. (függetlenségi)tábla gyakoriságait fenek. A létrehozandó mérőszám neve: khi-négyzet. A khi-négyzet képlete khi-négyzet= ∑ ( fm fe ) fe 2 Példa1. megfigyelt gyakoriságok Alkohol Dohányzás igen nem összesen igen 60 40 100 nem 40 60 100 összesen 100 100 200 elméleti gyakoriságok Alkohol Dohányzás igen nem összesen igen 50 50 100 nem 50 50 100 összesen 100 100 200 Khi négyzet= (60-50)2/50+(40-50)2/50+(40-50)2/50+ +(60-50)2/50=4*100/50=8 A khi-négyzet mint valószínűségi változó Válasszunk a „N” elemszámú alapsokaságból minden lehetséges módon egyszerű véletlen módszerrel „n” elemszámú mintákat! A többszázmillió darab minta mindegyikében vessük össze 2 változó (pl. a dohányzás és alkoholfogyasztás) együttállását jelző fmket a függetlenséget jelentő fe-kkel! Számoljunk rengeteg sok khi-négyzetet! A khi-négyzet eloszlás ábrája (15-ös szabadságfok) Mekkora konkrét (képlettel kiszámolt) khi-négyzetek adódnak a rengeteg sok „n”- elemű mintából? Tegyük fel, hogy az alapsokaságban (melyből az „n” elemű mintákat választottuk) a dohányzás és az alkoholfogyasztás függetlenek. A minták jelentős részében az fm-k nagyon közel lesznek az fe-khez. A khi-négyzetek „kicsik” lesznek. Előadódhatnak olyan minták, amelyekhez „nagy” khi-négyzet-ek tartoznak? 5% 0 „kicsi” khi-négyzetek „nagy” khi-négyzetek Ha egy olyan alapsokaságból, amelyben két változó független egymástól, minden lehetséges módon „n” elemű mintákat választunk véletlen módszerrel, a minták 5%-ában „nagy” khi-négyzetet kapunk. Tegyük fel, hogy az alapsokaságban a két változó független! (Nullhipotézis) Ha csak egyetlen mintát választunk, akkor mindössze 5 % annak a valószínűsége, hogy a mintában a 2 változó kapcsolatát egy „nagy” khinégyzet jellemzi, hiszen az alapsokaságban a két változó független egymástól. Határozzuk el, hogy minden olyan esetben, ha(a 2 változó kapcsolatát jellemzendő) „nagy” khi-négyzetet számolunk ki egy mintában, akkor ebből azt a következtetést vonjuk le, hogy az alapsokaságban nem független egymástól a két változó. Elvetjük a null-hipotézist. Azt mondjuk, hogy a két változó az alapsokaságban (is) összefügg egymással. MIT KOCKÁZTATUNK? 5% annak a valószínűsége, hogy tévedünk. Ez az 5% annak a hibának (elsőfajú hiba) a valószínűsége, hogy egy igaz hipotézist (null-hipotézis) hamisnak ítélünk. Null-hipotézis: az alapsokaságban a 2 változó független Mire következtetünk, ha egy adott mintában 2 változó kapcsolatát „kicsi” khi-négyzet jellemzi? Ebből arra következtetünk, hogy az alapsokaságban független egymástól a két változó. Megtartjuk a null-hipotézist (Miért nem nulla ilyenkor a khi-négyzet értéke?) Mit kockáztatunk? Egy hamis hipotézist tartottunk meg (másodfajú hiba). Mekkora lehet a másodfajú hiba elkövetésének valószínűsége? Mikor „nagy” és mikor ”kicsi” a khinégyzet értéke? Szabadságfok: (oszlopok száma -1)*(sorok száma – 1) Khi-négyzet-eloszlás táblázata Oszlopokban: szignifikanciák, Sorokban: szabadságfokok Táblázatban: khi-négyzet „küszöbérték” A dohányzás----alkoholfogyasztás egy 2*2-es táblában Számított khi-négyzet értéke:8 A táblázat szabadságfoka: (2-1)*(2-1)=1 A khi-négyzet küszöbértéke (5 %-os szignifikanciánál):3,84 15 A számított khi-négyzet és a khi-négyzet küszöbértéke A null-hipotézis megtartása, a két változó független A null-hipotézis elvetése, a két változó összefügg a khi-négyzet küszöbértéke 0 „kicsi” khi-négyzetek 5% 3,84 „nagy” khi-négyzetek Példa 2. megfigyelt gyakoriságok iskolai végzettség lakóhely nagyváros kisváros falu Összesen alapfok 80 54 227 361 szakmunkásképzettség 78 80 96 254 középfok 132 78 60 270 felsőfok 60 28 27 115 Összesen 350 240 410 1000 elméleti (a függetlenség esetén előálló) gyakoriságok iskolai végzettség lakóhely nagyváros kisváros falu Összesen alapfok 126 87 148 361 szakmunkásképzettség 89 61 104 254 középfok 94 65 111 270 felsőfok 40 28 47 115 Összesen 350 240 410 1000 Khi-négyzet= (80-126)2/126+(54-87)2/87+ +(227-148)2/148+(78-89)2/89+(80-61)2/61+ +(96-104)2/104+(132-94)2/94+(78-65)2/65+ +(60-111)2/111+(60-40)2/40+(28-28)2/28+ +(27-47)2/47=138,47 Egy 4*3-as kereszttáblához tartozó khi-négyzet szabadságfoka: 3*2=6 A khi-négyzet küszöbértéke:12,59 Következtetés? Mitől függ a (számított) khi-négyzet értéke? megfigyelt gyakoriságok Alkohol Dohányzás igen igen 55 nem 45 összesen 100 nem összesen 45 100 55 100 100 200 elméleti gyakoriságok Alkohol Dohányzás igen nem összesen igen 50 50 100 nem 50 50 100 összesen 100 100 200 Khi négyzet= (55-50)2/50+(45-50)2/50+(4550)2/50+(55-50)2/50=4*25/50=2 Ha kétszer akkora mintát veszünk: megfigyelt gyakoriságok Dohányzás igen nem összesen Alkohol igen nem 110 90 90 110 200 200 összesen 200 200 400 elméleti gyakoriságok Dohányzás igen nem összesen Alkohol igen nem 100 100 100 100 200 200 összesen 200 200 400 Khi négyzet= (110-100)2/100+(90100)2/100+(90-100)2/100+(110-100)2/100= =4*100/100=4 A 200 fős és a 400 fős minta számított khi-négyzete Következtetés? A 400 fős minta számított khinégyzete a khi-négyzet küszöbértéke A 200 fős minta számított khinégyzete 0 2,00 3,84 5% 4,00 A khi-négyzet elemszámérzékeny (2-szer akkora mintában 2-szeresére nő a számított khi-négyzet értéke, pedig a kereszttábla gyakoriságai azonos „szerkezetűek” Hipotézisvizsgálat 1. Null-hipotézis (az alapsokaságban a 2 változó függyetlen) 2. Szignifikancia „választás”, elsőfajú hiba elkövetésének valószínűsége (5%) 3. A kereszttábla szabadságfoka 4. A khi-négyzet küszöbértékének „kikeresése” 5. A függetlenségi tábla gyakoriságainak kiszámítása 6. A khi-négyzet kiszámítása 5. Következtetés: a számított khi-négyzet és a khi-négyzet küszöbértékének összevetése: ha a számított khi-négyzet nagyobb a küszöbértéknél, a nullhipotézist elvetjük, kisebb a küszöbértéknél, a nullhipotézist megtartjuk.