Kahden ryhmän vertailu
Download
Report
Transcript Kahden ryhmän vertailu
RYHMIEN VERTAILU
Jouko Miettunen
19.11.2012
KAHDEN RYHMÄN
VERTAILU
Luennon sisältö
Luokitellut muuttujat
Ristiintaulukko, prosentit
2
Khiin neliötesti ( -testi)
Jatkuvat muuttujat
Keskiarvo, t-testi
Mediaani, Mann-Whitneyn U-testi
Tutkimusongelma
Verrataan 2 eri ryhmää tai käsittelyä
sukupuoli, hoitomuoto, opetusmenetelmä,
taustatekijä, riskitekijä, sairas/terve, ...
ryhmä i = (kuvitteellinen) populaatio, joka
koostuu kaikista (henkilöt tms.) käsittelyn i
saaneista tilastoyksiköistä (i = 1 tai 2)
Testattava nollahypoteesi H0:
tutkittava ominaisuus (vastemuuttuja) on jakautunut
kahdessa ryhmässä samalla tavalla (ts. ei eroa)
Menetelmän valinta (2 ryhmää)
EI, koska laatua
mittaava vaste
EI, koska vasteen
jakauma hyvin vino
Voiko keskiarvoa
käyttää?
Kyllä
Ristiintaulukko
- prosentit
- khiin neliötesti
Vertaile keskiarvoja
ryhmien välillä
- kahden
riippumattoman ryhmän
t-testi
Ilmoita mediaanit
- parametriton testi:
Mann-Whitneyn
testi
5
Kahden ryhmän vertailu
Olkoon
X1 = tutkittava ominaisuus osajoukossa 1 ja
X2 = tutkittava ominaisuus osajoukossa 2
Käytettävät menetelmät
2 –testi luokkamuuttujille
t-testi (symmetrinen jakauma)
parametriton Mann-Whitneyn testi (vino jakauma)
6
Jatkuva vai luokiteltu
muuttuja?
Ilmiöt ovat usein jatkuvia,
muuttujat kuitenkin usein
luokiteltuja
Luokittelemalla
menetetään tietoa
selkeytetään tulosten esittämistä
Analyysimenetelmät erilaisia
7
Luokitellut muuttujat
8
Suhteellisten osuuksien vertailu
Esimerkki: Koulumenestyksen yhteys itsemurhaan psykoottisilla ja
ei-psykoottisilla (Pohjois-Suomen vuoden 1966 Syntymäkohortti,
35-vuotisseuranta )
Alaräisänen ym. Good school performance is a risk factor of suicide in psychoses: a 35-year follow up of
the Northern Finland 1966 Birth Cohort. Acta Psychiatr Scand 2006; 114: 357-62.
Ristiintaulukkona
Koulumenestys
Ei-psykoottiset
keskiarvo
<8.5
keskiarvo
>8.5
Psykoottiset
keskiarvo
<8.5
keskiarvo
>8.5
n
Tilastollinen testi on khiin neliötesti
Itsemurha
%
Ei itsemurhaa
n
%
Kaikki
p-arvo
0.001
43
0.5
8427
99.5
8470
2
0.4
2074
99.6
2076
0.020
6
4.7
121
95.3
127
4
18.0
18
82.0
22
SPSS: Analyze > Descriptive statistics > crosstabs (statistics -> Chi-square)
10
2 -TESTI
Voidaanko ristiintaulukon ehdollisten
prosenttijakaumien ero selittää satunnaisvaihtelun
aiheuttamaksi?
Testin nollahypoteesi on muotoa
H0: Tutkittavan muuttujan jakaumat ovat samat eri
osajoukoissa
Testisuureena käytetään ristiintaulukosta laskettavaa
2 –testiä tai Fisherin testiä
11
SPSS: Analyze > Descriptive statistics > crosstabs (statistics -> Chi-square)
12
Esimerkki
Pohjois-Suomen 1966
syntymäkohortti
Äidin raskauden aikaisen
tupakoinnin yhteys
luokiteltuun
syntymäpainoon
13
2 –testi: syntymäpaino kaksiluokkaisena
- Pienille
otoksille
(Jos väh. 20
prosentissa
soluista odotettu
arvo on alle 5)
Fisherin testi
2 –testi: syntymäpaino kolmeluokkaisena
17
Jatkuvat muuttujat
Keskiarvo vai mediaani?
Keskiarvo soveltuu likimain
normaalijakautuneelle aineistolle
Mikäli aineistossa on paljon poikkeavia
arvoja tai se on huomattavan vino,
mediaani kuvaa muuttujan jakaumaa
paremmin
Normaaliuden arviointi
Mikäli mediaani ja keskiarvo eroavat
huomattavasti toisistaan, jakauma ei
ole normaalijakautunut
Huipukkuus (kurtosis) ja vinous
(skewness) kuvaavat normaalisuutta
Erilaisia tilastollisia testejä
normaalisuudelle, visuaalinen arvio
on kuitenkin tärkeä (histogrammit
ym.)
Muuttujien erilaisia jakaumia
B on normaalijakautunut.
A on positiivisesti huipukas jakauma
C negatiivisesti huipukas jakauma
Havainnot ovat kasaantuneet oikealle
(jakauma on negatiivisesti vino eli
vino vasemmalle)
21
Esimerkki: kouluarvosana
SPSS: analyze > descriptive statistics > frequencies > charts / histogram
22
Arvosana sukupuolen mukaan
23
Määrää mittaava symmetrinen vaste
Vertaile keskiarvoja ryhmissä
Tilastollisen merkitsevyyden arvionti
Kahden ryhmän tapauksessa kahden
riippumattoman ryhmän t-testi
SPSS: Analyze > Compare Means > Independent-
Samples T-Test
Kahden riippumattoman
ryhmän keskiarvojen t-testi
Vertaillaan yhden ominaisuuden (muuttujan)
keskiarvoja kahdessa eri perusjoukossa tai
osajoukossa.
Tutkittavan muuttujan oletetaan
noudatettavan normaalijakaumaa
Tietojenkäsittelyä varten tarvitaan lisäksi
muuttuja, joka ilmaisee kummassa
osajoukossa mittaus on tehty. Se on ns.
ryhmittelymuuttuja (Grouping Variable).
25
t-testin hypoteesit
H0: Tutkittavan ominaisuuden
keskiarvo (odotusarvo) on yhtä suuri
osajoukoissa 1 ja 2.
H1: Tutkittavan ominaisuuden
keskiarvot ovat erisuuret
osajoukoissa 1 ja 2
26
Testisuureen kaavat
Testisuureen havaittu arvo voidaan laskea
kahdella eri kaavalla
kaava A
kaava B
Kaavassa (A) oletetaan, että hajonta on
osajoukoissa saman suuruinen eli tutkittavan
ominaisuuden varianssit ovat yhtä suuret
Kaavassa (B) tätä oletusta ei tehdä
27
Esimerkki: Pohjois-Suomen 1985-1986 syntymäkohortti
28
SPSS: Analyze > Compare Means > Independent-Samples T-Test
29
SPSS- tulostus
Esimerkki: hajonnat eri suuret (kaava B)
30
Parametrittomat menetelmät
Käytetään kun keskiarvo ei ole sopiva
tutkittavan jakauman tunnusluku
vino jakauma
muista poikkeavat havainnot
Ei tehdä oletuksia muuttujien
todennäköisyysjakaumista
parametriton = jakauman muodon määräävistä
parametreistä ei lausuta mitään
31
Mann-Whitneyn U testi
Verrataan tutkittavan ominaisuuden
jakaumaa kahdessa ryhmässä
Oletetaan, että tutkittava ominaisuus on
mitattu vähintään järjestysasteikolla
Testi on tarkka, jos ominaisuus on määrää
mittaava
Menetelmä perustuu havaintojen
järjestyslukujen vertailuun (yhdistetyssä
otoksessa)
32
Mann-Whitneyn testin hypoteesit
H0: Tutkittavan ominaisuuden jakaumat ovat
samat vertailtavissa ryhmissä
H1: Tutkittavan ominaisuuden jakaumat
eroavat sijainniltaan
33
Määrää mittaava vino vaste
Ilmoita mediaanit ryhmittäin
SPSS: Analyze > Descriptive Statistics > Explore
Tilastollisen merkitsevyyden arvionti
Kahden ryhmän tapauksessa Mann-Whitneyn testi
SPSS: Analyze > Nonparametric Tests >
Legacy dialogs > Two Independent Samples
Mann-Whitneyn testin esimerkki
Tutkitaan yskösten
histamiinipitoisuutta
Aineisto koostui 22
tupakoijasta
9 allergikkoa
13 oireetonta
rank
ALLERGIKOT
EI ALLERGIAA
rank
7
31,0
4,7
1
11
39,6
5,2
2
16
64,7
6,6
3
17
65,9
18,9
4
18
67,6
27,3
5
19
100,0
29,1
6
20
102,4
32,4
8
21
1112,0
34,3
9
22
1651,0
35,4
10
41,7
12
45,5
13
48,0
14
48,1
15
Mediaanien vertailu: Mann-Whitneyn U-testi
Ranks
HISTAM
histamiinipitoisuus
RYHMÄ
1 allergikot
N
Mean Rank
Sum of Ranks
9
16.78
151.00
2 ei allergia
13
7.85
102.00
Total
22
Test Statistics(b)
HISTAM
histamiinipitoi
suus
Mann-Whitney U
Wilcoxon W
Z
Asymp. Sig. (2-tailed)
11.000
102.000
-3.172
.002
Exact Sig. [2*(1-tailed Sig.)]
.001(a)
a Not corrected for ties.
b Grouping Variable: RYHMÄ
Box-plot
38
Esimerkkejä
Bottlender et al. Eur Arch Psychiatry Clin Neurosci (2002) 252: 226–231
39
Esimerkki
Koponen ym. Suomen Lääkärilehti 2009
2 –testi
Fisherin eksakti testi
LK Kaisa-Maria Eronen ja LK Ville Saari
Syventävien opintojen tutkielma
Psykiatrian klinikka, Oulun yliopisto 2011
Lääketieteen opiskelijoiden
mielenterveyskysely
Yleisen lääketieteen 1. (n=101) ja 6. (n=103) vuoden opiskelijoiden SCL:n keskiarvot
Studentin t test
41
LK Kaisa-Maria Eronen ja LK Ville Saari
Syventävien opintojen tutkielma
Psykiatrian klinikka, Oulun yliopisto 2011
Lääketieteen opiskelijoiden
mielenterveyskysely
Kliinisen vaiheen lääketieteen (n=232) ja hammaslääketieteen (n=107) opiskelijoiden SCL-keskiarvot
Studentin t test
42
Lääketieteen
opiskelijoiden
mielenterveyskysely
LK Kaisa-Maria Eronen ja LK Ville Saari
Syventävien opintojen tutkielma
Psykiatrian klinikka, Oulun yliopisto 2011
Opiskelun vaikutus elämänlaatuun
Chi2 = 14.312,
P=0.074
Chi2 = 29.145,
P<0.001
43
USEAN RYHMÄN
VERTAILU
Usean ryhmän vertailu
Potilasryhmä
Ikäryhmä
Koulutusaste
Sairaala
Siviilisääty
Hoitomenetelmä
VASTEMUUTTUJAN TYYPIT
Vastemuuttujan tyyppi ratkaisee menetelmän
valinnassa
Luokkamuuttuja
hoito, siviilisääty, jne.
Jatkuva
muuttuja
Pituus, verenpaine, jne.
Oireiden lukumäärä
Hoitopäivien lukumäärä
Descriptives
Symptom Checklist (SCL-25) masennuspisteet
N
Std.
Mean Deviation
Std.
Error
95% Confidence
Interval for Mean
Lower
Upper
Bound
Bound
Minimu Maximu
m
m
married
3958
1,32
,330
,005
1,31
1,33
1,00
3,85
cohabiting
1988
1,35
,362
,008
1,34
1,37
1,00
4,00
single
1851
1,42
,408
,009
1,40
1,44
1,00
3,92
divorced,
separated
351
1,56
,494
,026
1,51
1,61
1,00
3,69
4
1,73
,549
,274
,85
2,60
1,38
2,54
8152
1,36
,370
,004
1,35
1,37
1,00
4,00
widow
Total
Menetelmän valinta (>2 ryhmää)
EI, koska laatua
mittaava vaste
EI, koska vasteen
jakauma hyvin vino
Voiko keskiarvoa
käyttää?
Kyllä
Ristiintaulukko
- prosentit
- khiin neliötesti
Vertaile keskiarvoja
ryhmien välillä
- varianssianalyysi
Ilmoita mediaanit
- parametriton testi:
Kruskal-Wallisin
testi
48
VASTE ON LUOKKAMUUTTUJA
•
•
Muodosta ristiintaulukko ryhmittelumuuttujan
kanssa
–
SPSS komento:
Analyze- Descriptive Statistics - Crosstabs …
–
Muista prosentit
Tilastollisen merkitsevyyden arvionti
–
2 -testi (Chi square)
–
Fisherin testi pienillä aineistoilla pitää erikseen
pyytää Exact –napin kautta
Analyze > Descriptive Statistics > Crosstabs
Esimerkki: Pohjois-Suomen 1966 syntymäkohortti
Tutkitaan lapsuuden (14v.) sosiaaliluokan yhteyttä kahvin ja teen
juontiin aikuisena (31v.)
Sosiaaliluokka jaettu ammatin mukaan kolmeen luokkaan
korkea (I, II), matala (III, IV) ja maanviljelijät (V)
kahvin ja teen juonti neljään luokkaan
vain kahvia, vain teetä, molempia, ei kumpaakaan
Esimerkki: Pohjois-Suomen 1966 syntymäkohortti
tea and coffee drinking
Khin neliötestin p-arvot
Kasanen J ym. Suomen Lääkärilehti 2011; 33: 2339-2343.
Lääketieteen opiskelijoiden
mielenterveyskysely
LK Kaisa-Maria Eronen ja LK Ville Saari
Syventävien opintojen tutkielma
Psykiatrian klinikka, Oulun yliopisto 2011
Opiskelun vaikutus elämänlaatuun
Chi2 = 14.312,
P=0.074
Chi2 = 29.145,
P<0.001
Khii2 testi
MÄÄRÄÄ MITTAAVA
SYMMETRINEN VASTE
•
Vertaile keskiarvoja ryhmissä
•
Tilastollisen merkitsevyyden arviointi
–
Kahden ryhmän tapauksessa kahden
riippumattoman ryhmän t-testi
–
Jos ryhmiä enemmän kuin kaksi: yksisuuntainen
varianssianalyysi
–
SPSS -komento: Analyze - Compare Means - OneWay Anova
YKSISUUNTAISEN
VARIANSSI-ANALYYSIN
OLETUKSET
Tutkittava ominaisuus X noudattaa
normaalijakaumaa vertailtavissa osapopulaatioissa.
Ominaisuuden varianssi on sama kaikissa
osapopulaatioissa.
Huom. Levenen testi + vaihtoehtoiset testisuureet
Osapopulaatiot ovat toisistaan riippumattomia
YKSISUUNTAISEN
VARIANSSI-ANALYYSIN
HYPOTEESIT
H0: Tutkittavan ominaisuuden Y jakaumat
ovat samat eri ryhmissä
Ryhmittelymuuttuja
ei vaikuta vasteen
keskimääräiseen arvoon
H1: Ominaisuuden jakaumat poikkeavat
keskimääräiseltä arvoltaan osajoukoissa
Ryhmittelijä
vaikuttaa vasteen
keskimääräiseen arvoon
Ainakin
yksi ryhmä poikkeaa muista
ESIMERKKI
VARIANSSIANALYYSISTÄ
Tutkitaan Pohjois-Suomen 1966
syntymäkohortissa perhetyypin yhteyttä
masennusoireisiin 31-vuotiaana
Tutkitaan nollahypoteesia:
H0: masennusoireiden keskiarvo on sama eri
vastaajaryhmissä
Vertailtavat ryhmät: naimisissa,
avoliitossa, naimaton, eronnut ja leski
VARIANSSIANALYYSI SPSS:SSÄ
Analyze - Compare Means - One-Way Anova
ESIMERKKEJÄ VARIANSSIANALYYSIN
TULOSTUKSESTA
F testi
VARIANSSITESTIT
Varianssit ovat eri suuruisia, eli ei symmetrinen vaste
Voi kokeilla Kruskall-Wallisin testiä !
Esimerkki: Pohjois-Suomen 1966 syntymäkohortti
Tutkitaan vuodenajan yhteyttä syntymäpainoon
Vuodenajat
talvi: joulu-helmi
kevät: maalis-touko
kesä: kesä-elo
syksy: syys-marras
Syntymäpaino
jatkuva normaalijakautunut muuttuja
Esimerkki: Pohjois-Suomen 1966 Syntymäkohortti
Esimerkki
Viitasalo ym. Suomen Lääkärilehti 2010
MONITESTAUSONGELMA
Mikäli ryhmien välillä on eroa…
Mikä ryhmä poikkeaa muista?
Onko ryhmien A ja C välillä eroa?
Entä ryhmien B ja C?
Esimerkki: Pohjois-Suomen 1966 Syntymäkohortti
Esimerkki, Baldassin et al (2008)
Monivertailun p-arvoja
Varianssianalyysin p arvo
MÄÄRÄÄ MITTAAVA VINO VASTE
Ilmoita mediaanit ryhmittäin
SPSS-komento:
Analyze - Decriptive Statistics -
Explore
Tilastollisen merkitsevyyden arvionti
Kahden
ryhmän tapauksessa Mann-Whitneyn
testi
Jos
ryhmiä enemmän kuin kaksi, niin KruskalWallisin testi
SPSS-komento:
Analyze - Nonparametric Tests
– (Legacy Dialogs) - K Independent Samples
KRUSKAL-WALLISIN
TESTIN HYPOTEESIT
H0: Tutkittava ominaisuuden
jakaumat ovat samat eri
ryhmissä
H1: Ominaisuuden jakaumat
poikkeavat sijainniltaan
Keskimääräisessä
arvossa on eroa
ryhmien välillä
Ainakin
muista
yksi ryhmä poikkeaa
ESIMERKKEJÄ K-W:N TESTISTÄ
Tutkitaan SUISIDI aineiston muuttujaa
yksityis (potilaan itsemurhan aiheuttama
kuormitus hoitohenkilöstön
yksityiselämään).
Tutkitaan nollahypoteesia:
H0: potilaan itsemurhan aiheuttaman
yksityiselämän kuormituksen jakauma on
sama eri vastaajaryhmissä
Vertailtavat ryhmät: psykiatriset hoitajat,
psykiatrit, sisätautilääkärit ja tehohoitajat
K-W:N TESTIN TULOSTUS
Ranks
YKSITYIS
Kuormittaako
suisidaalinen potilas
yksityiselämää
TYOPAIK
Työntekijäryhmä
1 psyk. hoitaja
38
Mean Rank
73.72
2 psykiatri
35
74.14
3 sisät. lääkäri
23
43.72
4 tehohoitaja
26
42.35
Total
122
Test Statistics(a,b)
Chi-Square
df
Asymp. Sig.
N
YKSITYIS
Kuormittaako
suisidaalinen
potilas
yksityiselämää
22.510
3
.000
a Kruskal Wallis Test
b Grouping Variable: TYOPAIK Työntekijäryhmä
RAPORTOINTI
- Box on 25. ja 75. persentiilin väli eli kvartiiliväli (inter-quartile range)
- Musta viiva on mediaani
- jos laatikkoa enemmän viivan yläpuolella, jakauma on positiivisesti vino
- jos laatikko on pieni suhteessa ”viiksien väliin” (”whiskers”), jakauma on pos. huipukas
- Poikkeavat havainnot merkataan ympyrällä tai tähdellä
- ympyrä: yli 1,5 boxin etäisyydellä ja asteriksi yli 3 boxin etäisyydellä boxin reunasta
ESIMERKKEJÄ K-W:N TESTISTÄ
Tutkitaan Pohjois-Suomen 1966
Syntymäkohortissa siviilisäädyn ja
masennuksen yhteyttä
Tutkitaan nollahypoteesia:
H0: masennuksen jakauma on sama eri
vastaajaryhmissä
Vertailtavat ryhmät: naimisissa,
avoliitossa, naimaton ja eronnut
K-W:N TESTIN TULOSTUS
Salokangas ym. Suomen Lääkärilehti 2009
***Kruskal–Wallisin testi
Teramo ym. Suomen Lääkärilehti 2007
Teramo ym. Suomen Lääkärilehti 2007
Suomen Lääkärilehti 2006
*p < 0,05 invasiivisesti hoidetut vs. konservatiivisesti hoidetut, # < 0,05 pallolaajennushoito vs. uusi ohitusleikkaus.
RIIPPUMATTOMIEN
RYHMIEN VERTAILU
VASTE
2 RYHMÄÄ
MITTAA LAATUA
RISTIINT. (2 -testi RISTIINT. (2 -testi tai
tai Fisherin testi)
> 2 RYHMÄÄ
Fisherin testi)
MITTAA MÄÄRÄÄ
- JAKAUMA SYMM. t-TESTI
VARIANSSIANALYYSI
- JAKAUMA VINO
KRUSKALL-WALLIS
MANN-WHITNEY
[email protected] / www.joukomiettunen.net