Fordelinger og p-vaerdi

Transcript Fordelinger og p-vaerdi

Forskningstræning – Modul 1
Lidt om fordelinger – kort fortalt
Forskningstræning
Copenhagen University Hospital, Bispebjerg-Frederiksberg
Februar 2013
Fordelinger er beskrivelser udfaldssandsynligheder
Et par af dem praktisk kan komme til at møde:
1) binomial-fordeling
2) Normalfordeling
3) Afledninger heraf:
T-fordeling
X2-fordeling
F-fordeling
Hvorfor skal der arbejdes med fordelinger?
Fordi det er praktisk med få tal at kunne beskrive
sine data!
Det vi bruger til beskrive med kalder vi parametre.
For alle praktiske formål bruger vi:
Angivelse af fordelingstype
Angivelse af middelværdi og spredning
Typer af data
Normalfordelte kontinuerte data
F.eks. Blodtryk
Hvordan afgører vi “normal distribution”?
Dichotome data
E.g. Død versus ”Ikke død”
How do we determine the fictive Standard Deviation?
Vi starter med at kikke på:
•Normalfordelte kontinuerte data
Hvordan afgører vi “normal distribution”?
18
16
14
12
10
8
6
4
2
0
80
100
120
140
160
180
200
220
240
260
Normalfordelte kontinuerte data
Hvad hvis fordelingen er skæv, typisk hvis der er et naturligt nulpunkt
F.eks. Blodtryk
Hvad gør vi så?
14
12
10
8
Mean
Value (Xi)
6
4
2
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19
Value (Xi)
Mean:
Xi-Xmean
(Xi-Xmean)2
12 2,1578947368 4,6565096953
8 -1,842105263 3,3933518006
11 1,1578947368 1,3407202216
9 -0,842105263 0,7091412742
11 1,1578947368 1,3407202216
10 0,1578947368 0,0249307479
7 -2,842105263 8,0775623269
8 -1,842105263 3,3933518006
13 3,1578947368 9,972299169
9 -0,842105263 0,7091412742
10 0,1578947368 0,0249307479
11 1,1578947368 1,3407202216
9 -0,842105263 0,7091412742
12 2,1578947368 4,6565096953
9 -0,842105263 0,7091412742
11 1,1578947368 1,3407202216
10 0,1578947368 0,0249307479
7 -2,842105263 8,0775623269
10 0,1578947368 0,0249307479
9,8421052632
2,8070175439 VAR=SUM[(Xi-Xmean)2]/(n-1)
1,6754156332 SD=SQRT(VAR)
6
5
4
signal
noise
3
2
1
0
0
2
4
6
8
10
12
18
16
14
12
10
8
6
4
2
0
80
100
120
140
160
180
200
220
240
260
Hvor synes I middelværdien var bedst fastlagt?
Det er intuitivt af sikkerheden på en
bestemmelse afhænger af ”højden i forhold til
bredden”, hvilket er baggrunden for såvel tfordeling som X2-fordeling og F-fordeling
Ved normalfordelte data bruges en t-fordeling
til at vurdere højde-bredde forholdet.
Dichotome data
F.eks. Død versus ”Ikke død”
Hvordan bestemmer vi en spredning?
Dichotome data
Simpelt nok: Vi laver en antagelse/beslutning:
Alle dichotome datasæt tilhører binomial-fordeling
Til at vurdere “højde-bredde forholdet” bruges en X2-fordeling ved
dichotome data, som er meget mere “krævende” end t-fordelingen
Derfor er en “dichotomisering” af kontinuerte data ”kostbar” ifht.
antal samples for at få et godt højde-bredde forhold
...og hvad så med p-værdien?
Definition:
Sandsynligheden for at få det observerede udfald (eller
mere ekstremt), hvis nulhypotesen er sand
...og så var der lige det der med bonferoni-korrektion:
Simpleste korrektion for masse-signifikans. Meget
konservativ. Gælder kun for korrektion af signifikante
udfald, altså at forhindre Type I fejl. Koster mht. power.
Er kun brugbar ved lille antal korrektioner (<30).
Hvorfor bonferoni-korrektion:
P (mindst et signifikant resultat) = 1 – P (intet signifikant resultat)
P (mindst et signifikant resultat) = 1 – (1-0.05)20
P (mindst et signifikant resultat) = 0.64
Hvordan bonferoni-korrektion:
Simpelt: Det samlede signifikans niveau (alpha), skal deles med antal
delanalyser, dvs. alpha-i = alpha/i