A biostatisztika alapjai gyakorlati alkalmazásokkal - IPA HU

Download Report

Transcript A biostatisztika alapjai gyakorlati alkalmazásokkal - IPA HU

Teaching Mathematics and Statistics in Sciences HU-SRB/0901/221/088
A biostatisztika alapjai
gyakorlati alkalmazásokkal
Matematikai modellek a
természettudományokban
Szeged, 2011. május 19-21.
Boda Krisztina PhD
SZTE ÁOK Orvosi Informatikai Intézet
Egy kis bevezetés




Egy matematikus, egy alkalmazott matematikus és egy
statisztikus mindhárman egy bizonyos munkára
jelentkeztek. A felvételi beszélgetésen megkérdezték
tőlük, hogy mennyi 1+1?
Matematikus: Be tudom bizonyítani, hogy létezik, de azt
nem, hogy csak egy megoldás van.
Alkalmazott matematikus: A válasz közelítően 1.99, a
becslés szórása 0.01.
Statisztikus (kilépett a szobából, majd hirtelen visszatért
és érdeklődött): tehát mit szeretnétek, mennyi legyen?

http://www.ilstu.edu/~gcramsey/Gallery.html
Biostatisztikai alapismeretek  Boda Krisztina 
2
Ajánlott irodalom

Reiczigel Jenő,
Harnos Andrea,
Solymosi Norbert:
Biostatisztika nem
statisztikusoknak.
Pars Kft.
Nagykovácsi, 2007.
Biostatisztikai alapismeretek  Boda Krisztina 
3
Ajánlott irodalom


Dinya Elek: Biometria
az orvosi
gyakorlatban.
Medicina Kiadó
Biostatisztikai alapismeretek  Boda Krisztina 
4
Ajánlott irodalom

Gachályi Béla (szerk.) Lakner Géza (szerk.):
Klinikai farmakológia a
gyakorlatban - A humán
klinikai gyógyszerfejlesztés
módszertana.
 Statisztikai
alapelvek fejezet
(Singer Júlia)

SpringMed Kiadó
Biostatisztikai alapismeretek  Boda Krisztina 
5
Amiről szó lesz
Hipotézisvizsgálatok, kiemelve a következőket:
1.
2.
3.
4.
5.
6.
7.
8.
9.
Populáció, minta, leíró statisztikák
A véletlen ingadozás vizsgálata, a statisztikai próbák elve
Konfidenciaintervallum és a statisztikai szignifikancia
Egyváltozós statisztikák, mikor mit? t-próbák, 2 próbák,
korreláció/regresszió
Többszörös összehasonlítások problémái
Varianciaanalízis
Diagnosztikus tesztek
Többváltozós módszerek, kockázati tényezők
Elemszámbecslés, statisztikai erő számítása
Biostatisztikai alapismeretek  Boda Krisztina 
6
Populáció (sokaság), minta



Populáció: azoknak az egyedeknek,
objektumoknak az összessége, amelyről egy
vizsgálat során információt kívánunk nyerni.
Minta: a sokaság azon részhalmaza, amelyet
éppen vizsgálunk
A minta kiválasztásakor arra törekszünk, hogy
lehetőleg reprezentálja az egész populációt,
vagy legalábbis következtetni lehessen a
populációra. Követelmény a mintaelemek
függetlensége is.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
7
Példák
Adathalmazok

Minta

Sokaság
 Gyógyszerészhallgatók
 Gyógyszerészhallgatók
egy csoportja által
kitöltött kérdőívek
 20 egészséges nő
vérnyomásértékei
…
 hallgatók
 Általában
az
egészséges nők
vérnyomása
…
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
8
Minta

Sokaság
(megközelíti)
Kategóriás változó
lehetséges értékeinek
gyakoriságai, relatív
gyakoriságai

A változó (sokaság)
eloszlása
Gender
Valid
male
female
Total
Frequency
20
67
87
Percent
23.0
77.0
100.0
Valid Percent
23.0
77.0
100.0
Cumulative
Percent
23.0
100.0
Gender
100
80
Percent
77
60
40
20
23
0
male
female
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
9
Minta

Sokaság
(megközelíti)
Egy folytonos
változóról készített
hisztogram

A folytonos változó
eloszlását
(sűrűségfüggvényét)
Body height
Body height
30
30
20
20
10
Std. Dev = 8.52
Mean = 170.4
N = 87.00
0
150.0
160.0
155.0
Body height
170.0
165.0
180.0
175.0
190.0
185.0
195.0
Frequency
Frequency
10
Std. Dev = 8.52
Mean = 170.4
N = 87.00
0
150.0
160.0
155.0
170.0
165.0
180.0
175.0
190.0
185.0
195.0
Body height
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
10
Minta



Sokaság
(megközelíti)
Átlag (x)
Standard deviáció
(SD)
Medián


Body height
30

20
Sokaság-átlag 
(ismeretlen)
A sokaság standard
deviációja 
(ismeretlen)
A sokaság mediánja
(ismeretlen)
Frequency
10
Std. Dev = 8.52
Mean = 170.4
N = 87.00
0
150.0
160.0
155.0
170.0
165.0
180.0
175.0
190.0
185.0
195.0
Body height
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
11
Az eloszlás közepének jellemzése
n

Átlag:
x  x 2 ... x n
x 1

n
x
i
i 1
n





Módusz: a leggyakrabban
előforduló érték(ek)
Medián: az a szám, amelynél
az adatok fele kisebb, vagy
egyenlő (amely tehát megfelezi
az adatsort).
A medián számítása: először
sorba állítjuk az adatokat
nagyság szerint. Páratlan
elemszám esetén a medián a
középső elem, páros elemszám
esetén a medián a „két
középső elem” átlaga





Példaadatok: 1 2 4 1
átlag=(1+2+4+1)/4=8/4=2
Módusz=1
Medián
Először sorba állítjuk az adatokat
nagyság szerint: 1 1 2 4
Páros az elemszám, a két
középső elem 1 és 2, átlaguk 1.5.
A medián értéke 1.5
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
12
A szóródás mérőszámai


A terjedelem a maximum és a minimum közötti különbség
Kvartilisek, percentilisek:
25%-os percentilis (első kvartilis): az a szám, aminél az adatok
25%-a kisebb.
 A 25%-os, 50%-os és 75%-os kvartilis négy részre osztja az
adatokat.
 A szóródás megadására használják a 25%-os és 75%-os
kvartilist


A variancia
n
Variancia 

 (x
i 1
i
 x) 2
n 1
A standard deviáció: az adatok szóródása az átlag körül
n
SD 
 (x
i 1
i
 x) 2
n 1

Variancia
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
13




Példa. A szóródás jellemzői
Adatok: 1 2 4 1, rendezve: 1 1 2 4
Terjedelem: max-min=4-1=3
Kvartilisek:
Standard deviáció:
Percentiles
25
1.0000
1.0000
Weig hted Average(Definition 1)
Tukey's Hinges
xi
xi  x
1
1
2
4
Összeg
1-2=-1
1-2=-1
2-2=0
4-2=2
0
Percentiles
50
1.5000
1.5000
75
3.5000
3.0000
( xi  x)2
n
1
1
0
4
6
SD 
 ( x  x)
i 1
i
n 1
2

6
 2  1.414
3
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
14
Az átlag szórása, standard error of mean,
SE, SEM
Azt fejezi ki, hogy az átlag, amit a mintából
számoltunk, mennyire megbízható.
 Ha többször is meg tudnánk ismételni a
mérést (végtelen sokszor), akkor
mindegyik mérés-sorozat átlagának a
szóródását mutatja a populáció átlag körül
 Számítása: SE=SD/n

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
15
Standard deviáció vagy standard
error??


Standard deviáció, SD: a minta szórása, a
mintaadatok szóródása az átlag körül.
Normális eloszlás esetén az átlag 2SD-n belül
van az adatok kb. 95%-a
Standard error (SE=SD/n): az átlag
megbízhatósága, a mintaátlag szóródása az
(ismeretlen) populáció átlag körül.
Normális eloszlás esetén az átlag  2SE-n belül
van az igazi átlag kb. 95%-os valószínűséggel.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
16
Normális eloszlások
Jelölés: N(, )


A hisztogramot „kisimító”
görbe gyakran szimmetrikus,
egycsúcsú, harang alakú
görbe.
Ez a görbe egyértelműen
leírható két paraméterrel: a 
középpel és a  standard
deviációval (szórás).
Az ábrán a kék vonalat a
mintából számolt átlag és
szórás alapján rajzoltuk be.
Body height
30
20
10
Frequency

Std. Dev = 8.52
Mean = 170.4
N = 87.00
0
150.0
160.0
155.0
170.0
165.0
180.0
175.0
190.0
185.0
195.0
Body height
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
17
A 68-95-99.7 szabály

Egy  és  paraméterekkel meghatározott normális eloszlás
esetén:
A megfigyelések 68% -a esik a  középtől egyszeres  távolságra
 A megfigyelések 95% -a esik a  középtől kétszeres  távolságra
 A megfigyelések 99.7% -a esik a  középtől 3-szoros  távolságra

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
18
Az eloszlás elképzelése adott átlag és szórás (SD) alapján
(normális eloszlást feltételezve)


A cikkekben a táblázatok
leggyakrabban az átlagot és
a szórást ismertetik. Ezek
alapján el tudjuk képzelni,
milyen lehet az eloszlás
Pl. életkor (év) 55.2  15.7
23.8
86.6
Ebben az intervallumban van
az adatok 95.44%-a
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
19
Az SD ferde eloszlások esetén



Stent length per lesion (mm): 18.8
 10.5
Ezekkel a paraméterekkel a
következő eloszlás képzelhető el:
A szórás a ferde eloszlás miatt lett
„nagy”. Ezért gyakran a standard
deviáció helyett a standard errort
adják meg a táblázatokban vagy
ábrákon. Az valóban kisebb, de
mást jelent.
Probability Density Function
Prob
y=normal(x;18.8;10.5)
1.0
0.040
0.035
0.8
0.030
0.6
0.025
0.020
0.4
0.015
0.010
0.2
0.005
0.000
0.0
-5
0
5
10
15
20
25
30
35
40
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
-5
20
0
5
A közép és a szóródás jellemzőinek
„párosítása”
Közép
Szóródás
Közlés cikkekben
Átlag
Standard deviáció,
Standard error
Medián
Min, max
5%-os, 95%-os percentilis
25 % , 75% (Kvartilisek)
Átlag (SD)
Átlag  SD
Átlag  SE
Átlag  SEM
Med (min, max)
Med(25%, 75%)
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
21
Ábratípusok a számolt jellemzők alapján
Mean Plot (kerd97 20v*43c)
85
80
75
70
Átlag-szórás ábra
 Átlag
+ SD
 Átlag + SE
 Átlag + 95% CI
65
SULY

60
55
50
45
fiú
lány
Mean
Mean±SE
NEM
Átlag  SE
Mean Plot (kerd97 20v*43c)
85
Mean Plot (kerd97 20v*43c)
85
80
80
75
75
70
70
65
SULY
SULY
65
60
60
55
55
50
50
45
45
fiú
lány
Mean
Mean±0.95 Conf. Interval
fiú
lány
Mean
Mean±SD
NEM
NEM
Átlag  95% CI
Átlag  SD
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
22
Ábratípusok a számolt jellemzők alapján

Doboz-ábra (box diagram)
Box Plot (kerd97 20v*43c)
Box Plot (kerd97 20v*43c)
100
100
90
90
80
80
70
70
SULY
SULY
60
60
50
50
40
30
fiú
lány
NEM
Median
25%-75%
Non-Outlier Range
Extremes
40
30
fiú
lány
Median
25%-75%
Min-Max
Extremes
NEM
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
23
Hipotézisvizsgálatok
A
hipotézisvizsgálat során a rendelkezésre
álló adatok (statisztikai minta) alapján az
egész jelenség (populáció) tulajdonságaira
következtetünk.
 Azt vizsgáljuk, hogy a tapasztalt eredmény
(különbség) nagyobb-e, mint amit a véletlen
önmagában okoz.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
24
Mintavétel, szimuláció

Legyen a populáció 120 átlagú, 10
szórású normális eloszlás, ebből veszünk
50 elemű mintákat
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
25
Histogram: s2
K-S d=.08901, p> .20; Lilliefors p> .20
Expected Normal
25
20
15
No. of obs.
10
5
0
80
90
100
110
120
130
140
150
160
X <= Category Boundary
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
26
Histogram: s3
K-S d=.06554, p> .20; Lilliefors p> .20
Expected Normal
20
18
16
14
12
10
No. of obs.
8
6
4
2
0
80
90
100
110
120
130
140
150
160
X <= Category Boundary
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
27
Histogram: s4
K-S d=.05667, p> .20; Lilliefors p> .20
Expected Normal
25
20
15
No. of obs.
10
5
0
80
90
100
110
120
130
140
150
160
X <= Category Boundary
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
28
Histogram: s5
K-S d=.06256, p> .20; Lilliefors p> .20
Expected Normal
20
18
16
14
12
10
No. of obs.
8
6
4
2
0
80
90
100
110
120
130
140
150
160
X <= Category Boundary
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
29
Histogram: s6
K-S d=.11902, p> .20; Lilliefors p<.10
Expected Normal
22
20
18
16
14
12
10
No. of obs.
8
6
4
2
0
80
90
100
110
120
130
140
150
160
X <= Category Boundary
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
30
Histogram: s7
K-S d=.07360, p> .20; Lilliefors p> .20
Expected Normal
25
20
15
No. of obs.
10
5
0
80
90
100
110
120
130
140
150
160
X <= Category Boundary
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
31
120 átlagú, 10 szórású populációból származó 50
elemű minták (ismételt mérések) átlagai és szórásai
140
120
átlag + SD
100
80
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
ism étlés
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
32
Mekkora lehet a véletlen ingadozás?
A minták átlagai 120 körül ingadoznak, ha
„nem történik semmi”, csak sima ismétlés
 Két mérés különbségének átlaga a 0 körül
ingadozik
 Mekkora az a különbség, amit már nem a
véletlen okoz?

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
33
Hipotézisek


Nullhipotézis: véletlen 
ingadozást mértem,
„semmi nem történt”.
A különbség 0 körül
ingadozik

y=student(x;49)
Alternatív hipotézis: a
véletlen ingadozásnál
nagyobbat mértem,
„valami történt”
A különbség 0-tól eltérő
szám körül ingadozik
p=2*(1-istudent(abs(x);49))
0.5
1.0
0.4
0.8
0.3
0.6
0.2
0.4
0.1
0.2
0.0
???
0.0
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
3
0
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
34
A nullhipotézis fennállása esetén ismerjük a
különbség-átlag eloszlását
Pontosabban: az abból számolt t-statisztika eloszlását ismerjük
t=különbségy=student(x;49)
átlag/különbség SE
p=2*(1-istudent(abs(x);49))
0.5
1.0
0.4
0.8
0.3
0.6
0.2
0.4
0.1
0.2
0.0
0.0
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
3
0
Ha igaz a nullhipotézis (igazából nincs különbség a populáció átlagok között),
a t-érték nagy valószínűséggel (95%) ide esik.
A kimaradó valószínűség 5% ()
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
35
Statisztikai próba: kiszámítjuk adatainkból a t=átlag/SE
próbastatisztikát és megnézzük, hova esik
y=student(x;49)
p=2*(1-istudent(abs(x);49))
y=student(x;49)
p=2*(
0.5
1.0
0.5
1.0
0.4
0.8
0.4
0.8
0.3
0.6
0.3
0.6
0.2
0.4
0.2
0.4
0.1
0.2
0.1
0.2
0.0
0.0
-3
-2
-1
0
1
2
3
Döntés: az eltérés nem szignifikáns
|t|<ttábla
0.0
-3
-2
0.0
-1 -3
0 -2
1 -1
2
0
3
1
2
3
-3
Döntés: az eltérés szignifikáns
|t|>ttábla
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
36
-2
Döntési szabály p-érték alapján



p-érték: a mi általunk számított t-érték által az eloszlásból levágott terület
nagysága
Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás),
a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk
Annak valószínűsége, hogy a puszta véletlen legalább ekkora különbséget okoz
p>, a különbség nem szignifikáns adott  szinten
p<, a különbség szignifikáns adott  szinten
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
37
Miért éppen 5%?
A tévedés valószínűségét mi állapítjuk meg előre, még a kísérlet megkezdése
előtt. Tehát egyáltalán nem kötelező a 95% illetve az 5% betartása, mégis ez a
kialakult „szokásrendszer”.
Oka*:
„Fisher a nullhipotézis ellen szóló bizonyíték erősségét mérő
indexnek tekintette a p-értéket … A p<0,05 (5%-os
szignifikanciaszint) küszöböt javasolta, mely alapján
általában eldönthető, hogy van-e bizonyíték a vizsgált
hipotézis ellen, de ezt nem gondolta abszolút mércének.
„Ha p 0,1 és 0,9 között van, akkor biztosan nincs okunk
kételkedni a vizsgált hipotézisben. Ha az érték 0,02 alatt
van, az elég erősen arra vall, hogy hipotézisünk nem
elegendő magyarázat a tényekre. Talán nem tévedünk
majd túl gyakran, ha a határvonalat 0,05-nál húzzuk
meg...” . Fontos itt megjegyeznünk, hogy Fisher mindig
is hangsúlyozta: a p-érték interpretálása végső soron a
kutató dolga. A 0,05 körüli p-értékkel előfordulhat, hogy
nem a nullhipotézis elfogadásához vagy elvetéséhez
vezet, hanem a vizsgálat megismétléséhez.”
*Sifting the evidence—what's wrong with significance tests? Jonathan A C
Sterne, George Davey Smith, BMJ 2001;322:226–31
*A bizonyítékok rostája, avagy mi a baj a szignifikanciapróbákkal? Jonathan
A. C. Sterne, George Davey Smith. BMJ Magyar Kiadás 2001;3:175-80.
http://www.lam.hu/folyoiratok/bmj/0103/17.htm
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
38
A konfidenciaintervallum fogalma
(bizonyossági intervallum)





Olyan, a mintaelemekből számolt intervallum, amely nagy
valószínűséggel tartalmazza a populáció-paraméter valódi
(ismeretlen) értékét
Pl. 95%-os bizonyossági intervallum az átlagra: olyan, a
mintaelemekből számolt intervallum, ami 95% valószínűséggel
tartalmazza a populáció valódi átlagát.
A megbízhatóság mértékét jelző valószínűség (megbízhatósági szint)
tőlünk függ. Szokásos értékei: 0.90, 0.95, 0.99 )
A becslés „hibája” (-val jelöljük) a megbízhatósági szint függvényében
1-0.90=0.1, 1-0.95=0.05, 1-0.99=0.01
Leggyakrabban használt megbízhatósági szint 95% (0.95), tehát  -ra
leggyakrabban =0.05 értéket alkalmazzák.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
39
Az átlagra vonatkozó 95%-os bizonyossági intervallum
szemléltetése az adott kísérlet képzeletbeli ismétléseivel
http://www.kuleuven.ac.be/ucs/java/index.htm

Ha a kísérletet
képzeletben 100szor
megismételnénk, a
100 kapott 95%-os
konfidencia
intervallum közül
várhatóan 95 fogja
tartalmazni a
populáció átlagát,
és 5 nem.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
40
Szignifikancia és a
konfidenciaintervallum



A mintát az adott (átlagú)
populációból vettük.
A populációátlag =0. Ez
lehet pl. annak a
nullhipotézisnek megfelelő
eloszlás, hogy a kezelés
előtti és a kezelés utáni
populációátlag ugyanaz.
A konfidenciaintervallum
tartalmazza az adott
átlagot – jelen esetben a
nullát.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
41
Szignifikancia vizsgálatok és a konfidenciaintervallum
kapcsolata (H0: μ1= μ2, azaz μ1- μ2 =0, Ha: μ1 μ2)

p-érték
p<0.05
szignifikancia
szign. 5%-os szinten

p > 0.05
nem szign. 5%-os sz.

95% CI (p1 – p2)-re
pl. (4.5, 10.7) 0 nincs benne a
konf. intervallumban
pl. (-1.72, 5.81) 0 benne van a
konf. intervallumban
Szignifikáns, p<0.05
Szignifikáns. p<0.05
Nem szignifikáns, p>0.05
0
Megjegyzés. Ha relatív kockázatot vagy esélyhányados vizsgálunk,
akkor a konfidenciaintervallumban az 1-et keressük
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
42
Ha van két adatsorom, mikor „kell” t-próbát
(és akkor melyiket), khi-négyzet próbát,
vagy korrelációt stb… számítani???
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
43
A próba megválasztása függ
Az analízis céljától (összehasonlítás vagy
kapcsolat)
 Az adatok típusától
 A kísérleti elrendezéstől
 ….

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
44
t-próba

Mean Plot (kerd97 20v*43c)
85
80
75
70
65
SULY

átlagokat hasonlít. Akkor
alkalmazzuk, ha két csoportban
folytonos változóink vannak,
amelyekből van értelme átlagot
számolni (pl. kor, vérnyomás,
stb.)
Feltétele: Normalitás
„Szokásos” ábrák
60
55
50
45
fiú
lány
Mean
Mean±SE
NEM
Body height
Box Plot (kerd97 20v*43c)
100
30
90
80
20
70
SULY
Frequency
10
Std. Dev = 8.52
60
50
Mean = 170.4
N = 87.00
0
150.0
160.0
155.0
170.0
165.0
180.0
175.0
40
190.0
185.0
195.0
30
fiú
Body height
lány
Median
25%-75%
Non-Outlier Range
Extremes
NEM
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
45
2 (khi-négyzet) próba
„Szokásos” ábrák


Gyakoriságokat (%-okat),
(gyakorisági eloszlásokat
hasonlít)
70.00%
63.30%
60.00%
50.00%
40.00%
33.30%
30.00%
20.00%
10.00%
0.00%
hagyományos,
n=30
Eljárás
Sikeres
Hagyományos
10
Új eljárás
19
Sikertelen
20
11
Sikeres %
33.33 %
63.30 %
új, n=30
hagyományo
s, n=30;
33.30%
új, n=30;
63.30%
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
46
Korreláció-regresszió
Két folytonos változó lineáris kapcsolata
70.00
65.00
y = 0.6144x + 19.706
R2 = 0.7374
kívánatos súly
60.00
55.00
50.00
45.00
40.00
40.00
45.00
50.00
55.00
60.00
65.00
70.00
jelnelegi súly
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
47
A hipotézisvizsgálat menete

Hipotézisek felállítása

Nullhipotézis: semmi nem történt
 Alternatív hipotézis: valami változás van





A döntés megbízhatósága (vagy a hiba) rögzítése: =0.05
Döntési szabály felállítása (függ: a kísérleti elrendezéstől, -tól, az
elemszámtól)
Döntés
A nullhipotézist elfogadjuk (nincs szignifikáns különbség  szinten,
nincs elegendő információ a különbség (hatás) kimutatására)
A nullhipotézist elvetjük, a különbség szignifikáns %-os szinten. A
tapasztalt különbség nem csupán a véletlen műve, valami más
hatás (kezelés??) is közbejátszott.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
48
Normális eloszlást feltételezve,
az átlagok összehasonlítására használható próbák


Egy minta esete: egymintás t-próba
Két minta esete:
 Összetartozó
minták: (előtt-után, baloldal-jobboldal):
páros t-próba= egymintás t-próba a különbségekre
 Független minták (placebo-kezelés, férfi-nő, betegegészséges): kétmintás t-próba




Azonos szórások esetén „klasszikus”
Különböző szórások esetén „módosított” (Welch, D)
Szórások egyezésének tesztelése: F-próba, Levene-próba
Több (>2) minta esete: varianciaanalízis
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
49
Egymintás t-próba

Egy kezelés során szükségessé vált annak ellenőrzése, hogy az
milyen hatással van a vérnyomásra. A vizsgált paciensek
korcsoportjában a systolés vérnyomás normálértéke 120.
n=9 személyt megmérve a következő értékeket kapták:

182.00 152.00 178.00 157.00 194.00 163.00 144.00 114.00 174.00




(átlag=162, SD=23.92 .
Mondhatjuk-e a mintaadatok alapján, hogy az adott korcsoport
populációjában az átlagos vérnyomás 120 Hgmm?
Nullhipotézis (HO): A populáció átlag 120, =120
Alternatív hipotézis (Ha): A populáció átlag nem 120 , 120
(kétoldalas)
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
50
Döntési szabály a konfidencia intervallum
alapján





Konfidencia intervallum alapján: adjuk meg a populáció-átlagra vonatkozó
95%-os konfidencia intervallumot!
A konfidencia intervallum:
(átlag - t*SE, átlag + t * SE )=
(162-2.306*23.92/9, 62+2.306*7.97)=(143.61,180.386)
Döntési szabály a konfidencia intervallum alapján: benne van-e az adott
szám a konfidencia-intervallumban?
 Ha igen: a különbség nem szignifikáns adott szinten
 Ha nem: a különbség szignifikáns adott szinten
Esetünkben 120 nincs benne a konfidencia intervallumban, tehát a
különbség szignifikáns 5%-os szinten
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
51
Döntési szabály a t-érték alapján







Számítsuk ki a t-értéket:
t= (átlag - c)/SE=(162-120)/7.97=5.26.
szabadságfok: n-1=9-1=7
és hasonlítsuk az abszolút értékét a
t8,0.05=2.306 táblázatbeli értékhez :
5.26>2.306
Döntési szabály: ha |t|>ttábla, a különbség
szignifikáns adott szinten
Az elfogadási tartomány a változó azon
értékeinek halmaza, amelyekre elfogadjuk
a nullhipotézist (- ttábla ,ttábla)
A kritikus tartomány ennek ellentettje. A
kritikus tartomány értékeire a nullhipotézist
nem fogadjuk el.
Esetünkben a különbség szignifikáns 5%os szinten
Elfogadási tartomány
t=5.26
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
52
Döntési szabály a p-érték alapján




p-érték: a mi általunk számított
t-érték által az eloszlásból
levágott terület nagysága
Annak valószínűsége, hogy ha
igaz a nullhipotézis (=nincs
hatás), a tapasztalt eltérést
vagy annál még nagyobb
eltérést kapjunk
Ha a p<, akkor a különbség
szignifikáns adott  szinten
Esetünkben p=0.001<0.05
Elfogadási tartomány
One-Sample Test
Test Value = 120
VAR00001
t
5.267
df
8
Sig . (2-tailed)
.001
Mean
Difference
42.0000
95% Confidence
Interval of the
Difference
Lower
Upper
23.6121
60.3879
t=5.26
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
53
Páros t-próba


Önkontrollos kísérlet, vagy
Más módon összetartozó adatok:

Jobb oldal-bal oldal
 Illesztett párok- matched pairs (különböző személyek, de a kísérlet
szempontjából párba állíthatók)



Nullhipotézis: a két minta-átlag ugyanannak a populáció-átlagnak a
közelítése, (nincs kezelés-hatás, a tapasztalt különbség véletlen)
Alternatív hipotézis: a két minta-átlag két különböző populációátlagnak a közelítése (van hatás)
Döntési szabály:


Konfidenica intervallum a különbségre
t-érték számítás és összehasonítás a táblázattal
 p-érték (szoftver)
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
54
Páros t-próba, példa (folyt).








Gondolatmenet: ha a kezelés
nem hatásos, az átlagos
különbség kicsi (közel 0). Ha a
diéta hatásos, az átlagos
különbség nagy. A populációra
nézve ez a következő
hipotéziseket jelenti:
HO: előtt= után or különbség= 0
(c=0)!!
HA:  előtt ≠  után or  különbség ≠
0
Legyen =0.05.
A szabadságfok=10-1=9,
ttáblázat=t0.05,9=2.262
átlag=4, SD=3.333
SE=3.333/10=1.054

Döntés a konfidenciaintervallum
alapján:





95%CI:
(4-2.262*1.054,
4+2.262*1.054)=(1.615, 6.384)
Ha H0 igaz, akkor a 0 benne van a
konfidencia-intervallumban
Most
0 nincs benne a 95%-os konfidenciaintervalluman, ezért döntésünk az,
hogy a különbség szignifikáns 5%-os
szinten, a kezelés hatásos volt
Az átlagos súlyveszteség 4 kg, ami
akár 6.36 is lehetne, de minimum
1.615, 95% valószínűséggel.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
55
Páros t-próba, példa (folytatás)

Döntés a próbastatisztika
alapján (t-érték:
t



xc x0
4


 3.795
SE
SE
1.054
Azt hasonlítjuk a táblabeli
kritikus értékhez.
|t|=3.795>2.262(=t0.05,9), a
különbség szignifikáns 5%os szinten
Döntés p-érték alapján:

p=0.004, p<0.05, a
különbség szignifikáns 5%os szinten
Elfogadási tartomány
tszámított, próbastatisztika
ttábla, kritikus érték
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
56
Példa az orvosi irodalomból
V. Lindén: Vitamin D and Myocardial Infarction. BMJ 1974,3,647-650
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
57
Kísérleti elrendezések


Páros t-próba

Minden egyedet kétszer 
vizsgálunk
1. 2.
x1 y1
x2 y2
… …
xn yn
Kétmintás t-próba
Minden egyedet csak egyszer vizsgálunk, és
mindegyik egy és csak egy csoportban lehet.
Csoport
Mérések
1
x1
1
x2
…
…
1
xn
2
y1
2
y2
…
…
2
ym
Az elemszám nem feltétlenül azonos a két
mintában
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
58
Kétmintás t-próba


Két független minta összehasonlítása
Feltételek:




A minták függetlenek:
normális eloszlású populációból származnak:az xi-k N(µ1,)
és az yi--k N µ2, ) eloszlású populációból
H0: 1=2, Ha: 12
Próbastatisztika

Különböző varianciák esetén:
d
x y
2
x
2
y
s
s

n m
szabadságfok 


.
(n  1)  (m  1)
g 2  (m  1)  (1  g 2 )  (n  1)
g
sx2
n
2
sx2 sy

n m
Döntés:
Ha |t|>tα,szab.fok, a különbség szignifikáns α szinten, H0-t
elvetjük
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
59
Kétmintás t-próba


Két független minta összehasonlítása
Feltételek:




A minták függetlenek:
normális eloszlású populációból származnak:az xi-k N(µ1,)
és az yi--k N µ2, ) eloszlású populációból
H0: 1=2, Ha: 12
Próbastatisztika

Azonos varianciák esetén:
x y
xy
. nm
t


sp
n m
1 1
sp

n m



s2p 
( n  1)  sx2  ( m  1)  sy2
n m2
Szabadságfok: n+m-2
Döntés:
Ha |t|>tα,szab.fok, a különbség szignifikáns α szinten, H0-t
elvetjük
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
60
A varianciák összehasonlítása



H0: 21=22
Ha:21 > 22 vagy 21 > 22 (egyoldalú próba)
A próbastatisztika (F): a nagyobbik standard deviáció
négyzetét osztjuk a kisebbel:
2
2
F

min(sx2 , sy2 )
Szabadságfokok:



max(sx , sy )
nagyobb SD-hez tartozó minta elemszáma-1
Kisebb SD-hez tartozó minta elemszáma-1
Döntés: F táblázat alapján

Ha F>Fα,táblázat, a két variancia szignifikánsan különbözik α
szinten
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
61
Az F-eloszlás táblázata (részlet)
α=0.05
számláló->
nevező
1
2
3
4
5
6
7
8
9
10
1
161.4476
18.51282
10.12796
7.708647
6.607891
5.987378
5.591448
5.317655
5.117355
4.964603
2
199.5
19
9.552094
6.944272
5.786135
5.143253
4.737414
4.45897
4.256495
4.102821
3
215.7073
19.16429
9.276628
6.591382
5.409451
4.757063
4.346831
4.066181
3.862548
3.708265
4
224.5832
19.24679
9.117182
6.388233
5.192168
4.533677
4.120312
3.837853
3.633089
3.47805
5
230.1619
19.29641
9.013455
6.256057
5.050329
4.387374
3.971523
3.687499
3.481659
3.325835
6
233.986
19.32953
8.940645
6.163132
4.950288
4.283866
3.865969
3.58058
3.373754
3.217175
7
236.7684
19.35322
8.886743
6.094211
4.875872
4.206658
3.787044
3.500464
3.292746
3.135465
8
238.8827
19.37099
8.845238
6.041044
4.81832
4.146804
3.725725
3.438101
3.229583
3.071658
9
240.5433
19.38483
8.8123
5.998779
4.772466
4.099016
3.676675
3.38813
3.178893
3.020383
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
10
241.8817
19.3959
8.785525
5.964371
4.735063
4.059963
3.636523
3.347163
3.13728
2.978237
62
Kontroll csoport
170
160
150
150
180
170
160
160
n=8
x =162.5
sx=10.351
Kezelt csoport
120
130
120
130
110
130
140
150
130
120
n=10
y =128
sy=11.35
sx2=107.14
sy2=128.88
Példa
F
12888
.
 1. 2029,
10714
.
A számláló szabadságfoka 10-1=9, a nevezőé 8-1=7, a 9,7 szabadságfokokhoz
tartozó kritikus F érték F,9,7=3.68. Mivel 1.2029<3.68, a két szórás egyenlőségének
a nullhipotézisét nem vetjük el.
7  107.14  9  128.88 749. 98  1160

 119. 37
10  8  2
16
162. 5  128 10 8 34. 5
t


 4. 444  6. 6569
18
10. 92
119. 37
s2p 
A számított t érték = 6.6569 ,a kritikus t érték, t0.025,16=2.12. Mivel
6.6569>2.12, elvetjük a nullhipotézist és azt állítjuk, hogy a két átlag közötti
különbség szignifikáns 5% -os szinten.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
63
Eredmény SPSS-sel
Group Statistics
BP
csoport
Kontroll
Kezelt
N
8
10
Mean
162.5000
128.0000
Std. Deviation
10.35098
11.35292
Std. Error
Mean
3.65963
3.59011
Independent Samples Test
Levene's Test for
Equality of Variances
F
BP
Equal variances
assumed
Equal variances
not assumed
Sig.
.008
.930
A varianciák összehasonlítása.
p=0.93>0.05, nem szignifikáns.
Elfogadjuk a varianciák azonosságát
t-test for Equality of Means
t
df
Sig. (2-tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
6.657
16
.000
34.50000
5.18260
23.51337
45.48663
6.730
15.669
.000
34.50000
5.12657
23.61347
45.38653
Az átlagok összehasonlítása (t-próba).
Első sor: egyenlő varianciák esete.
t=6.657, df=16, p<0.001
Az átlagos vérnyomás szignifikánsan
különbözik a két populációban 5%-os szinten
Második sor: az átlagok összehasonlítása (t-próba) különböző varianciák esetén. Most
nem használjuk fel az itt található információt, mert elfogadtuk a varianciák azonosságát
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
64
Kategórikus változók elemzése
2 próbák (khi-négyzet)



Két kategóriás változó kapcsolata.
Pl. 2 közúti ellenőrzés során az ittasok aránya 1.5% ill. 0.5 %
Pl. a sikeres műtétek gyakorisága 2 féle eljárás esetén 33.3% és 66.6%*.
I.
II.
Összes vizsgált
600
400
Eljárás
Sikeres
Hagyományos
10
Új eljárás
19
Ittas Nem ittas
9
2
Sikertelen
20
11
Ittas%
1.5%
0.5%
Sikeres %
33.33 %
63.30 %
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
65
2x2-es táblázatok




A gyakoriságok
Vizsgált 1. csoport 2.csoport
kontingencia táblázatba
tényező
rendezhetők.
Van +
a
b
Nincs c
d
2 formula könnyen
Összesen
a+c
b+d
számítható
Yates korrekció: pontosabb 2
(ad  bc) 2 N
 
közelítés
(a  b)(c  d )(a  c)(b  d )
Ha a várt gyakoriságokra
N 2
(| ad  bc |  ) N
vonatkozó feltétel nem
2
2
 Yates 
teljesül:

Fisher féle egzakt próba
Összes
a+b
c+d
N
(a  b)( c  d )( a  c)( b  d )
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
66
2 próba az 1*. példa adataira


Nullhipotézis: Az ittasság aránya azonos a két vizsgálatban, az ittasság független
attól, hogy mikor nézték.
Gyakorisági táblázat (amiből számolunk)
Ittas
9
2
11

Nem ittas
591
398
989
A függetlenség esetén várható gyakoriságok
Ittas
6.6
4.4
11
Nem ittas
593.4
395.6
989
Összes vizsgált
600
400
1000

2=2.205, p=0.137 , nem szignifikáns 5%-os szinten.

Feltétel: (várt gyakoriság<5 nem lehet) – nem teljesül!!! Megoldás: Fisher próba (p=0.216)
*Bernholdt HPB, Dubben HH. A tojást rakó kutya.Budapest:Magyar Könyvklub; 2001.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
67
2 próba a 2. példa adataira



Nullhipotézis: A siker valószínűsége azonos a két eljárás esetén.
Az eljárás sikeressége független attól, hogy új vagy hagyományos eljárásról
van-e szó.
Gyakorisági táblázat (amiből számolunk)
Eljárás
Sikeres
Hagyományos
10
Új eljárás
19
Sikertelen
20
11
Sikeres %
33.33 %
63.30 %

2=5.406, p=0.02 , szignifikáns 5%-os szinten.

Feltétel: (várt gyakoriság<5 nem lehet) teljesül!!! ( Fisher próba p=0.038)
Várt gyakoriságok:
I.
II.
Összesen
Sikeres
14.5
14.5
29
Sikertelen
15.5
15.5
31
Összes vizsgált
30
30
60
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
68
2x3-as kontingencia táblázat



Két kategóriás változó
kapcsolata.
Pl. diabetes gyakorisága a
3 csoportban csoportban:
31%, 27% és 25%*.
Kérdés: különbözik-e a
diabetes gyakorisága az
egyes csoportokban?
DIAB
CS1
Cs2
Cs3
Total
yes
31
27
25
83
no
69
73
75
217
Total
100
100
100
300
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
69
A 2 próba végrehajtása, feltételei







H0 teljesülése esetén a várt
gyakoriságok számítása
(Ei=sorösszeg*oszlopösszeg/total)
2 statisztika számítása:
2 =Σ(Oi-Ei)2/Ei
Szabadságfok: sorok száma1)*(oszlopok száma-1)
Döntés táblázat alapján:
2 > 2 táblázat, , df
Feltétel: 5-nél kisebb várt
gyakoriságot tartalmazó cellák
száma max. 20%
Egzakt tesztek (Fisher): nincs
feltétele, a pontos p-értéket adják
DIAB
yes
no
Total


Kezelés1 Kezelés2 Kezelés3
27.7
27.7
27.7
72.3
72.3
72.3
100
100
100
2 =0.933
Df=(3-1)*(2-1)=2

0.933<5.99(= 2 táblázat, 0.05,2)
p=0.627

Teljesül
Egzakt p=0.663

Total
83
217
300
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
70
Korreláció-regresszió: két folytonos változó közötti (lineáris) kapcsolat vizsgálata.
A kapcsolat vizsgálatához először készítsünk ábrát (pont ábra vagy szóródás-ábra).


Egy ilyen ábrán a
kapcsolat irányát és
szorosságát vizsgáljuk,
valamint az általános
alakzatot.
A két változó mért
értékeivel mint
koordinátákkal
berajzoljuk a megfelelő
pontokat.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
71
Lehetséges kapcsolatok
100
80
520
500
retailing
language
560
540
480
460
440
420
400
400
60
40
20
450
500
550
0
400
600
450
math score
500
550
600
math score
Negatív korreláció
theater
Pozitív korreláció
100
90
80
70
60
50
40
30
20
10
0
400
450
500
550
600
math score
Nincs korreláció
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
72
Mérőszám a lineáris kapcsolat szorosságának
mérésére: a korrelációs együttható (r ) és
tulajdonságai

560
540
language
A korrelációs együttható értéke mindig -1 és +1 között van;
-1 és 1 jelzi a tökéletes lineáris kapcsolatot.
-1r 1.
a) Ha r közel van +1-hez vagy -1-hez, azt mondjuk, hogy
szoros (magas) korreláció van a két változó között.
520
500
480
460
440
420
400
400
450
500
550
600
math score
100
80
retailing

60
40
20
0
400
450
500
550
600
math score
12
10


b) Ha r=1, tökéletes pozitív korreláció
Ha r= -1, tökéletes negatív korreláció.
8
6
4
2
0
0
2
4
6
12
10
8
6
4
2
c) Ha r=0, nincs korreláció, vagyis nincs lineáris kapcsolat.
Ha r közel van 0-hoz, akkor alacsony korrelációról
beszélünk.
0
0
theater

2
4
6
100
90
80
70
60
50
40
30
20
10
0
400
450
500
550
600
math score
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
73
180
160
140
theater
100
90
80
70
60
50
40
30
20
10
0
120
100
80
60
40
20
0
400
450
500
550
400
600
500
600
r=-0.21
800
900
r=0.74
560
560
540
520
540
520
500
480
460
440
420
400
400
700
math score
math score
language
Egyetlen
kiugró érték
nagyon meg
tudja
változtatni a
korrelációt.
language

theater
Kiugró értékek hatása
450
500
math score
r=0.998
550
600
500
480
460
440
420
400
400
500
600
700
800
math score
r=-0.26
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
74
900
A korreláció csak a lineáris kapcsolat
szorosságát méri

Szoros, de nem
lineáris kapcsolat
esetén a korrelációs
együttható kicsi
y
10
8
6
4
2
0
-4
-3
-2
-1
0
1
2
3
4
r=2.8 E-15
y
1.2
1
0.8
0.6
0.4
0.2
0
0
0.5
1
1.5
2
2.5
3
3.5
r=0.157
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
75
A korreláció nem jelent oksági kapcsolatot
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
76
A korrelációs együttható szignifikanciája




Azt teszteljük, hogy a kapott korrelációs együttható tekinthető-e a 0
közelítésének, vagy pedig elég messze van 0-tól.
H0: ρ=0 (görög rho=0, a populációs korrelációs együttható = 0)
Ha: ρ ≠ 0 (a populációs korrelációs együttható ≠ 0)
Ha igaz a nullhipotézis, az alábbi t statisztika n-2 szabadságfokú t-eloszlást
követ
t

r n2
1 r 2
 r
n2
1 r 2
Döntés t-táblázat alapján:
Ha |t|>tα,n-2, a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt
mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól.
 Ha |t|<tα,n-2, a különbség nem szignifikáns α szinten, nem vetjük el a nullhipotézist
és azt mondjuk, hogy a populációs korrelációs együttható nem tér el 0-tól..


Döntés p-érték alapján:

Ha p < α a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt
mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
77
Scatterplot (corr 5v*6c)
LANGUAGE = 15.5102+1.0163*x
560
540
520
500
480
LANGUAGE
460
440
420
400
380
400
420
440
MATH:LANGUAGE: r = 0.9989; p = 0.000002
460
480
500
520
540
MATH
p<0.05, populációs korrelációs együttható szignifikánsan eltér 0-tól.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
78
A lineáris kapcsolat becslése: lineáris
regresszió

Ha a kapcsolat lineáris, szükséges lehet a legjobban
illeszkedő egyenes egyenletének meghatározása. A
regressziós egyenes általános egyenlete
y=bx + a

a és b jelentése.
b: regressziós együttható, az egyenes meredeksége;
a: az egyenes tengelymetszete.
Az együtthatók becslése a legkisebb négyzetek elvén
alapul.



Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
79
A legkisebb négyzetek elve

n
 (y  (a  b  x ))

i
i
2
 S ( a , b)
i 1
n
n
b
 xi yi 
n
x y
i
i
i 1
n
i 1
n
n
x
2
i

(  xi ) 2
i 1
i 1

(x
i

60.00

színház = 112.79 + -0.11 * matematika
R-Square = 0.05
 x )( yi  y )
i 1
n
(x
i
 x)2
40.00
i 1
n

a  y b x

n
i 1
Linear Regre
80.00
színhá z
S
S
 0,
0
a
b
->min

400.00

440.00
480.00
520.00
matematika
A korrelációs együttható kiszámítása a
regressziós együttható segítségével
r  b
sx
sy
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
80
A determinációs együttható, r2




A korrelációs együttható négyzete 100-zal
szorozva a determinációs együttható.
Megadja, hogy az y (függő) változó összvarianciájának hány %-a magyarázható az x-től
való lineáris függésével
Példa.
A matematika és a nyelvtudás között korreláció r
=0.9989.
A determinációs együttható, r2 = 0.917 .
Tehát a nyelvtudás össz-szóródásának 91.7%-a
magyarázható a matematikától való lineáris
függésével.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
81
Regresszió transzformációk
alkalmazásával.


Néha a pont-ábra
nemlineáris, ugyanakkor
valamilyen görbevonalú,
függvénnyel megadható
kapcsolatot mutat . Az
alakzat exponenciális
kapcsolatot sejtet.
Ha az y logaritmusát
vesszük, az x és ln(y)
közötti kapcsolat lineáris
lesz
450
400
350
300
y 250
200
150
100
50
0
0
5
10
15
10
15
time
6
5
4
ln(y) 3
2
1
0
0
5
time
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
82
A próbák feltételeinek figyelembe vétele:
paraméteres és nemparaméteres próbák
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
83
Rangsoroláson alapuló eljárások
(nemparaméteres próbák egyik fajtája)

Mi van, ha a t-próba feltételei (normalitás, varianciák azonossága) nem
teljesül???



Akkor alkalmazhatjuk, ha







Transzformációk alkalmazása (log, négyzetgyök, arcsin, …)
Nemparaméteres próbák – rangsoroláson alapuló eljárások
A paraméteres próbák feltételei nem teljesülnek
Nem tudjuk ellenőrizni (kis elemszám)
Nem akarjuk ellenőrizni
Ordinális változók (mennyire örülök a tavasznak??? Kicsit-közepesen-nagyon)
Csak az adatok nagyságrendje számít, az nem, hogy mennyivel nagyobb
egyik adat a másiknál
Számítás: rangsorolás alapján
De: nem ugyanazt a nullhipotézist tesztelik, mint a paraméteres próbák.
Tehát nem tekinthetők úgy, mint a paraméteres próbák nem paraméteres
„megfelelői”.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
84
Leggyakrabban alkalmazott nemparaméteres
próbák

Két összetartozó minta:
 Előjelpróba
 Előjeles rangpóba
(Wilcoxon próba, Wilxocon’s
signed rank test)

Két független minta:
 Mann-Whitney



U-próba
Több összetartozó minta: Friedman próba
Több független minta: Kruskal-Wallis próba
Kategóriás adatok elemzése (2 próbák)
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
85
Egy- és kétoldalas próbák

Kétoldalas próba


H0: nincs változás
Ha: van változás
(bármilyen irányú)

Egyoldalas próba


H0: az átlag nem
növekedett
Ha: az átlag növekedett
p-értékek esetén: p(egyoldalas)=p(kétoldalas)/2
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
86
A szignifikancia értelmezése


Szignifikáns különbség – p< , p<0.05. Az összehasonlított
populációkról azt állítjuk, hogy különbözők. A döntés
hibavalószínűsége kicsi (maximum - ez az ún. első fajta hiba –
Type I. error).
Nem szignifikáns különbség – p> , p>0.05. Ilyenkor csak annyit
tudunk mondani, hogy nincs elegendő információ a különbség
kimutatására. Lehet, hogy



Valóban nincs is különbség
Van különbség, csak kevés volt az elemszám
Nagy volt a szórás
 Rossz volt a vizsgálati módszer
 …


A statisztikai szignifikanciát mindig át kell gondolni, vajon biológiai
szempontból jelentős-e
A statisztikai szignifikancia megadásakor a p-érték feltüntetése is
célszerű.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
87
Több csoport, minta átlagainak
összehasonlítása
Pl. 4 féle „kezelés”


Életk or átlag ok

60.00
Pl. több időpontban végzett
mérések, a csoportok
összehasonlítása minden
egyes időpontban
3 mM K+
5 mM K+
B.

450

Heart rate (beats/min)
Átlag+SE

40.00
20.00
0.00
Kontroll
Tamoxifen
Arimidex
Kezelési csoportok
Taxan
400
350
300
250
-10
-5
0
5
10
15
20
25
Time (min)
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
88
Miért nem jó, ha t-próbákat végzünk páronként?
Mert a véletlen is okozhat „szignifikáns” eredményt –
ha =0.05, akkor átlagosan minden 20-adik esetben.
CSOP
R1
R2
R3
R4
R5
R6
R7
R8
1. 00
- . 84
1. 73
2. 36
- . 30
- . 31
- . 31
- . 56
1. 58
1. 00
. 59
. 44
. 60
- . 75
- . 28
- 1. 51
- . 81
- . 12
1. 00
. 19
- . 73
- 1. 04
1. 27
. 69
- . 21
- . 52
- 1. 34
1. 00
- 1. 05
. 88
1. 27
1. 05
- . 87
. 68
- . 17
- . 15
1. 00
. 12
- . 75
- . 05
- 1. 13
2. 21
. 74
- . 90
- . 45
1. 00
1. 10
- . 20
- . 78
1. 02
. 67
. 18
- . 52
- . 34
1. 00
- . 19
- . 57
- . 41
2. 25
- 1. 26
- . 27
. 44
- 2. 52
1. 00
. 45
1. 20
2. 77
- . 17
- . 68
. 60
. 54
- . 37
1. 00
- . 58
- . 01
. 60
1. 66
2. 14
2. 31
- . 90
- 1. 75
1. 00
- . 39
. 93
- . 51
. 31
- . 60
- . 21
. 55
. 57
1. 00
- . 23
- 1. 21
- 1. 08
. 02
. 31
- 1. 28
1. 20
1. 62
1. 00
. 87
. 97
- 1. 04
. 60
- . 29
. 86
1. 09
- . 68
2. 00
. 42
- 1. 18
- . 64
- . 08
1. 10
. 39
- . 66
2. 12
2. 00
1. 26
- 2. 13
- 1. 78
- . 60
- 1. 25
- 1. 10
. 19
- 1. 54
2. 00
- . 60
- . 83
- . 94
1. 61
. 95
1. 37
. 10
- . 97
2. 00
- 1. 75
. 63
. 16
. 24
- . 25
1. 49
. 42
- 2. 01
2. 00
. 07
- . 33
- . 56
. 36
. 12
- . 48
. 78
- 1. 29
2. 00
. 15
. 85
. 10
- 2. 07
. 18
2. 14
1. 71
. 62
2. 00
. 98
- 1. 20
- . 46
- . 92
. 08
- 1. 37
. 80
- . 67
2. 00
- . 42
1. 05
- . 29
. 73
. 10
1. 42
. 79
1. 67
2. 00
2. 00
. 06
2. 24
- . 31
- . 13
- . 01
. 04
- . 45
2. 00
- 1. 85
- 1. 83
3. 35
1. 83
- . 12
- . 30
- 1. 68
. 57
2. 00
1. 06
- . 55
- . 36
- . 80
- 1. 41
- 1. 49
. 89
. 82
2. 00
- . 57
- 2. 15
2. 15
- . 99
- 1. 63
. 00
- . 41
1. 42
t - pr .
0. 882846 0. 053926 0. 96894 0. 205339 0. 418212 0. 928912 0. 391001 0. 508963
s z i gn.
4 el s ő f aj t a hi ba v s z - e
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
89
Ugyanazon populációból származó minták
páronkénti összehasonlítása t-próbával
átlag + SD
T-t es t f or D ependent Samples: p-lev els (v eletlen)
Marked dif f erences are s ignif icant at p < . 05000
Variable
s 10
s 11
s 12
s 13
s 14
s 15
s 16
s 17
s 18
s 19
s 20
s1
0.304079 0.074848 0.781733 0.158725 0.222719 0.151234 0.211068 0.028262 0.656754 0.048789 0.223011
s2
0.943854 0.326930 0.445107 0.450032 0.799243 0.468494 0.732896 0.351088 0.589838 0.312418 0.842927
s3
0.364699 0.100137 0.834580 0.151618 0.300773 0.152977 0.201040 0.136636 0.712107 0.092788 0.348997
s4
0.335090 0.912599 0.069544 0.811846 0.490904 0.646731 0.521377 0.994535 0.172866 0.977253 0.338436
s5
0.492617 0.139655 0.998307 0.236234 0.4206371400.186481 0.362948 0.143886 0.865791 0.147245 0.399857
s6
0.904803 0.285200 0.592160 0.429882 0.774524 0.494163 0.674732 0.392792 0.707867 0.330132 0.796021
120
s7
0.157564 0.877797 0.053752 0.631788 0.361012 0.525993 0.352391 0.796860 0.092615 0.818709 0.263511
s8
0.462223 0.858911 0.156711 0.878890 0.6241231000.789486 0.569877 0.932053 0.136004 0.923581 0.564532
s9
0.419912 0.040189 0.875361 0.167441 0.357668 0.173977 0.258794 0.099488 0.757767 0.068799 0.371769
80
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
ism étlés
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
90

Emiatt hibás több csoport esetén
az átlagok összehasonlítására
páronkénti kétmintás t-próbákat
végezni, vagy két csoport esetén
több összefüggő változót szintén
kétmintás t-próbákkal vagy más,
egyváltozós eljárással
összehasonlítani, korrelációjukat
vizsgálni – tehát bármely
egyváltozós módszert ismételten
alkalmazni.

Nem tudhatjuk ugyanis, hogy a
szignifikáns eredmények közül
melyek tulajdoníthatók a
véletlennek, és melyek
tükröznek valódi különbséget.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
91
Megoldás:
sok t-próba helyett egyetlen varianciaanalízis
 Az egyedi p-értékek korrekciója

 Bonferroni
 Holm
 FDR
(False Discovery Rate)
…
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
92
Bonferroni korrekció





Adott (H01 és H02 és... H0n ) nullhipotézis, a hozzátartozó
szignifikanciaszint 1, 2, …, n
Hogyan válasszuk meg i-t ahhoz, hogy a (H01 és H02
és... H0n ) hipotézis szignifikanciszintje ne legyen
nagyobb, mint egy kiválasztott  ? (0,1)
A p-értéket osztjuk az összehasonlítások számával. (H01
és H02 és... H0n )-t elvetjük, ha legalább egy pi</n
Tehát 5 hipotézis esetén =0.05 helyett =0.01 szinten
kell szignifikánsbak lenni bármelyik hipotézisnek, hogy
az együttes döntés hibája maximum 0.05 legyen.
Sok összehasonlítás esetén túl konzervatív módszer
(nem mutat ki valós különbségeket sem).
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
93
Egyedi p-értékek korrekciója a SAS
rendszerrel
The SAS System
The Multtest Procedure
p-Values
Test
1
2
3
4
5
Raw
0.9999
0.2318
0.3771
0.8231
0.0141
Stepdown
Bonferroni
1.0000
0.9272
1.0000
1.0000
0.0705
Hochberg
0.9999
0.9272
0.9999
0.9999
0.0705
False
Discovery
Rate
0.9999
0.5795
0.6285
0.9999
0.0705
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
94
Egyszempontos ANOVA



Adott több független minta
Cél az átlagok összehasonlítása
Feltételek:
Az egyedek véletlenszerűen kerülnek egyik vagy másik csoportba, a
minták független minták (egy egyed csak egy csoportba kerülhet).
 Az összehasonlítandó értékeket tartalmazó változó folytonos.
 A minták normális eloszlású populációból származnak.
 Azok a populációk, amelyekből a minták származnak, azonos
varianciájúak.


Nullhipotézis:

A független minták azonos eloszlású populációból származnak, azaz
a populáció-átlagok megegyeznek
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
95
Példa

Egy kísérletben (Farkas és
mtsai,
2003.)
lokális
iszkémiának alávetett, izolált
patkányszívben
a
szívfrekvencia és a QT szakasz
hosszának változását vizsgálták
három antiaritmiás gyógyszer
hatására. 5 Mm K+ kálium ion
koncentráció esetén, 25 perccel
a lokális iszkémia után a QT
szakasz hosszára a 4.8.
táblázatban látható értékeket
kapták. Vizsgáljuk meg, hogy a
4 csoportban van-e különbség a
QT szakasz átlagos hosszában!
Kontroll
61
53
68
66
54
átlag
SD
60.4
6.80
Quinidine
76
84
89
78
81
89
82.8
5.49
Lidocaine
65
56
76
72
66
69
67.3
6.86
Flecainide
69
65
73
71
61
69
68.0
4.34
100
90
80
70
60
50
40
Kontroll
Quinidine
Lidocaine
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
Flecainide
96
Módszer

Az ANOVA a teljes adathalmaz összvarianciáját kétféle forrásból származtatja:






Csoportok közötti
Csoportokon belüli
Ha igaz az a nullhipotézis, hogy a populáció-átlagok megegyeznek, akkor a
populációban a csoportok közötti és a csoportokon belüli variancia is
megegyezik. A kettő hasonlításával lehet következtetni az átlagok
azonosságára.
‘új’ nullhipotézis: A populációban a csoportok közötti és a csoportokon belüli
variancia megegyezik.
Tesztelése: a két variancia becslését táblázatban tüntenjük fel. A
próbastatisztika a két variancia hányadosa, tesztelése: F-próba (egyoldalas).
Egy p-értéket ad:


ha p>0.05, akkor elfogadjuk az átlagok azonosságát (H0)
ha p<0.05, akkor van az átlagok között különböző
A variancia analízis számításait általában táblázatba szokták foglalni
A szóródás oka
Csoportok
között
Csoportokon
belül
Teljes
Négyzetösszeg
Qk 
Qb 
Q
t

i 1
ni ( x i  x )
t
ni
i 1
j 1
 
t
ni
i 1
j 1
 
Szabadságfok
2
( xij  xi ) 2
( xij  x) 2
t-1
N-t
Variancia
Q
s k2  k
t 1
Q
sb2  b
N t
F
F 
sk2
sb2
N-1
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
97
A varianciaanalízis táblázata példafeladat
adataira
100
90
80
70
60
50
40
Kontroll
A szóródás oka
Csoportok között
Csoportokon belül
Teljes
Négyzetösszeg
1515.590
665.367
2180.957
Quinidine
Lidocaine
Szabadságfok
3
19
22
Flecainide
Variancia
505.197
35.019
F
14.426
p
0.000
F(3,19)=14.426, p<0.001, a különbség szignifikáns,
csoport-átlagok között van legalább egy, a többitől eltérő
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
98
Páronkénti hasonlítások





Módosított t-próbák (LSD)
Bonferroni
Scheffé
Tukey
Dunnett- egy kontrollhoz hasonlítja a többi csoportot
Kontroll – Quinidine
Kontroll – Lidocaine
Kontroll – Flecainide
Az átlagok különbsége
22.4333
6.9333
7.6000
p
.000
.158
.113
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
99
A „post-hoc” összehasonlítás veszélyei



Ideális esetben a kísérlet előtt már tudnunk kell, hogy mely csoportok
közötti különbség érdekel bennünket. A gyakorlatban mégis gyakori,
hogy a kísérlet elvégzése után kapott eredmények ismeretében előre
nem tervezett összehasonlításokat is elvégezünk. Ha pl. két csoport
között nem vártunk eltérést, mégis nagyon különböző átlagokat
kaptunk, késztetést érezhetünk arra, hogy ezt a különbséget is
teszteljük.
Ha csak a legnagyobb eltérést mutató csoportok közötti különbséget
hasonlítjuk össze, annak valószínűsége, hogy szignifikáns különbséget
kapunk, nagyobb lesz ahhoz képest, mintha két, a vizsgálat
megkezdése előtt véletlenszerűen választott különbség-párt
tesztelnénk. Ilyen esetben a kísérletre vonatkozó első fajta hiba megnő,
nagyobb lesz az előre deklaráltnál.
A konzervatívabb többszörös összehasonlítási módszerekkel
megkereshetjük, mely átlagok különböznek melyektől, minden
lehetséges párt összehasonlítva. Ha a csoportok páronkénti
összehasonlítását azután végezzük, miután a kísérletet elvégeztük,
ezeket a konzervatív módszereket kell alkalmaznunk. Egyedül Scheffé
módszere enged meg ilyen utólagos „kutakodást”.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
100
A szívfrekvencia elemzése ismételt
méréses varianciaanalízissel
Vizsgálható:



B.
Kálium hatása (kezelés)
Idő hatása
Interakció: a káliumhatás nagysága függ-e
az időtől?
KALIUM
time
KALIUM*time
3 mM K+
5 mM K+
*
400
* *
** *
350
*
*
*
*
20
25
300
250
Type 3 Tests of Fixed Effects
Effect
450
Heart rate (beats/min)

-10
-5
0
5
10
15
Time (min)
Num
DF
Den
DF
F Value
Pr > F
1
9
9
22
198
198
9.14
21.70
0.54
0.0063
<.0001
0.8465
A szívfrekvencia magas kálium-ion
koncentrációnál átlagosan szignifikánsan
magasabb; függetlenül az időponttól
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
101
Relatív kockázat számítás 2x2-es
táblázatok alapján


Prospektív (kohorsz)
vizsgálatokban számítható
Vizsgált tényező
előfordulásának
valószínűsége (kockázat)
Vizsgált
tényező
Van +
Nincs Összesen
1. csoport
2.csoport
Összes
a
c
a+c
b
d
b+d
a+b
c+d
N

az 1. csoportban: p1=a/(a+c)
 a 2. csoportban: p2=b/(b+d)


Relatív kockázat: a tényező
fennállása esetén
hányszorosára változik a
kockázat
RR=p1/p2=[a/(a+c)]/[b/(b+d)]
Szimmetrikus Aszimmetrikus Összes
2
33
35
14
58
72
16
91
107
Apgar<7
Apgar>7
Összesen
2 / 16
RR 
 0.345
33 / 91
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
102
Esélyhányados számítás 2x2-es
táblázatok alapján





Retrospektív (eset-kontrollcase-control) vizsgálatokban
számítható
Ilyenkor nem tudunk kockázatot
becsülni, hiszen a csoport
létszámát (a nevezőt ) mi
állapítottuk meg
Vizsgált tényező előfordulásának
esélye
 az 1. csoportban: a:c
 a 2. csoportban: b:d
Vizsgált
tényező
Van +
Nincs Összesen
1. csoport
2.csoport
Összes
a
c
a+c
b
d
b+d
a+b
c+d
N
Szimmetrikus Aszimmetrikus Összes
2
33
35
14
58
72
16
91
107
Apgar<7
Apgar>7
Összesen
2 / 14
OR 
 0.251
33 / 58
Esélyhányados: a tényező
fennállása esetén
hányszorosára változik az esély
OR=(a/c)/b/d)
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
103
Diagnosztikus eljárások
összehasonlítása
Referencia teszt
Összeg
Új
módszer
+
-
+
a
b
a+b
-
c
d
c+d
a+c
b+d
a+b+c+d
Összeg
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
104
Referencia teszt
Új módszer
Össz.
Pozitív
Negatív
Pozitív
231
32
263
Negatív
27
54
81
Összesen
258
86
344
Szenzitivitás: 231/258=0,9.
A valóban pozitívak közül mennyit ítélt az új módszer is pozitívnak
Specificitás: 54/86=0,63.
A valóban negatívak közül mennyit ítélt az új módszer is negatívnak
Pozitív prediktív érték: 231/263=0,88.
Az új módszer szerinti pozitív esetek közül mennyi a valóban pozitív
Negatív prediktív érték: 54/81=0,67.
Az új módszer szerinti negatív esetek közül mennyi a valóban negatív
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
105
Kritikus pont, „küszöb érték” keresése
125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei.
Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.).
T4 érték Hypothyroid Normál
<=5
18
1
5.1-7
7
17
7.1-9
4
36
9<=
3
39
Összesen
32
93
Szenzitivitás Specificitás
0.5625
0.9892
1-specificitás
0.0108
5-nél „elvágva”:
32 betegből 18-at helyesen osztályozok, szenz=18/32=0.56.
93 egészségesből 92-t osztályozok helyesen, 1-et hibásan, spec=92/93=0.9892
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
106
Kritikus pont, „küszöb érték” keresése
125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei.
Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.).
T4 érték Hypothyroid Normál
<=5
18
1
5.1-7
7
17
7.1-9
4
36
9<=
3
39
Összesen
32
93
Szenzitivitás Specificitás
0.5625
0.9892
0.7813
0.8065
1-specificitás
0.0108
0.1935
7-nél „elvágva”:
32 betegből 18+7=25-öt helyesen osztályozok, szenz=25/32=0.78.
93 egészségesből 75-t osztályozok helyesen, 18-at hibásan, spec=75/93=0.8065
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
107
Kritikus pont, „küszöb érték” keresése
125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei.
Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.).
T4 érték Hypothyroid Normál
<=5
18
1
5.1-7
7
17
7.1-9
4
36
9<=
3
39
Összesen
32
93
Szenzitivitás Specificitás
0.5625
0.9892
0.7813
0.8065
0.9063
0.4194
1.00
0.00
1-specificitás
0.0108
0.1935
00.5806
1.00
9-nél „elvágva”:
32 betegből 18+7+4=29-et helyesen osztályozok, szenz=29/32=0.9063.
93 egészségesből 39-t osztályozok helyesen, spec=39/93=0.194
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
108
ROC görbe
T4 érték Hypothyroid Normál
<=5
18
1
5.1-7
7
17
7.1-9
4
36
9<=
3
39
Összesen
32
93
Szenzitivitás Specificitás
0.5625
0.9892
0.7813
0.8065
0.9063
0.4194
1.00
0.00
1-specificitás
0.0108
0.1935
0.5806
1.00
ROC görbe
1; 1
1
0.5806; 0.9063
0.9
0.8
0.1935; 0.7813
Szenzitivitás
0.7
0.6
0.0108; 0.5625
0.5
0.4
0.3
0.2
0.1
0 0; 0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1-specifictás
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
109
„Optimális” szétválasztás
T4 érték Hypothyroid Normál
<=5
18
1
5.1-7
7
17
7.1-9
4
36
9<=
3
39
Összesen
32
93
Szenzitivitás Specificitás
0.5625
0.9892
0.7813
0.8065
0.9063
0.4194
1.00
0.00
1-specificitás Szenz+spec
0.0108
1.5517
0.1935
1.5878
0.5806
1.3257
1.00
1
ROC görbe
1; 1
1
0.5806; 0.9063
0.9
0.8
0.1935; 0.7813
Szenzitivitás
0.7
0.6
0.0108; 0.5625
0.5
0.4
0.3
0.2
0.1
0 0; 0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1-specifictás
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
110
Sensitivity
ROC görbe, Hatásfokmérő karakterisztika
(Receiver operating characteristic)
Diagnosztikai eljárások, mérési
módszerek jellemzésére szolgáló
görbe
ROC Curve
1.00
.75
.50
.25
0.00
0.00
.25
.50
.75
1 - Specif icity
Diagonal segments are produced by ties .
1.00
A görbe alatti terület alkalmas
mérték különböző módszerek
hasznosságának, prediktív
erejének összehasonlítására, a
nagyobb érték nagyobb prediktív
erőt jelent. Teljes szétválasztás
esetén a görbe háromszöggé
válik, a görbe alatti terület =1.
Teljes egyezés esetén a görbe a
zölddel jelzett átlóba megy át,
ekkor a terület 0.5.
A ROC görbe segíthet valamely
diagnosztikai próba
küszöbértékének kiválasztásában
is.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
111
ROC görbe alatti terület





ROC = 0,5
ROC < 0,7
0,7 ≤ ROC < 0,8
0,8 ≤ ROC < 0,9
ROC ≥ 0,9
Nem használható a teszt
Gyenge szétválaszthatóság
Elfogadható a teszt
Jó diagnosztikus teszt
Kiváló diagnosztikus teszt
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
112
Többváltozós módszerek,
kockázati tényezők keresése
több célváltozót vizsgálunk önmagában,
vagy
 egy vagy több célváltozót vizsgálunk több
másik (független) változó függvényében

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
113
Logisztikus regresszió

Többváltozós módszer, amelyben
 Több
tényező (jellemző, tünet) alapján valamely
betegség előfordulásának valószínűségét
becsüljük
 a függő változó kategorikus, legtöbbször bináris
 a független változók eloszlására nincs feltétel
p( x ) 
1
1  e ( 0  1 x1   2 x2  3 x3   4 x4 )
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
114
A „7 perces” neurokognitív szűrési teszt
magyarországi standardizálása

A demencia szindrómákkal kapcsolatos problémák:



Meglevő gyorstesztek:



A betegség aluldiagnosztizált
A korai felismerés jelentősége
Mini Mentál Teszt (Janka és mtsai, 1988)
Óra Rajzolási Teszt (Kálmán és mtsai, 1995)
Új, „7 perces” szűrővizsgálatot dolgoztak ki, mely szerintük 100 % biztonságban felismeri az Alzheimer kórt
(Solomon, PR, Hirschoff A, Kelly B. et al: (1988). A 7 minute neurocognitive screening battery highly sensitive to Alzheimer's disease.
Arch. Neurol. 55: 349-355. )

Részei:





Időorientáció
Memória
Verbális flencia
Vizuospaciális képességek
Ezekből kijön egy összpontszám, illetve ezeknek egy logisztikus regressziós modellből számolt becsült
valószínűség alapján lehet dönteni.
p( x ) 
1
1  e ( 0  1 x1   2 x2  3 x3   4 x4 )

A teszt magyarországi standardizálása:

Kálmán J., Boda K., Bende Zs., Janka Z.: Dementia szindrómák szűrése: a 7 perces teszt magyaroroszági alkalmazása. Orvosi Hetilap
2003; 144(39):1929-1938.
Krisztina Boda and János Kálmán: Evaluation of the „7 Minute” Neurocognitive Screening test using logistic regression models. 23rd
Annual COnference. The International Society forClinical Biostatistics, Sept.9-13 2002, Dijon, France. Pp 180.

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
115
Logisztikus regressziók eredménye
Csoportok, a kontrollhoz hasonlítva
Össz
Analízisek csoportonként
demencia EKZ
AD
VD
ADVD D
OAS
Modell 
df
p
A Wald teszt p-értéke
ORIENT
VF
ECR
CDT
116.023
4
<0.0001
7.623
4
0.001
157.635 90.379 77.971 5.873
4
4
4
4
<0.0001 <0.0001 <0.0001 0.209
18.826
4
0.001
0.0454
0.418
0.0093
0.001
.341
.713
.073
.009
.029
.241
.042
.000
.037
.094
.045
.011
.018
.872
.362
.001
.411
.855
.339
.281
.027
.371
.181
.725
Szenzitivitás p=0.5 esetén
Specificitás p=0.5 esetén
Össz helyes döntés p=0.5
85.00
55.40
77.0
92.4
37.0
79.8
91.3
85.9
88.7
90.2
73.8
85.1
95.7
77.3
92.1
91.3
14.3
62.2
98.9
33.3
89.7
ROC görbe alatti terület
95% CI, alsó határ
95% CI, felső hatás
0.847
0.805
0.888
0.755
0.657
0.854
0.966
0.943
0.988
0.943
0.906
0.980
0.976
0.951
1.000
0.625
0.531
0.720
0.713
0.549
0.877
0.35
90.2
48.1
80.7
0.35
90.2
91.8
91.0
0.2
85.9
88.1
86.6
0.2
93.5
95.5
93.9
0.367
64.1
57.1
61.5
0.2
94.6
46.7
87.9
2
Optimális elvágás, p
Szenzitivitás
Specificitás
Össz helyes döntés
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
116
ROC görbe
1.2
ROC Curve
1,00
167
119
98
122
287
120
140
179
.8
,75
.6
,50
.4
.2
N=
92
control
247
Sensitivity
Predicted Value
1.0
dementia
,25
0,00
0,00
,25
,50
,75
1,00
1 - Specificity
Kontroll és demenciabetegek szétválasztása
Diagonal segments are produced by ties.
1.2
ROC Curve
1.00
1.0
.8
.75
.6
.50
.2
Sensitivity
Predicted Value
.4
0.0
-.2
N=
.25
0.00
0.00
92
85
control
AD
.25
.50
.75
1.00
1 - Specificity
Diagonal segments are produced by ties.
Kontroll és Alzheimer-kóros betegek szétválasztása
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
117
Eredményközlés, példa az irodalomból
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
118
Elemszámbecslés
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
119
Miért fontos?

Gazdasági okok:
 Túl
kevés elem esetén nem tudjuk kimutatni a kívánt
hatást
 Túl kevés elem esetén olyan eredmény kimutatására
pazaroljuk az erőt, amely gyakorlatilag nem érdekes


Etikai szempontok
Tudományos:
 Ha
elegendő elemszám esetén kapunk negatív
eredményt, akkor az eredményt tudjuk értelmezni
 Ha nem elegendő esetszám esetén kapunk negatív
eredményt, klinikailag fontos hatást dobhatunk ki az
ablakon
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
120
Az elemszámbecslést meghatározó
(befolyásoló) tényezők







A kutatás célja (becslés, hipotézis vagy ekvivalencia)
A fő hatásmutató (outcome): kategórikus v. folytonos,
egy vagy több, elsődleges, másodlagos.. és a
hatásmutató eloszlásának - korábbi vizsgálatokon
alapuló – becslése
I. fajta hiba valószínűsége,
A próba ereje (1-) (1-II. fajta hiba valószínűsége)
a választott értékelési módszer
a klinikailag jelentősnek ítélt hatás
A feltételek rögzítése után a mintaelemszámot a
választott statisztikai próbának megfelelő módszerrel
számítják ki
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
121
A próba ereje


A próba ereje annak valószínűsége, hogy egy
különbséget — adott mintanagyság és
szignifikancia-szint mellett — egy statisztikai
próba kimutat. A vizsgálatok tervezésének
gyakorlatában az erő nagyságának előre
megszabott értékéből kiindulva határozzák meg
a szükséges mintaelemszámot.
A statisztika elméletének fontos része olyan
döntési szabályok keresése, amely a próbát a
lehető legerősebbé teszi adott esetén.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
122
A próba ereje adott elemszám és  esetén,
különböző alternatív hipotézisek mellett
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
123
A próba ereje adott elemszám és  esetén,
különböző alternatív hipotézisek mellett
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
124
PS, Power and Sample Size
1
0.8
0.6
0.4
0.2
0
0
5
10
15
20
25
Dif f erence in Population Means
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
125
Az elemszámbecslést meghatározó
(befolyásoló) tényezők







A kutatás célja (becslés, hipotézis vagy ekvivalencia)
A fő hatásmutató (outcome):kategórikus v. folytonos, egy
vagy több, elsődleges, másodlagos.. és a hatásmutató
eloszlásának - korábbi vizsgálatokon alapuló – becslése
I. fajta hiba valószínűsége,
A próba ereje (1-) (1-II. fajta hiba valószínűsége)
a választott értékelési módszer
a klinikailag jelentősnek ítélt hatás
A feltételek rögzítése után a mintaelemszámot a
választott statisztikai próbának megfelelő módszerrel
számítják ki
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
126
Lépések







A probléma megértése
A statisztikai próba megválasztása
Az elsődleges kérdés megfogalmazása (becslés v.
hipotézis teszt); H0, Ha meghatározása
A végpont meghatározása, a fő hatásmutató
kiválasztása
,1- rögzítése (korai fázisoknál 0.1 és 0.9, később 0.05
és 0.8-0.9)
A klinikailag jelentős különbség (ekvivalencia-noninferiority vizsgálatoknál a maximum irreleváns vagy
nem jelentős különbség) meghatározása
A variabilitás becslése – korábbi vizsgálatok alapján
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
127
Lépések folyt.


Különböző körülmények (-t és -t variálva) és
a paraméterek különböző kombinációira
végezzünk számításokat
Befolyásolhatja még:
 Hiányzó
adatok
 Többszörös összehasonlítások
 Nem egyenlő csoportelemszámok
 Paraméteres v. nemparaméteres módszer
 Noninferiority vagy ekvivalencia vizsgálat
…
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
128
Korrigálás


A fő hatásmutatóra számítjuk ki általában
Több fontos változó figyelembe vétele:





Mindegyikre külön számítsunk, és vegyük a maximumot
núj=n(1-r2), ahol r a kovariáns változó és a a fő hatásmutató
közötti korreláció
Multiplicitás: Bonferroni korrekciót kell alkalmazni, ha
legalább egy szignifikáns eredményt szeretnénk (pl.
legalább egyet a több páronkénti hasonlítás közül)
A válaszadás aránya és a vizsgálatból való kiesés miatti
korrekció: núj=n/(1-L), ahol L a „loss to follow-up rate”
Csoportonként különböző elemszámok:


Számítsuk ki egyenlőkre, majd k=n2/n1
n1=n(k+1)/(2k), n2=n(k+1)/2
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
129
Korrigálás
Nemparaméteres módszerek: általában az
elemszámot paraméteres próbák alapján
határozzák meg
 Ha a paraméteres próbák feltételei nem
teljesülnek, a nemparaméteres próbák
alkalmazásához korrekció (létezik)
 Ekvivalencia/noninferiority vizsgálatok
 Rétegezés, blokkok képzése, illesztés
(matching)

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
130
Két arány különbsége
n
p1 * 1  p1   p2 * 1  p2 
2


*
z

z
 2

 p2  p1 2
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
131
Elemszámbecslés bináris adatokra
(két arány különbsége)




H0: p1=p2 vs. Ha: p1 ≠ p2;
Kétoldalas α = 5%, β = 20%,
Chi-négyzet próbával/Z-próbával tesztelve az arányok egyenlőségét
P1 és p2 különböző értékeire az elemszám:
ALFA
0.05
0.05
0.05
0.05
0.05
0.05
0.05
0.05
BETA
0.20
0.20
0.20
0.20
0.20
0.20
0.20
0.20
p1
0.16
0.17
0.18
0.19
0.16
0.17
0.18
0.19
p2
0.08
0.08
0.08
0.08
0.09
0.09
0.09
0.09
ZALFA/2 ZALFA
1.95996 1.64485
1.95996 1.64485
1.95996 1.64485
1.95996 1.64485
1.95996 1.64485
1.95996 1.64485
1.95996 1.64485
1.95996 1.64485
ZBETA
0.84162
0.84162
0.84162
0.84162
0.84162
0.84162
0.84162
0.84162
p
n
N per group
0.12
257.83069
258
0.125
210.7852
211
0.13
176.35794
177
0.135
150.31185
151
0.125
349.21481
350
0.13
276.22669
277
0.135
225.1266
226
0.14
187.81757
188
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
132
Példa

A mintaelemszám meghatározás korábbi retrospektív
vizsgálat alapján történt. Ahhoz, hogy posztoperatív
komplikációk klinikailag jelentős csökkenését ki tudjuk
mutatni az URI és URI-mentes gyerekek között (42%-ról
23%-ra), 94 eset kell csoportonként (= 0.05 and = 20%,
kétoldalas teszt).

„Sample size determination was based on our previous retrospective
study using overall postoperative complications as the outcome
measure. Based on the clinically important difference in incidence of
this outcome between children with URIs and those without URIs (i.e.,
42 vs. 23%), we calculated that we would need 94 subjects per group
to detect a statistically significant difference at least that large ( =
0.05 and = 20%, two tailed).”
S. Malviya, T. Voepel-Lewis, M. Siewert,, U. A. Pandit,, Lori Q.
Riegger, Alan R. Tait. Risk Factors for Adverse Postoperative
Outcomes in Children Presenting for Cardiac Surgery with Upper
Respiratory Tract Infections. Anesthesiology 2003; 98:628–32.

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
133
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
134
Ajánlás
Nemszignifikáns eredmény
diszkussziójakor – ha nem volt előzetes
elemszámbecslés – meg kell adni a próba
erejét.
 Kis erejű nemszignifikáns eredményt nem
lehet úgy értelmezni, hogy az
összehasonlított változók (csoportok)
azonosak.

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek 
Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés
135
Hasznos Web oldalak

Angol nyelvű
 Rice
Virtual Lab in Statistics
http://davidmlane.com/hyperstat/intro_ANOVA.html
 Statistics on the Web
http://www.claviusweb.net/statistics.shtml
 Hisztogram alakjának változása – Old Faithful
http://www.stat.sc.edu/~west/javahtml/Histogram.html
 Statisztikai bemutatók (Java)
http://www-stat.stanford.edu/~naras/jsm
 http://www.math.csusb.edu/faculty/stanton/m262/index.
html

Magyar nyelvű
 http://www.biostat.hu
– Klinikai Biostatisztikai Társaság
136
Idézet egy egyetemi hallgató
feljegyzéseiből

„Ha csak egy nap lenne hátra az
életemből, azt a statisztika órán szeretném
eltölteni – így sokkal hosszabbnak fog
tűnni”.
http://www.uwo.ca/epidem/bsuhum.htm
(már nem működő lap )
137