Transcript nemparam2

A binomiális eloszláson alapuló próbák
• Binomiális próba: Hipotézisvizsgálat az előfordulások
arányára, egy minta esetén
• Két arány összehasonlítása
Nemparaméteres próbák
37
Binomiális próba
Hipotézisvizsgálat az előfordulások arányára, egy minta esetén
9. példa
Az újszülöttek között a tapasztalatok szerint a fiúk aránya 50/100.
Egy kórházban egy napon 8 fiú és 4 lány születik. Jelent-e ez
bármi szokatlant?
Előfordulhat ilyen? Milyen valószínűséggel?
H0 :    0  0.5
H1 :    0
H 0 :    0  0.5
H1 :    0  0.5
Nemparaméteres próbák
38
Kismintás (egzakt) eljárás
n k
Pk     (1   ) n k
k 
A próbastatisztika a mintában a lányok k0 száma.
Pk  4   0.5 
Annak vsz-e, hogy 4 vagy kevesebb lány legyen 12 közül, 0.194
Döntés?
Nemparaméteres próbák
39
Mekkora annak vsz-e, hogy 1 vagy kevesebb lány legyen 12
közül, ha p=0.5?
(H0: p=0.5)
Elhiggyük?
a nullhipotézis igazsága esetén annak
valószínűsége, hogy a talált vagy még
szélsőségesebb adódjék
p
Ha p0.05, elutasítjuk a nullhipotézist.
Pontosabban, ha p, elutasítjuk a nullhipotézist.
 a szignifikanciaszint
Hogy döntünk, ha = 0.05, 0.01, 0.001?
Nemparaméteres próbák
40
Nagymintás eljárás
1
n
 p
n 1
n 1
k  n 0
u0 
n (1   )
 nem ismert
  ˆ
k  n 0
u0 
nˆ (1  ˆ )
Wald:
score
 0
ˆ 
k
n
k  n 0
u0 
n 0 (1   0 )
Nemparaméteres próbák
41
Wald:
  ˆ
k 4
ˆ    0.333
n 12
k0  n 0
4  12  0.5
u0 

 1.225
nˆ (1  ˆ )
12  0.333  0.667
p  1  0.89  0.11
score
   0  0.5
k0  n 0
4  12  0.5
u0 

 1.155
n 0 (1   0 )
12  0.5  (1  0.5)
p  1  0.876  0.124
Nemparaméteres próbák
42
A folytonossági (Yates-) korrekcióval
  ˆ
Wald:
4 vagy kevesebb → 4.5 vagy kevesebb : +0.5
k0  0.5  n 0
4  0.5  12  0.5
u0 

 0.919
nˆ (1  ˆ )
12  0.333  0.667
p  1  0.82  0.18
-1.225 ill. p=0.11 helyett
score
k0  0.5  n 0
4  0.5  12  0.5
u0 

 0.867
n 0 (1   0 )
12  0.5  (1  0.5)
p  1  0.807  0.193
-1.155 ill. p0.124 helyett
konzervatív (a nullhipotézist megtartó) irányban változott
Nemparaméteres próbák
43
10. példa
Az illető kórházban egy napon 80 fiú és 40 lány születik.
Jelent-e ez bármi szokatlant?
Döntés?
4 12  40 120  0.333
Nemparaméteres próbák
44
11. példa
Mekkora minta szükséges ahhoz, hogy 90% biztonsággal
észrevegyük, ha 0.5 helyett 0.4 (0.45, 0.49) a lányok születésének
valószínűsége?
Sample S ize Calculation
One Proport ion, Z, C hi-Square Tes t
H 0: Pi >= Pi0
Value
N ull Proportion (Pi0)
0.5000
Populat ion Proport ion (Pi)
0.4000
Alpha (Nominal)
0.0500
Ac tual Alpha (Exac t)
0.0544
Power Goal
0.9000
Ac tual Power (Norm al Approx .)
0.8945
Ac tual Power (Exac t)
0.9017
R equired Sample Size (N)
206.0000
90% (0.9) a próba ereje (Power)
p=0.5 a nullhipotézis
p=0.4 (0.45, 0.49) az ellenhipotézis (alternative)
Nemparaméteres próbák
45
One Proportion: Sample Size Calculation
Test on One Proportion (H0: Pi >= Pi0)
N v s. Pi (Alpha = 0.05, Pi0 = 0.5, Power = 0.9)
22500
12500
One Proportion: Sample Size Calculation
Test on One Proportion (H0: Pi >= Pi0)
N v s. Pi (Alpha = 0.05, Pi0 = 0.5, Power = 0.9)
7500
900
2500
800
-2500
0.38
0.40
0.42
0.44
0.46
0.48
0.50
0.52
700
Population Proportion (Pi)
Sample Size (Exact)
Sample Size (Exact)
17500
600
500
400
300
200
100
0.38
0.40
0.42
0.44
0.46
Population Proportion (Pi)
Nemparaméteres próbák
46
A binomiális eloszláson alapuló kétmintás próbák
12. példa
(M.J. Campbell, D. Manchin, Medical Statistics. A commonsense approach,
2nd edition, J. Wiley & Sons, 1993, p. 71)
A páciensek kétféle gyógyszert kaptak, kisorsolva, hogy ki
melyiket. Kettős vak vizsgálatot végeztek: az orvos és a
páciens sem tudja, hogy ki melyik gyógyszert kapja.
Van-e a két gyógyszer között különbség a tekintetben, hogy
egyforma arányban gyógyultak-e tőlük a betegek?
Gyógyszer típusa
A
B

Gyógyult
23
18
41
Nem gyógyult
7
13
20
Nemparaméteres próbák

30
31
61
47
1 annak valószínűsége, hogy a beteg az A gyógyszertől
meggyógyul
2 annak valószínűsége, hogy a beteg a B gyógyszertől
meggyógyul
H0 : 1   2
H1 :  1   2
Az A és B gyógyszernél a gyógyulás relatív gyakorisága különkülön binomiális eloszlást követ 1 és 1 paraméterrel
Nemparaméteres próbák
48
Nagymintás eljárás
Gyógyszer típusa
A
B

ˆ1 
Gyógyult
23
18
41
23
 0.7667
30
ˆ 2 
Nem gyógyult
7
13
20

30
31
61
18
 0.5806
31
Elég nagy minták esetén
ˆ1  ˆ 2   1   2  ˆ1  ˆ 2   1   2 
u

Var (ˆ1  ˆ 2 )
Var (ˆ1 )  Var (ˆ 2 )
Nemparaméteres próbák
49
ˆ1  ˆ 2
u0 
Var (ˆ1 )  Var (ˆ 2 )
Var (ˆ ) 
Var (ˆ1 )  Var (ˆ 2 ) 
 (1   )
n
 1 (1   1 )  2 (1   2 )
n1

n2
ˆ1  ˆ 2
u0 
 1 (1   1 )  2 (1   2 )
n1

n2
A folytonossági korrekcióval
1 1
1 
ˆ1  ˆ 2    
2  n1 n2 
u0 
 1 (1   1 )  2 (1   2 )

n1
n2
Nemparaméteres próbák
50
ˆ1  ˆ 2
u0 
 1 (1   1 )  2 (1   2 )
n1

n2
 1  ˆ1
Wald
1 és 2 nem ismert
 2  ˆ 2
ˆ1  ˆ 2
u0 
ˆ1 (1  ˆ1 ) ˆ 2 (1  ˆ 2 )
n1


n2
0.7667  0.5806
 1.583
0.7667  (1  0.7667) 0.5806  (1  0.5806)

30
31
1  F 1.583  1  .9433  0.057
p  2  0.057  0.114
Nemparaméteres próbák
51
ˆ1  ˆ 2
u0 
 1 (1   1 )  2 (1   2 )
n1

n2
n1`ˆ1  n2ˆ 2 23  18
ˆ 

 0.672
n1  n2
61
score
u0 
1 és 2 nem ismert
ˆ1  ˆ 2
1 1
ˆ (1  ˆ )  
 n1 n2 

23 18

30 31
 1 1
0.672  (1  0.672)    
 30 31 
1  F 1.547  1  0.939  0.061
Nemparaméteres próbák
 1.547
p  2  0.061  0.122
52
Gyógyszer típusa
A
B

Gyógyult
23
18
41
Nem gyógyult
7
13
20

30
31
61
1 1 1 
ˆ1  ˆ 2    
2  n1 n2 
u0 

ˆ1 (1  ˆ1 ) ˆ 2 (1  ˆ 2 )

n1
n2
u0 
1 1 1 
0.7667  0.5806    
2  30 31 
 1.304
0.7667  (1  0.7667) 0.5806  (1  0.5806)

30
31
Wald
folytonossági
korrekcióval
p=0.904
1.583 ill. p=0.114 helyett
konzervatívabb
Nemparaméteres próbák
53
Módosított kérdés:
Az A (új) gyógyszer jobb-e a B (elfogadott jelenlegi)
gyógyszernél?
H0 : 1   2
u0 
H1 :  1   2
ˆ1  ˆ 2
1
1 
ˆ (1  ˆ )  
 n1 n2 

23 18

30 31
1
 1
0.672  (1  0.672)    
 30 31 
 1.547
p  1  F 1.547  1  0.939  0.061
Nemparaméteres próbák
54
Statistics>Nonparametrics
Gyógyszer
típusa
A
B

Gyógyult
23
18
41
Nem
gyógyult
7
13
20

30
31
61
Nemparaméteres próbák
55
Frequencies, row 1
Percent of total
Frequencies, row 2
Percent of total
Column totals
Percent of total
Chi-square (df=1)
V-square (df=1)
Yates corrected Chi-square
Phi-square
Fisher exact p, one-tailed
two-tailed
McNemar Chi-square (A/D)
Chi-square (B/C)
Gyógyszer
típusa
A
B

2 x 2 Table (creditscoring)
Column 1 Column 2
Row
Totals
23
7
30
37.705% 11.475% 49.180%
18
13
31
29.508% 21.311% 50.820%
41
20
61
67.213% 32.787%
2.39 p= .1218
2.35 p= .1249
1.62 p= .2025
.03925
p= .1009
p= .1737
2.25 p= .1336
4.00 p= .0455
Gyógyult
23
18
41
Nem
gyógyult
7
13
20

30
31
61
2


ad

bc
 02  N
a  bc  d a  c b  d 
2
N

 ad  bc  
2

 02  N
a  b c  d a  c b  d 
(folytonossági korrekcióval)
Nemparaméteres próbák
56
A szükséges minta-elemszám meghatározása
H0 : 1   2
H1 :  1   2
ˆ1  ˆ 2
u0 
 1 1   1   2 1   2 
n
elfogadjuk, ha

n
u 0  u
Az elsőfajú hiba valószínűsége:
Pu0  u H 0   
Nemparaméteres próbák
57
A szükséges minta-elemszám meghatározása
H0 : 1   2
elfogadjuk, ha
H1 :  1   2
ˆ1  ˆ 2
u0 
 1 1   1   2 1   2 
n
u0  u
Az elsőfajú hiba valószínűsége:

n
Pu0  u H 0   
13. példa
Mekkora mintákra van szükség, ha 80% biztonsággal észre akarjuk
venni, hogy az egyik gyógyszerrel a betegek 20%-a, a másikkal
30%-a gyógyul meg?
Nemparaméteres próbák
58
  Pu0  u H1 
u 0  u
elfogadjuk, ha
ˆ1  ˆ 2
u0 

 1 1   1   2 1   2 
n

n
ˆ1  ˆ 2   1   2 
1   2


 1 1   1   2 1   2 
 1 1   1   2 1   2 
n

n
n

n




1   2

  P u
 u H1 


 1 1   2   2 1   2 



n
n


Nemparaméteres próbák
59









1
2 H1
  Pu  u 
  P u  u 


 2 1   2   2 1   2  



n
n


u   u 
 1   2 H
 2 1   2   1 1   1 

1
n
n
u

 u

 1   
2
2
2 H1
n
 1 1   1    2 1   2 H
1
Nemparaméteres próbák
60
n1  n2  n  ?
Példa
 =0.05, =0.2, A=0.2, B=0.3
u  1.645
n
u

 u 
2
 1   
2
2 H1
u   0.84
 1 1   1    2 1   2 H
1
2

1.645  0.84
0.2  1  0.2  0.3  1  0.3  228.4
n
2
0.2  0.3
Nemparaméteres próbák
61
Nemparaméteres próbák
62
Comparing 2 Proportions: Sample Size Calculation
Two Proportions, Z-Test (H0: Pi1 <= Pi2)
N v s. Power (Pi1 = 0.3, Pi2 = 0.2, Alpha = 0.05)
Sample Size for Each Group (N1 = N2)
450
400
350
300
250
200
150
0.70
0.75
0.80
0.85
0.90
0.95
1.00
Power Goal (No Continuity Correction)
Nemparaméteres próbák
63
A Statistica Power Analysis eredményei:
A
B
0.2
0.3
0.3
0.1
0.4
0.4
0.3
0.4
0.5
0.3
0.6
0.3
n (korr. nélkül)
231
281
71
49
77
281
n (korrekcióval)
251
300
83
58
86
300
Nagyobb javulás (vagy romlás) kimutatásához kevesebb
kísérlet is elég.
A placebóval való kísérletezést egyre többször tiltják.
Nemparaméteres próbák
64
Kismintás (egzakt) eljárás
14. példa
Gyógyszer típusa
A
B

Gyógyult
1
3
4
Nem gyógyult
9
1
10

10
4
14
Gyógyszer típusa
A
B

Gyógyult
a
c
c1
Nem gyógyult
b
d
c2

r1
r2
N
H0 : 1   2
H1 : 1   2
(az előző példához képest fordított)
Nemparaméteres próbák
65
H0 : 1   2
H1 : 1   2
a
c
c1
b
d
c2
Annak valószínűsége, hogy r1 közül (akik az A gyógyszert
szedik) a gyógyuljon meg
 r1  a
r a
Px1  a     1 1   1  1
a 
Annak valószínűsége, hogy r2 közül (akik a B gyógyszert
szedik) c gyógyuljon meg:
 r2  c
r c
Px2  c     2 1   2  2
c 
Nemparaméteres próbák
független események
66
r1
r2
N
Px1  a; x2  b H0  
a
c
c1
b
d
c2
r1
r2
N
 r1  a
 r1  r2  a c
r1  a  r2  c
r2 c
r  r  a c
   1      1        1    1 2
a 
c 
 a  c 
p annak valószínűsége, hogy a kapott vagy annál is szélsőségesebb
eredmény adódjék, ha a nullhipotézis igaz
1
3
9
1
0
3
10
1
1
4
9
0
0
4
10
0
 r1  r2  x1  x2
r1  r2  x1  x2




1   
p  Px1  a, x2  c H 0       
x1 0 x2 c  x1  x2 
a
r2
Nemparaméteres próbák
67
a
c
c1
b
d
c2
r1
r2
N
 r1  r2  x1  x2
r1  r2  x1  x2




1   
p  Px1  a, x2  c H 0       
x1 0 x2 c  x1  x2 
a
r2
Hogy a képlettel számolni tudjunk,  számértékére is szükség van
, ami mellett p maximális: =0.3
p  P(1,9,3,1)  P(0,10,3,1)  P(1,9,4,0)  P(0,10,4,0) 
 0.0002288  0.0009806  0.0021355  0.0091522  0.01249515
Nemparaméteres próbák
68
p  0.0125
a
c
b
d
1
3
9
1
A nagymintás (közelítő) eljárással:
ˆ 
u0 
a  c 1 3

 0.2857
N
14
ˆ1  ˆ 2
1 1
ˆ 1  ˆ   
 n1 n2 

1 3

10 4
 1 1
0.2857  1  0.2857     
 10 4 
p=0.0075
folytonossági korrekcióval p=0.038
Nemparaméteres próbák
69
 2.43
A hatás nagyságának értelmezése
1
RR 
2
ˆ1
RR 
ˆ 2
kockázati arány (Risk Ratio )
b
ˆ1 
r1
a
c
c1
b
d
c2
c
ˆ 2 
r2
br2
RR 
cr1
Nemparaméteres próbák
70
r1
r2
N
Konfidencia-intervallum a kockázati arányra
Var ln RR   Var ln ˆ1   Var ln ˆ 2  
a
c
c1
b
d
c2
b
d

ar1 cr2
ar2
ar2
b
d
b
d
ln
 u 2

 ln RR  ln
 u 2

cr1
ar1 cr2
cr1
ar1 cr2


br2
br2
b
d 
b
d 


exp   u 2

 RR 
exp  u 2



cr1
ar
cr
cr
ar
cr
1
2 
1
1
2 


1.24  RR  1.41
A 13. példára
Nemparaméteres próbák
71
r1
r2
N
15. példa
(B. Rosner: Fundamentals of Biostatistics, Duxbury Press, 5th ed. 2000, p. 358)
A 40 és 44 év közötti életkorú nőknél a fogamzásgátló tabletta
szedése növeli-e a szívinfarktus kockázatát?
szedett-e tablettát?
igen
nem

kapott-e infarktust?
igen
nem
13
4987
7
9993
20
14980
Nemparaméteres próbák

5000
10000
15000
72
1 annak valószínűsége, hogy aki szedett fogamzásgátló
tablettát (exposed), infarktust kapjon
2 …aki nem szedett (unexposed) …
szedett-e tablettát?
igen
nem

kapott-e infarktust?
igen
nem
13
4987
7
9993
20
14980

5000
10000
15000
7
13
ˆ
2 
 0.0007
ˆ1 
 0.0026
10000
5000
13
ˆ1 5000 0.0026
RR 


 3.71
7
ˆ 2
0.0007
10000
Nemparaméteres próbák
73
A kockázati arány logaritmusára a 95%-os konfidenciaintervallum alsó határa:
br2
b
d
4987 10000
4987
9993
ln
 u 2

 ln
 1.96


cr1
ar1 cr2
7  5000
13  5000 7 10000
 1.312 1.96  0.4685  0.394
fölső határa:
 1.312  1.96  0.4685  2.230
A 95%-os konfidencia-intervallum magára a kockázati arányra:
e
0.394

, e 2.230  1.5, 9.3
Nemparaméteres próbák
(retrospektív!)
74
Esélyhányados
odds 

1
Esélyhányados-arány (odds ratio)
1
11
OR 
2
1 2
a megbetegedés esélyhányados-aránya (disease odds ratio)
a
b
OR 
c
d
a  b 
a  b   ad
c  d  bc
c  d 
a
c
c1
Nemparaméteres próbák
r1
r2
N
b
d
c2
75
1 2
OR  RR
11
ha
 1  1,  2  1
OR  RR
Nemparaméteres próbák
76
A vizsgálatok esetei
Prospektív (prospective)
clinical trial (kisorsolják, hogy ki melyik gyógyszert kapja)
cohort study*
Retrospektív (retrospective)
case-control*
matched pair (?)
cross-sectional*
*observational (/experimental)
Nemparaméteres próbák
77
16. példa
(A. Agresti: Categorical data analysis, J. Wiley, 2002, p. 41)
709 tüdőrákkal diagnosztizált páciens mellé választottak 709
olyan pácienst, akit ugyanabban a kórházban kezeltek,
ügyelve arra, hogy nem- és kor-eloszlásuk hasonló legyen.
dohányos
igen ( D )
nem ( D )

tüdőrákban szenved
igen T
( ) nem ( T )
688
650
21
59
709
709
Nemparaméteres próbák
PT D 
RR 
P T D 
 
PT D
78
A dohányzás szerinti két csoportba nem válogathatták véletlenül
a pácienseket, mint a szokásos gyógyszer-kísérleteknél,
nem a dohányzás (igen/nem) a rögzített, és a tüdőrák
előfordulása a valószínűségi változó, hanem fordítva
ezért csak az esély-hányados-arányt számíthatjuk ki:
OR 
P D T 
 
P DT
a veszélyeztetettség esélyhányados-aránya (exposure odds ratio)
Nemparaméteres próbák
79
OR 
P D T 
 
P DT
a veszélyeztetettség esélyhányados-aránya (exposure odds ratio)
OR 
P T D 
 
PT D
a megbetegedés esélyhányados-aránya (disease odds ratio), ez
lenne érdekes, de…
Nemparaméteres próbák
80
a
ac
c
ad 688  59
a

c
OR 


 2.97
b
bc 650  21
bd
d
bd
a
c
c1
b
d
c2
r1
r2
N
1 1 1 1
Varln OR     
a b c d
dohányos
igen ( D )
nem ( D )

tüdőrákban szenved
igen T( ) nem ( T )
688
650
21
59
709
709
1
1
1
1
Varln OR  

 
 0.0676
688 650 21 59
ln OR : 1.089  1.96  0.0676  0.579, 1.599
Nemparaméteres próbák
OR: (1.745, 4.948)
81
a
ac
c
ad 688  59
a

c
OR 


 2.97
b
bc 650  21
bd
a
d
ab
bd
b
ad 688  59
a

b
OR 


 2.97
c
bc 650  21
cd
d
cd
A veszélyeztetettség becsült esélyhányados-arányának kifejezése pontosan ugyanaz, mint a megbetegedés becsült esélyhányados-arányáé!
Nemparaméteres próbák
82
Bayes-tétel:
PT D  
PD T PT 
 
PD T PT   P D T PT 
P(T) prevalencia ismerete szükséges
1 2
OR  RR
11
ha 1< <1, 2< <1 ORRR
Nemparaméteres próbák
83