Transcript nemparam2
A binomiális eloszláson alapuló próbák • Binomiális próba: Hipotézisvizsgálat az előfordulások arányára, egy minta esetén • Két arány összehasonlítása Nemparaméteres próbák 37 Binomiális próba Hipotézisvizsgálat az előfordulások arányára, egy minta esetén 9. példa Az újszülöttek között a tapasztalatok szerint a fiúk aránya 50/100. Egy kórházban egy napon 8 fiú és 4 lány születik. Jelent-e ez bármi szokatlant? Előfordulhat ilyen? Milyen valószínűséggel? H0 : 0 0.5 H1 : 0 H 0 : 0 0.5 H1 : 0 0.5 Nemparaméteres próbák 38 Kismintás (egzakt) eljárás n k Pk (1 ) n k k A próbastatisztika a mintában a lányok k0 száma. Pk 4 0.5 Annak vsz-e, hogy 4 vagy kevesebb lány legyen 12 közül, 0.194 Döntés? Nemparaméteres próbák 39 Mekkora annak vsz-e, hogy 1 vagy kevesebb lány legyen 12 közül, ha p=0.5? (H0: p=0.5) Elhiggyük? a nullhipotézis igazsága esetén annak valószínűsége, hogy a talált vagy még szélsőségesebb adódjék p Ha p0.05, elutasítjuk a nullhipotézist. Pontosabban, ha p, elutasítjuk a nullhipotézist. a szignifikanciaszint Hogy döntünk, ha = 0.05, 0.01, 0.001? Nemparaméteres próbák 40 Nagymintás eljárás 1 n p n 1 n 1 k n 0 u0 n (1 ) nem ismert ˆ k n 0 u0 nˆ (1 ˆ ) Wald: score 0 ˆ k n k n 0 u0 n 0 (1 0 ) Nemparaméteres próbák 41 Wald: ˆ k 4 ˆ 0.333 n 12 k0 n 0 4 12 0.5 u0 1.225 nˆ (1 ˆ ) 12 0.333 0.667 p 1 0.89 0.11 score 0 0.5 k0 n 0 4 12 0.5 u0 1.155 n 0 (1 0 ) 12 0.5 (1 0.5) p 1 0.876 0.124 Nemparaméteres próbák 42 A folytonossági (Yates-) korrekcióval ˆ Wald: 4 vagy kevesebb → 4.5 vagy kevesebb : +0.5 k0 0.5 n 0 4 0.5 12 0.5 u0 0.919 nˆ (1 ˆ ) 12 0.333 0.667 p 1 0.82 0.18 -1.225 ill. p=0.11 helyett score k0 0.5 n 0 4 0.5 12 0.5 u0 0.867 n 0 (1 0 ) 12 0.5 (1 0.5) p 1 0.807 0.193 -1.155 ill. p0.124 helyett konzervatív (a nullhipotézist megtartó) irányban változott Nemparaméteres próbák 43 10. példa Az illető kórházban egy napon 80 fiú és 40 lány születik. Jelent-e ez bármi szokatlant? Döntés? 4 12 40 120 0.333 Nemparaméteres próbák 44 11. példa Mekkora minta szükséges ahhoz, hogy 90% biztonsággal észrevegyük, ha 0.5 helyett 0.4 (0.45, 0.49) a lányok születésének valószínűsége? Sample S ize Calculation One Proport ion, Z, C hi-Square Tes t H 0: Pi >= Pi0 Value N ull Proportion (Pi0) 0.5000 Populat ion Proport ion (Pi) 0.4000 Alpha (Nominal) 0.0500 Ac tual Alpha (Exac t) 0.0544 Power Goal 0.9000 Ac tual Power (Norm al Approx .) 0.8945 Ac tual Power (Exac t) 0.9017 R equired Sample Size (N) 206.0000 90% (0.9) a próba ereje (Power) p=0.5 a nullhipotézis p=0.4 (0.45, 0.49) az ellenhipotézis (alternative) Nemparaméteres próbák 45 One Proportion: Sample Size Calculation Test on One Proportion (H0: Pi >= Pi0) N v s. Pi (Alpha = 0.05, Pi0 = 0.5, Power = 0.9) 22500 12500 One Proportion: Sample Size Calculation Test on One Proportion (H0: Pi >= Pi0) N v s. Pi (Alpha = 0.05, Pi0 = 0.5, Power = 0.9) 7500 900 2500 800 -2500 0.38 0.40 0.42 0.44 0.46 0.48 0.50 0.52 700 Population Proportion (Pi) Sample Size (Exact) Sample Size (Exact) 17500 600 500 400 300 200 100 0.38 0.40 0.42 0.44 0.46 Population Proportion (Pi) Nemparaméteres próbák 46 A binomiális eloszláson alapuló kétmintás próbák 12. példa (M.J. Campbell, D. Manchin, Medical Statistics. A commonsense approach, 2nd edition, J. Wiley & Sons, 1993, p. 71) A páciensek kétféle gyógyszert kaptak, kisorsolva, hogy ki melyiket. Kettős vak vizsgálatot végeztek: az orvos és a páciens sem tudja, hogy ki melyik gyógyszert kapja. Van-e a két gyógyszer között különbség a tekintetben, hogy egyforma arányban gyógyultak-e tőlük a betegek? Gyógyszer típusa A B Gyógyult 23 18 41 Nem gyógyult 7 13 20 Nemparaméteres próbák 30 31 61 47 1 annak valószínűsége, hogy a beteg az A gyógyszertől meggyógyul 2 annak valószínűsége, hogy a beteg a B gyógyszertől meggyógyul H0 : 1 2 H1 : 1 2 Az A és B gyógyszernél a gyógyulás relatív gyakorisága különkülön binomiális eloszlást követ 1 és 1 paraméterrel Nemparaméteres próbák 48 Nagymintás eljárás Gyógyszer típusa A B ˆ1 Gyógyult 23 18 41 23 0.7667 30 ˆ 2 Nem gyógyult 7 13 20 30 31 61 18 0.5806 31 Elég nagy minták esetén ˆ1 ˆ 2 1 2 ˆ1 ˆ 2 1 2 u Var (ˆ1 ˆ 2 ) Var (ˆ1 ) Var (ˆ 2 ) Nemparaméteres próbák 49 ˆ1 ˆ 2 u0 Var (ˆ1 ) Var (ˆ 2 ) Var (ˆ ) Var (ˆ1 ) Var (ˆ 2 ) (1 ) n 1 (1 1 ) 2 (1 2 ) n1 n2 ˆ1 ˆ 2 u0 1 (1 1 ) 2 (1 2 ) n1 n2 A folytonossági korrekcióval 1 1 1 ˆ1 ˆ 2 2 n1 n2 u0 1 (1 1 ) 2 (1 2 ) n1 n2 Nemparaméteres próbák 50 ˆ1 ˆ 2 u0 1 (1 1 ) 2 (1 2 ) n1 n2 1 ˆ1 Wald 1 és 2 nem ismert 2 ˆ 2 ˆ1 ˆ 2 u0 ˆ1 (1 ˆ1 ) ˆ 2 (1 ˆ 2 ) n1 n2 0.7667 0.5806 1.583 0.7667 (1 0.7667) 0.5806 (1 0.5806) 30 31 1 F 1.583 1 .9433 0.057 p 2 0.057 0.114 Nemparaméteres próbák 51 ˆ1 ˆ 2 u0 1 (1 1 ) 2 (1 2 ) n1 n2 n1`ˆ1 n2ˆ 2 23 18 ˆ 0.672 n1 n2 61 score u0 1 és 2 nem ismert ˆ1 ˆ 2 1 1 ˆ (1 ˆ ) n1 n2 23 18 30 31 1 1 0.672 (1 0.672) 30 31 1 F 1.547 1 0.939 0.061 Nemparaméteres próbák 1.547 p 2 0.061 0.122 52 Gyógyszer típusa A B Gyógyult 23 18 41 Nem gyógyult 7 13 20 30 31 61 1 1 1 ˆ1 ˆ 2 2 n1 n2 u0 ˆ1 (1 ˆ1 ) ˆ 2 (1 ˆ 2 ) n1 n2 u0 1 1 1 0.7667 0.5806 2 30 31 1.304 0.7667 (1 0.7667) 0.5806 (1 0.5806) 30 31 Wald folytonossági korrekcióval p=0.904 1.583 ill. p=0.114 helyett konzervatívabb Nemparaméteres próbák 53 Módosított kérdés: Az A (új) gyógyszer jobb-e a B (elfogadott jelenlegi) gyógyszernél? H0 : 1 2 u0 H1 : 1 2 ˆ1 ˆ 2 1 1 ˆ (1 ˆ ) n1 n2 23 18 30 31 1 1 0.672 (1 0.672) 30 31 1.547 p 1 F 1.547 1 0.939 0.061 Nemparaméteres próbák 54 Statistics>Nonparametrics Gyógyszer típusa A B Gyógyult 23 18 41 Nem gyógyult 7 13 20 30 31 61 Nemparaméteres próbák 55 Frequencies, row 1 Percent of total Frequencies, row 2 Percent of total Column totals Percent of total Chi-square (df=1) V-square (df=1) Yates corrected Chi-square Phi-square Fisher exact p, one-tailed two-tailed McNemar Chi-square (A/D) Chi-square (B/C) Gyógyszer típusa A B 2 x 2 Table (creditscoring) Column 1 Column 2 Row Totals 23 7 30 37.705% 11.475% 49.180% 18 13 31 29.508% 21.311% 50.820% 41 20 61 67.213% 32.787% 2.39 p= .1218 2.35 p= .1249 1.62 p= .2025 .03925 p= .1009 p= .1737 2.25 p= .1336 4.00 p= .0455 Gyógyult 23 18 41 Nem gyógyult 7 13 20 30 31 61 2 ad bc 02 N a bc d a c b d 2 N ad bc 2 02 N a b c d a c b d (folytonossági korrekcióval) Nemparaméteres próbák 56 A szükséges minta-elemszám meghatározása H0 : 1 2 H1 : 1 2 ˆ1 ˆ 2 u0 1 1 1 2 1 2 n elfogadjuk, ha n u 0 u Az elsőfajú hiba valószínűsége: Pu0 u H 0 Nemparaméteres próbák 57 A szükséges minta-elemszám meghatározása H0 : 1 2 elfogadjuk, ha H1 : 1 2 ˆ1 ˆ 2 u0 1 1 1 2 1 2 n u0 u Az elsőfajú hiba valószínűsége: n Pu0 u H 0 13. példa Mekkora mintákra van szükség, ha 80% biztonsággal észre akarjuk venni, hogy az egyik gyógyszerrel a betegek 20%-a, a másikkal 30%-a gyógyul meg? Nemparaméteres próbák 58 Pu0 u H1 u 0 u elfogadjuk, ha ˆ1 ˆ 2 u0 1 1 1 2 1 2 n n ˆ1 ˆ 2 1 2 1 2 1 1 1 2 1 2 1 1 1 2 1 2 n n n n 1 2 P u u H1 1 1 2 2 1 2 n n Nemparaméteres próbák 59 1 2 H1 Pu u P u u 2 1 2 2 1 2 n n u u 1 2 H 2 1 2 1 1 1 1 n n u u 1 2 2 2 H1 n 1 1 1 2 1 2 H 1 Nemparaméteres próbák 60 n1 n2 n ? Példa =0.05, =0.2, A=0.2, B=0.3 u 1.645 n u u 2 1 2 2 H1 u 0.84 1 1 1 2 1 2 H 1 2 1.645 0.84 0.2 1 0.2 0.3 1 0.3 228.4 n 2 0.2 0.3 Nemparaméteres próbák 61 Nemparaméteres próbák 62 Comparing 2 Proportions: Sample Size Calculation Two Proportions, Z-Test (H0: Pi1 <= Pi2) N v s. Power (Pi1 = 0.3, Pi2 = 0.2, Alpha = 0.05) Sample Size for Each Group (N1 = N2) 450 400 350 300 250 200 150 0.70 0.75 0.80 0.85 0.90 0.95 1.00 Power Goal (No Continuity Correction) Nemparaméteres próbák 63 A Statistica Power Analysis eredményei: A B 0.2 0.3 0.3 0.1 0.4 0.4 0.3 0.4 0.5 0.3 0.6 0.3 n (korr. nélkül) 231 281 71 49 77 281 n (korrekcióval) 251 300 83 58 86 300 Nagyobb javulás (vagy romlás) kimutatásához kevesebb kísérlet is elég. A placebóval való kísérletezést egyre többször tiltják. Nemparaméteres próbák 64 Kismintás (egzakt) eljárás 14. példa Gyógyszer típusa A B Gyógyult 1 3 4 Nem gyógyult 9 1 10 10 4 14 Gyógyszer típusa A B Gyógyult a c c1 Nem gyógyult b d c2 r1 r2 N H0 : 1 2 H1 : 1 2 (az előző példához képest fordított) Nemparaméteres próbák 65 H0 : 1 2 H1 : 1 2 a c c1 b d c2 Annak valószínűsége, hogy r1 közül (akik az A gyógyszert szedik) a gyógyuljon meg r1 a r a Px1 a 1 1 1 1 a Annak valószínűsége, hogy r2 közül (akik a B gyógyszert szedik) c gyógyuljon meg: r2 c r c Px2 c 2 1 2 2 c Nemparaméteres próbák független események 66 r1 r2 N Px1 a; x2 b H0 a c c1 b d c2 r1 r2 N r1 a r1 r2 a c r1 a r2 c r2 c r r a c 1 1 1 1 2 a c a c p annak valószínűsége, hogy a kapott vagy annál is szélsőségesebb eredmény adódjék, ha a nullhipotézis igaz 1 3 9 1 0 3 10 1 1 4 9 0 0 4 10 0 r1 r2 x1 x2 r1 r2 x1 x2 1 p Px1 a, x2 c H 0 x1 0 x2 c x1 x2 a r2 Nemparaméteres próbák 67 a c c1 b d c2 r1 r2 N r1 r2 x1 x2 r1 r2 x1 x2 1 p Px1 a, x2 c H 0 x1 0 x2 c x1 x2 a r2 Hogy a képlettel számolni tudjunk, számértékére is szükség van , ami mellett p maximális: =0.3 p P(1,9,3,1) P(0,10,3,1) P(1,9,4,0) P(0,10,4,0) 0.0002288 0.0009806 0.0021355 0.0091522 0.01249515 Nemparaméteres próbák 68 p 0.0125 a c b d 1 3 9 1 A nagymintás (közelítő) eljárással: ˆ u0 a c 1 3 0.2857 N 14 ˆ1 ˆ 2 1 1 ˆ 1 ˆ n1 n2 1 3 10 4 1 1 0.2857 1 0.2857 10 4 p=0.0075 folytonossági korrekcióval p=0.038 Nemparaméteres próbák 69 2.43 A hatás nagyságának értelmezése 1 RR 2 ˆ1 RR ˆ 2 kockázati arány (Risk Ratio ) b ˆ1 r1 a c c1 b d c2 c ˆ 2 r2 br2 RR cr1 Nemparaméteres próbák 70 r1 r2 N Konfidencia-intervallum a kockázati arányra Var ln RR Var ln ˆ1 Var ln ˆ 2 a c c1 b d c2 b d ar1 cr2 ar2 ar2 b d b d ln u 2 ln RR ln u 2 cr1 ar1 cr2 cr1 ar1 cr2 br2 br2 b d b d exp u 2 RR exp u 2 cr1 ar cr cr ar cr 1 2 1 1 2 1.24 RR 1.41 A 13. példára Nemparaméteres próbák 71 r1 r2 N 15. példa (B. Rosner: Fundamentals of Biostatistics, Duxbury Press, 5th ed. 2000, p. 358) A 40 és 44 év közötti életkorú nőknél a fogamzásgátló tabletta szedése növeli-e a szívinfarktus kockázatát? szedett-e tablettát? igen nem kapott-e infarktust? igen nem 13 4987 7 9993 20 14980 Nemparaméteres próbák 5000 10000 15000 72 1 annak valószínűsége, hogy aki szedett fogamzásgátló tablettát (exposed), infarktust kapjon 2 …aki nem szedett (unexposed) … szedett-e tablettát? igen nem kapott-e infarktust? igen nem 13 4987 7 9993 20 14980 5000 10000 15000 7 13 ˆ 2 0.0007 ˆ1 0.0026 10000 5000 13 ˆ1 5000 0.0026 RR 3.71 7 ˆ 2 0.0007 10000 Nemparaméteres próbák 73 A kockázati arány logaritmusára a 95%-os konfidenciaintervallum alsó határa: br2 b d 4987 10000 4987 9993 ln u 2 ln 1.96 cr1 ar1 cr2 7 5000 13 5000 7 10000 1.312 1.96 0.4685 0.394 fölső határa: 1.312 1.96 0.4685 2.230 A 95%-os konfidencia-intervallum magára a kockázati arányra: e 0.394 , e 2.230 1.5, 9.3 Nemparaméteres próbák (retrospektív!) 74 Esélyhányados odds 1 Esélyhányados-arány (odds ratio) 1 11 OR 2 1 2 a megbetegedés esélyhányados-aránya (disease odds ratio) a b OR c d a b a b ad c d bc c d a c c1 Nemparaméteres próbák r1 r2 N b d c2 75 1 2 OR RR 11 ha 1 1, 2 1 OR RR Nemparaméteres próbák 76 A vizsgálatok esetei Prospektív (prospective) clinical trial (kisorsolják, hogy ki melyik gyógyszert kapja) cohort study* Retrospektív (retrospective) case-control* matched pair (?) cross-sectional* *observational (/experimental) Nemparaméteres próbák 77 16. példa (A. Agresti: Categorical data analysis, J. Wiley, 2002, p. 41) 709 tüdőrákkal diagnosztizált páciens mellé választottak 709 olyan pácienst, akit ugyanabban a kórházban kezeltek, ügyelve arra, hogy nem- és kor-eloszlásuk hasonló legyen. dohányos igen ( D ) nem ( D ) tüdőrákban szenved igen T ( ) nem ( T ) 688 650 21 59 709 709 Nemparaméteres próbák PT D RR P T D PT D 78 A dohányzás szerinti két csoportba nem válogathatták véletlenül a pácienseket, mint a szokásos gyógyszer-kísérleteknél, nem a dohányzás (igen/nem) a rögzített, és a tüdőrák előfordulása a valószínűségi változó, hanem fordítva ezért csak az esély-hányados-arányt számíthatjuk ki: OR P D T P DT a veszélyeztetettség esélyhányados-aránya (exposure odds ratio) Nemparaméteres próbák 79 OR P D T P DT a veszélyeztetettség esélyhányados-aránya (exposure odds ratio) OR P T D PT D a megbetegedés esélyhányados-aránya (disease odds ratio), ez lenne érdekes, de… Nemparaméteres próbák 80 a ac c ad 688 59 a c OR 2.97 b bc 650 21 bd d bd a c c1 b d c2 r1 r2 N 1 1 1 1 Varln OR a b c d dohányos igen ( D ) nem ( D ) tüdőrákban szenved igen T( ) nem ( T ) 688 650 21 59 709 709 1 1 1 1 Varln OR 0.0676 688 650 21 59 ln OR : 1.089 1.96 0.0676 0.579, 1.599 Nemparaméteres próbák OR: (1.745, 4.948) 81 a ac c ad 688 59 a c OR 2.97 b bc 650 21 bd a d ab bd b ad 688 59 a b OR 2.97 c bc 650 21 cd d cd A veszélyeztetettség becsült esélyhányados-arányának kifejezése pontosan ugyanaz, mint a megbetegedés becsült esélyhányados-arányáé! Nemparaméteres próbák 82 Bayes-tétel: PT D PD T PT PD T PT P D T PT P(T) prevalencia ismerete szükséges 1 2 OR RR 11 ha 1< <1, 2< <1 ORRR Nemparaméteres próbák 83