Transcript coLektion5
Statistik Lektion 5 Flere stikprøvefordelinger Estimatore og estimater Konfidensintervaller Stikprøvefordeling Antag at vi vil udtale os om en populationsparameter (fx middelværdien m) på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet x ). Vores konklusion skal tage i betragtning, at værdien af ændrer sig for hver ny tilfældig stikprøve Den tilfældig variation af stikprøve-statistikken (her gennemsnittet) betegnes stikprøve-fordelingen (af stikprøve-gennemsnittet) x Stikprøve-gennemsnittets stikprøvefordeling: Forventede værdi Lad de stokastiske variable X1, X2,…,Xn være en tilfældig stikprøve fra en population m. middelværdi m og varians s2. Stikprøve-gennemsnittet af disse SV er 1 n X Xi n i 1 Den forventede værdi og varians for stikprøvegennemsnittet er EX m og V X s2 n Hvis stikprøve er lille i forhold til population Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem) Lad X1, X2,…, Xn, er være n uafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af X m Z s n nærme sig mere og mere en standard normal-fordeling. Tommelfinger-regel: n ≥ 30 er nok til en god tilnærmelse. 2-fordelingen [ki-i-anden] En 2 -fordelt stokastisk variabel 2-fordelingen: df=10, df=30, df=50 kan ikke være negativ, så den er begrænset af 0 til venstre. Fordelingen er højreskæv. En 2 fordeling er specificeret ved antallet af frihedsgrader. Notation: En stokastisk variabel Y, der følger en 2-fordeling med n [ny] frihedsgrader 2-fordelingen nærmer angives som sig en normalfordelingen, når antallet Y ~ n2 af frihedsgrader vokser. 0 .1 0 df = 10 0 .0 9 0 .0 8 2 f( ) 0 .0 7 0 .0 6 df = 30 0 .0 5 0 .0 4 df = 50 0 .0 3 0 .0 2 0 .0 1 0 .0 0 0 50 2 100 Mere om 2 fordelingen Middelværdi og Varians Hvis Y er 2 -fordelt med n frihedsgrader: E[Y ] n og V [Y ] 2n Sammenhæng med normalfordelingen Lad X1, X2,…, Xn være uafhængige, standard normalfordelte stokastiske variable. Definer X 2 X 12 X 22 X n2 Da gælder X 2 ~ n2 Stikprøvevariansen og dens fordeling Stikprøve-variansen for en tilfældig stikprøve er X n S i 1 i X) n 1 Generelt gælder E[S 2 ] s 2 2 2 og V [S 2 ] 2s 4 (n 1) Hvis populationen er normalfordelt gælder 2 (n 1) S 2 s2 ~ n21 Sandsynligheder i 2 fordelingen Table 7 s865 a Areal i højre hale (α) 2 a 7.88 .995 .990 .975 .950 .900 .100 .050 .025 .010 .005 1 0.0000393 2 0.0100 3 0.0717 4 0.207 5 0.412 6 0.676 7 0.989 8 1.34 9 1.73 10 2.16 11 2.60 12 3.07 13 3.57 14 4.07 15 4.60 16 5.14 17 5.70 18 6.26 0.000157 0.0201 0.115 0.297 0.554 0.872 1.24 1.65 2.09 2.56 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 0.000982 0.0506 0.216 0.484 0.831 1.24 1.69 2.18 2.70 3.25 3.82 4.40 5.01 5.63 6.26 6.91 7.56 8.23 0.000393 0.103 0.352 0.711 1.15 1.64 2.17 2.73 3.33 3.94 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 0.0158 0.211 0.584 1.06 1.61 2.20 2.83 3.49 4.17 4.87 5.58 6.30 7.04 7.79 8.55 9.31 10.09 10.86 2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 Man kan finde 2a i R vha. > qchisq(p=a,df=df,lower.tail=FALSE) Sikrer at a svarer til sandsynligheden til højre. Eksempel Setup: Antag vi har en stikprøve på n =15 fra en normal-fordelt population med middelværdi m 20 og varians s2 9. Spørgsmål: Find en værdi c, så sandsynligheden for at få en stikprøve-varians mindre end c er 5%? Løsning: Spørgsmålet formuleret som sandsynlighed: P ( S 2 c) 0.05 (n 1) S 2 (n 1)c 0.05 P 2 2 s s (15 1)c P 2 0.05 9 Hvis 2 følger en 2 -fordeling med 15-1 frihedsgrader, så ved vi fra 2 - tabellen at P(2 > 6.57) 0.95 P(2 6.57) 0.05 Løs ligningen 14c/9 = 6.57 c = 4.22. 5% af alle stikprøvevarianser, vil være under 4.22. Estimator og estimat En stikprøve-statistik er et numerisk mål for en opsummerende karakteristik af stikprøven. fx x En populations-parameter er et numerisk mål for en opsummerende karakteristik af populationen. • En estimator af en populations parameter er en • • • stikprøve statistik, der bruges til at estimere populations parameteren. Et estimat af en parameter er en bestemt numerisk værdi af en stikprøve statistik. Et punkt-estimat er en enkelt værdi, der bruges som et estimat for en populations parameter. Et interval-estimat er et interval, der bruges som et estimat for en populations parameter. fx m Eksempel: X er en estimator for m . x er et (punkt-) estimat af m . Estimatore: Egenskaber Lad q være en generel populations-parameter, fx m. Lad qˆ være en estimator for q, fx. X Vi vil se på tre ønskelige egenskaber for estimatorer Unbiased Konsistent Effektiv Unbiased estimator Definiton: Hvis en estimator opfylder E[qˆ] q er den unbiased . En unbiased estimator rammer i gennemsnit plet. Bia s En biased estimator rammer i gennemsnit ikke plet. Effektiv Estimator Definiton: Antag at qˆ1 og qˆ2 er to unbiased estimatorer. Hvis Var(qˆ1 ) < Var( qˆ2 ), så siger vi at qˆ1 er en mere effektiv estimator end qˆ2. En effektiv estimator er i gennemsnit tættere på at ramme plet. En ineffektiv estimator er i gennemsnit længere fra at ramme plet. Konsistent En estimator er konsistent hvis sandsynligheden for at ligge tæt på den parameter, den estimerer, stiger, når størrelsen på stikprøven stiger. n = 10 n = 100 Konfidensintervaller Konfidensintervaller generelt Konfidensintervaller for middelværdi Konfidens-intervaller Et punkt-estimat estimerer værdien af en ukendt populationsparameter ved en enkelt værdi. Fx: Middelhøjden blandt oecon studernde x 172,73 . Et konfidensinterval er et interval, der estimerer værdien af en ukendt populationsparameter. Kaldes også et intervalestimat. Sammen med intervallet gives et mål for, hvor sikker man er på, at den sande populations parameter ligger i intervallet. Dette mål kaldes for konfidensniveauet. Et punktestimat indeholder ikke meget information om den faktiske værdi af μ – fx hvor sikkert er vores punkt estimat? Et intervalestimat indeholder flere informationer, for eksempel: Vi er 95% sikre på, at intervallet [164,8 ; 180,7] indeholde den sande middelværdi μ. Eller vi er 90% sikre på, at intervallet [166,1 ; 179,3] indeholder den sande middelværdi μ. Konfidensinterval for middelværdien - Opvarmning 2 Da X ~ N ( m , s n) gælder følgende: s s P m 1.96 X m 1.96 0.95 n n Dvs. med 95% sandsynlighed ligger (den stokastiske variabel) X i det faste interval m 1.96 s n . Det kan omskrives til s s P X 1.96 m X 1.96 0.95 n n Dvs. det stokastiske interval X 1.96 s 95% sandsynlighed det faste tal m. n indeholder med Konfidensinterval for middelværdien - når X er normal-fordelt eller stikprøven er stor Vi har altså s s P X 1.96 m X 1.96 0.95 n n Hvis vi erstatter den estimatoren X (”et tilfældigt tal”) med estimatet x (”et fast tal”) får vi konfidensintervallet: For en stikprøve der enten er stor eller fra en normalpopulation er et 95% konfidensinterval for middelværdien m når variansen er kendt x 1.96 s n Bemærk at estimatoren X er er ersattet med estimatet x. Mellemregninger…. P (1.96 Z 1,96) 0.95, hvor Z ~N (0,1) 0.4 0,025 s s P 1.96 X m 1,96 0.95 n n s s P m 1.96 X m 1,96 0.95 n n s s P X 1.96 m X 1,96 0.95 n n 0,025 0.1 0.0 X m P 1.96 1,96 0.95 s/ n 0,025 0.2 0.3 σ2 Da X~N ( μ, ) gælder at : n -3 -2 -1 0 1 2 3 Konfidens-interval for middelværdi 0,025 0.3 0.4 0,025 0.0 0.1 0.2 0,025 -3 2.5% falder nedenfor intervallet -2 -1 0 1 2 3 x x x x x x 95% falder indenfor intervallet 2.5% falder over intervallet x Approksimativt 95% af stikprøve middelværdierne kan forventes at falde indenfor intervallet s s m 1 . 96 , m 1 . 96 n n Omvendt, cirka 2.5% kan forventes at s være under m 1.96 n og 2.5% kan s . forventes at være over m 196 n . Så 5% kan forventes at være udenfor intervallet. . Konfidens-interval for middelværdi 0,025 0.3 0.4 0,025 0.0 0.1 0.2 0,025 -3 -2 -1 0 1 2 3 x * Approksimativt 95% af intervallerne s omkring stikprøve x 1.96 n middelværdien kan forventes at indeholde den faktiske værdi af populations middelværdien, m. x 1.96s x x x x 1.96s *5% af sådanne intervaller omkring x x x 95% falder indenfor intervallet * x stikprøve middelværdien kan forventes ikke at inkludere den faktiske værdi af populations middelværdien. Et (1-a )100% konfidens-interval for m Vi definerer z a som den z-værdi, hvor sandsynligheden for at Z er 2 a a højere end denne værdi, er . Kaldes også fraktilen eller den 2 2 kritiske værdi. (1-α)100% kaldes konfidens-niveauet. P Z > za a/2 2 P Z za a/2 2 P za Z za (1 a) 2 2 S tand ard Norm al fordeling 0.4 (1 a ) f(z) 0.3 0.2 0.1 a a 2 2 0.0 -5 -4 -3 -2 -1 za 2 0 1 Z za 2 2 3 4 5 1a) 100% konfidens interval: s x za n 2 Kritiske værdier for z og konfidens-niveauer Standard normalfordeling 2.576 0.98 0.010 2.326 0.95 0.025 1.960 0.90 0.050 1.645 0.80 0.100 1.282 1a 0.4 0.005 0.3 0.99 0.2 Za/2 a 2 a 2 0.1 a/2 0.0 1-a -3 Bemærk: F ( za 2 ) 1 a 2 -2 za-1 2 0 z1a 2 2 3 Eksempel Spørgsmål: Antag 1a) 80%. Find za/2 Løsning: a 0.20 og a/2 0.10 Vi ved Fza/2) 10.1 0.90. Dvs. za/2 1.28 Konfidens niveau og bredden af konfidensintervallet Når man tager stikprøver fra den samme population og bruger den samme stikprøve størrelse, så jo højere et konfidens-niveau, jo bredere et konfidens-interval. St an d ar d N or m al Di stri b uti o n 0.4 0.4 0.3 0.3 f(z) f(z) St an d ar d N or m al Di s tri b uti o n 0.2 0.1 0.2 0.1 0.0 0.0 -5 -4 -3 -2 -1 0 1 2 3 4 Z -5 -4 -3 -2 -1 0 1 2 3 4 Z 80% konfidens interval for m : x 1.28 5 s n 95% konfidens interval for m : x 1.96 s n 5 Stikprøvestørrelsen og bredden af konfidensintervallet Når man tager stikprøver fra den samme population og bruger det samme konfidensniveau, så jo større stikprøvestørrelse, n, jo smallere et konfidensinterval. S a m p lin g D is trib utio n o f th e M e an S a m p lin g D is trib utio n o f th e M e an 0 .4 0 .9 0 .8 0 .7 0 .3 f(x) f(x) 0 .6 0 .2 0 .5 0 .4 0 .3 0 .1 0 .2 0 .1 0 .0 0 .0 x 95% konfidensinterval: n = 20 x 95% konfidensinterval: n = 40 Eksempel på tavlen Antag n = 25, x = 27.781 kr/md, s = 2500 kr/md. Find et 95% konfidensinterval for m. Student’s t fordeling Antag populationen er normalfordelt med middelværdi m og varians s2. Gammel viden: Hvis vi kender variansen s2, så kan vi bruge: X m ~ N 0,1) s n Ny viden: Hvis vi ikke kender variansen s2, så kan vi erstatte s2 med stikprøve-variansen s2: X m ~ tn1 s n ”følger en t-fordeling med n-1 frihedsgrader”. Student’s t fordeling t fordelingen er klokkeformet Standard normal og symmetrisk og defineret ved antal frihedsgrader (df). t, df=20 Middelværdien er altid lig 0. t, df=10 Variansen af t er større end 1, 0 men går mod 1, når antallet af m frihedsgrader vokser. t fordelingen er fladere og har ”tykkere haler” en standard normal fordelingen. t fordelingen går mod standard normal fordelingen nå antallet af frihedsgrader vokser. Konfidensinterval for m når s er ukendt t-fordelingen Defintion: Et (1-a)100% konfidensinterval for m når s er ukendt (og man antager en normalfordelt population): x ta 2 s n hvor ta 2 er værdien i t-fordelingen med n-1 frihedsgraders, hvor sandsynligheden for at t er højere end denne værdi, er a. a/2 ta/2 Tabel for t-fordelingen df --1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ t0.100 ----3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282 t0.050 ----6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645 t0.025 -----12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960 t0.010 -----31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.358 2.326 t0.005 -----63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576 a/2 ta/2 For store frihedsgrader kan tfordelingen approksimeres ved en standard normalfordeling. R Man kan slå ta/2 op i R: Hvis vi vil finde t0.025 når antallet af frihedsgrader er 27: > qt(0.025,df=27,lower.tail=F) [1] 2.051831 Tilføjelsen lower.tail=F er nødvendig, da de 0.025 angiver arealet i øvre hale. Alternativt kan man bruge > qt(0.975,27) [1] 2.051831 Eksempel En aktieanalytiker vil estimere den gennemsnitlige gevinst på en bestemt aktie. En stikprøve på 15 dage giver en gennemsnitlig gevinst på x 10.37% og en standardafvigelse på s = 3.5%. Antag en normal-population og giv et 95% konfidensinterval for den gennemsnitlige gevinst på denne aktie. Den kritiske værdi af t for df = (n -1) = (15 -1) = 14 og et højrehalet areal på α/2 = 0.025 er: t 0.025 2.145 Konfidensintervallet er: s n 35 . 10.37 2.145 15 10.37 1.94 8.43,12.31 x t 0.025 R-mellemregning: > qt(0.025,df=14,lower.tail=F) [1] 2.144787 Konfidensintervaller for Middelværdien i R R har kun en indbygget funktion til at beregne konfidensintervallet for m under antagelse af ukendt varians: Eksempel: 95% konfidensinterval for højde i Sundby95: > t.test(data$hoejde) One Sample t-test data: data$hoejde t = 918.6152, df = 2626, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 172.3263 173.0635 sample estimates: mean of x 172.6949 Konfidensintervaller for Middelværdien i R Man kan også ændre konfidensniveauet, fx et 99% konfidensinterval: > t.test(data$hoejde,conf.level=0.99) 99 percent confidence interval: 172.2103 173.1795 Man kan også ”bare” sætte ind i formlen x ta 2 s : n > mean(data$hoejde,na.rm=T) + c(-1,1)*qt(0.995,n-1)*sd(data$hoejde,na.rm=T)/sqrt(n) [1] 172.2103 173.1795 Hvor n er antallet af faktiske observationer af højde: > n = sum(!is.na(data$hoejde))