Transcript PowerPoint
Anvendt Statistik Lektion 3 Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse Punkt- og intervalestimater: Motivation Motiverende eksempel: I en undersøgelse er andelen af rygere 0.27. Det anslås at populationsandelen er mellem 0.25 og 0.29. Begreber: De 0.27 er et punkt-estimat Intervallet 0.25 til 0.29 er et interval-estimat. Dvs. populationsandelen falder (anslået) indenfor punkt-estimat +/- fejl-margin. Fejl-margin er her 0.02 Punkt-estimat og -estimator En estimator er en ”generel formel”, der bruges til at estimere en parameter med, fx. y1 y2 yn y n Et estimat er en konkret udregning af en estimator, ved at indsætte data. Der kan være mange estimatore for den samme parameter. Hvis populationsfordelingen er symmetrisk er både stikprøve-median og -gennemsnit estimatorer for populations-middelværdien. En god estimator En god estimator har typisk følgende egenskaber: Den er Unbiased – dvs. at estimatoren i gennemsnit er lig parameteren. Den er Efficient – dvs. fejl-marginen bliver mindre jo mere data der er til rådighed. Eksempel: Stikprøve-gennemsnittet y er en unbiased og efficient estimator for populationsmiddelværdien m. Eksempel: Stikprøve-medianen er en biased estimator for populationsmiddelværdien, hvis fordelingen ikke er symmetrisk. Notation – en på hatten Generelt vil vi betegne en estimator med en ”hat” ^. Fx. betegner m^ en estimator for m. Konfidensinterval Motivation: Ifølge undersøgelse: 54% er vilde med pålægschokolade! (Et punkt-estimat) Spørgsmål: Hvor sikkert er dette estimat? Konfidensinterval Et konfidensinterval angiver et interval, hvor vi tror parameteren ligger med en vis sikkerhed. Sandsynligheden for at vores stikprøve fører til et konfidensinterval, der indeholder parameteren betegnes konfidensniveauet. Konfidensniveauet er typisk 0.95 eller 0.99. Konfidensinterval: Typisk opskrift I mange tilfælde er stikprøvefordelingen for estimatoren (tilnærmelsesvis) normalfordelt. Fx stikprøvegennemsnittet. I disse tilfælde er konfidensintervallet givet ved punkt-estimat ± fejl-margin Spørgsmål: Hvordan finder vi fejl-marginen? Konfidensinterval for andele Notation : populations-andel : stikprøve-andel Bemærk: p^ er en estimator for p. p p^ Antag y = 1 : succes / vild med pålægschokolade y = 0 : fiasko / ikke vild med pålægschokolade Vi har P(1) = p og P(0) = 1-p. Middelværdi og standard-afvigelse for y (populationen) er hhv. m p og s √p(1-p) Andelen er et gennemsnit Bemærk: For stikprøve-gennemsnit ved vi at standard-fejlen s er s y så for stikprøve-andelen er den y1 y2 yn i yi pˆ n n Dvs. stikprøve-andelen er et stikprøvegennemsnit! n s pˆ p (1 - p ) n Konfidensinterval for p for stort n Da p^ er et gennemsnit siger CLT, at p^ ca. følger en normalfordeling hvis n bare er stor nok. Med 95% sandsynlighed vil p^ falde i intervallet p 1.96 s pˆ Omvendt: Med 95% sandsynlighed vil p ligge i intervallet pˆ 1.96 s pˆ Konfidens-interval: En figur Stikprøvefordelingen for p^ 0 .4 95% 0 .3 0 .2 0 .1 2.5% 2.5% 0 .0 pˆ - 1.96 x p p (1 - p ) pˆ 1.96 n p (1 - p ) n pˆ pˆ * pˆ pˆ pˆ pˆ pˆ pˆ pˆ * Konfidensinterval I praksis kender vi ikke p, dvs. vi kender ikke standard fejlen: s pˆ p (1 - p ) n I stedet for p bruger vi estimatet p^ : Et 95% konfidens-interval for p er nu givet ved pˆ 1.96 se hvor se pˆ (1 - pˆ ) n se = ”standard error” = standardfejlen. Eksempel Setup: Af 1200 adspurgte i Florida svarer 396 ja til reduktion af abortrettigheder. Spørgsmål: Find et 95% konfidensinterval for populationsandelen af ja-sigere. p^ = se = 95% konfidensinterval: 99% 0.0 pˆ 2.58 se 0.2 Et 99% konfidensinterval: 0.1 0.3 0.4 Hvad med et 99% konf. interval? 0 1 2 3 z=2.58 0.3 0.2 (a/2)100% (1-a)100% 0.1 Et (1-a)100% konfidensinterval pˆ (1 - pˆ ) ˆ p z n -1 0.0 -2 0.4 -3 -3 -2 -1 0 1 z2 Egenskaber ved konfidensintervaller: o Jo højere konfidensniveau, jo større z og jo længere konfidens-interval o Jo større stikprøve (n) jo kortere konfidensinterval o Firdobling af n sikre halvering af konfidensinterval. 3 Konfidensinterval for middelværdi Ingredienser: m : Populations-middelværdi y : Stikprøve-gennemsnit y er et punktestimat for m. For store stikprøver er y normalfordelt. Standardfejlen er altid s sy n hvor s er standard-afvigelsen for populationen. Den estimerede standard-fejl er s se n Eksempel Konfidensinterval for middelværdi er y z se , hvor se s n Eksempel: På et spørgsmål om antal seksuelle partnere blandt n = 231 kvinder, var gennemsnittet y = 4.96 og standard-afvigelsen s = 6.81. Find et 95% konfidensinterval for populations-middelværdien m. Konfidensinterval for middelværdi – små stikprøver Antag: populationen er normal-fordelt. Da er y normalfordelt – uanset stikprøve-størrelse n. Hvis vi kender pop. standard-afvigelsen s er et (eksakt) konfidensinterval givet ved yz s n Hvis s er ukendt, erstatter vi med stikprøve standardafvigelsen s. Problem: For små stikprøver medfører brugen af s i stedet for s en ekstra usikkerhed. Løsning: Erstat z med t…! t-fordelingen t-fordelingen er Klokkeformet og symmetrisk omkring 0 Standard-afvigelsen er lidt større end 1 Faconen afhænger af antal frihedsgrader (df). Har lidt ”tykkere haler” end standard normalfordelingen. Ligner en normalfordeling jo højere antal df er. N(0,1) df = 6 dnorm(x) df = 2 -4 -2 0 2 4 Konfidensinterval for små stikprøver For en normalfordelt population er et (1-a)100% konfidensinterval for m s y ta / 2 se, hvor se n hvor df = n-1. a/2 -3 a/2 1-a -2 -1 ta/2 0 1 ta/2 2 3 Eksempel: Vi har observeret 29 vægtændringer, hvor y = 3.01 og s = 7.31. Find et 95% konf. interval for m : Løsning: df = n-1 = 28, a = 0.025, så t0.025 = 2.048 t-tabellen a Se Tabel B i bogen side 593. I SPSS SPSS: Analyze→Compare Means→One-Sample T-Test… Valg af stikprøvestørrelse Hvordan vælger man stikprøvestørrelse n så vi opnår en Given fejl-margin ved et Givet konfidensniveau Eksempel: Vi ønsker at bestemme et konfidensinterval for p, så Fejl-margin : Max 0.04 Konfidensniveau : 95% Løsning: Generel løsning for andele Stikprøvestørrelsen skal da være: Hvis populations-andelen p er helt og aldeles ukendt bruges p 0.5 i formlen. 2 0.2 0.3 0.4 z n p (1 - p ) M a/2 (1-a)100% 0.1 For at populationsandel p vælg Fejl-margin: M Signifikansniveau: (1-a)100% 0.0 -3 -2 -1 0 z za/2 2 1 3 Generel løsning for middelværdi Stikprøvestørrelsen skal da være: 2 Hvis populationsstandardafvigelsen s er man nød til at gætte sig frem til. Hellere lidt for stor end for lille. 0.2 0.3 0.4 z n s 2 M a/2 (1-a)100% 0.1 For middelværdien m vælg Fejl-margin: M Signifikansniveau: (1-a)100% 0.0 -3 -2 -1 0 z za/2 2 1 3 Eksempel Middel antal års uddannelse blandt indianere Ønsker: Fejl-margin: M = 1år Konfidensniveau: 99% Først skal vi gætte s ! Vi tror (næsten) alle har mellem 5 og 20 års uddannelse… Derfor er vores gæt s = 2.5 år…!