Transcript Exempel

FL5
732G70
Statistik A
Normalfördelningsapproximation av
binomialfördelningen
Exempel
Baserat på marknadsandelar vet vi att 20% av
konsumenterna föredrar vårt företags produkt. Vad är
sannolikheten att av 70 slumpmässigt utvalda konsumenter
högst 20 väljer vår produkt?
Låt X = antalet kunder som föredrar vårt företags produkt
De fyra antagandena är uppfyllda (se föreläsning 4) varför det
gäller att
X ~ Bin  70;  0.2
Eftersom
n 1     70 0.2  1  0.2  11.2  5
kan vi approximera med normalfördelningen enligt


X ~ Nf   70 0.2  14;  70 0.2  1 0.2  3.35
2
Normalfördelningsapproximation av
binomialfördelningen
Vi söker
Pr(X  20)
3
Population och stickprov
Sampling = konsten att dra stickprov
 Population (även målpopulation) = den (på logisk väg definierade)
grupp av enheter (ofta individer) som vi vill undersöka
 Urvalsram = förteckning över populationen, ofta ett register
 Stickprov (sample) = de av enheterna i populationen som vi faktiskt
undersöker
 Urvalsenheter = de enheter som blivit utvalda i stickprovet
Population
Stickprov
Konsten att dra slutsatser om en
population baserat på ett stickprov
(statistisk slutledning) är en av
grundpelarna inom statistiken!
4
Obundet slumpmässigt urval (OSU)
(engelska Simple Random Sample)
Stickprovsdragning på ett sådant sätt att alla enheter i
populationen har samma sannolikhet
n
N
att bli utvalda.
Exempel:
Vår population är alla studenter i ett klassrum, och vi vill
undersöka genomsnittsvikten i klassen. Att väga alla skulle ta
lång tid, och man vill därför dra ett stickprov om 20 personer.
Det enklaste sättet att göra ett OSU skulle då vara att skriva
ned allas namn på lappar, lägga dem i en låda och dra 20
lappar ur lådan. Då har slumpen valt ut 20 personer åt oss och
alla har lika stor chans att bli utvalda.
Stratifierat urval
(engelska Stratified Random Sample)
När vi vill dra slutsatser om en heterogen population (en
population som kan delas in i undergrupper med avseende på
det som vi vill undersöka).
Varje sådan grupp kallas för ett stratum, och vi drar ett OSU ur
varje stratum och väger ihop resultaten.
Stratifierat urval ger, om populationen är heterogen, lägre
standardavvikelse än ett OSU och därmed säkrare slutsatser
om populationen.
Exempel (forts):
Vi delar upp populationen i kvinnor och män, och
lägger sedan lapparna med namn i en låda för kvinnor
och en för män. Sedan drar vi 10 lappar ur varje låda.
Problem vid stickprovsdragning
 Övertäckning = när det finns enheter i urvalsramen
som egentligen inte tillhör målpopulationen
Exempel: Vid studie av vikter bland studenter i ett klassrum
används klasslistan som urvalsram. Men vissa studenter har
hoppat av utbildningen sedan klasslistan trycktes – de tillhör
inte längre målpopulationen utan utgör övertäckning.
 Undertäckning = när det finns enheter i
målpopulationen som saknas i urvalsramen
Exempel: Vissa studenter har påbörjat sin utbildning sedan
klasslistan trycktes. De tillhör därför målpopulationen men har
ingen chans att bli utvalda och utgör därför undertäckning.
7
Problem vid stickprovsdragning
Bortfall = när enheter inte vill (eller kan) mätas. Skilj på
 Partiellt bortfall: när enheten har nåtts, men vi inte fått
all information (exempelvis att inte alla frågor på en
enkät besvarats)
 Totalbortfall: när ingen information erhållits alls från
enheten
8
Populationsparametrar och
skattningsfunktioner
Tabell över väntvärdesriktiga skattningsfunktioner.
Populationsparameter
(okänd sanning)
Medelvärde

Varians
2
Proportionstal

Skattningsfunktion
(uppskattning baserat
på stickprov)
X
S2
P
Väntevärdesriktig = vi gör inget systematiskt fel när vi
använder skattningsfunktionen som en uppskattning av
populationsparametern.
9
 Punktskattning = att använda en skattningsfunktion
som en uppskattning av motsvarande
populationsparameter
Dock: skattningsfunktioner är slumpvariabler och
antar olika värden för varje stickprov. Hur ska vi
hantera den osäkerheten?
 Vi börjar med att göra tre antaganden:
1. stickprovet är draget som ett OSU
2. populationen som vi drog stickprovet ur är
normalfördelad
3. populationsstandardavvikelsen σ är känd
Är dessa antaganden rimliga?
10
Konfidensintervall för medelvärde när 
är känd
Konfidensintervall = ett osäkerhetsintervall utlagt kring
x som tillåter oss att med en viss säkerhet säga att µ
ingår i intervallet

x

z

 Formel för konfidensintervall:
n
1. Beräkna x
2. Beräkna

n
3. Hämta värdet på z ur normalfördelningstabell
11
Exempel
Glödlampor som tillverkas i en viss fabrik har en lystid
som kan betraktas som normalfördelad med
medelvärde 1600 timmar och standardavvikelse 100
timmar. Nu har man bytt en maskin i fabriken, och
har dragit ett stickprov om 150 lampor och
konstaterat att bland dem var den genomsnittliga
lystiden = 1618 timmar, medan standardavvikelsen
förefaller oförändrad.
Bestäm ett 95% konfidensintervall för lystiderna för
lampor tillverkade med den nya maskinen!
12
Hur kan vi påverka bredden på ett
konfidensintervall?
1. Öka n
2. Välj en annan konfidensnivå:
Lägre konfidensnivå ger ett mindre tabellvärde
och därmed ett smalare intervall, men samtidigt
minskar säkerheten. Exempelvis 90%
konfidensnivå innebär att vi bara med 90%
säkerhet inkluderar det sanna
populationsmedelvärdet (µ) i
konfidensintervallet.
13
Den metod för att bilda konfidensintervall vi diskuterat
hittills baseras alltså på de tre kraven
1. stickprovet måste vara draget som ett OSU
2. populationen som vi drog stickprovet ur är
normalfördelad
3. populationsstandardavvikelsen σ är känd
Är det rimligt att dessa krav uppfylls i praktiken?
=> Nej, åtminstone inte att σ är känd
14
Konfidensintervall för medelvärde när σ
är okänd
Baserat på antagandena att
1.
stickprovet måste vara draget som ett OSU
2.
populationen som vi drog stickprovet ur är normalfördelad
kan vi skatta σ med s 
1
2


x

x
 i
n 1
och beräkna konfidensintervallet som
x t
s
n
där t hämtas ur t-fördelningen (tabellsamlingen sidan 8-9) med
n – 1 frihetsgrader.
15
Exempel
En viss sorts påsar med kryddor påstås innehålla 4 gram. Vi
kontrollmäter fyra slumpmässigt utvalda påsar och erhåller
4.0
3.6
3.9
4.1
Bestäm ett 95% konfidensintervall för genomsnittsvikten i påsarna!
16
Normalfördelning (z) och
t-fördelning (t)
 t-värdet är större än z för att ta hänsyn till den ökade
osäkerheten som följer av att konfidensintervallet baseras på
två skattningar (både x och s)
 t-värdet konvergerar (går mot) z när n ökar (titta i t-tabellen!)
17
Exempel
En butiksägare funderar på om det är ekonomiskt försvarbart att
fortsätta hålla butiken öppen på söndagar. Hon samlar därför
ihop kvitton från alla försäljningar de 10 senaste söndagarna
och beräknar medelvärde och standardavvikelse.
Totalt samlar hon ihop 980 kvitton, och beräknar
x  125
och
s = 250
Bestäm ett 95% konfidensintervall för den genomsnittliga
försäljningen på söndagar!
18