732G70 Statistik A, 7hp

Download Report

Transcript 732G70 Statistik A, 7hp

KAPITEL 8
Inferens om en ändlig population
Sid 210-229
Urval från ändliga populationer
• Hittills: inferens om population som är stor i förhållande till
stickprovet
• Populationen betraktas som ”oändlig” om
n
 10%
N
• Enheterna som väljs ut i stickprovet kan då ses som oberoende
• Nu: inferens om ändlig population
• Formeln för medelfelet justeras mha en
ändlighetskorrektion
n

1  
 N
• De vanliga formlerna för konfidensintervall (dubbelsidigt
och enkelsidigt) samt hypotesprövning kan nu användas
Formler för konfidensintervall
• För:
Populationsmedelvärde
Populationsandel
• Krav:
OSU
OSU
Samplingfördelningen för
stickprovsmedelvärdet kan betraktas
som normalfördelad
np(1 – p) > 5
• Dubbelsidigt konfidensintervall:
x  t n 1;1 / 2
s2 
n
1  
n 
N
p  z1 / 2
p1  p  
n
1  
n 1 
N
Exempel
• Ett gym erbjuder ett viktminskningsprogram till alla sina
70 kunder. Ett OSU på 10 kunder visar följande
viktminskning (i kg) efter genomgånget program:
6
3
5
8
0
2
1
7
3
2
• Beräkna ett 95%-igt konfidensintervall för
populationsmedelvärdet. Vilka antaganden måste göras
vid beräkning av intervallet?
Totalmängd samt totalt antal
• Om vi vet populationsstorleken (vilket vi oftast gör vid
ändliga/små populationer) kan vi beräkna parametrarna
totalmängd samt totalt antal
N
• Totalmängden i populationen definieras som i 1 X i N  
och skattas som N  x .
• Exempel: Totala vinsten för flera butiker
• Totalt antal med en viss egenskap i populationen definieras som

N
i 1
X i N•  
(där X är en binär variabel som antar värdena 1 eller 0)
och skattas som N  p .
• Exempel: Antal butiker som haft problem med snatterier senaste
månaden
Formler för konfidensintervall
• För:
Totalmängd i populationen
Totalt antal i populationen
• Krav:
OSU
OSU
Samplingfördelningen för
stickprovsmedelvärdet kan betraktas
som normalfördelad
np(1 – p) > 5
• Dubbelsidigt konfidensintervall:
s2 
n
N  x  tn 1;1 / 2  N 
1  
n  N
N  p  z1 / 2  N 
p1  p  
n
1  
n 1  N 
Exempel
• Ledningen för en butikskedja med 200 butiker var
intresserade av vinsten den senaste månaden. Ett OSU
på 30 butiker resulterade i en medelvinst på 70 (kkr) och
en standardavvikelse på 15 (kkr). Beräkna ett 90%-igt
konfidensintervall för den totala vinsten för alla 200
butiker.
• Man passade även på att fråga om butikerna i urvalet har
haft problem med snatterier under den senaste månaden.
10 av butikerna svarade ja. Beräkna ett 90%-igt
konfidensintervall för det totala antalet butiker som haft
problem med snatterier.
Stratifierat urval
• För:
Populationsmedelvärde
• Krav:
OSU ur varje stratum
n ≥ 30 i varje stratum
Populationsandel
OSU ur varje stratum
np(1 – p) > 5 i varje stratum
• Dubbelsidigt konfidensintervall:
x STR  z1 / 2
si2
Wi 

ni
i 1
L
2

n 
 1  i 
 Ni 
L
xSTR   Wi  xi
i 1
där L = antalet stratum i populationen
p STR  z1 / 2
L
L
W
i 1
pSTR   Wi pi
i 1
i
2

pi 1  pi  
n 
 1  i 
ni  1 
Ni 
Exempel
• På ett stort företag ville man undersöka hur mycket de
anställda arbetar i genomsnitt (i procent av heltid).
Eftersom man tror att tiden kan skilja sig åt mellan män
och kvinnor drar man ett OSU av 250 kvinnor av totalt
1500 och 250 män av totalt 3500. Kvinnorna i urvalet
arbetade 80% i genomsnitt med en standardavvikelse på
6.5%, och männen i urvalet arbetade 89% i genomsnitt
med en standardavvikelse på 4.5%. Beräkna ett 95%-igt
konfidensintervall för den genomsnittliga arbetstiden på
företaget.
• Vilka antaganden behöver göras?
Allokering
• Hur många enheter ska väljas ut ur respektive stratum?
• Lika allokering
n
L
ni 
• Proportionell allokering
N
ni  n  i
N
• Neymanallokering
Ni   i
ni  n 
L
N
j 1
j
 j
• Optimal allokering
N   / ci
ni  n  L i i
•
N

 j  j / cj
j 1
där ci är kostnaden för att undersöka en enhet i stratum i
Exempel
• För att undersöka om lärare i ett visst rektorsområde rättar
fjärdeklassarnas nationella prov i matte ”korrekt” vill man dra ett urval av
100 prov och låta utomstående lärare rätta dessa prov. Man vill sedan
skatta den genomsnittliga poängen på alla fjärdeklassares prov i
rektorsområdet. Eftersom man tror att resultaten kan skilja sig åt mellan
skolor låter man de fyra skolorna utgöra fyra stratum med storlekarna
100, 200, 300 samt 400 prov. Från tidigare erfarenhet tror man att
standardavvikelserna i provresultat i de fyra skolorna är 20, 5, 6 och 6.
• Hur bör urvalet allokeras med
• Lika allokering?
• Proportionell allokering?
• Neymanallokering?
• Antag nu att den första skolan (med 100 elever) är en specialskola där
elever med olika typer av svårigheter går. Det tar längre tid att rätta
dessa elevers prov eftersom lärarna måste ta hänsyn till hur mycket hjälp
varje elev har fått när dom rättar. Hur ska urvalet allokeras optimalt om vi
antar att kostnaden att välja ett prov från specialskolan är 200 kr jämfört
med 100 kr att välja ett prov från någon av de andra skolorna?