Transcript Document

KAPITEL 6
Inferens om en population
Sid 151-185
Inferens om en population
• Inferens
• Dra slutsats från ett stickprov till en population
• Vi vet resultatet i stickprovet (exempelvis vad medelvärdet i
stickprovet är). Vad kan vi säga om (exempelvis medelvärdet) i
populationen?
• Två sätt att dra inferens från stickprov till population
• Konfidensintervall
• Hypotesprövning
Konfidensintervall
• Konfidensintervall
• Ett intervall runt en punktskattning
• Vi kan med en viss säkerhet säga att den okända parametern täcks
av intervallet
• Konfidensgraden, 1 – a, bestäms ofta till 0.9, 0.95 eller 0.99
Konfidensintervall för populationsmedelvärde
• Krav
• OSU
• Samplingfördelningen för stickprovsmedelvärdet går att betrakta som
normalfördelad
• Om
a:
 är känd fås ett dubbelsidigt konfidensintervall med konfidensgrad 1 -
x  z1a / 2

n
där z-värde hämtas från normalfördelningstabell (bilaga B)
• Om
a:
 är okänd fås ett dubbelsidigt konfidensintervall med konfidensgrad 1 -
x  t n 1;1a / 2
s
n
där t-värde hämtas från t-fördelningstabell (bilaga B)
• Tolkning: Med (1 – a)% säkerhet är populationsmedelvärdet mellan ….. och
…..
• Det som står efter +- kallas felmarginalen!
Enkelsidigt konfidensintervall
• Om vi bara vill bestämma EN gräns (övre eller nedre) så
lägger vi all a i ena svansen av fördelningen
• Nedre gräns:
  x  z1a

n
  x  tn1;1a
s
n
• Övre gräns:
  x  z1a

n
  x  tn1;1a
s
n
• Tolkning: Med (1 – a)% säkerhet är det sanna
medelvärdet högre än/lägre än …..
Exempel
• Ett gym erbjuder ett viktminskningsprogram. Ett OSU på
10 kunder visar följande viktminskning (i kg) efter
genomgånget program:
6
3
5
8
0
2
1
7
3
2
• Beräkna ett 95%-igt konfidensintervall för
populationsmedelvärdet. Vilka antaganden måste göras
vid beräkning av intervallet?
• Programansvarig påstår att folk minskar i vikt med minst 2
kg om man följer programmet. Kan vi med 95% säkerhet
säga att den genomsnittliga minskningen är minst 2 kg?
Konfidensintervall för populationsandel
• Krav
• OSU
• np(1-p) > 5
• Dubbelsidigt och enkelsidiga konfidensintervall med
konfidensgrad 1 - a:
p  z1a / 2
p1  p )
n
  p  z1a
p1  p )
n
  p  z1a
p1  p )
n
Exempel
• Enligt SIFOs senaste mätning svarade 976 av 1934
personer att de skulle rösta på någon av de rödgröna
partierna (S, Mp, V) i riksdagsvalet om det var val i dag.
• Beräkna ett konfidensintervall (dubbelsidigt eller
enkelsidigt?) så att du kan besvara frågan om minst en
majoritet av svenska folket skulle rösta på någon av de
rödgröna partierna om det var val i dag.
• Vilka antaganden behöver du göra för att beräkna
intervallet?
Hypotesprövning
• Vi ställer upp två hypoteser
• Nollhypotes: H0
• Den hypotes vi inte tror på och vill kunna förkasta
• Nollhypotesen ska formuleras med ett likhetstecken
• Vi kan inte få statistiskt bevis/stöd för nollhypotesen
• Mothypotes: Ha
• Den hypotes vi vill ha statistiskt bevis/stöd för
• Om vi har tillräckligt med statistiskt bevis för att förkasta nollhypotesen kan
vi tro på mothypotesen
• Mothypotesen ska formuleras med ett ”ej lika med” eller ”större än” eller
”mindre än”
• Hypoteserna grundar sig i hur frågeställningen ser ut och baseras ofta
på tidigare resultat och (exempelvis ekonomisk) teori. Man formulerar
INTE hypoteser baserat på hur resultaten från stickprovet ser ut!
• Vi väljer signifikansnivå
• α
• Risken att förkasta en sann nollhypotes
• Vanliga signifikansnivåer är 0.05, 0.01, 0.10
Hypotesprövning forts
• Vi väljer testvariabel
• Testvariabeln beräknas ofta som punktskattningen minus värdet under
nollhypotesen, dividerat med medelfelet för skattningen
• Vi väljer om vi ska förkasta nollhypotesen och tro på
mothypotesen
• Vi jämför testvariabelns värde med ett kritiskt värde från en tabell.
• Om testvariabeln faller inom det kritiska området kan nollhypotesen
förkastas och vi har stöd för mothypotesen
• Vi drar slutsats
• Om nollhypotesen förkastas kan vi säga att vi har statistiskt stöd för
mothypotesen och kan tro på den
• Ofta säger vi att vi har ”signifikans” eller att något är ”statistiskt
säkerställt”
• Om nollhypotesen inte kan förkastas säger vi att vi INTE har statistiskt
stöd för mothypotesen
• Vi drar slutsatsen på signifikansnivå α
Hypotesprövning för populationsmedelvärde
• Krav
• OSU
• Samplingfördelningen för stickprovsmedelvärdet går att betrakta som
normalfördelad
• Nollhypotes
• H0: µ = µ0
• Testvariabler
x  0
z
• Om  är känd
/ n
• Om
 är okänd
t
x  0
s/ n
• Kritiska värden
• För Ha: µ ≠ µ0 är kritiskt område både till vänster om zα/2 resp. tn-1;α/2 och till
höger om z1-α/2 resp. tn-1;1-α/2
• För Ha: µ < µ0 är kritiskt område till vänster om zα resp. tn-1;α
• För Ha: µ > µ0 är kritiskt område till höger om z1-α resp. tn-1;1-α
Exempel (forts.)
• Ett gym erbjuder ett viktminskningsprogram. Ett OSU på
10 kunder visar följande viktminskning (i kg) efter
genomgånget program:
6
3
5
8
0
2
1
7
3
2
• Hypotestesta på 5% signifikansnivå om den
genomsnittliga viktminskningen i populationen är större än
2 kg.
• Vilka antaganden måste göras?
Hypotesprövning för populationsandel
• Krav
• OSU
• np(1-p) > 5
• Nollhypotes
• H 0: π = π 0
• Testvariabel
z
p 0
 0 1   0 )
n
• Kritiska värden
• För Ha: π ≠ π0 är kritiskt område både till vänster om zα/2 och till
höger om z1-α/2
• För Ha: π < π0 är kritiskt område till vänster om zα
• För Ha: π > π0 är kritiskt område till höger om z1-α
Exempel
• Enligt Statistiska Centralbyråns senaste skattning var
8.5% arbetslösa i Sverige. Skattningen beräknades på ett
slumpmässigt urval av 29500 personer.
• Hypotestesta på 1% signifikansnivå om arbetslösheten i
Sverige är lägre än 9%.
• Vilka antaganden behöver du göra?
Hypotesprövning med p-värde
• p-värde = sannolikheten att vår testvariabel ska anta det
värde som vi har observerat eller ännu mer extremt om
nollhypotesen är sann
• Med hjälp av normalfödelningstabellen kan vi ta reda på
denna sannolikhet
• Om p-värdet är litet (mindre än a) är det osannolikt att vi
skulle fått det resultat vi fick på testvariabeln om
nollhypotesen är sann. Vi förkastar nollhypotesen.
Exempel
• En viss amerikansk bank tror att det genomsnittliga
•
•
•
•
uttaget från bankomater är $150 och standardavvikelsen
är $50. Finns det statistisk stöd för att banken har fel, om
ett OSU av 36 uttag ger ett medelvärde på $160?
Genomför ett hypotestest med hjälp av p-värdesmetoden
på 5% signifikansnivå.
Vilka antaganden behöver du göra?
Vad skulle p-värdet bli om vi i stället gjorde ett enkelsidigt
test, och vi ville testa om det finns statistiskt stöd för att
genomsnittet är högre än $150?
Vad skulle p-värdet bli om vi i stället gjorde ett enkelsidigt
test, och vi ville testa om det finns statistiskt stöd för att
genomsnittet är lägre än $150?
Relation mellan konfidensintervall och
hypotesprövning
• Om värdet i nollhypotesen ingår i ett konfidensintervall
med konfidensgrad 1-a kan vi inte förkasta nollhypotesen
på signifikansnivå a
• Om värdet i nollhypotesen inte ingår i ett
konfidensintervall med konfidensgrad 1-a kan vi förkasta
nollhypotesen på signifikansnivå a
• Vid dubbelsidiga mothypoteser krävs dubbelsidiga
intervall och vid enkelsidiga mothypoteser krävs
enkelsidiga intervall
Exempel (forts)
• Enligt SIFOs senaste mätning svarade 976 av 1934
personer att de skulle rösta på någon av de rödgröna
partierna (S, Mp, V) i riksdagsvalet om det var val i dag.
• Beräkna ett konfidensintervall så att du kan hypotestesta
på 10% signifikansnivå om minst en majoritet av svenska
folket skulle rösta på någon av de rödgröna partierna om
det var val i dag.
Feltyper och styrka
• Feltyper
• Typ I-fel: Att förkasta en sann nollhypotes
• Sannolikhet för Typ I-fel: a
• Typ II-fel: Att inte förkasta en falsk nollhypotes
• Sannolikhet för Typ II-fel: b
• Styrka
• Sannolikheten att förkasta en falsk nollhypotes