Transcript repedition

Normalfördelningen och centrala
gränsvärdessatsen
Om vi summerar ett stort antal slumpmässigt fördelade tal, så
kommer den asymptotiska fördelningen för summan att gå mot en
normalfördelning
Detta gäller oberoende av hur fördelningen ser ut för de termer
som ingår i summan!!
f(x;  ,  ) 
2 
 ( x   ) 
 exp 

2
 2 

2
1
2
Felet i medelvärdet
 

N
Det vill säga standardavvikelsen hos normalfördelningen I fråga
(uppskattad med variansen av datapunkterna) dividerad med
kvadratroten ur antalet mätvärden).

“De stora talens välsignelse”
Felfortplantning
Abcde f
 b 
 A 
A
2
2
e f
A
A

  c    d    e    f
2
bcd


2
2
2
2
2
 b   c   d   e   f 
             
 b   c   d   e   f 
2

R
R
 U   I 

   
 U   I 
2

2

2
Statistisk signifikans
• Resultatet av en mätning (observation) sägs vara
statistiskt signifikant om det är osannolikt att
resultatet beror på slumpen.
• Tex:
– Sannolikheten att det inträffat på grund av slumpen är
mindre än 0,05 (dvs 1 på 20)
• Tex:
– Sannolikheten att det inträffat på grund av slumpen är
mindre än 0,01 (dvs 1 på 100)
Men kom ihåg!!
• Sannolikheten att det inträffat på grund av
slumpen är mindre än 0,05 (dvs 1 på 20)
• En gång på 20 är det ”signifikant” på grund
av slumpen!!!!!!!!!!!
• Signifikansnivån är mycket viktig!!
– 0,05, 0.001, 10-6 …..
Olika sannolikheter
• Om man kan anta på goda grunder att en viss händelse sker
kallas det teoretisk sannolikhet.
• Om man baserar sannolikheten på observerade händelser
kallas det relativ frekvenssannolikhet
• Om man baserar sannolikheten på erfarenhet och intuition
kallas det subjektiv sannolikhet
Sannolikhetsfördelningen för summan av två tärningar
Utfall Kombinationer
antal
Sannolikhet
2
1+1
1
1/36
3
1+2, 2+1
2
2/36
4
1+3, 3+1, 2+2
3
3/36
5
1+4, 4+1, 2+3, 3+2
4
4/36
6
1+5, 5+1, 2+4, 4+2, 3+3
5
5/36
7
1+6, 6+1, 2+5, 5+2, 3+4, 4+3
6
6/36
8
2+6, 6+2, 3+5, 5+3, 4+4
5
5/36
9
3+6, 6+3, 4+5, 5+4
4
4/36
10 4+6, 6+4, 5+5
3
3/36
11 5+6, 6+5
2
2/36
12 6+6
1
1/36
Verklig korrelation?
Bakgrundsfaktorer som ger falsk
korrelation
• Exempel: Under vintern säljs mindre glass,
sker fler benbrott, dricks mer glögg, säljs
fler skidresor och fler åker buss till jobbet
än på sommaren. Men det är väl ingen som
drar slutsatsen att det är ökad bussåkning
som ger upphov till ökad glöggkonsumtion.
Det beror mer på det kalla vädret.
Möjliga förklaringar för en
korrelation
• Statistisk fluktuation (se tabell 7.3)
• Bakomliggande faktorer (tex väder etc)
• En variabel beror av den andra (ett kausalt
samband)
Kausalitet
• En korrelation mellan två variabler kan
indikera en kausalitet (en variabel beror av
den andra) men inte ensam bevisa att man
har en kausalitet.
• En mängd andra undersökningar behövs!
Riktlinjer för att visa kausalitet
• Kontroller att korrelationen existerar även när andra
parametrar varieras
• Kontrollera att korrelationen förstärks då en misstänkt
parameter förstärks
• Om effekten kan orsakas av någon känd effekt, kontrollera
att effekten finns kvar då man tagit hänsyn till den kända
effekten.
• Försök att göra ett experiment
• Försök finna en fysisk orsak till korrelationen
Ex. hur man visade att rökning
orsakade lungcancer
•
•
•
•
•
•
Observerad korrelation mellan rökning och lungcancer för alla typer av
människor
Man fann att för människor med lika förutsättningar att icke rökare hade mer
sällan lungcancer än rökare
Folk som rökte mycket och länge hade högre chans att få luncancer
När man korrigerade för kända orsaker till lungcancer som tex radon hade
rökare fortfarande högre frekvens än icke rökare
Man gjorde djurförsök och fann att de ”rökande” fick lungcancer
Biologer studerade cellkulturer och fann att röken orsakade mutationer och att
det inte fanns någon genetisk faktor
Kombination av sannolikheter
Medelvärdet hos en population
Medelvärdet för fem basketspelare är 242,4 pound
Vi delar upp de fem i så många samplestorlekar
som möjligt
Samplestorlek
1 2
3
4
5
Antal möjliga samples
5 10
10
5
1
Egenskaper
• Medelvärdet är detsamma för de olika
fördelningarna
• Spridningen blir mindre ju större sample
Samplemedelvärden för större
populationer
• Populationsmedelvärdet () på samtliga personer i
populationen är det sanna värdet.
• Ett urval (sample) med en del av populationen kommer att
ha ett medelvärde (x) som skiljer sig något från
populationsmedelvärdet ()
• Men medelvärdet för en mängd olika samples kommer att
vara normalfördelade med ett medelvärde nära 
Andelar av en population
• För en ja/nej fråga har man bara två svar
och vi har att en andel av populationen
• Tex p= 550/1100 = 0,50
• För en delmängd (sample) av populationen
^
har vi p = 50/100
• Standardavvikelsen hos p är
P 
p(1  p)
95% konfidensintervall
• Uppskatta ”felmarginalen”,E, för 95% KI
• E=1,96s/ n (s= standardavvikelsen för
samplet)

• x-E<<x+E
• Betyder att 95% av alla samplemedelvärden
ligger inom intervallet
95% konfidensintervall för
andelar av en population
• Felmarginalen, E, för 95% konfidensintervallet
är:
E  1,96
pˆ (1  pˆ )
n

Uppskattning av samplestorlek
E 
1,96  
n
2
1,96  
n  

 E 

Uppskattning av samplestorlek
for andelar av en population
1
E 
n
n 
1
E
2
Hypotesprövning
• Nollhypotesen H0 är den man testar
• Alternativa hypotesen Ha antar att
parametern som testas avviker från H0
• Definitionen av hypoteserna skall
bestämmas innan man utför testen!!!
Hypotestestning
• Man behöver:
– 1. Det antagna värdet för
populationsparametern () eller p
– 2. Medelvärdet x eller p^
– 3. Samplestorleken, n
– 4. Standardavvikelsen för populationen, , eller
för stora samples standardavvikelsen för
samplet, s
P-värdet
• P-värdet för en hypotes om en parameter är
sannolikheten att ett sample minst lika
extremt som det observerade, under
antagandet att nollhypotesen är sann.
Signifikans vid 0.05 nivån för
ensidigt intervall
Signifikans vid 0,05 nivå för
tvåsidigt intervall
Fel i hypotesprövningen
Förkasta H0
H0 sann
H0 falsk
Feltyp 1
Korrekt
Acceptera H0 Korrekt
Feltyp II
Vid en signifikansnivå på 0,05 kommer vi att förkasta
H0 i 5% av fallen.
Signifikansnivån är sannolikheten för Feltyp 1