Förelasning 7

Download Report

Transcript Förelasning 7

Förelasning 7
Chitvå-test
Regression forts.
1
Analys av enkla frekvenstabeller

Ofta analyserar man frekvenstabeller med hjälp av
diagram.

Är skillnaden statistiskt signifikant?
Exempel: Antal personer som föredrar att handla i olika
matbutiker (stickprov n=120, siffror påhittade)
Statistiska metoder 2012
2
Analys av enkla frekvenstabeller

Hypotesprövning
Marknad
Willys
Lidl
Netto
ICA
H0: Det finns ingen signifikant
skillnad mellan antalen i
olika kategorierna:
Ha: Det finns skillnad
Antal
37
28
12
43
För varje observerad frekvens O, kan
man definiera förväntade
frekvensen E under nollhypotesen
som totalvärde S dividerad med
antalet kategorier K
Statistiska metoder 2012
3
Förväntad
30
30
30
30
Analys av enkla frekvenstabeller

Givet en envägsindelad frekvenstabell och de förväntade
frekvenser är större än 5, använd chitvå-statistiken med
K-1 frihetsgrader vid hypotesprövningen:
2  



O  E 2
E
Rita fördelningen
Kritiska området=alltid högra svansen
Om vi är i det kritiska området  Förkastar H0
Statistiska metoder 2012
4
Analys av enkla frekvenstabeller

MINITAB: Använd StatTablesChi-Square Goodnessof-fit-test
Category
Willys
Lidl
Netto
ICA
N
120
DF
3
Observed
37
28
12
43
Chi-Sq
18,2
Test
Proportion
0,25
0,25
0,25
0,25
Expected
30
30
30
30
P-Value
0,000
Statistiska metoder 2012
5
Contribution
to Chi-Sq
1,6333
0,1333
10,8000
5,6333
Analys av korstabeller

Blodgrupp SverigeUSA
A
43
66
B
38
72
AB
11
23
O
8
19
Hypotesprövning
H0: Fördelning i
radkategorierna beror på
kolumnkategorier
Ha: Fördelningen är samma
för alla kolumnkategorier
Exempel:
Antal personer med en viss
blodgrupp (USA och
Sverige) Skillnad mellan
två länder?
Statistiska metoder 2012
6
Analys av korstabeller


Skatta marginala frekvenser och totalsumman
För varje observerad frekvens O, definiera en förväntad
frekvens E som produkten av motsvarande marginala
frekvenser dividerade med totalsumman.
Statistiska metoder 2012
7
Analys av korstabeller

Givet en tvåvägsindelad frekvenstabell och de
förväntade frekvenser är alla större än 5 förutom kanske
20% och ingen förväntad frekvens är mindre än 1,
använd chitvå-statistiken med (R-1)(K-1) frihetsgrader vid
hypotesprövningen:
 
2

O  E 2
E
Om vi är i det kritiska området  Förkastar H0
Statistiska metoder 2012
8
Analys av korstabeller

MINITAB:Stat Tables Chi-Square test
Sverige USA Total
1
43 66 109
38,93 70,07
0,426 0,237
2
38 72 110
39,29 70,71
0,042 0,023
3
11 23 34
12,14 21,86
0,108 0,060
4
8 19 27
9,64 17,36
0,280 0,155
Total
100
180
280
Chi-Sq = 1,331; DF = 3; P-Value = 0,722
Statistiska metoder 2012
9
Regression

Vi antar att följande modell gäller:
yi  ai  bxi   i


εi – slumpfel, normalfördelad med okända variansen σ2
Det är alltså ett statistiskt samband, fel:


Felaktiga mätningar
En eller flera viktiga variabler saknas i modellen
Statistiska metoder 2012
10
Regression
Exempel: Ålder och vikt av barn under 3 år. Två olika
stickprov olika bilder (innebär att εi är olika)
 Anpassade regressionsekvationer är mycket lika!

Hur mycket ska koefficienterna variera från ett stickprov
till ett annat? Konfidensintervall behövs!
Statistiska metoder 2012
11
Regression-utskriften
Regression Analysis: Vikt2 versus Ålder
The regression equation is
Vikt2 = 4,86 + 3,62 Ålder
Predictor
Constant
Ålder
Coef
4,8586
3,6226
S = 0,894781
SE Coef
0,1766
0,1047
R-Sq = 92,4%
T
27,51
34,58
P
0,000
0,000
R-Sq(adj) = 92,3%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
98
99
SS
957,61
78,46
1036,07
MS
957,61
0,80
Statistiska metoder 2012
12
F
1196,06
P
0,000
Regression
Hypotesprövning
 H0: b=0
 H1 b≠0


Använd T-statistik med n-2 frihetsgrader vid
hypotesprövning
Konfidensintervall:
b  Tkrit  SE (b)
Statistiska metoder 2012
13
Prediktion

Kan vi prediktera utfall för de nya observationer?
 Ex.1 Vilken är genomsnittlig vikt av flickor som är 1 år
gamla?
 Ex 2 I vilket intervall ligger genomsnittlig vikt av flickor
som är ett år gamla? Konfidensinterval
 Ex3 I vilket interval vikt för en valfri flicka som är 1 år
gammal Prediktionsinterval
Predicted Values for New Observations
New
Obs Fit SE Fit
99% CI
99% PI
1 8,4813 0,1013 (8,2151; 8,7475) (6,1157; 10,8468)
Values of Predictors for New Observations
New
Obs Ålder
1 1,00
Statistiska metoder 2012
14
Läsa hemma


Kapitel 8
Kompendiet
Statistiska metoder 2012
15