PPTmall LiU 2008 svensk

Download Report

Transcript PPTmall LiU 2008 svensk

732G71
Statistik B
8 hp
Linda Wänström och Elisabet Nikolic
(Karl Wahlin)
Mål och innehåll
http://www.ida.liu.se/~732G71/ind
Mål:
 Tillägna sig metodik för att analysera samt tolka statistiska
modeller för samband mellan variabler och statistiska modeller
för tidsseriedata .
Innehåll:
 Enkel och multipel linjär regressionsanalys
 Index
 Efterfrågeanalysmodeller
 Modeller för tidsseriedata
 Analys av data med hjälp av statistisk programvara
2
Kurslitteratur, examination och
kontaktuppgifter
Litteratur
 Bowerman, O’Connell, Koehler & Brooks (2005) 4th ed.
Forecasting, time series, and regression
Examination
 Salstentamen värd 5.5 hp den 2013-12-10
 Projekt del 1: Index och efterfrågeanalys
 Projekt del 2: Tidsserieanalys
 Projektdelarna är tillsammans värda 2.5 hp och inlämning ska
ske senast 2013-12-05
Närmare instruktion för projektarbetena läggs upp på
kurshemsidan under veckan.
3
Enkel linjär regression
Kapitel 3
732G71
Statistik B
Exempel
En marknadsstrateg studerar årlig marknadsföringskostnad (i
hundratusentals kronor) och försäljning (i miljoner kronor) av en
viss vara i åtta slumpmässigt utvalda länder, bland det stora antal
länder varan säljs i.
Land
Marknadsföring
Försäljning
1
8
161
2
12
246
3
25
357
4
3
212
5
16
381
6
8
380
7
21
703
8
26
591
5
Spridningsdiagram
800
Försäljning (Mkr)
700
600
500
400
300
200
100
0
0
5
10
15
20
Marknadsföring (100 kkr)
25
30
6
Att studera i ett spridningsdiagram
 Är sambandet linjärt?
Undersök om punktsvärmen faller längs en tänkt rät linje.
 Lutar punktsvärmen?
Om punktsvärmen lutar uppåt råder det ett positivt samband mellan
variablerna: när den förklarande variabeln ökar så ökar också
responsvariabeln.
Om punktsvärmen lutar nedåt råder det omvända sambandet: när den
förklarande variabeln ökar så minskar responsvariabeln.
 Hur starkt är sambandet?
Titta på hur tätt observationerna ligger längs en tänkt rät linje. Om
observationerna är mycket utspridda är sambandet svagt, medan sambandet
kan betraktas som starkt om observationerna ligger nära tillsammans.
 Finns det några observationer som avviker kraftigt från övriga?
Sådana observationer kallas outliers och kan (men behöver inte) bero på
felmätning eller felinmatning.
7
Korrelationskoefficienten
Matematiskt mått för graden av linjärt samband mellan två
kvantitativa variabler.
n
 xi  x  yi  y 
r
i 1
n
 x
i 1
i
n
 x     yi  y 
2
2
i 1
Korrelationskoefficienten antar värden mellan –1 och +1.
 Ju närmare –1 desto starkare negativt linjärt samband
 Ju närmare +1 desto starkare positivt linjärt samband
 Om korrelationskoefficienten är nära 0 finns inget linjärt
samband
Marknadsföring
Försäljning
8
12
25
3
16
8
21
26
161
246
357
212
381
380
703
591
8
Tabell för tolkning av
korrelationskoefficienten
Vi tolkar absolutvärdet av korrelationskoefficienten (betecknas |r|)
(med absolutvärdet menas att vi betraktar den observerade
korrelationskoefficienten utan att ta hänsyn till dess tecken):
|r|
Samband
> 0.85
Mycket starkt
0.65 – 0.85
Starkt
0.35 – 0.65
Måttligt
0.20 – 0.35
Svagt
< 0.20
Mycket svagt
9
Enkel linjär regression
Genom att rita in en rät linje i svärmen av observationer i
spridningsdiagrammet, kan vi kvantifiera sambandet mellan de två
variablerna och därmed få reda på hur mycket y-variabeln
förändras när x-variabeln ökar en enhet.
Det är viktigt att här tänka i termer av population och stickprov: vi
har definierat en population, exempelvis alla anställda med en viss
funktion vid ett stort företag och ur denna population har vi dragit
ett OSU.
Om vi drar ett nytt stickprov skulle vi få andra personer och
därmed andra mätvärden.
Denna slumpfaktor betyder att det finns två typer av modeller för
att beskriva en regressionslinje: en teoretisk populationsmodell
och en praktiskt använd stickprovsmodell.
10
Enkel linjär regression
Populationsmodellen
Den teoretiska regressionslinje vi skulle erhålla om vi hade tillgång
till exakta mätningar för båda variablerna för samtliga enheter i
populationen. Modellen uttrycks enligt
yi   0  1 xi   i
där

yi är observerade värden på responsvariabeln

xi är observerade värden på förklaringsvariabeln

β0 är regressionslinjens intercept (dess skärning med y-axeln när
x = 0)

β1 är regressionslinjens lutning

εi är modellens feltermer. Vi återkommer till förklaring och analys av
begreppet feltermer.
11
Enkel linjär regression
Stickprovsmodellen
Den modell vi använder när vi baserar modellen på ett stickprov:
yi  b0  b1  xi
där

yi är observerade värden på responsvariabeln

xi är observerade värden på förklaringsvariabeln

b0 är regressionslinjens intercept (dess skärning med y-axeln när x =
0)

b1 är regressionslinjens lutning
b0 och b1 kallas för stickprovsmodellens regressionsparametrar och
är punktskattningar av populationsmodellens
regressionsparametrar β0 och β1
12
Skattning av stickprovsmodellens
regressionsparametrar
Värdena på b0 och b1 beräknas enligt
n
b1 
 x
i 1
i
 x  yi  y 
n
 x
i 1
 x
2
i
b0  y  b1  x
Den metodik som används för att anpassa regressionslinjen till
datamaterialet kallas minsta kvadratmetoden. Namnet kommer sig
av att metodiken bygger på att minimera summan av det
kvadrerade vertikala avståndet från varje punkt upp (eller ned) till
regressionslinjen. Det finns andra skattningsmetoder, men minsta
kvadratmetoden är den enklaste, mest intuitiva och också den
vanligaste.
13
Försäljning (Mkr)
Spridningsdiagram med inritad
regressionslinje
800
700
600
500
400
300
200
100
0
0
10
20
Marknadsföring (100 kkr)
30
b1 tolkas som hur mycket y-variabeln förändras när x-variabeln ökar
med en enhet. b0 tolkas som vilken nivå y-variabeln ligger på när x = 0.
b0 är bara tolkningsbar om x = 0 ingår i intervallet av insamlade
x-värden (det så kallade observationsområdet).
14
Prognosticering
En punktskattning yˆ x* av det förväntade värdet på y när x har
värdet x*, vilket uttrycks  x* fås enligt
yˆ x*  b0  b1  x *
Exempel:
Vilken försäljning av den studerade varan kan ett land där man
årligen spenderar 1 miljon på marknadsföring i genomsnitt
förvänta sig?
Generellt ska man akta sig för att göra prognoser för x-värden som ligger
utanför observationsområdet (detta brukar kallas extrapolering), eftersom
vi inte kan veta om trenden fortsätter att råda utanför det observerade
intervallet eller om ett annat samband råder där. Istället lämpar sig
regressionsmodellen bäst för att göra prognoser inom intervallet av
observerade x-värden (interpolering). Prognosticering kräver försiktighet
och eftertanke!
15
Förklaringsgrad
 Mått på hur stor andel av variationen i y-variabeln som förklaras
av den x-variabel vi har med i modellen.
 Beräknas som korrelationskoefficienten i kvadrat: r2
 Antar värden mellan 0 och 1, men uttrycks oftast i procent
(0-100%).
r2
Förklaringsgrad
> 70%
Mycket hög
50% - 70%
Hög
30% - 50%
Måttlig
< 30%
Låg
16
Feltermer
Om vi känner hela populationen för våra två variabler och
anpassar populationsmodellen
yi  0  1 xi   i
så är feltermerna εi de vertikala
avvikelserna från varje
observation till regressionslinjen.
Men vi känner inte hela
populationen och därför är
också β0 och β1 okända.
De skattas med punktskattningarna b0 och b1 och eftersom dessa
är slumpvariabler kommer de att anta olika värden varje gång vi
drar ett nytt stickprov ur populationen.
Detta innebär att feltermerna inte går att observera! Trots det
innehåller feltermerna viktig information – hur ska vi få fram den?
17
Residualer
Residualerna, ei, kan betraktas som skattningar av feltermerna εi,
och beräknas
ei  yi  yˆ i
Genom att studera residualerna kan vi undersöka hur välanpassad
modellen är till data och detta kallas att göra en residualanalys.
Eftersom residualerna är avvikelserna från respektive observation
till regressionslinjen, vill vi att de ska vara så små som möjligt.
Den enkla linjära regressionsmodellen baseras på antagandet att
populationsmodellens feltermer (εi) har väntevärde 0, konstant
varians, är oberoende samt är normalfördelade. Eftersom εi ej är
observerbara studerar vi iställer dessa egenskaper hos
residualerna.
Marknadsföring
Försäljning
8
12
25
3
16
8
21
26
161
246
357
212
381
380
703
591
18
Residualanalys

Den enkla linjära regressionsmodellen garanterar genom sin
konstruktion att residualerna får medelvärde 0, därför uppfylls alltid
detta krav.

Att variansen är konstant undersöks normalt genom att göra ett
spridningsdiagram med residualerna på y-axeln och modellens
förklarande variabel på x-axeln. Diagrammet undersöks sedan med
avseende på att residualerna är jämnt och slumpmässigt spridda kring
noll

Att residualerna är normalfördelade undersöks normalt genom att göra
ett histogram över residualerna. Histogrammet undersöks sedan med
avseende på om residualerna är normalfördelade.

Att residualerna är oberoende går däremot i normalfallet inte att
undersöka, men man kan och bör fundera över hur stickprovet har
dragits: har en urvalsdesign använts som kan antas ge oberoende
mellan observationerna och därmed mellan residualerna?

Var också observant på förekomsten av outliers bland residualerna.
19
Spridningsdiagram av residualerna för
exempeldata
250
200
150
Residualer
100
50
0
-50 0
5
10
15
20
25
30
-100
-150
-200
-250
Marknadsföring (100 kkr)
20
Histogram av residualerna för
exempeldata
21
Hypotesprövning av lutningsparametern
Regressionsparametrarna b0 och b1 är slumpvariabler. Av detta
följer att när vi tolkar sambandet mellan responsvariabeln och
förklaringsvariabeln med hjälp av lutningsparametern b1 baseras
denna tolkning på en slumpvariabel. För att hantera osäkerheten
som detta medför genomför man ofta en hypotesprövning av om
populationsmodellens lutningsparameter β1 är noll.
Y
Figuren åskådliggör sambandet mellan
variablerna X och Y för en population.
Antag att vi ur populationen slumpmässigt
dragit de enheter som markeras med röda
punkter. Baserat på det stickprovet skulle
vi dra slutsatsen att det föreligger ett
positivt samband mellan X och Y. Men
betraktar vi hela populationen är det
uppenbart att det inte föreligger något
samband – lutningen på en regressionslinje
anpassad till hela populationen skulle bli
mycket nära noll!
X
22
Hypotesprövning av lutningsparametern
Steg 1: Välj signifikansnivå och formulera hypoteser
H 0 : 1  0
H a : 1  0
H a : 1  0
H a : 1  0
Steg 2: Bestäm testvariabeln
t
b1







s
n
 x
i 1
 x
2
i







där
s
1 n
 yi  yˆ i 2

n  2 i 1
Regressionsmodellens standardavvikelse,
ofta kallad residualspridningen
23
Hypotesprövning av lutningsparametern
Steg 3: Ska vi tro på H0 eller Ha?
 Om Ha: β1 < 0 ligger det kritiska området till vänster om det
kritiska värdet tn-2; α
 Om Ha: β1 > 0 ligger det kritiska området till höger om det
kritiska värdet tn-2; 1-α
 Om Ha: β1 ≠ 0 har vi kritiska områden både till vänster och höger
om de kritiska värdena som är tn-2; α/2 respektive tn-2; 1-α/2
Steg 4: Dra slutsats
24
Konfidensintervall för lutningsparametern
b1  t n2;1 / 2
s
n
 x
i 1
 x
2
i
25
Intervall för prognosticering
En punktskattning av y när x = x* beräknas enligt
yˆ x*  b0  b1  x *
Det finns två typer av intervall för prognosticering:
 Konfidensintervall, om vi vill dra slutsatser om den sanna
genomsnittsnivån µx* för enheter med x = x*
1
yˆ x*  t n2;1 / 2  s 

n
x *  x 2
n
2
 xi  x 
i 1
 Prognosintervall, om vi vill dra slutsatser om en enskild enhets
nivå yx* när x = x*
2

1
x * x 
yˆ x*  t n  2;1 / 2  s  1   n
n
2
  xi  x 
i 1
26
Enkel linjär regression i datorn
Regression Analysis: Försäljning versus Marknadsföring
The regression equation is
Försäljning = 146 + 15.7 Marknadsföring
Predictor
Constant
Marknadsföring
S = 140.461
Coef
145.6
15.681
SE Coef
105.1
6.227
R-Sq = 51.4%
T
1.39
2.52
P
0.215
0.045
R-Sq(adj) = 43.3%
Utskrift från Minitab 16
27
Multipel linjär regression
Populationsmodellen
yi  0  1 x1,i  2 x2,i  ...   p x p,i   i
där

yi är observerade värden på responsvariabeln

x1,i är observerade värden på den första förklaringsvariabeln

xp,i är observerade värden på den p:te förklaringsvariabeln

β0 är regressionsmodellens intercept

β1 är regressionsparameter för den första förklaringsvariabeln

βp är regressionsparameter för den p:te förklaringsvariabeln

εi är modellens feltermer, som liksom för den enkla linjära
regressionsmodellen ska ha väntevärde 0, konstant varians, vara
oberoende och normalfördelade.
28
Multipel linjär regression
Stickprovsmodellen
Den modell vi använder när vi baserar modellen på ett stickprov:
yi  b0  b1 x1,i  b2 x2,i  ... bp x p,i
där

b0 är regressionsparameter för den första förklaringsvariabeln

bp är regressionsparameter för den p:te förklaringsvariabeln
Det lämpar sig inte att anpassa en multipel linjär
regressionsmodell med handräkning. För det är formlerna alldeles
för långa och omständliga, och vi är hänvisade till att använda
datorn för att bestämma regressionsparametrarnas värden.
29