regresie - Daniel Traian Pele

Download Report

Transcript regresie - Daniel Traian Pele

MODELUL DE REGRESIE
1
Regresia – scurt istoric al termenului
• Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei
victoriene, este cel care a introdus termenii de regresie şi corelaţie
statistică
• Originea regresiei ca metodă statistică se află în studiile sale de genetică
aplicată în studiul plantelor- 1877
• Plantînd boabe dintr-un anumit soi de mazăre dulce a observat că există o
legătură liniară între diametrele acestor boabe şi diametrele boabelor
recoltate de la noile plante. El a numit iniţial panta acestei drepte
“coefficient of reversion”, schimbîndu-i apoi numele în “coefficient of
regression”.
• Termenul de regresie provine de la descoperirile sale în domeniul
eredităţii: în general, progeniturile indivizilor geniali au abilităţi care îi aşază
mai degrabă la nivelul mediei; de asemenea, înalţimea copiilor proveniţi
din taţi foarte înalţi se apropie mai mult de înălţimea medie decît înălţimea
taţilor.
2
Modele
• Un model este o reprezentare a unui anumit fenomen
• Model matematic - o reprezentare matematică a unui
fenomen
• De cele mai multe ori un model descrie legăturile
existente între două sau mai multe variabile
• În general, sînt două clase de modele:
– Modele deterministe
– Modele probabiliste
3
• Modele deterministe
– Exprimă o relaţie
exactă între variabile
– Teoretic, eroarea de
previziune este nulă
– Exemplu:
Principiul al doilea al
mecanicii newtoniene:
F = m.a
• Modele probabiliste
– Componenta deterministă
– Componenta aleatoare
– Eroarea de previziune este
nenulă
– Componenta aleatoare
poate fi datorată factorilor
obiectivi, ce nu sînt incluşi
în model
– Exemplu: Volumul
vînzărilor=10 * Cheltuielile
cu publicitatea +
Componenta aleatoare
4
Tipuri de modele probabiliste
PPro
bbaabbilis
Modele
ro
ilistic
tic
MMooddeels
ls
probabiliste
RModele
denn
Reeggre
ressssio
io
MMooddeels
ls
regresie
CCoorre
Modele
denn
rrela
latio
tio
MMooddeels
ls
corelatie
OOAlte
th
theerr
MMooddeels
ls
modele
5
Regresia – metodă de modelare a legăturilor dintre variabile
• În general, orice fenomen este rezultatul acţiunii unuia
sau mai multor factori
• Exprimarea matematică:
Y  f ( X 1 , ..., X n )  
Variabila
dependentă
Variabile
independente
(variabila
endogenă)
(variabile
exogene/explicative)
Variabila
reziduală
6
Exemplu: Legea lui Keynes privind legătura dintre
venit şi consum
• Suma cheltuită pentru consum depinde de:
– mărimea venitului pe de o parte
– alte obiective în funcţie de circumstanţe (de exemplu
investiţiile)
– alte nevoi subiective
• „O persoană este dispusă de regulă şi în medie să îşi crească
consumul pe măsura creşterii venitului dar nu în aceeaşi măsură”
0 
dC
1
dV
• Modelul de regresie: C=+V+ , unde 0<<1 .
7
Ipotezele modelului de regresie
(Ipotezele Gauss-Markov)
• 1. Normalitatea
– Valorile Y sînt normal distribuite pentru orice X
– Erorile sînt normal distribuite cu medie zero E(εi)=0 i
• 2. Homoscedasticitatea (dispersie constantă)
• 3. Necorelarea erorilor E(εi εk)=0 (i<>k)
• 4. Liniaritatea Y i     X i
• 5. Variabilele sînt măsurate fără eroare
– (caracter nestochastic)
8
Forma funcţională
• Ipoteza de linearitate nu este atât de restrictivă pe cât pare.
Aceasta se referă la felul în care parametrii intră în ecuaţie, nu
neapărat la relaţia între variabilele x şi y.
• În general modele pot fi linearizate.
y=a+bx
y=a+bz, z=ex
y=a+br, r=1/x
y=a+bq, q=ln(x)
y=  xβ  ln(y)=+ln(x)
•
•
•
•
•
•
Forma generală: f(yi)= +g(xi)+i
1
Contra exemplu: y   
nu poate fi transformat în
 x
model liniar.
9
Modele ce pot fi linearizate
Y
1000
 1 
a  b

 x 
a  be
x
800
600
a  bx
400
200
a  b ln
x 
0
-1
0.003
0.008
0.013
0.018
0.023
0.028
0.033
0.038
0.043
0.048
0.053
0.058
0.063
0.068
X
-200
-400
10
• Ipoteza că media erorilor este zero: E(i)=0 i, este
naturală atâta timp cât  este văzută ca suma efectelor
individuale, cu semne diferite. Dacă media erorilor este diferită
de zero, ea poate fi considerată ca o parte sistematică a
regresiei:
E()=  0+ 1x +  = (0 +) + 1x + (-)
media erorilor fiind acum nulă.
• Ipoteza de homoscedasticitate: Var(i)=2
constantă i
• Se consideră un model care descrie consumul unor gospodării
în funcţie de venitul acestora. În acest caz, consumul
gospodăriilor mari pot varia mult mai mult faţă de consumul
gospodăriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectată.
11
Exemplu de încălcare a ipotezei de
homoscedasticitate
Functia de consum
1200
1000
consum
800
600
400
200
0
200
300
400
500
600
700
800
900
1000
venit
12
•
Necorelarea erorilor: E(ij)=0 ij
Această ipoteză nu implică faptul că yi şi yj sunt necorelate,
ci faptul că deviaţiile observaţiilor de la valorile lor aşteptate
sunt necorelate.
•
Ipoteza de normalitate a erorilor i N(0,2)
Este o ipoteză de lucru, tehnică, ce permite obţinerea unor
estimatori “buni”.
•
Dacă ipotezele precedente sînt respectate, vom
obţine estimatori B.L.U.E. (Best Linear Unbiased
Estimators)
13
Ipotezele de normalitate şi
homoscedasticitate
f(e)
Y
X2
X1
X
14
Variaţia erorilor în jurul dreptei de
regresie
Valorile y sînt normal distribuite
în jurul dreptei de regresie.
f(e)
Pentru fiecare valoare x, dispersia
în jurul dreptei de regresie este
constantă.
Y
X2
X1
X
Dreapta de regresie
15
Clasificarea modelelor de regresie
1 Variabilă
explicativă
Modele
de regresie
2+ Variabile
explicative
Multiple
Simple
Linear
NonLinear
Linear
NonLinear
16
Tipuri de modele de regresie
Legătură liniară directă
Legătură liniară inversă
Legătură neliniară
Absenţa vreunei legături
17
Modelul de regresie liniară simplă
18
Modelul lui Keynes la nivelul economiei
SUA
Real Consumption Expenditures ($ Billions, 1992)
Real Disposable Income ($ Billions 1992)
6000.0
5000.0
4000.0
3000.0
2000.0
1000.0
0.0
19
Regresia folosind EXCEL
Accesăm meniul TOOLS>DATA ANALYSIS>REGRESSION
20
Corelograma(Scatter plot)
• Graficul punctelor de coordonate (Xi,Yi), i=1,n.
Real Consumption Expenditures ($ Billions, 1992)
5000.0
4500.0
4000.0
3500.0
3000.0
2500.0
2000.0
1500.0
1000.0
500.0
0.0
0.0
1000.0
2000.0
3000.0
4000.0
5000.0
6000.0
21
Modelul de regresie liniară simplă

Pe baza corelogramei este rezonabil să presupunem că media
variabilei Y depinde de X printr-o relaţie liniară:

Atunci modelul de regresie liniară simplă este dat de relaţia
următoare:
intercept (termenul constant)
Yi   0   1 X i   i
Variabila
dependentă
(răspuns)
Variabila
de
perturbaţie
Variabila
independentă
Panta dreptei de
regresie
(explicativă)
22
Media şi dispersia variabilei dependente
Dacă presupunem că media şi dispersia lui  sînt 0 şi 2,
atunci media lui Y pentru o valoare particulară a lui X
este dată de relaţia:
Dispersia lui Y pentru o valoare particulară a lui X
este dată de relaţia:
23
• La nivelul populaţiei regresia se reduce la exprimarea
mediei condiţionate a lui Y:
unde 1 are semnificaţia unui coeficient de
elasticitate: arată modificarea lui Y la o modificare cu
o unitate a lui x.
• De asemenea, variabilitatea lui Y pentru o valoare
particulară x este determinată de dispersia variabilei
reziduale, 2.
• Există o distribuţie a valorilor lui Y pentru fiecare x
şi dispersia acestei distribuţii este constantă pentru
orice x.
24
Distribuţia condiţionată a lui Y
Y
Dreapta de regresie
X
25
Modelul de regresie liniară la
nivelul populaţiei
Y
Yi   0  1X i   i
Valoarea
observată
i = Eroarea

YX
(E(Y))
Valoarea
observată
  0  1X i
X
26
Modelul de regresie liniară la
nivelul eşantionului
Yˆi  ˆ 0  ˆ1 X i

Yi
Xi
= Valoarea estimată a lui Y pentru observaţia i
= Valoarea lui X pentru observaţia i
ˆ 0
= Estimatorul termenului liber 0
ˆ1
= Estimatorul pantei 1
27
Estimarea parametrilor modelului de regresie
• Metoda celor mai mici pătrate(M.C.M.M.P.) – Ordinary Least
Squares(O.L.S.)
• Presupunem că avem n perechi de observaţii (x1, y1), (x2, y2),
…, (xn, yn).
• Ideea este să minimizăm distanţa dintre valorile estimate şi
n
n
2
valorile reale
2
ˆ

L   Yi  Yi
i 1
• Ne reamintim că
   ˆ
i
 min
i 1
Yˆi  ˆ 0  ˆ1 x i
deci
28
Ilustrare grafică
n
LS minimizează
 ˆ
2
i
 ˆ  ˆ  ˆ  ˆ
2
1
2
2
2
3
2
4
i 1


Y2   0   1X 2   2
Y
^4
^2
^1
^3


Yi   0   1X i
X
29
• Condiţiile de minim:
• Simplificînd, obţinem sistemul de ecuaţii normale
30
Estimatorii modelului de regresie
ˆ1 
cov( X , Y )
s
2
x

s xy
s
2
x
ˆ 0  y  ˆ1 x
31
Notaţii
• Valoarea estimată:
• Valoarea reziduală(reziduul):
32
Estimatorul dispersiei modelului
• Dacă notăm suma pătratelor erorilor de regresie
atunci un estimator al varianţei variabilei reziduale
este
33
Proprietăţile estimatorilor modelului de regresie
 ˆ 0 şi ˆ1 sînt estim atori nedeplasaţi ai para m etrilor  0 şi  1
E ( ˆ 0 )   0 şi E ( ˆ1 )   1
-D ispersiile celor doi estim atori sînt d ate de relaţiile
2


1
x
2
ˆ
V ( 0 )    

 n S xx 
V ( ˆ1 ) 

2
S xx
n
unde S xx 

( x i  x ) şi 
2
2
este dispersia variabilei re ziduale
i 1
-E stim atorii ˆ 0 şi ˆ1 urm ează o distribuţie norm ală
34
Nedeplasarea estimatorilor OLS
• Presupunem că modelul de regresie la nivelul
populației este liniar y = 0 + 1x + ε
• Fie {(xi, yi): i=1, 2, …, n un eșantion de n
observații. Atunci putem formula modelul de
regresie la nivelul eșantionului yi = 0 + 1xi + εi
• Presupunem E(ε|x) = 0 și atunci E(εi|xi) = 0
• Presupunem că există variație în xi
35
• Pentru a discuta despre deplasarea estimatorilor, aceștia
trebuie exprimați în funcție de parametrii din populație
ˆ1 
 x
 x yi
i
S xx
, unde S xx 
 x
i
 x
2
  x  x  y    x  x     x    
   x  x     x  x  x    x  x  
    x  x      x  x x    x  x  .
Dar   x  x   0 si   x  x  x    x  x 
deci avem la numarator  S    x  x  si atunci

x  x 

ˆ   
.
i
i
i
0
i
0
0
i
i
1
1
1
i
i
i
i
i
i
i
i
i
2
i
i
1
i
1
1
S xx
i
xx
i
i
i
i
36
Nedeplasarea lui ˆ1
Fie d i   x i  x , astfel încît

 1
ˆ
1  1  
  d i  i , atunci
 S xx 
 

 1
ˆ
E 1  1  
  d i E  i    1
 S xx 
37
Nedeplasarea estimatorilor
• Estimatorii OLS pentru 1 și 0 sînt nedeplasați
• Demonstrația caracterului de estimator nedeplasat
depinde de 4 ipoteze – dacă oricare din aceste
ipoteze nu este îndeplinită, atunci nedeplasarea nu
este neapărat adevărată
38
Dispersia estimatorilor OLS
Presupunem Var(ε|x) = 2 (Homoskedasticity)
Var(ε|x) = E(ε2|x)-[E(ε|x)]2
E(ε|x) = 0, deci 2 = E(ε2|x) = E(ε2) = Var(ε)
Astfel 2 este dispersia necondiționată, numită
dispersia erorilor
•  este abaterea standard a erorilor
• Rezultă: E(y|x)=0 + 1x și Var(y|x) = 2
•
•
•
•
39
Cazul homoskedastic
y
f(y|x)
.
x1
. E(y|x) =  +  x
0
1
x2
40
Cazul heteroskedastic
f(y|x)
.
.
x1
x2
x3
.
E(y|x) = 0 + 1x
x
41
Dispersia estimatorilor OLS
 


 1

ˆ
Var  1  Var   1  
  d i u i  
 S xx 


2
 1


 Var
 S xx 


 1

S
xx 


 1

d i i   

 S xx 
2

di 
2
2

2
  1

S
xx 

2
 1

 
 S xx  
 S xx 
2
2
S xx
2

d i Var  i  
2
2

di 
2
 
 Var ˆ1
42
Dispersia estimatorilor OLS
• Dispersia pantei modelului de regresie este direct
proporțională cu dispersia erorilor
• Cu cît dispersia lui xi este mai mare, cu atît
dispersia pantei este mai mică
• Cu cît volumul eșantionului este mai mare, cu atît
dispersia pantei este mai mică
43
Estimarea dispersiei erorilor
• Nu cunoaștem dispersia erorilor, 2, întrucît nu
observăm de fapt erorile εi
• Valorile observate sînt reziduurile modelului de
regresie, ei
• Putem folosi reziduurile pentru a estima dispersia
erorilor
44
Estimarea dispersiei erorilor
e i  y i  ˆ 0  ˆ1 x i 
   0   1 x i   i   ˆ 0  ˆ1 x i 

 
  i  ˆ 0   0  ˆ1   1

Atunci un estimator nedeplasat
ˆ 
2
1
e

n  2 
2
i
pentru 
2
este
 SSR /  n  2 
45
Distribuţia estimatorului pantei de regresie
Y Sample 1 Line
•All Possible
Sample 2 Line
Population Line
X
Sampling Distribution
S^1
1
Sample Slopes
• Sample 1: 2.5
• Sample 2: 1.6
• Sample 3: 1.8
• Sample 4: 2.1
:
:
Very large number
of sample slopes
^
1
46
Eroarea standard a estimatorilor
n
Întrucît varian ţa reziduală 
2
2
se estim ează prin ˆ 

2
ei
i 1
n2
putem avea o estim are
a erorii standard a celor doi estim atori:

- SE ( ˆ1 ) 
V ( ˆ1 )

df
2
S xx
n2

2
ˆ
S xx
 1 x2 
  

2
n
S


1
x
xx 

2
 ˆ  

n2
 n S xx 
2
- SE ( ˆ 0 ) 
V ( ˆ 0 )
df

Erorile standard vor fi folosite la testarea semnificaţiei parametrilor
modelului de regresie
47
Testul t pentru panta dreptei de regresie(slope)
 H 0 :  1   10

0
 H A :  1   1
0
0
ˆ1   1
ˆ1   1
t


2
ˆ
SE (  1 )
ˆ
S xx
0
ˆ1   1

n

n
e /( n  2)
2
i
i 1
n

0
ˆ1   1

i 1
( xi  x )
n
e /  ( xi  x ) /
2
i
2
n2
i 1
2
i 1
• Valoarea critică: t / 2 ; n  2
• Caz particular:
 H 0 :  1  0(nu există legătură liniară)

 H A :  1  0( există legătură liniară)
48
Exemple de acceptare a ipotezei
H 0 :  1  0(nu există legătură liniară)
49
Exemple de respingere a ipotezei
H 0 :  1  0(nu există legătură liniară)
50
Testul t pentru termenul liber(intercept)
 H 0 :  0   00

0
H
:



 A
0
0
0
ˆ 0   0
t

ˆ
SE (  )
0
0
ˆ 0   0

n

i 1
 1 x2 
e /( n  2)  

n
S
xx 

2
i
0
ˆ 0   0
1 x 
ˆ  

n
S
xx 

2
0
ˆ 0   0

n

i 1
•Valoarea critică:
t

2

1
2
ei  
n


/ 2 ;n  2
n

i 1

2

x
/
2
( x i  x ) 

n2
51
Intervale de încredere pentru parametrii modelului
• Pentru termenul liber(intercept)
ˆ 0  t / 2 , n  2 SE ( ˆ 0 )   0  ˆ 0  t / 2 , n  2 SE ( ˆ0 )
ˆ 0  t / 2 , n  2
 1 x2 
 1 x2 
2
ˆ
ˆ  
   0   0  t / 2 , n  2 ˆ  

n
S
n
S
xx 
xx 


2
• Pentru panta dreptei de regresie(slope)
ˆ1  t / 2 , n  2 SE ( ˆ1 )   1  ˆ1  t / 2 , n  2 SE ( ˆ1 )
ˆ1  t / 2 , n  2
2
2




x
x
2
2
ˆ
ˆ 
   1   1  t / 2 , n  2 ˆ 

S
S
 xx 
 xx 
n
unde
ˆ
2


2
ei
i 1
este estimatorul dispersiei modelului.
n  2
52
Teorema Gauss-Markov
• Estimatorii obţinuţi prin metoda celor mai mici pătrate sînt
B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai
mică decît cei obţinuţi prin MCMMP.
C onform O LS , estim atorul pantei este o c om binaţie liniară de valorile variabilei dependente:
n
ˆ1 
 (y
n
i
 y )( x i  x )
i 1

n
 (x
i
 x)

i 1
n
y i ( xi  x )  y  ( xi  x )
i 1
n
 (x
2
i 1
Fie  
 x)

qy
i
n
i
i 1
n
  0  q i   1  q i xi 
i 1
i 1
P entru ca E (  )   1 , e necesar ca
q
i 1
n
q
i
q
i

i
 x)
2

i
yi
i 1
un alt estim ator liniar.
i
i 1
n
i
 0 şi
qx
i
i
 1.
i 1
n
R ezultă  
n
n
i 1
'
y i ( xi  x )
i 1
n
'

 (x
2
i 1
n
'
i
n
n
  1 , deci varianţa sa este V (  )  
'
i
i 1
2
q
2
i
.
i 1
n
Fie v i  q  i  i , atunci q i   i  v i şi avem V (  )  
'
2
 (
 vi ) 
2
i
i 1
n

2
 (
i 1
n
2
i
 2 i v i  v )  
2
i
2
 (
i 1
n
2
i
v )
2
i
2

i 1
2
i
 V ( ˆ1 ).* * * Q E D
53
Exemplu-consumul ca funcţie de venit
Intercept
Real
Disposable
Income ($
Billions 1992)
Standard
Coefficients
Error
-23.5441 13.94967
0.915665
Pt Stat
value
-1.68779 0.0963
Lower
Upper
95%
95%
-51.4117 4.323573
0.00542 168.9331 0.0000 0.904837 0.926493
• Panta dreptei de regresie este pozitivă, deci există o legătură
directă între consum şi venit.
• În plus, dacă venitul creşte cu o unitate,consumul va creşte cu
0.91 unități.
• Doar panta dreptei de regresie este semnifcativ diferită de
zero.
• P-value – probabilitatea ipotezei ca parametrul estimat să fie
egal cu zero; dacă P-value este mai mic decît pragul de
semnificaţie atunci respingem această ipoteză.
54
Analiza varianţei pentru modelul de regresie
• Dacă între X şi Y nu există nici o legătură, atunci putem
face predicţii privind valoarea medie a lui Y pentru orice
valoare a lui X
• Dacă există o legătură între X şi Y, în ce măsură
cunoaşterea valorilor lui X poate explica abaterea variabilei
dependente de la media sa?
• Abaterea totala = abaterea explicata + Abaterea reziduala
ˆ - Y)  (Y - Y
ˆ)
(Yi - Y)  (Y
i
i
i
55
Descompunerea variaţiei

SSE =(Yi - Yi )2
Y
_
SST = (Yi - Y)2
 _
SSR = (Yi - Y)2
X
Xi
_
Y
X
56
ANOVA pentru regresie
2
2
ˆ
ˆ
 (Y  Y)   (Yi  Y)   (Yi  Yi )
2
i
SST
= SSR
+
SSE
SST = Total Sum of Squares
_
Măsoară variaţia valorilor observate Yi în jurul mediei Y
SSR = Regression Sum of Squares
Măsoară variaţia explicată de modelul de regresie
SSE = Error Sum of Squares
Măsoară variaţia ce poate fi atribuită altor factori, diferiţi
57
de variabila explicativă X
Coeficientul de determinaţie R2
• Este o măsură a proporţiei varianţei explicate de
model
( yˆ  y )
e


SSR
n
n
2
2
i
R 

2
SST
i
i 1
 (y
i
 y)
2
 1
i
i 1
 (y
i
 y)
2
  0,1 
i
• R2 este afectat de creşterea numărului de parametri;
de aceea pentru modele cu multi parametri se
calculează R2 ajustat, care are aceeaşi interpretare.
R
2
adj
n 1


 1  (1  R )
 1 
,1 
n  k 1  n  k 1 
2
n 1
58
Exemplu-consumul ca funcţie de venit
Regression Statistics
Multiple R
0.998881
R Square
0.997762
Adjusted R
Square
0.997727
Standard Error
59.29206
Observations
66
•Modelul explică 99.7% din variaţia consumului
Standard Error :
n
ˆ 

2
ei
i 1
n2
59
Observaţii
• R2 este adesea folosit pentru a alege cel mai bun
model din punctul de vedere al varianţei explicate.
• Comparaţiile de acest fel trebuie făcute între modele
de aceeaşi natură.
60
Foarte important!!
• Pentru modele de regresie fără termen liber, de tipuly   x  
R2 nu mai are semnificaţia de proporţie a varianţei explicate.
• Exemplu: considerăm două astfel de modele
 y1   1 x1   1
, unde y 2 i  y1i   şi x 2 i  x1i  

 y2   2 x2   2
• Deşi ar părea că modelul al doilea este mai performant, nu
sînt argumente pentru a susţine această ipoteză
61
Coeficientul de determinaţie şi
coeficientul de corelaţie liniară
Y R2 = 1, r = +1
Y R2 = 1, r = -1
^=b +b X
Y
i
^=b +b X
Y
i
0
1 i
0
X
2 = .8,r = +0.9
R
Y
X
Y
^=b +b X
Y
i
0
1 i
X
1 i
R2 = 0, r = 0
^=b +b X
Y
i
0
1 i
X
62
Tabelul ANOVA
Source of
Variation
Sum of Squares
df
Mean
Square
n
Regression
SSR 

2
( yˆ i  y )
k-1
MSR=
n-k
MSE=
i 1
n
Error
SSE 

n
( y i  yˆ i ) 
2
i 1
Total
e
2
i
i 1
SST   ( y i  y )
SSR
M SR
k 1
M SE
SSE
nk
SST
2
i
F
n-1
n 1
SSR
Testul
F 
k 1 ~ F
k  1, n  k
SSE
k-numărul de parametrii ai
modelului
n  k
este folosit la verificarea validităţii modelului. Un model este valid
dacă proporţia varianţei explicate prin model este semnificativă.
Ipoteza nulă pentru testul F in cazul acesta este cea de model
63
nevalid.
ANOVA
Regression Statistics
Multiple R
0.998880586
R Square
0.997762426
Adjusted R Square
0.997727464
Standard Error
59.29206039
Observations
66
ANOVA
df
Regression
Residual
Total
1
64
65
SS
100328138.6
224995.0992
100553133.7
MS
F
100328138.6 28538.40325
3515.548425
Significance F
0.000
64
Predicţia folosind modelul de regresie
• 1. Tipuri de predicţii
– Estimări punctuale
– Estimări pe intervale de încredere
• 2. Care e obiectul predicţiei?
– Media populaţiei E(Y) pentru o valoare particulară a lui X
– Valoarea individuală (Yi) pentru o valoare particulară a lui
X
65
Ce prezicem
Y
YIndividual
Mean Y, E(Y)
^ 0 +
^ 1X
^Y i=
E(Y) =  0 +  1X
^
Prediction, Y
XP
X
66
Interval de încredere pentru media lui Y
Yˆ  t / 2, n  2  SYˆ  E (Y )  Yˆ  t / 2, n  2  SYˆ
unde
n
SYˆ  ˆ
1
n

x
p
 x
n
 x
i
 x
e
2
i
2
şi ˆ 
2
2
i 1
n2
i 1
67
Factori care afectează lungimea intervalului de încredere
• 1. Nivelul de încredere (1 - )
– Creşterea nivelului de încredere duce la creşterea intervalului de
încredere
• 2. Dispersia datelor (σ)
– Creşterea dispersiei duce la creşterea intervalului de încredere
• 3. Volumul eşantionului
– Creşterea volumului eşantionului duce la micşorarea intervalului
de încredere
• 4. Distanţa lui Xp faţă de mediaX
– Creşterea acestei distante duce la creşterea intervalului de
încredere
68
Distanţa lui Xp faţă de mediaX
Y
Sa
_
Y
in
L
1
e
l
mp
e
Dispersie
mai mare
decît la X1
Sample 2
Line
X1
X
X2
X
69
Interval de predicţie pentru valori particulare
Yˆ  t / 2, n  2  S
Y Yˆ 
 YP  Yˆ  t / 2, n  2  S
Y Yˆ 
unde
n
S
Y Yˆ 
 ˆ
1
1
n

 xP  x 
n
 x
i
 ei
2
2
 x
şi ˆ 
2
2
i 1
n2
i 1
70
Predicţia
Y
Y we're trying to
predict

+
^

0
^
Y i=
Expected
(Mean) Y
^ 1X i
E(Y) =  0 +  1X
^
Prediction, Y
XP
X
71
Intervale de încredere pentru predicție
Y
+
^

0
^
Y i=
_
X
^ 1X i
X
XP
72