Transcript link

Metodi Quantitativi per Economia, Finanza
e Management
Lezione n° 9
Il modello di regressione lineare
1. Introduzione ai modelli di regressione – Case Study
2. Obiettivi
3. Le ipotesi del modello
4. La stima del modello
5. La valutazione del modello
6. Commenti
Case Study – Club del Libro
La classificazione dei
clienti/prospect in termini predittivi
Il problema di analisi
anzianità
CAT 1
CAT n
L’obiettivo dell’analisi
Prevedere la redditivita’
del socio fin
dalle prime evidenze
L’impostazione del problema
Redditività = ricavi - costi

redditività var. continua

classi di redditività ( < 0 ; >= 0)
I dati di input


Y:
Redditività consolidata
X:
# ordini
pagato ordini
pagato rateale mensile
sesso (dicotomica)
area (dicotomiche)
# liste
Predisposizione
Banca Dati
Costruzione Var.
Obiettivo
Il
Analisi
Preliminari
percorso
di analisi
Stima del
Modello
Validazione
Implementazione
Analisi preliminari

lo studio della distribuzione

lo studio della concentrazione

la struttura di correlazione
L’impostazione del problema

Redditività var. continua
Regressione Lineare

Redditività var. dicotomica
Regressione Logistica
Il modello di regressione lineare
1. Introduzione ai modelli di regressione – Case Study
2. Obiettivi
3. Le ipotesi del modello
4. La stima del modello
5. La valutazione del modello
6. Commenti
I modelli di regressione
Modelli di dipendenza per la rappresentazione di relazioni non
simmetriche tra le variabili
• Y “variabile dipendente” (variabile target da spiegare)
• X1,…,Xp “variabili indipendenti” (variabili esplicative o
regressori)
Il modello di regressione lineare
Si vuole descrivere la relazione tra Y e X1,…,Xp con una
funzione lineare
• se p=1  osservazioni in uno spazio a due dimensioni
(i=1,…,n)
Yi  f ( Xi1)
• se p>1  osservazioni in uno spazio a p+1 dimensioni
(i=1,…,n)
Yi  g ( Xi1,..., Xip)
Il modello di regressione lineare
• se p=1  spazio a due dimensioni  retta di regressione
lineare semplice
Y
X
Il modello di regressione lineare
Y
• se p>1  spazio a p+1 dimensioni  “retta” di regressione
lineare multipla
X1
Il modello di regressione lineare
Obiettivi
• Esplicativo - Stimare l’influenza dei regressori sulla
variabile target.
• Predittivo - Stimare il valore non osservato della variabile
target in corrispondenza di valori osservati dei regressori.
• Comparativo - Confrontare la capacità di più regressori, o
di più set di regressori, di influenzare il target (= confronto
tra modelli di regressione lineare diversi).
Il modello di regressione lineare
Le ipotesi del modello
Y
y1
y2
y3
…
…
…
yn
(nx1)
X1
x 11
x 21
x 31
…
…
…
x n1
X2
x 12
x 22
x 32
…
…
…
x n2
X3
x 13
x 23
x 33
…
…
…
x n3
…
…
…
…
…
…
…
…
(nxp)
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
Xp
x 1p
x 2p
x 3p
…
…
…
x np
• n unità statistiche
• vettore colonna (nx1) di n misurazioni su una variabile
continua (Y)
• matrice (nxp) di n misurazioni su p variabili quantitative
(X1,…,Xp)
• la singola osservazione è il vettore riga (yi,xi1,xi2,xi3,…,xip)
i=1,…,n
Il modello di regressione lineare
Le ipotesi del modello
Equazione di regressione lineare multipla
Yi   0   1 Xi1   2 Xi 2  ...  pXip  i
i-esima
oss. su Y
intercetta
i-esima
oss. su X1
errore relativo
all’i-esima oss.
coefficiente
di X1
La matrice X=[1,X1,…,Xp] è detta matrice del disegno.
Il modello di regressione lineare
Le ipotesi del modello
L’errore presente nel modello si ipotizza essere di natura
casuale. Può essere determinato da:
•
•
•
•
variabili non considerate
problemi di misurazione
modello inadeguato
effetti puramente casuali
Il modello di regressione lineare
Le ipotesi del modello
1. Errori a media nulla
2. Errori con varianza costante
(omoschedasticità)
3. Errori non correlati
(per ogni i≠j)
4. Errori con distribuzione Normale
* 1 – 3  hp deboli
1 – 4  hp forti
E ( )  0
Cov( )   2 In
Cov(i, j )  0
 ~ N (0,   In)
Il modello di regressione lineare
Le ipotesi del modello
Da un punto di vista statistico
• Y è un vettore aleatorio di cui si osserva una specifica
realizzazione campionaria  hp sulla distribuzione
• X è una matrice costante con valore noto  no hp sulla
distribuzione
• beta è un vettore costante non noto
• l’errore è un vettore aleatorio di cui si osserva una
specifica realizzazione campionaria  hp sulla
distribuzione
Il modello di regressione lineare
Le ipotesi del modello
• in media Y può essere rappresentata come funzione
lineare delle sole (X1,…,Xp)
  E (Y )  X
• ogni osservazione di Y è uguale ad una combinazione
lineare dei regressori con pesi=coefficienti beta + un
termine di errore
Y  X  
Il modello di regressione lineare
La stima del modello
Si vuole trovare la retta lineare migliore data la nuvola di
punti
Y
X
Il modello di regressione lineare
La stima del modello
Equazione teorica  coefficienti non noti
Y   0   1 X 1   2 X 2  ...  pXp  
Equazione stimata  coefficienti stimati (una delle infinite
rette possibili)
Y  bo  b1 X 1  b 2 X 2  ...  bpXp  ˆ
stime dei
coefficienti
Y  Yˆ  ˆ
previsione
errore di
previsione
Il modello di regressione lineare
La stima del modello
Stimando la retta di regressione si commette un errore di
previsione: Metodo dei Minimi Quadrati
Y
VALORE
OSS.
Yi
ERRORE

Yi
VALORE
STIMATO
X
Il modello di regressione lineare
La stima del modello
Obiettivo  trovare la miglior approssimazione lineare
della relazione tra Y e X1,…,Xp (trovare le stime dei
parametri beta che identificano la “migliore” retta di
regressione)
Metodo dei minimi quadrati  lo stimatore LS è la
soluzione al problema
n
min 
 y
i 1
i
2
 X i    min   ' 
Il modello di regressione lineare
La stima del modello
Lo stimatore dei Minimi Quadrati: LS
• è funzione di Y e X
• ha media
• ha varianza
1
ˆ
 LS   X ' X  X ' Y
E(ˆLS )  
Var ( ˆ LS )  ( X ' X ) 1 
Il modello di regressione lineare
La stima del modello
Proprietà dello stimatore LS
• non distorto
• consistente (se valgono certe hp su X’X)
• coincide con lo stimatore di max verosimiglianza sotto
hp forti
 BLUE (Best Linear Unbiased Estimator)
Il modello di regressione lineare
La stima del modello
Scomposizione della varianza SST=SSE+SSM
• total sum of squares
 variabilità di Y
2
SST   Yi  Y 
n
i 1
• error sum of squares
 variabilità dei residui
n
i 1
• model sum of squares
 variabilità spiegata

SSE   Yi  Yˆi
n
SSM  
i 1


Yˆi  Y
2

2
Il modello di regressione lineare
La stima del modello
Indicatori sintetici di bontà del Modello
• R-quadro  OK valori alti
SSM
R 
SST
2
• R-quadro adjusted  OK valori alti
• Test F  OK p-value con valori bassi
AdjR2  1  (1  R 2 )
n 1
n  p 1
Il modello di regressione lineare
La stima del modello
R-quadro= SSM/SST
 misura la % di variabilità di Y spiegata dal modello =
capacità esplicativa del modello
misura la variabilità delle osservazioni intorno alla retta
di regressione.
SSM=0 (R-quadro=0) il modello non spiega
SSM=SST (R-quadro=1) OK
• R-quadro adjusted= [1-(1-SSM/SST)]/(n-1)(n-p-1)
come R-quadro ma indipendente dal numero di
regressori
 combina adattabilità e parsimonia
Il modello di regressione lineare
La stima del modello
Test F per valutare la significatività congiunta dei
coefficienti
• ipotesi nulla
• statistica test
H 0 :   ...   p  0
F
SSM / p
~ F ( p, n  p  1)
SSE / n  p  1
• valutazione  se p-value piccolo (rifiuto l’hp di
coefficienti tutti nulli) il modello ha buona capacità
esplicativa
Il modello di regressione lineare
La stima del modello
Indicatori di bontà del Modello
Y
Y
X
R-SQUARE=0.7
F con p-value piccolo
Y
X
R-SQUARE=0.7
F con p-value piccolo
X
R-SQUARE=0.7
F con p-value piccolo
Il modello di regressione lineare
La stima del modello
Test t per valutare la significatività dei singoli coefficienti
H0 :  j  0
• ipotesi nulla (j=1,…,p)

• statistica test
t
j

 c jj 2
~ t n  p  1
 il coefficiente è significativo
(significativamente diverso da 0) se il corrispondente pvalue è piccolo (ossia, rifiuto l’ipotesi di coefficiente nullo)
 il regressore a cui il coefficiente è associato è rilevante
per la spiegazione del fenomeno
• valutazione