Esercitazione regressione logistica

Download Report

Transcript Esercitazione regressione logistica

STATISTICA PER LE RICERCHE DI MERCATO
a.a. 2012/13
dr. L.Secondi
ESERCITAZIONE REGRESSIONE LOGISTICA
Un ipermercato della città di Viterbo ha effettuato un’indagine un campione di 100 clienti per
valutare le intenzioni circa l’acquisto di prodotti a marchio aziendale.
Il data set IPER.dta, che contiene i dati raccolti a seguito delle interviste effettuate, è composto dalle
seguenti variabili:
DENOMINAZIONE
VARIABILE
ID
ETA’
N_VISITE_MESE:
SPESA_MENSILE:
N_COMP_FAM:
TSTUD:
INTENZIONE:
DESCRIZIONE
numero identificativo del cliente
Età del cliente espressa in anni compiuti
Numero di visite presso l’ipermercato (mese precedente all’intervista)
Importo speso presso l’ipermercato (mese precedente all’intervista)
numero di componenti della famiglia
1(licenza elementare o media);
2 (diploma di scuola superiore);
3(laurea)
1: intende acquistare prodotti a marchio aziendale;
0: non intende acquistare prodotti a marchio aziendale
I. Si ipotizzi di aver stimato un modello di regressione logistica in cui la variabile
INTENZIONE è posta come variabile dipendente e le variabili ETA’, VISITE, SPESA,
N_COMP_FAM, TSTUD, come variabili esplicative.
a. Valutare il tipo di relazione esistente tra le variabili esplicative e la variabile
dipendente e, successivamente, quantificare l’effetto di ciascuna variabile sulla
probabilità di acquistare prodotti a marchio aziendale.
b. Quali coefficienti stimati risultano statisticamente significativi? Su quale
statistica test si basa la verifica di ipotesi effettuata? In cosa si differenzia questo test
dal test di significatività condotto nel modello di regressione lineare multipla?
c. Valutare la significatività congiunta dei coefficienti stimati. Su quali quantità si
basa la statistica test G utilizzata per tale confronto?
d. Attraverso quale indice si può valutare la bontà di adattamento del modello
stimato?
II. Stimare nuovamente il modello di regressione logistica introdotto al punto precedente non
considerando come variabile esplicativa la variabile SPESA MENSILE. Confrontare
mediante un test opportuno i due modelli stimati.
I.
Output di riepilogo STATA
Logistic regression
Number of obs
LR chi2(7)
Prob > chi2
Pseudo R2
Log likelihood = -51.693753
intenzione
Coef.
possesso_fed
_It_studio_2
_It_studio_3
n_comp_fam
spesa_mens~t
n_visite_m~e
eta
_cons
-.8839761
1.747254
1.382952
-.309574
-.0024582
.9997702
-.0236184
-1.745307
Std. Err.
.7156398
.8005067
.7102789
.2873259
.006517
.3435431
.0186899
1.31244
z
-1.24
2.18
1.95
-1.08
-0.38
2.91
-1.26
-1.33
Logistic regression
Odds Ratio
possesso_fed
_It_studio_2
_It_studio_3
n_comp_fam
spesa_mens~t
n_visite_m~e
eta
.413137
5.738821
3.986654
.7337595
.9975448
2.717657
.9766583
0.217
0.029
0.052
0.281
0.706
0.004
0.206
0.184
Std. Err.
.2956572
4.593965
2.831637
.2108281
.006501
.9336325
.0182536
z
-1.24
2.18
1.95
-1.08
-0.38
2.91
-1.26
100
33.28
0.0000
0.2435
[95% Conf. Interval]
-2.286604
.1782894
-.0091687
-.8727224
-.0152314
.3264381
-.0602498
-4.317643
Number of obs
LR chi2(7)
Prob > chi2
Pseudo R2
Log likelihood = -51.693753
intenzione
P>|z|
=
=
=
=
.5186521
3.316218
2.775074
.2535745
.0103149
1.673102
.013013
.8270294
=
=
=
=
100
33.28
0.0000
0.2435
P>|z|
[95% Conf. Interval]
0.217
0.029
0.052
0.281
0.706
0.004
0.206
.1016109
1.195171
.9908732
.4178125
.984884
1.386022
.9415293
1.679762
27.55594
16.03981
1.288623
1.010368
5.328674
1.013098
Alcuni richiami teorici (utili per i punti c, d):
La verifica della significatività congiunta dei coefficienti stimati fa riferimento al test avente come
ipotesi nulla (H0) l’uguaglianza a zero di tutti i coefficienti di regressione relativa ad un modello
con k variabili esplicative, posta a confronto con un’ipotesi alternativa (H1) in cui almeno uno dei
coefficienti stimati è significativamente diverso da zero.
Nel modello di regressione logistica, la statistica test utilizzata per sottoporre a verifica tali ipotesi
è la statistica test G che rappresenta la differenza tra la devianza del modello con la sola intercetta
(modello nullo) e la devianza del modello stimato con le k variabili esplicative (modello completo).
Ai fini del calcolo, a partire da un output di un software statistica la statistica test G si ottiene come
segue:
L ( 0)
= −2 ⎡⎣ln ( L ( 0 ) ) − ln ( L ( β ) ) ⎤⎦
L (β)
dove L rappresenta la funzione di verosimiglianza associata rispettivamente al modello con la sola
intercetta (L0) ed al modello completo con le k-1 variabili esplicative (Lβ). Il logaritmo naturale di
tali quantità rappresenta il valore della funzione di log-verosimiglianza che ci viene restituita anche
dall’output di Stata.
G = −2ln
N.B.: In questo test il valore di k sta ad indicare il numero di parametri che complessivamente
vengono stimati nel modello (si comprende quindi anche l’intercetta che comunque viene stimata).
Il numero di gradi di libertà da considerare sarà invece pari a k-1.
Il valore della statistica test G – già presente nell’output di STATA – risulta pari per il modello
stimato a 33.28 (si tratta del valore indicato con LR).
Sotto H0, G si distribuisce come una v.c. χ2 con k-1 gradi di libertà. Pertanto il valore ottenuto
(calcolato) nel modello stimato andrà confrontato con il valore che si ottiene dalle tavole (dato il
valore di alpha specificato).
Nel modello stimato il valore di 33.28 va confrontato con il valore ottenuto dalle tavole (in
corrispondenza di 7 gdl ed alpha=0.05) pari a 14.07.
Essendo il valore calcolato superiore al corrispondente valore teorico si rifiuta l’ipotesi nulla di non
significatività congiunta dei coefficienti stimati. Alla stessa conclusione si giunge attraverso
l’analisi del p-valore associato al test.
Un approfondimento:
Come discusso sopra il valore della statistica test G si ottiene confrontando il valore della funzione
di log-verosimiglianza del modello nullo – che comprende quindi la sola intercetta – con il valore
della log-verosimiglianza del modello completo (il modello da noi stimato con le k-1 variabili
esplicative).
Proviamo ad ottenere quindi tale quantità:
1.Occorre innanzitutto stimare il modello nullo (con la sola intercetta).
Iteration 0:
Iteration 1:
log likelihood = -68.331491
log likelihood = -68.331491
Logistic regression
Number of obs
LR chi2(0)
Prob > chi2
Pseudo R2
Log likelihood = -68.331491
intenzione
Coef.
_cons
-.2818512
Std. Err.
.2019893
z
-1.40
P>|z|
0.163
=
=
=
=
100
-0.00
.
-0.0000
[95% Conf. Interval]
-.6777429
.1140406
Conoscendo il valore della log-verosimiglianza (log-likelihood) del modello nullo possiamo
calcolare la statistica test G come segue:
G = −2 ⎡⎣ −68.331491 − ( −51.693753) ⎤⎦ = −2 [ −16.637738] = 33.28
I valori della funzione di log-verosimiglianza sono altresì utili per il calcolo dell’indice R2 che –
nella formulazione presentata in STATA – è dato dalla formula introdotta da McFadden:
Pseudo R 2 = 1 −
ln L ( β )
−51.693753
= 1−
= 0.2435
ln L ( 0 )
−68.331491
II.
Si stima ora nuovamente il modello di regressione logistica escludendo la variabile SPESA
MENSILE. Il coefficiente stimato, infatti, risulta essere molto vicino allo zero (ed il corrispondente
ODDs ratio prossimo ad uno); in aggiunta a ciò la variabile non influenza in modo statisticamente
significativo la y.
Si può quindi stimare un nuovo modello di regressione escludendo tale variabile e confrontare poi i
due modelli.
Logistic regression
Number of obs
LR chi2(6)
Prob > chi2
Pseudo R2
Log likelihood = -51.766278
intenzione
Coef.
possesso_fed
n_visite_m~e
eta
_It_studio_2
_It_studio_3
n_comp_fam
_cons
-.9427154
.9142348
-.0240863
1.784682
1.357213
-.3683579
-1.781966
Std. Err.
.7006658
.2514857
.0186621
.7909727
.7091219
.2437207
1.29717
z
-1.35
3.64
-1.29
2.26
1.91
-1.51
-1.37
P>|z|
0.178
0.000
0.197
0.024
0.056
0.131
0.170
=
=
=
=
100
33.13
0.0000
0.2424
[95% Conf. Interval]
-2.315995
.4213319
-.0606632
.2344037
-.0326404
-.8460417
-4.324372
.4305643
1.407138
.0124907
3.33496
2.747067
.109326
.7604391
E’ possibile a questo punto definire l’ultimo modello stimato come un modello comprendente un
sotto-insieme delle variabili esplicative del modello stimato al punto I.
Per il confronto tra i due modelli si fa riferimento al test per il confronto di modelli annidati. Il
test si basa sull’ipotesi nulla che i coefficienti delle s variabili escluse dal modello ridotto (s=1 nel
nostro caso) siano pari a zero contro l’ipotesi alternativa che almeno un coefficiente delle s variabili
escluse dal modello sia diverso da zero.
A questo scopo ci si basa ancora sulla statistica test G e si confrontano i logaritmi delle
verosimiglianze del modello ridotto e del modello completo. Nel caso relativo all’esercizio si ha:
G = −2 ⎡⎣ −51.766278 − ( −51.693753) ⎤⎦ = −2 [ −0.072525] = 0.14505
Il valore della statistica test G ottenuto si confronta con il quantile della v.c. X2 avente 1 gdl (pari al
numero s delle variabili escluse dal modello) e per un livello α=0.05 fissato a priori. Il valore che si
ottiene dalle tavole è pari a 3.8415 e dal confronto tra statistica test calcolata e statistica test teorica
si conclude che non è possibile rifiutare l’ipotesi nulla (H0) andando così ad affermare che il
coefficiente escluso dal modello non migliora la stima e che quindi il modello ridotto è preferibile a
quello completo.