1. MLA2014_PCA_corr_parz_bozza

Download Report

Transcript 1. MLA2014_PCA_corr_parz_bozza

20
14
m
ar
z
o
Contents
M
.C
HI
O
DI
1 Variabili Statistiche Multiple
1.1 Calcoli statistici in notazione vettoriale . . . . . . . . .
1.2 Definizione della matrice dei dati . . . . . . . . . . . .
1.3 I momenti primi e secondi multivariati . . . . . . . . .
1.3.1 La matrice di varianze e covarianze . . . . . . .
1.3.2 La matrice di correlazione . . . . . . . . . . . .
1.3.3 esempio . . . . . . . . . . . . . . . . . . . . . .
1.4 La matrice degli scarti . . . . . . . . . . . . . . . . . .
1.4.1 I momenti di combinazioni lineari di variabili
statistiche multiple . . . . . . . . . . . . . . . .
1.4.2 Rango della matrice di varianza e covarianza . .
3
3
7
9
11
11
12
15
17
19
Bo
zz
e
2 La correlazione parziale
21
2.0.3 Cenno alla regressione multipla . . . . . . . . . 26
2.0.4 correlazione fra residui . . . . . . . . . . . . . . 34
2.0.5 Derivazione analitica di r12.3 . . . . . . . . . . . 39
2.1 Correlazione multipla e parziale in funzione dell’inversa
della matrice di correlazione . . . . . . . . . . . . . . . 42
2.2 Incrementi della correlazione multipla in funzione della
correlazione parziale . . . . . . . . . . . . . . . . . . . 43
1
2
CONTENTS
45
48
50
63
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
3 Cenni all’analisi in componenti principali
3.0.1 Richiamo su autovalori e autovettori . . . . . .
3.0.2 Esempio . . . . . . . . . . . . . . . . . . . . . .
3.0.3 ACP per variabili statistiche osservate . . . . .
3.0.4 significato dei primi due momenti multivariati
empirici . . . . . . . . . . . . . . . . . . . . . .
69
20
14
o
Chapter 1
m
ar
z
Variabili Statistiche Multiple
Calcoli statistici in notazione vettoriale
Bo
zz
e
1.1
M
.C
HI
O
DI
In questa breve sezione introduco la notazione per insiemi di dati multivariati, attraverso le cosiddette matrici di dati.
In questo contesto verranno rivisti i concetti di momento primo
e secondo di variabili statistiche multiple, per i quali spesso `e utile
adottare un simbolismo compatto, e se ne vedr`a il significato; si introducono anche con degli esempi alcune misure di interdipendenza
lineare compresa la correlazione lineare parziale (nel cap. 2) ed
accenno l’analisi in componenti principali (nel cap. 3).
In questa sezione mi limito a sottolineare come alcuni calcoli statistici per
una e due variabili possano essere riespressi in notazione vettoriale: tale
notazione per calcoli statistici non `e particolarmente utile se effettivamente
si lavora con una o due variabili, ma `e indispensabile quando trattiamo
variabili statistiche multiple.
3
4
CHAPTER 1. VARIABILI STATISTICHE MULTIPLE
Espressione della varianza di una variabile statistica







xi 

.. 
. 












z=
xn







zi 

.. 
. 












zn
=
x1 − M (x)
x2 − M (x)
..
.












xi − M (x)
..
.
xn − M (x)
O
DI
essendo l’i-esimo scarto:

z1
z2
..
.
o
x=












x1
x2
..
.
m
ar
z

20
14
Se abbiamo un vettore di n osservazioni x (di media M (x)) e il corrispondente vettore degli scarti z : 1
zi = xi − M (x)
.C
HI
E’ facile vedere che:
nV [x] =
n
X
i = 1, 2, . . . , n
(xi − M (x))2 =
Bo
zz
e
M
i=1
=
n
X
i=1
zi2 =






(z1 , z2 , . . . , zi , . . . , zn ) 





z1
z2
..
.







zi 

.. 
. 

= zT z
zn
e quindi:
1
Anche se superfluo, ricordo che in tutto questo testo i vettori sono sempre
colonna, per cui se devo indicare un vettore riga user`o un vettore trasposto.
1.1. CALCOLI STATISTICI IN NOTAZIONE VETTORIALE
5
V [x] =
20
14
Espressione vettoriale della varianza
zT z
n
m
ar
z
o
Per indicare gli scarti di una variabile dalla propria media user`o qualche
volta la notazione x
¯ e qualche volta ricorrer`o ad un simbolo specifico, come
z , opportunamente definito nel testo.
O
DI
Espressione vettoriale della covarianza
.C
HI
In modo simile, possiamo utilizzare una notazione vettoriale per indicare la covarianza fra due variabili statistiche x e y , per le quali
abbiamo n coppie di osservazioni (xi , yi ); indichiamo con x¯i e y¯i gli
scarti dalle rispettive medie della x e della y :
x¯i = xi − M (x)
e
y¯i = yi − M (y)
i = 1, 2, . . . , n
M
e corrispondentemente i vettori degli scarti:
Bo
zz
e
¯ T = {¯
x
x1 , x¯2 , . . . , x¯i , . . . , x¯n }
¯ T = {¯
y
y1 , y¯2 , . . . , y¯i , . . . , y¯n }
Pertanto `e immediato vedere come esprimere in notazione vettoriale la covarianza fra le due variabili statistiche x e y :
nCov [x, y] =
n
X
n
X
i=1
i=1
(xi − M (x))(yi − M (y)) =
x¯i y¯i =
CHAPTER 1. VARIABILI STATISTICHE MULTIPLE

=





(¯
x1 , x¯2 , . . . , x¯i , . . . , x¯n ) 





y¯1
y¯2
..
.







y¯i 

.. 
. 

¯Ty
¯
=x
y¯n
ed infine:
20
14
6
o
¯Ty
¯
x
n
Ricordo la propriet`a per la quale si pu`o esprimere la covarianza
senza ricorrere alle somme di scarti che diventa, ancora in notazione
vettoriale:
Pn
Cov [x, y] =
i=1 (xi
O
DI
m
ar
z
Cov [x, y] =
− M (x))(yi − M (y))
=
n
.C
HI

Bo
zz
e
M





{x1 , x2 , . . . , xi , . . . , xn } 





n
y1
y2
..
.
Pn
i=1
n
xi yi
−M (x)M (y) =







yi 

.. 
. 

yn
− M (x)M (y)
Espressione vettoriale della covarianza
Cov [x, y] =
xT y
− M (x)M (y)
n
1.2. DEFINIZIONE DELLA MATRICE DEI DATI
7
Espressione vettoriale della media aritmetica
20
14
E’ facile vedere che in notazione matriciale possiamo esprimere anche
una media aritmetica, anche se per ora l’utilit`a della notazione non `e
grande.
m
ar
z
o
Da ora in poi indicheremo con 1k un vettore colonna di k elementi tutti
uguali ad 1:


1
 ... 




1k =  1  , (kvolte)


 ... 
1
O
DI
Con l’introduzione di questo nuovo elemento possiamo scrivere:
Espressione vettoriale della media aritmetica
.C
HI
Pn
M (x) =
i=1
n
xi
=
xT 1n
n
Bo
zz
e
M
Praticamente la moltiplicazione di un vettore riga per un vettore 1n
ci permette di scrivere una sommatoria semplice in termini di prodotto
vettoriale
1.2
Definizione della matrice dei dati
Supponiamo di avere l’informazione relativa a n unit`a su cui sono state
rilevate p variabili statistiche quantitative.
in questa fase di definizione del simbolismo che adotteremo per un
insieme di dati multivariato, non ci preoccuperemo del fatto che queste
8
CHAPTER 1. VARIABILI STATISTICHE MULTIPLE
20
14
unit`a costituiscano una popolazione completa o invece un campione (casuale semplice, stratificato, ragionato, etc): supponiamo che si tratti comunque dell’intera informazione disponibile dall’osservazione, comunque
essa sia stata ottenuta.
X2
x12
...
...
xi2
...
...
xn2
.C
HI
X[n×p] =












X1
x11
...
...
xi1
...
...
xn1
...
...
...
...
...
...
...
...
Xj
x1j
...
...
xij
...
...
xnj
O
DI

m
ar
z
o
L’informazione completa `
e per noi costituita da una matrice di dati X[n×p] .
La matrice X (n righe e p colonne), di elemento generico xij `e data
dai valori osservati di p variabili (che per ora supporremo quantitative),
per ciascuna delle n unit`a statistiche:
...
...
...
...
...
...
...
...
Xp
x1p
...
...
xip
...
...
xnp













U1
...
...
Ui
Un
Medie = {M1 , M2 , . . . , Mj , . . . , Mp }
Bo
zz
e
M
L’informazione relativa ad una unit`a Ui `e dunque costituita dalla
riga i-esima delle p osservazioni relative alle p variabili:
i-esima unit`
a (riga)
Ui = {xi1 ; xi2 ; . . . ; xij ; . . . ; xip }T ;
i = 1, 2, . . . , n
L’ informazione (univariata) relativa alla j-esima variabile Xj `e
contenuta nella j-esima colonna:
1.3. I MOMENTI PRIMI E SECONDI MULTIVARIATI
9
20
14
j-esima variable (colonna)
Xj = {x1j ; x2j ; . . . ; xij ; . . . ; xnj }T ;
j = 1, 2, . . . , p
I momenti primi e secondi (multivariati)
di una variabile statistica multipla
.C
HI
1.3
O
DI
m
ar
z
o
Non verranno prese in considerazione in questo momento le problematiche derivanti da matrici di dati incomplete, ossia in cui alcune delle
osservazioni xij relative ad uno o pi`
u casi ed ad una o pi`
u variabili sono
mancanti.
Alcune di queste problematiche verranno riprese pi`
u avanti, in particolare nel corso di esercitazioni e nei laboratori.
M
Ritornando alle ordinarie matrici di dati a due vie, che rappresentano
le n rilevazioni di p variabili, la media aritmetica di ciascuna variabile
`e data da:
Pn
xij
j = 1, 2, . . . , p
Mj = i=1
n
Bo
zz
e
Il vettore delle medie `e costituito dalle p medie aritmetiche:

M (X) =











M1
M2
..
.







Mj 

.. 
. 

Mp
10
CHAPTER 1. VARIABILI STATISTICHE MULTIPLE
20
14
Se consideriamo una rappresentazione geometrica delle n unit`a statistica, la nostra matrice dei dati costituisce l’insieme delle coordinate
di n punti in uno spazio p-dimensionale.
Il punto di coordinate M (X) `e detto centroide dell’insieme multivariato di dati.
E’ facile vedere che in notazione matriciale possiamo esprimere
M (X) mediante la relazione:
m
ar
z
o
M (X) = XT 1n /n
Abbiamo ancora indicato con 1n un vettore colonna di n elementi tutti
uguali ad 1.
1k T = (1, . . . , 1, . . . , 1) ,
volte
O
DI
k
Per i momenti del secondo ordine si ha:
la varianza della singola variabile Xj :
n
X
(xij − Mj )2 /n
.C
HI
σj2 =
j = 1, 2, . . . , p
i=1
la covarianza fra la variabile Xj e la variabile Xk :
n
X
M
σjk =
(xij − Mj )(xik − Mk )/n
j = 1, 2, . . . , p
k = 1, 2, . . . , p
i=1
Bo
zz
e
E’ noto che tali relazioni riguardanti momenti secondi centrali, sono
esprimibili in termini dei momenti primi e secondi con origine lo zero:
σjk =
n
X
i=1
σj2 =
n
X
x2ij /n − Mj2
j = 1, 2, . . . , p
i=1
xij xik /n − Mj Mk
j = 1, 2, . . . , p; k = 1, 2, . . . , p;
1.3. I MOMENTI PRIMI E SECONDI MULTIVARIATI
1.3.1
11
La matrice di varianze e covarianze
...
...
...
...
...
σ1i
...
σi2
...
σip
...
...
...
...
...
σ1p
...
σip
...
σp2








O
DI
V [X] =







σ12
...
σ1i
...
σ1p
m
ar
z

o
Matrice di varianze e covarianze
20
14
Avendo richiamato la definizione ed il calcolo delle medie, delle varianze e delle covarianze, possiamo definire la matrice di varianze e
covarianze:
.C
HI
Per gli elementi sulla diagonale principale di V [X], ossia per le
varianze delle singole componenti, invece della notazione σii si impiega
la notazione σi2 per uniformit`a col simbolismo nel caso univariato.
M
User`o quasi sempre il simbolo V(.) con l’intesa che se l’argomento `e una
matrice di dati indica una matrice di varianze e covarianze campionaria; se
l’argomento `e una variabile statistica semplice allora sar`a una varianza campionaria; user`o lo stesso simbolo anche per matrici di varianze e covarianze
di variabili aleatorie
La matrice di correlazione
Bo
zz
e
1.3.2
Si pu`o definire la matrice di correlazione di elemento generico:
rij = {R(X)}ij =
σij
σi σj
che, ovviamente, `e simmetrica ed ha elementi diagonali tutti uguali
ad uno:
matrice
di correlazione
12
CHAPTER 1. VARIABILI STATISTICHE MULTIPLE
R(X) =







1
...
r1i
...
r1p
...
...
...
...
...
r1i
...
1
...
rip
...
...
...
...
...
r1p
...
rip
...
1








m
ar
z

σij
σi σj
o
rij = {R(X)}ij =
20
14
Matrice di correlazione empirica di p variabili
statistiche
O
DI
Misura le correlazioni lineari fra le coppie di variabili.
E’ essenziale anche come strumento esplorativo.
.C
HI
La matrice di correlazione `
e uguale alla matrice di varianze e covarianze delle corrispondenti variabili standardizzate
Discutere in aula del significato di r ed r2
Indice di interdipendenza (misura simmetrica)
M
esempio
Bo
zz
e
1.3.3
13
M
.C
HI
O
DI
m
ar
z
o
20
14
1.3. I MOMENTI PRIMI E SECONDI MULTIVARIATI
Bo
zz
e
Figure 1.1: grafico a matrice di 4 variabili
CHAPTER 1. VARIABILI STATISTICHE MULTIPLE
m
ar
z
o
20
14
14
Bo
zz
e
M
.C
HI
O
DI
Figure 1.2: Matrice di correlazione delle 4 variabili dell’esempio dei
neonati
1.4. LA MATRICE DEGLI SCARTI
1.4
15
La matrice degli scarti
zij = xij − Mj
i = 1, 2, . . . , n j = 1, 2, . . . , p
20
14
E’ utile spesso fare riferimento alla matrice degli scarti Z , il cui generico elemento `e definito da:
m
ar
z
Z[n×p] =












x11 − M1 x12 − M2
...
...
...
...
xi1 − M1 xi2 − M2
...
...
...
...
xn1 − M1 xn2 − M2
. . . x1j − Mj
...
...
...
...
. . . xij − Mj
...
...
...
...
. . . xnj − Mj
O
DI

o
Si faccia attenzione al fatto che lo scarto va effettuato rispetto alla
media della colonna corrispondente

. . . x1p − Mp


...
...


...
...

. . . xip − Mp 



...
...


...
...

. . . xnp − Mp
.C
HI
Indichiamo ciascuna colonna con zj . Evidentemente le nuove variabili Zj risultano a media nulla:
M {Z1 , Z2 , . . . , Zj , . . . , Zp } = {0, 0, . . . , 0, . . . , 0} = 0Tp
M
Adesso possiamo esprimere in modo compatto la generica covarianza σjk (anzi la codevianza) in funzione delle colonne zj e zk :
Bo
zz
e
n σjk =
n
X
(xij − Mj )(xik − Mk ) =
i=1
n
X
zij zik =
i=1
z1k
 . 
 .. 









= (z1j , . . . , zij , . . . , znj ) 
 zik

 ..
 .
znk
= zTj zk
U1
...
...
Ui
Un
16
CHAPTER 1. VARIABILI STATISTICHE MULTIPLE
V [X] = V [Z] = ZT Z/n
Si pu`o anche vedere che:
20
14
Con questa posizione di comodo, `e facile ora vedere che la matrice di
varianze e covarianze p × p delle variabili Xj (o delle variabili Zj ) `e
espressa in forma matriciale compatta:
m
ar
z
o
Z = X − 1n M (X)T = X − 1n 1n T X/n = (I − 1n 1n T /n)X
V [X] = V [Z] = [XT − M (X)1n T ][X − 1n M (X)T ]/n =
O
DI
= XT X/n − M (X)M (X)T
ricordando, per l’ultimo passaggio, che:
[XT −M (X)1n T ][1n M (X)T ]/n = 0
e
M (X)1n T X/n = M (X)M (X)T .
.C
HI
Oppure, dalla relazione prima vista:
Z = (In − 1n 1n T /n)X,
M
si ha:
ZT Z = XT (In − 1n 1n T /n)T (In − 1n 1n T /n)X;
Bo
zz
e
e considerando che la matrice (In − 1n 1n T /n) `e simmetrica e idempotente, si ha infine:
nV [X] = nV [Z] = ZT Z = XT (In − 1n 1n T /n)T (In − 1n 1n T /n)X =
= XT (In − 1n 1n T /n)X;
Si vedr`a a proposito anche l’espressione della devianza residua nell’analisi
dei modelli lineari, che `e formalmente analoga a questa espressione.
1.4. LA MATRICE DEGLI SCARTI
17
20
14
Come si vede, si ottengono risultati gi`a noti nel caso a una e due
variabili sui momenti primi e secondi; la notazione matriciale permette
di ottenere risultati anche mnemonicamente simili a quelli pi`
u che noti
del caso univariato.
1.4.1
m
ar
z
o
E’ appena il caso di osservare che mentre la notazione matriciale fornisce
espressioni compatte ed `e inoltre implementabile facilmente negli ambienti
di programmazione che supportano operazioni matriciali, difficilmente fornisce gli algoritmi pi`
u efficienti per il calcolo dei momenti multivariati.
I momenti di combinazioni lineari di variabili statistiche multiple
.C
HI
O
DI
Per i momenti di combinazioni lineari di una variabile multipla valgono ovviamente relazioni del tutto analoghe a quelle valide per combinazioni lineari di vettori di variabili aleatorie:
costruiamo una nuova variabile statistica a k componenti, mediante
una qualsiasi trasformazione lineare delle variabili Xj , colonne della
matrice dei dati X :
Y = XAT + 1n cT
Bo
zz
e
M
La matrice A[k×p] ha k righe e p colonne e per il resto `e qualsiasi, nel
senso che il suo rango pu`o anche essere inferiore a min(k, p).
Il vettore c[k×1] ha k elementi.
La nuova matrice di dati Y ha n righe e k colonne. Con semplici
passaggi si vede come data la matrice A e il vettore c `e possibile
ottenere tutti i momenti di Y in funzione di quelli di X :
M [Y] = M [X] AT + c
h
(1.1)
i
V [Y] = V XAT + 1n cT = AV [X] AT
Sezione avanzata
(1.2)
18
CHAPTER 1. VARIABILI STATISTICHE MULTIPLE
O
DI
m
ar
z
o
20
14
Formule pi`u complesse valgono per i momenti multivariati di ordine
superiore al secondo, ma `e possibile ricavare tutti i momenti (multivariati)
di grado k di Y , sia centrali che non centrali, a partire dalla conoscenza
della matrice di trasformazione A e dei momenti multivariati di grado
1, 2, . . . , k di X.
Come per le variabili statistiche semplici i momenti di ordine 3 e 4
forniscono degli indici di forma, i momenti multivariati di ordine superiore
al secondo forniscono degli indici di forma multivariati, degli indicatori di
allontanamento dalla multinormalit`a, indici di non linearit`a delle regressioni e di eteroscedasticit`a, ma non tratter`o oltre l’argomento in questo
corso.
I momenti di combinazioni lineari di variabili
statistiche multiple
.C
HI
Y = XAT + 1n cT
M
T
M (XA
+ 1n cT ) i= M (X)AT + c Vettore delle medie
h
V XAT + 1n cT = AV [X] AT Matrice di varianze e covarianze
Bo
zz
e
In particolare se k = 1 allora A `e un vettore riga bT , c `e uno
scalare c e Y `e una v.c. semplice (ossia scalare) e si ha:
y = Xb + c
e quindi:
M (y) = bT M (X) + c = b1 µ1 + b2 µ2 + . . . + bp µp + c
V [y] = bT V [(X)] b =
1.4. LA MATRICE DEGLI SCARTI
19
= b21 σ12 + b22 σ22 + . . . + b2i σi2 + . . . + b2p σp2 +
+2b1 b2 σ12 + . . . + 2bi bj σij + + . . . + 2bp−1 bp σp−1,p
o
Forme quadratiche e combinazioni lineari
20
14
Dall’espressione precedente si ricava immediatamente una propriet`a
che sar`a molto utile:
m
ar
z
Una forma quadratica con matrice di coefficienti data da una
matrice di varianze e covarianze V [X] esprime sempre la varianza di una combinazione lineare delle X :
O
DI
bT V [X] b = V [Xb]
.C
HI
Positivit`
a delle matrici di varianza e covarianza
M
Una matrice di varianze e covarianze `e quindi sempre
semidefinita positiva .
essendo V [Y] ≥ 0 , in quanto una varianza `e sempre non negativa, allora:
Bo
zz
e
tT V [X] t = V [Xt] ≥ 0, ∀t, t 6= 0
1.4.2
Rango della matrice di varianza e covarianza
• Se una variabile statistica `e combinazione lineare delle altre p−1,
allora il rango della matrice di varianza e covarianza di X risulta
uguale a p − 1 ; (con n ≥ p)
20
CHAPTER 1. VARIABILI STATISTICHE MULTIPLE
20
14
• in generale il rango di V [X] risulta uguale a p − v se v componenti sono ottenute attraverso combinazioni lineari (indipendenti) degli elementi di X.
m
ar
z
o
• il rango di V [X] risulta uguale esattamente a p (ossia a rango
pieno) se e solo se le componenti di X sono linearmente indipendenti. (con n ≥ p)
Rango di una matrice di varianza e covarianza
Bo
zz
e
M
.C
HI
O
DI
La sola conoscenza del rango di una matrice di varianza e covarianza ci dice poco sul tipo di interrelazioni (eventualmente
lineari) esistenti fra le p componenti: ci dice solo se esistono
uno o pi`
u legami lineari esatti.
20
14
o
Chapter 2
m
ar
z
La correlazione parziale
• TORACE
• PESO
M
• ALTEZZA
.C
HI
O
DI
La correlazione `e una misura del collegamento lineare fra due variabili;
che fare con pi`
u di due variabili?
Si prenda in considerazione il caso relativo a dati antropometrici
esposto precedentemente, e si guardi ora il grafico 2.1.
Restringiamo la nostra attenzione a tre variabili:
Bo
zz
e
Guardiamo il grafico a matrici delle tre variabili che usiamo per
questo esempio.
21
CHAPTER 2. LA CORRELAZIONE PARZIALE
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
22
Figure 2.1: grafico a matrice delle tre variabili antropometriche
m
ar
z
o
20
14
23
Bo
zz
e
M
.C
HI
O
DI
Figure 2.2: correlazioni fra le 3 variabili
24
CHAPTER 2. LA CORRELAZIONE PARZIALE
20
14
Correlazione fra due variabili, tenuta costante una
terza variabile
m
ar
z
o
Vogliamo vedere se e come si modifica la relazione (lineare) fra
due variabili, quando si vuole tenere conto dell’influenza che
una terza variabile ha su di loro.
Come eliminare quest’influenza e come misurare poi la
relazione?
Bo
zz
e
M
.C
HI
O
DI
Esaminiamo la relazione fra torace e altezza (senza considerare
altre variabili).
E’ una relazione crescente (prescindendo dal fatto che sia lineare o
no: assumiamo per semplicit`a per ora di approssimare le relazioni di
regressione con funzioni lineari, che nel nostro caso danno comunque
una buona idea generale della relazione di regressione)
TORACECM = 7.7185+0.4475*ALTEZZA: retta di regressione
lineare
r = 0.58 indice di correlazione lineare semplice
M
.C
HI
O
DI
m
ar
z
o
20
14
25
Bo
zz
e
Figure 2.3: relazione fra Circonferenza toracica e altezza su 1427
ragazzi
26
CHAPTER 2. LA CORRELAZIONE PARZIALE
2.0.3
O
DI
m
ar
z
o
20
14
Questa relazione non tiene conto della presenza di altre variabili.
Dal momento che si sa che esistono altre variabili che influenzano
sia X che Y , ci poniamo adesso una domanda un po’ diversa:
che relazione esiste fra la circonferenza toracica e l’altezza a parit`a
di altre condizioni, diciamo semplicemente a parit`a di peso?
Oppure, che relazione esiste fra la circonferenza toracica e l’altezza
dei soggetti con lo stesso peso?
Ci chiediamo allora: cosa succede considerando esplicitamente
una terza variabile?
oppure ancora: Come eliminare l’influenza del peso sulle due variabili?
Ricordo che n`e qui n`e altrove parler`o mai di causalit`a, ma solo di
relazioni di dipendenza statistica
Cenno alla regressione multipla
Bo
zz
e
M
.C
HI
Adesso i punti vanno rappresentati in uno spazio a tre dimensioni.
Dobbiamo adattare un piano di regressione
z=Torace
y=peso
x=altezza
Il piano di regressione
z = a + bx + cy
minimizza la somma dei quadrati degli scarti dei punti osservati
dal piano (misurati in verticale, ortogonalmente rispetto al piano xy e
parallelamente a z)
(`e irrilevante in questo contesto come venga calcolato; in questo
corso ci diffonderemo a lungo sugli aspetti tecnici di questo problema)
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
27
Figure 2.4: relazione fra Circonferenza toracica, altezza e peso su 1427
ragazzi
28
CHAPTER 2. LA CORRELAZIONE PARZIALE
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
Sono riportate altre due punti di vista della nuvola di punti tridimensionale:
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
29
Figure 2.5: relazione fra Circonferenza toracica, altezza e peso su 1427
ragazzi
CHAPTER 2. LA CORRELAZIONE PARZIALE
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
30
Figure 2.6: relazione fra Circonferenza toracica, altezza e peso su 1427
ragazzi
31
20
14
Piani di regressione
m
ar
z
o
• Avendo utilizzato una relazione lineare (ossia l’equazione
di un piano) per approssimare la relazione di regressione
che fa dipendere z da x e y, piani paralleli intersecheranno il piano di regressione formando rette con la stessa
pendenza
O
DI
• In particolare un qualsiasi piano con y costante (ossia
y = k e quindi parallelo al piano X-Z) interseca il piano
di regressione z = a + bx + cy formando una retta di
regressione di equazione:
z = a + ck + bx
.C
HI
il coefficiente b `e quindi un coefficiente di regressione
parziale
M
• L’ipotesi di linearit`a della regressione multipla, implica
quindi regressioni parziali con la stessa pendenza: non
`e detto che questa sia un’ipotesi sempre realistica, ma
costituisce un’approssimazione comoda.
Bo
zz
e
• Si osservi ora che nel nostro caso l’intersezione del piano
di regressione col piano torace- altezza (ossia a parit`a di
peso) `e una retta con pendenza negativa.
CHAPTER 2. LA CORRELAZIONE PARZIALE
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
32
Figure 2.7: relazione fra Circonferenza toracica, altezza e peso su 1427
ragazzi.si noti l’inclinazione negativa del piano di regressione
con il piano coordinato Torace-lunghezza (peso=costante)
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
33
Figure 2.8: relazione fra Circonferenza toracica, altezza e peso su 1427
ragazzi
34
CHAPTER 2. LA CORRELAZIONE PARZIALE
stat3 2014corrparz3dr
Correlazione parziale come correlazione fra
residui
20
14
2.0.4
wi1 = xi1 − (a13 + b13 xi3 )
.C
HI
W1 :
O
DI
m
ar
z
o
Proviamo comunque ad eliminare l’influenza della variabile peso ricorrendo solo agli strumenti tecnici della regressione lineare semplice.
Come eliminare l’infuenza della terza variabile sulle prime
due?
Nell’esempio, come eliminare l’infuenza del peso dei soggetti sull’altezza
e la circonfernza toracica?
Esiste un modo molto semplice per operare, che conduce agli stesi
risultati che otterremo in altri capitoli anche per altra via: calcoliamo
le regressioni lineari della variabile altezza, X1 , e della variabile torace
, X2 , sulla variabile peso, X3 .
Su ciascuna relazione calcoliamo i residui:
W2 :
e
wi2 = xi2 − (a23 + b23 xi3 ) i = 1, 2, . . . , n
Bo
zz
e
M
ovviamente la nuova variabile W1 (residui Altezza) non `e correlata
con X3 (peso); anche la variabile W2 (residui Torace ) non `e correlata
con X3 (peso).
M
.C
HI
O
DI
m
ar
z
o
20
14
35
Bo
zz
e
Figure 2.9: regressione dell’Altezza rispetto al peso: relazione fra i
residui e la variabile esplicativa peso
CHAPTER 2. LA CORRELAZIONE PARZIALE
.C
HI
O
DI
m
ar
z
o
20
14
36
Bo
zz
e
M
Figure 2.10: regressione della Circonferenza toracica rispetto al peso:
relazione fra i residui e la variabile esplicativa peso
37
20
14
Eliminazione della dipendenza da X3
Le due variabili W1 e W2 sono state depurate dalla dipendenza
dalla variabile X3
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
Questa eliminazione dell’influenza di X3 `e rappresentabile graficamente rappresentando nel piano le n coppie di punti (wi1 , wi2 ), i =
1, 2, . . . , n insieme con la retta di regressione lineare.
Figure 2.11: relazione fra i residui W1 della variabile torace e i residui
W2 della variabile altezza
38
CHAPTER 2. LA CORRELAZIONE PARZIALE
M
.C
HI
O
DI
m
ar
z
o
20
14
La retta di regressione fra il torace e l’altezza, eliminata l’influenza
della variabile peso, ha cambiato inclinazione ed `e ora a pendenza
negativa!
Possiamo esprimere questo risultato dicendo che, per soggetti con lo
stesso peso, la circonferenza toracica in media diminuisce all’aumentare
dell’altezza.
Possiamo adesso direttamente misurare la correlazione fra le cinque
variabili fin qui usate:
X1=ALTEZZA
X2=TORACE
X3=PESO
W1= res alt peso (residui dell’altezza rispetto al peso)
W2=res torace peso (residui del Torace rispetto al peso)
Bo
zz
e
Figure 2.12: correlazioni fra le 3 variabili e i due residui
39
La correlazione fra le due variabili residue W1 e W2 `e:
Correlazione fra torace e altezza a parit`a di peso
20
14
rW 1,W 2 = −0.25
Si noti come la correlazione parziale abbia cambiato segno.
m
ar
z
o
Indice di correlazione lineare parziale r12.3
Questo indice va sotto il nome di indice di correlazione lineare parziale fra le variabili X1 e X2, tenuta costante X3 e si
indica con r12.3 .
2.0.5
M
.C
HI
O
DI
Nella sezione seguente ricaviamo analiticamente r12.3 , se non `e gi`a
noto al lettore), in funzione delle correlazioni lineari semplici.
Faccio notare soltanto che l’approccio seguito adesso per definire
la correlazione parziale tenendo costante l’influenza di una variabile,
`e perfettamente estendibile alla correlazione parziale fra due variabili
tenuta costante l’influenza di altre k variabili. Occorrer`a soltanto calcolare i residui dalle regressioni multiple di X1 e X2 rispetto alle altre
k variabili e poi considerarne la correlazione.
Derivazione analitica di r12.3
Bo
zz
e
Per derivare r12.3 con questa impostazione, occorre richiamare soltanto
alcuni risultati della regressione lineare semplice.
Intanto ricaviamo i valori dei residui wi1 , wi2 in funzione dei valori originali xi1 , xi2 , xi3 .
Sappiamo dalla regressione lineare semplice che:
Pn
xj1 xj3
xi3
2
j=1 xj3
j=1
wi1 = xi1 − (a13 + b13 xi3 ) = xi1 − P
n
correlazione
parziale
40
CHAPTER 2. LA CORRELAZIONE PARZIALE







xjr − Mr 


..

.

xnr − Mr
(r = 1, 2, 3)
o
xr =











x1r − Mr
x2r − Mr
..
.
m
ar
z

20
14
(con x indico lo scarto da M, media aritmetica di X)
E’ pi`
u comodo adesso passare alla notazione vettoriale, per cui
con xr (r = 1, 2, 3) indico il vettore (colonna) degli scarti relativi alla
r−esima variabile:
O
DI
Tornando all’espressione dei residui abbiamo:
Pn
xj1 xj3
xi3 =
2
j=1 xj3
j=1
wi1 = xi1 − (a13 + b13 xi3 ) = xi1 − P
n
xT3 x1
x 3 T x3
Adesso riesprimiamo l’intero vettore dei residui w1 , ottenendo:
.C
HI
= xi1 − xi3
M
w1 = x1 − (a13 + b13 x3 ) = x1 − x3
xT3 x1
=
x3 T x3
Bo
zz
e
(mettendo in evidenza a destra il vettore x1 )
x3 x T
= I − T 3 x1
x3 x 3
"
#
T
(si noti che x3 xT3 `e una matrice (n × n),
e uno scalare)
mentre x3 x3 `
E’ utile notare anche che la matrice I −
x3 xT
3
xT
3 x3
`e idempotente
A questo punto applichiamo questa formula anche alla colonna dei
residui dell’altra variabile w2 (residui della relazione di dipendenza
lineare di X2 da X3 ):
41
x3 x T
w2 = I − T 3 x2
x3 x3
"
20
14
#
Adesso finalmente costruiamo l’indice di correlazione lineare parziale:
xT2
x3 xT
3
xT
3 x3
x3 xT
3
xT
3 x3
I−
I−
x3 xT
3
xT
3 x3
x3 xT
3
xT
3 x3
I−
s
x1 xT2 I −
x1
x3 xT
3
xT
3 x3
I−
x3 xT
3
xT
3 x3
x2
O
DI
=s xT1 I −
m
ar
z
o
w2T w1
q
r12.3 = correlazione lineare (W1 , W2 ) = q
=
w1T w1 w2T w2
(ricordando tutte le propriet`
a viste in questa sezione ed applicando
T
l’idempotenza della matrice I − xx3Txx33 )
.C
HI
3
xT2
=s
x3 xT
3
xT
3 x3
I−
x3 xT
3
xT
3 x3
s
x1
x1 xT2 I −
x3 xT
3
xT
3 x3
x2
M
xT1 I −
Bo
zz
e
Per farla breve, si vede che le quantit`a a denominatore sono le radici
quadrate delle devianze residue (cosa che si sapeva gi`a dallaqcostruzione
2
dell’indice di correlazione), per cui sono proporzionali a 1 − rj3
j=
1, 2.
A numeratore esplicitiamo il prodotto (raccogliendo i termini xT2 x3
T
e x3 x 1 :
r12.3
T
xT2 x1 − xT2 xx3Txx33 x1
3
= ... = √
=
√
2√
2√
1 − r13 1 − r23 DevX1 DevX2
CHAPTER 2. LA CORRELAZIONE PARZIALE
=
√
√
r12 DevX1 DevX2 −
q
√
√
√
√
r13 DevX1 DevX3 r23 DevX2 DevX3
DevX3
q
√
√
2
2
1 − r13
1 − r23
DevX1 DevX2
(semplificando tutte le devianze)
r12 − r13 r23
q
q
2
2
1 − r13
1 − r23
=
20
14
42
m
ar
z
o
• Si pu`
o esprimere in funzione di minori della matrice di correlazione
Correlazione multipla e parziale in funzione dell’inversa della matrice di correlazione
.C
HI
2.1
O
DI
• Si generalizza subito al caso della correlazione parziale r12.34...k correlazione parziale fra le prime due variabili eliminata l’influenza delle
altre k − 2 variabili
M
Pi`
u volte in queste pagine ho ripetuto che la matrice di varianze e
covarianze contiene tutta l’informazione necessaria per l’analisi delle
relazioni (lineari) fra variabili
Bo
zz
e
Correlazione semplice
2.2
Correlazione fra due variabili
Incrementi della correlazione multipla in funzione della correlazione parziale
riprendere gli appunti a mano
20
14
O
DI
m
ar
z
Cenni all’analisi in
componenti principali
o
Chapter 3
.C
HI
Rango di una matrice di varianza e covarianza
M
La sola conoscenza del rango di una matrice di varianza e covarianza ci dice poco sul tipo di interrelazioni (eventualmente
lineari) esistenti fra le p componenti: ci dice solo se esistono
uno o pi`
u legami lineari esatti.
Bo
zz
e
Si pu`o chiarire questo concetto esaminando il caso pi`
u semplice,
ossia quello di una coppia di variabili standardizzate con
V [X] =
1 r
r 1
!
Le due variabili sono esattamente collineari solo se |r| = 1; tuttavia,
avendo solo due variabili, tutta l’informazione relativa all’interdipendenza
lineare `e riassunta nell’indice r: oltre al caso di perfetta collinearit`a,
43
44CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
abbiamo anche i casi di valori di |r| molto vicini ad 1, ossia quando i
punti tendono a disporsi lungo una retta.
Quando per`o abbiamo pi`
u di due variabili, come possiamo misurare
la tendenza dei dati a manifestare una quasi collinearit`a ? Con p > 2
non possiamo ricorre alle correlazioni semplici, che misurano la correlazione lineare per una coppia di variabili; per risolvere il problema
ci verranno in aiuto le propriet`a degli autovalori e degli autovettori di
una matrice di varianze e covarianze.
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
45
Figure 3.1: Tre variabili correlate: grafico con nuvola di punti in 3D di
tre variabili molto correlate; tuttavia il rango della matrice di varianza
e covarianze `e 3 perch`e non vi sono vincoli lineari esatti.
46CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI
3.0.1
Richiamo su autovalori e autovettori
O
DI
m
ar
z
o
20
14
Richiamo adesso qualche propriet`a degli autovalori e degli autovettori
delle matrici di varianze e covarianze. Vedremo come ci possono essere
utili per cogliere alcuni aspetti della struttura di correlazione fra le p
variabili ed eventualmente per valutare quanto le p variabili osservate
si avvicinino ad una situazione di collinearit`a esatta.
Per semplificare i calcoli supponiamo che le nostre variabili siano
sostituite con gli scarti dalle rispettive medie, in modo da lavorare con
variabili a media nulla: M (X) = 0.
In effetti in seguito converr`a ancora meglio lavorare con variabili
standardizzate, in modo che la diversa variabilit`a o la diversa unit`a di
misura non intervengano nelle analisi che condurremo: un insieme di
variabili standardizzate si caratterizza soltanto per la struttura di correlazione!
Indichiamo con γ j un autovettore di V [X], (normalizzato, ossia
con γ Tj γ j = 1) e con λj il corrispondente autovettore; allora si ha:
.C
HI
γ Tj V [X] γ j = γ Tj λj γ j = λj
M
Deriva dall’equazione fondamentale:
V [X] γ j = λj γ j
Bo
zz
e
e con la convenzione che gli autovalori siano ordinati in senso decrescente: λ1 ≥ λ2 ≥ . . . ≥ λp (in effetti per alcune delle scomposizioni
fatte occorrerebbe anche ipotizzare che siano tutti distinti, ma per ora
non `e necessario precisare altro)
ovviamente saranno tutti non negativi!
eguaglianze da riscrivere o comunque commentare e dimostrare
confrontare con parte sull’algebra matriciale
47
20
14
(la prima delle precedenti eguaglianze deriva dalla definizione degli
autovettori e degli autovalori; la seconda eguaglianza deriva dalla condizione di normalizzazione degli autovettori γ Tj γ j = 1.)
Indichiamo adesso con Zj una combinazione lineare delle variabili
X, ottenuta usando come coefficienti le componenti di uno degli autovettori γ j :
Zj = Xγ j
j = 1, 2, . . . , p
m
ar
z
o
Per calcolare media e varianza della nuova variabile Zj , applichiamo
le propriet`a 1.1 sui momenti di combinazioni lineari di variabili statistiche multiple:
(3.1)
V [Zj ] = γ Tj V [X] γ j = λj
(3.2)
O
DI
M [Zj ] = γ Tj M [X] = γ Tj 0 = 0
Bo
zz
e
M
.C
HI
Adesso siamo in grado di dare una definizione intuitiva ed una
quantificazione del concetto esposto prima, ossia di collinearit`a quasi
esatta, anche nel caso di un numero p di variabili superiore a 2.
Supponiamo che λp (ossia il pi`
u piccolo degli autovalori) sia prossimo
a zero: questo vuol dire, impiegando la 3.1, che Zp , variabile statistica
a media zero, ha varianza (λp ) molto piccola e quindi ha elementi zip
(i, n = 1, 2, . . . , ) tutti molto vicini a zero; ossia `e una situazione di
quasi collinearit`a ; solo se gli elementi zip (i, n = 1, 2, . . . , ) fossero tutti
uguali a zero, caso che si verifica se e solo se λp = 0, parleremmo di
collinearit`a esatta, cio`e nel caso in cui esiste un vettore b tale che:
Xb = 0
collinearit`a esatta
Con λp ≈ 0, parleremo di collinearit`a quasi esatta, ossia esiste una collinearit`a
combinazione lineare delle variabili Xj con varianza molto piccola:
Xγ p = λp
≈0
collinearit`a esatta
48CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI
Esempio
o
3.0.2
20
14
quali sono i coefficienti di questa combinazione lineare? Ovviamente gli elementi dell’autovettore γ p che, ricordo, sono scalati in
modo tale che γ Tp γ p = 1. Quindi le variabili Xj che corrispondono
agli elementi di maggior valore assoluto in γ p sono quelle che pi`
u pesano nel causare la collinearit`a.
O
DI
1,000 0,346 0,694
0,346 1,000 -0,435
0,694 -0,435 1,000
m
ar
z
Per chiarire i concetti precedenti inzio con un esempio semplicissimo
1
; nella tavola che segue `e riportata la matrice di correlazione di tre
variabili (ossia la matrice di varianze e covarianze di tre variabili standardizzate):
Bo
zz
e
M
.C
HI
Nella figura `e riportata la matrice dei grafici di dispersione per coppie
di variabili: `e difficile rendersi conto del grado di collinearit`a fra le
tre variabili; possiamo solo vedere che le variabili sono correlate a
due a due (potremmo vedere dell’altro in effetti,dall’intera matrice di
correlazione)
1
tanto semplice che si pu`
o anche fare con carta penna e calcolatrice
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
49
Figure 3.2: Matrice dei grafici di dispersione fra le tre variabili
50CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI
Proviamo ad analizzare gli autovalori della matrice di correlazione:
λ2 = 1, 3
λ3 = 0.
20
14
λ1 = 1, 7
m
ar
z
O
DI
.C
HI
x1
x2
x3
10
10
10
1
6
-9
2
8 -10
10
13
4
8
9
6
7
17 -13
10
12
6
12
9
18
7
1
19
9
11
5
o
L’ultimo `e nullo: vuol dire che esiste un vincolo lineare esatto fra le
tre variabili. In effetti dai dati riportati qui sotto `e facile vedere che
3x1 − 2x2 − x3 = 0.
Se vogliamo ragionare sulle combinazioni lineari esistenti fra le variabili originarie, dobbiamo calcolare gli autovalori e gli autovettori della
matrice di varianze e covarianze:
Bo
zz
e
M
Matrice di varianze e covarianze
12,71
5,27 27,60
5,27 18,27 -20,73
27,60 -20,73 124,27
λ1 = 133, 86
λ2 = 21, 38
λ3 = 0.
Per trovare i coefficienti della combinazione lineare nulla, occorre considerare il terzo autovettore, ossia la terza colonna della matrice degli
autovettori:
γ13 = 0, 80178
γ23 = −0, 53452
γ33 = −0, 26726.
51
γ13 = −3γ33
20
14
Ricordo che secondo la convenzione da noi adottata in questo contesto, gli autovettori sono normalizzati, ossia la somma dei quadrati
delle componenti di ciascun autovettore `e uguale ad uno. Il segno
dell’autovettore invece `e arbitrario, ossia non cambia nulla se si cambiano di segno tutte le componenti di un autovettore; tornando ai
coefficienti vediamo subito che:
o
γ23 = 2γ33
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
cosa che ci conferma quanto avevamo gi`a constatato dai dati, ossia
che i tre coefficienti della combinazione lineare esattamente nulla sono
proporzionali ai numeri: {3, −2, −1}.
Ovviamente, ed `e facile verificarlo empiricamente, lo stesso vincolo
sussiste fra le colonne (o fra le righe) della matrice di varianze e covarianze. In generale `e diverso dal vincolo esistente sulla matrice di
correlazione, dato che i coefficienti vanno riferiti alle variabili standardizzate e sono proporzionali alle colenne degli autovettori della matrice
di correlazione.
Proviamo ora a rendere pi`
u complicato l’esempio (perch`e in effetti
con tre sole variabili e pochi dati non `e difficilissimo rendersi conto
se esiste un vincolo lineare esatto fra le tre colonne della matrice dei
dati): prima di passare ad un esempio pi`
u statistico, continuiamo a
ragionare su vincoli lineari esatti; se abbiamo molte variabili non `e
facile rendersi conto dell’esistenza di vincoli lineari, anche se esatti, su
alcune delle variabili. Consideriamo questa matrice di dati (20 unit`a
e 10 variabili):
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
66
41
42
49
20
37
46
43
48
56
30
45
44
61
70
77
46
57
72
67
56
54
45
55
40
37
58
58
30
48
53
51
49
55
77
58
63
51
62
42
48
55
49
34
42
51
61
48
56
50
47
47
52
22
39
50
39
54
38
53
52CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI
50
47
57
48
38
41
53
46
66
41
46
55
51
49
46
49
34
54
57
77
35
44
50
38
46
48
40
55
65
53
51
46
33
46
51
48
63
54
44
40
48
48
34
45
34
51
49
51
52
43
57
69
38
55
59
44
49
42
55
51
53
39
33
57
75
54
45
50
56
56
68
45
49
63
54
51
59
56
42
49
56
63
42
58
72
49
54
44
46
40
46
51
54
50
30
42
66
38
20
14
71
58
66
52
63
60
54
51
45
34
58
70
52
62
o
52
62
59
48
66
53
66
53
59
57
50
46
40
25
m
ar
z
51
53
37
44
58
46
50
57
64
48
63
28
45
60
O
DI
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
[20,]
.C
HI
Per brevit`a non riporto la matrice di varianze e covarianze, ma solo
gli autovalori:
496,014 380,154 173,378 121,388 112,376
68,869 52,127 28,941
0,000 0,000.
M
Gli ultimi due autovalori sono nulli, quindi esistono due vincoli lineari esatti; per vedere quali variabili coinvolgono, occorre esaminare i
coefficienti del nono e del decimo autovettore:
0.000" " -0.000"
-0.053" " -0.575"
0.407" " -0.037"
-0.053" " -0.575"
-0.000" "
0.000"
0.813" " -0.075"
0.053" "
0.575"
-0.407" "
0.037"
Bo
zz
e
[1,] "
[2,] "
[3,] "
[4,] "
[5,] "
[6,] "
[7,] "
[8,] "
53
0.000" "
-0.000" "
-0.000"
0.000"
20
14
[9,] "
[10,] "
M
.C
HI
[,1] [,2] [,3]
10
10
11
1
6
15
2
8
22
10
13
19
8
9
14
7
17
39
10
12
16
12
9
6
7
1
-9
9
11
16
Bo
zz
e
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
O
DI
m
ar
z
o
Si vede subito che le variabili coinvolte sono quelle con indici 2,3,4,6,7
e 8.
Vediamo adesso un esempio pi`
u utile e realistico, perch`e questi ultimi due esempi trattavano situazioni costruite con collinearit`a esatta,
improbabili da verifcarsi con esattezza: in ogni caso non comportano
problematiche di tipo statistico, perch`e `e sufficiente identificare le variabili coinvolte nei vincoli esatti.
chiarire
Vogliamo vedere invece come utilizzare le informazioni date dagli
autovalori per identificare e quantificare vincoli lineari non esatti.
Esempio 3.0.1 n = 20, p = 4
54CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI













































Bo
zz
e
M
.C
HI
304
315
321
332
335
330
330
333
325
314
350
340
345
327
340
335
342
346
370
363
20
14
435
440
470
480
480
460
495
500
500
490
500
500
505
505
510
510
515
525
550
535
o
1930
2100
2920
2900
3000
2770
3400
3500
3430
3200
3530
3310
3650
2920
3120
3500
3540
3640
4160
4140
O
DI
X[20,4] =












































36
36
40
36
40
34
40
40
41
40
41
40
39
40
39
36
39
41
41
40
m
ar
z



M (X) = XT 120 /20 = 


779
64660
9905
6697



 /20



=


38, 95
3233, 00
495, 25
334, 85
V(X) = XT X/n − M (X)M (X)T =





55


= cov(X) = 


o
20
14

4, 471053
737, 000
38, 17105
14, 30789
737, 000000 315264, 211 15070, 26316 7553, 63158
38, 171053 15070, 263
822, 30263 383, 46053
14, 307895
7553, 632
383, 46053 251, 50263




1, 0000000
0, 6207622
0, 6295256
0, 4266773
0, 6207622
1, 0000000
0, 9359824
0, 8482956
.C
HI
Cor(X) = 
m
ar
z




30427
2532510
386525
261120
2532510 215035800 32309200 21794920 

 /20−M (X)M (X)T =
386525 32309200 4921075 3323975 
261120 21794920 3323975 2247269
O
DI

0, 4266773
0, 8482956
0, 8432057
1, 0000000





j = 1, 2, . . . , p
Bo
zz
e
M
Zj = Xγ j
0, 6295256
0, 9359824
1, 0000000
0, 8432057
Prima componente principale
Si pu`o dimostrare che la variabile Z1 `e la combinazione lineare
delle X (a coefficienti normalizzati) di maggior varianza,
e va sotto il nome di prima componente principale
Z1 = Xγ 1
V [Z1 ] = γ 1





56CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI
20
14
Seconda componente principale
V [Z2 ] = γ 2
cov(Z1 , Z2 ) = 0
m
ar
z
Z2 = Xγ 2
o
Si pu`o dimostrare che la variabile Z2 `e la combinazione lineare
delle X (a coefficienti normalizzati) di maggior varianza, fra
tutte quelle non correlate con Z1
e va sotto il nome di seconda componente principale
Collinearit`
a
O
DI
Si pu`o dimostrare che la variabile Zp `e la combinazione lineare
delle X (a coefficienti normalizzati) di minor varianza,
e va sotto il nome di ultima componente principale
.C
HI
Zp = Xγ 2
V [Zp ] = γ p
Bo
zz
e
M
cov(Zi , Zj ) = 0 ∀i 6= j
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
57
Figure 3.3: Tre variabili standardizzate correlate (matrix plot)
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
58CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI
Figure 3.4: Le tre componenti principali (matrix plot)
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
59
Figure 3.5: Tre variabili standardizzate correlate
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
60CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI
Figure 3.6: Le tre componenti principali
61
3.0.3
ACP per variabili statistiche osservate
m
ar
z
o
20
14
Vale la pena di notare adesso che l’analisi delle componenti principali
pu`o essere ancora vista come un problema di determinazione delle
combinazioni lineare (non correlate) di massima varianza di variabili
statistiche effettivamente osservate, ed anche di variabili aleatorie multiple come si vedr`a in altra sezione (oppure come problema di determinazione della combinazione lineare,vincolata, di varianza minima!);
oppure come problema di determinazione di un nuovo spazio di riferimento ortogonale.
Si ottengono comunque, se si prendono tutti gli autovettori, le componenti per la rotazione della matrice dei dati che
determinano un nuovo insieme di variabili non correlate.
O
DI
Retta di regressione principale
Bo
zz
e
M
.C
HI
Nel caso di variabili statistiche multiple esiste un’altra possibilit`a di
interpretazione, pi`
u vicina alla logica della regressione lineare.
Si supponga di avere una matrice n×p di dati Z relativa a p variabili
centrate (ossia a medie nulle): 1Tn Z = 0p ; possibilmente le variabili
sono standardizzate (diversamente l’analisi sarebbe influenzata dalle
diverse scale e unit`a di misura delle variabili).
Problema:
Trovare una retta r1 , nello spazio p-dimensionale definito dalle variabili originali, di coseni direttori y1 , che minimizzi la somma delle distanze dei punti originali Pi dalle rispettive proiezioni ortogonali Qi1 .
Su r1 gli n punti proiettati avranno coordinate qi1 (i = 1, 2, . . . , n);
il vettore di tali coordinate, ossia il vettore dei valori assunti dalla
nuova variabile si ottiene ovviamente mediante la proiezione q1 = Zy1
. il vincolo di normalizzazione: y1T y1 = 1 , `e ovvio dato che y1 `e un
vettore dei coseni direttori.
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
62CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI
Figure 3.7: Retta di minima distanza (ortogonale!) dai punti osservati:regressione principale
63
2
2
OPi = OQi + Pi Qi
20
14
Si noti dalla figura che il quadrato della distanza euclidea di ogni
singolo punto Pi dall’origine O (baricentro, o centroide, coincide con
il vettore delle medie delle p variabili), pu`o essere espresso come:
2
e si ha anche palesemente:
2
2
m
ar
z
o
2
OPi = OH + Pi H
Uguagliando i secondi membri di tali relazioni pitagoriche, ed esprimendo in termini di coordinate centrate, (ossia a media nulla) nel
caso generale di p coordinate si ha:
zij2 = qi2 + Pi Qi
j=1
essendo:
zij2
=
n
X
qi2
.C
HI
p
n X
X
i=1 j=1
p X
n
X
M
j=1 i=1
Bo
zz
e
p
X
j=1
2
O
DI
p
X
i=1
+
n
X
2
P i Qi ;
i=1
zij2 = Dev(q) +
n
X
2
P i Qi ;
i=1
Dev(Zj ) = Dev(q) +
n
X
2
P i Qi .
i=1
In questa relazione la somma delle devianze delle variabili originarie (che `e anche uguale alla somma delle distanze dei punti dal centroide) `e ovviamente invariante rispetto a qualsiasi scelta della retta e
pertanto `e una costante. Se indichiamo con q la nuova variabile, massimizzare Dev(q) , funzione obiettivo dell’ACP, corrisponde a miniP
mizzare ni=1 Pi Qi Quindi r1 `e la retta che minimizza la somma delle
distanze dei punti dalle loro proiezioni ortogonali sulla retta stessa.
64CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI
20
14
Chiaramente la soluzione del problema di determinazione di combinazioni lineari di massima varianza (e non correlate) `e sempre fornita
dagli autovettori della matrice di varianze e covarianze delle variabili
originarie:
ZT Z
n
(che `e anche la matrice di correlazione, se le variabili sono standardizzate).
r1 va anche sotto il nome di retta di regressione principale.
E’ intuitiva la spiegazione geometrica delle componenti successive,
come rette, ortogonali alle precedenti.
m
ar
z
o
S=
Bo
zz
e
M
.C
HI
O
DI
`e possibile anche un’interpretazione in funzione delle distanze euclidee
fra coppie di punti, che per brevit`
a e compattezza di impostazione, ometto
65
Bo
zz
e
M
.C
HI
O
DI
m
ar
z
o
20
14
Sezione avanzata
E’ invalso di recente l’uso di indicare una matrice dei dati X come matrice a due vie (unit`a × variabili) per distinguerla dalle cosiddette matrice
a tre vie (unit`a × variabili × occasioni) in cui per esempio l’elemento
xijk rappresenta l’osservazione della j-esima variabile nell’i-esimo individuo nell’occasione k, se per esempio lo stesso insieme multivariato `e
stato osservato in diverse occasioni, o in diverse localit`a; evidentemente
in questo caso potremo fare diverse sezioni a due vie dei dati, ma non `e
un argomento che trattiamo adesso.
66CHAPTER 3. CENNI ALL’ANALISI IN COMPONENTI PRINCIPALI
3.0.4
significato dei primi due momenti multivariati
empirici
20
14
Resta inteso che il significato da attribuire ai momenti primi e secondi
multivariati empirici `e diverso secondo che si supponga:
o
1. di avere un campione proveniente da una distribuzione normale
multivariata
m
ar
z
2. oppure solo un insieme di dati da una popolazione non specificata
Bo
zz
e
M
.C
HI
O
DI
Nel primo caso i momenti primi e secondi empirici sono proprio
gli stimatori di massima verosimiglianza dei parametri di una normale
multivariata (gli unici parametri di tale distribuzione);
Nel secondo caso i momenti avranno soltanto un valore sintetico
o descrittivo e non `e detto che siano le migliori misure di media e
dispersione multivariata per i dati in esame.