Statistica: media, covarianza e propagazione

Download Report

Transcript Statistica: media, covarianza e propagazione

Richiami di statistica e
loro applicazione al trattamento di osservazioni
topografiche e geodetiche
Ludovico Biagi
Politecnico di Milano, DIIAR
[email protected]
(materiale didattico preparato in collaborazione con E. Benedetti,
M. Branzanti, M. Crespi de La Sapienza Università di Roma)
Premesse
definizione euristica di distribuzione,
gli errori di misura
formalizzazione della curva gaussiana
La stima
la propagazione di media e covarianza
la stima ai minimi quadrati
La verifica
la verifica di ipotesi in generale
i test sul modello e sulla singola osservazione
Semplificando
ancora esempi.
Prima premessa necessaria
Misure ripetute della medesima grandezza, eseguite al limite della
precisione possibile con il metodo e gli strumenti utilizzati,
forniscono sempre risultati diversi per la presenza degli errori
casuali; tali errori, non noti, non possono essere eliminati.
Come si può stimare il valore “vero” di una grandezza se non si
conoscono gli errori in ciascuna osservazione?
Si associa alle misure una modellizzazione statistica e matematica:
l’osservazione (misura) è la somma di due componenti: il valore
teorico/vero della grandezza y (osservabile) e l’errore di misura
incognito.
Seconda premessa necessaria
Errori casuali,
a media nulla, di entità variabile da misura a misura,
dipendente dalle precisioni strumentale e di lettura.
Concetti collegati: sia precisione sia accuratezza
Errori sistematici o di modello o anche outlier,
sistematismi strumentali oppure errata modellizzazione delle
osservazioni o delle relazioni fra osservazioni e incognite
Concetto collegato: accuratezza.
Esperimenti deterministici e stocastici
Misura di b
h
b
T ape M easure
(m)
L eng th C o mparato r
(m)
3,15
3,15289
3,15
3,15290
3,15
3,15291
3,15
3,15291
3,15
3,29421
A = bh
Questo esempio molto semplice mostra che il livello di precisione a
cui si misura b dipende dallo strumento adottato e dalla tecnica di
misura.
I due esperimenti sono definiti rispettivamente deterministico e
stocastico.
In genere, tutte le misure fornite da strumenti sufficientemente
precisi sono rappresentate da esperimenti stocastici.
In particolare lo sono le misure topografiche e geodetiche
La descrizione di un esperimento stocastico richiede il concetto di
media e di dispersione ( µ e σ ).
Essi sono veramente utili ma, come vedremo, non robusti.
Un indice statistico è detto robusto quando non è
significativamente affetto dalla presenza di outlier.
Media di b:
mediana di b:
3.18116 m
3.15291 m
Quindi, media e deviazione standard sono
buoni stimatori solo dopo la rimozione di
ogni possibile outlier.
T ape M easure
(m)
L eng th C o mparato r
(m)
3,15
3,15289
3,15
3,15290
3,15
3.15291 ←
3,15
3,15291
3,15
3,29421
Esempio di
distribuzione degli esiti di 10 osservazioni
La popolazione è troppo piccola per
distinguere una chiara distribuzione.
Esempio di distribuzione per popolazione numerosa
Precisione e accuratezza (1/4)
Precisione e accuratezza (2/4)
Popolazione accurata e precisa Popolazione abbastanza accurata ma non precisa Precisione e accuratezza (3/4)
Popolazione accurata e precisa Popolazione abbastanza accurata ma non precisa Popolazione non accurata ma precisa Precisione e accuratezza (4/4)
Popolazione accurata e precisa Popolazione abbastanza accurata ma non precisa Popolazione non accurata ma precisa Popolazione non accurata e non precisa Dalla popolazione alla frequenza
N:
popolazione totale
nx :
popolazione che assume valori nell'intervallo [ x − δ , x + δ ]
nx
fx =
N
frequenza di realizzazione dell'intervallo [ x − δ , x + δ ]
per δ → 0 la frequenza così definita euristicamente
tende al concetto matematico di distribuzione di probabilità
Dalla frequenza alla probabilità:
la curva gaussiana
Misure di precisione di una grandezza,
con valore teorico µ e deviazione standard σ ,
si distribuiscono in accordo alla
distribuzione di densità di probabilità Gaussiana
f ( x, µ , σ ) =
1
2πσ
2
e
( x − µ )2
−
2σ 2
σ = 1 Gaussiana con σ = 2 Gaussiana con P( xm ≤ x ≤ xM ) è la probabilità di ottenere una misura che cada
nell’intervallo [ xm , xM ];
P( xm ≤ x ≤ xM ) =
xM
∫
xm
f (ξ )d ξ
Caso Rm
Siano date m osservabili;
possiamo estendere il modello
e scrivere in modo compatto, utilizzando la notazione vettoriale:
y0 = y + ε
con
⎡ y1O ⎤
⎡ y1 ⎤
⎡ ε1 ⎤
⎢y ⎥
⎢y ⎥
⎢ε ⎥
2
yO = ⎢ O ⎥ ;y = ⎢ 2 ⎥ ; ε = ⎢ 2 ⎥
⎢ ... ⎥
⎢ ... ⎥
⎢ ... ⎥
⎢
⎥
⎢ ⎥
⎢ ⎥
y
y
⎣ m⎦
⎣ε m ⎦
⎣ mO ⎦
1
− ( y O −y )T C−yy1 ( y O −y )
1
2
f (y O ) =
e
m/2
m/2
(2π ) (det C yy )
C yy è la matrice di covarianza delle osservazioni.
⎡ σ 12 σ 12
⎢
2
σ
σ
2
C yy = ⎢ 21
⎢ ...
...
⎢
⎣σ m1 σ m 2
... σ 1m ⎤
⎥
... σ 2 m ⎥
... ... ⎥
2 ⎥
... σ m ⎦
in diagonale le varianze delle singole osservazioni,
fuori diagonale le covarianze fra coppie di osservazioni;
la matrice è simmetrica e definita positiva, quindi invertibile.
Note
In forma compatta si indica y O ~ N ⎡⎣ y, C yy ⎤⎦
Quando la media è nulla, le varianze unitarie, le correlazioni nulle
y O ~ N [0, I ] ≡ Z
è detta normale standardizzata
Osservazioni e incognite
Deve essere stimato un parametro incognito x che non può essere
direttamente osservato ma dipende funzionalmente da
un'osservabile y
Dipendenza diretta:
Dipendenza inversa:
x = f ( y)
y = f (x )
Come possono media e covarianza di x essere determinate da y ?
Dipendenza diretta: teorema della media
Una volta determinata la media di un'osservabile (ad esempio nel
quadrato il lato), può essere determinata anche la media di una
quantità da essa funzionalmente dipendente (l'area).
La media può essere propagata in accordo al teorema della media.
l
(m)
A
(m 2)
l1
A1
l2
A2
…
…
li
Ai
ln
An
A= l 2
Ipotesi di validità per il teorema della media
Regolarità del modello funzionale
y osservabile, variabile casuale
x dipende funzionalmente da y .
( )
( )
Generalmente: x = f y e f y ∈C ∞ tranne che per un numero
limitato di punti.
y deve essere ben centrata, ovvero con intervallo di probabilità
piccolo (un definizione più formale di buon centramento è data dal
teorema di Chebishev)
Propagazione della media: caso 1D
1- Modello lineare
2- Modello non lineare
x = ay + b
x = f ( y)
Lineare
µ y → µ x = aµ y + b
Non lineare
µ y → µ x ≅ f (µ y )
Propagazione della media: caso n-D
area:
A= b⋅h
diagonale: d = b 2 + h 2
perimetro: p = 2 ( h+b )
Mediante due esperimenti stocastici per b e h , sono calcolati µb e
µh .
y m-dimensionale
x funzionalmente dipendente, n-dimensionale, m ≠ n.
⎡ b ⎤
y=⎢
⎥,
⎣ h ⎦
⎡
⎡ A ⎤
⎢
⎥
⎢
x = ⎢ d ⎥ , x = f (y) , f (y) = ⎢
⎢
⎢⎣ p ⎥⎦
⎢
⎣
bh
(b + h )
2
2
2 ( b+ h )
⎤
⎥
⎥
⎥
⎥
⎦
Nel caso multidimensionale, il teorema della media vale sotto le
stesse ipotesi del caso monodimensionale.
Lineare:
x = Ay + b , µ x = Aµ y + b
Non lineare:
x = f (y) , µ x ≅ f ( µ y )
⎡ µ
µy = ⎢ b
⎢ µh
⎣
⎤
⎥,
⎥
⎦
⎡ µ
⎢ a
µ x = ⎢ µd
⎢
⎢⎣ µ p
⎡
µb µ h
⎤
⎢
⎥
µb2 + µ h2
⎥ , µx ≅ ⎢
⎢
⎥
⎢ 2( µ + µ )
⎥⎦
b
h
⎢⎣
(
)
⎤
⎥
⎥
⎥
⎥
⎥⎦
Solo la media del perimetro è esatta, perchè è l'unica funzione
lineare dei lati.
Lo stesso processo logico può essere applicato alle deviazioni
standard. Supponiamo che siano state calcolate anche le
deviazioni standard di b ( σ b ) e h ( σ h ). Si vuole calcolare la loro
propagazione nelle stime delle quantità funzionalmente dipendenti.
Dipendenza diretta: legge di propagazione della
covarianza
Consideriamo
y variabile casuale m-dimensionale
x variabile casuale n-dimensionale
x = f (y)
Hp:
f (y) regulare,
y ben centrata
La covarianza di
covarianza.
⎡ σ2 σ
12
⎢ 1
⎢ σ 21 σ 22
C yy = ⎢
...
⎢ ...
⎢ σ
σ m2
⎣ m1
y può essere scritta a partire dalla sua matrice di
... σ 1n ⎤
⎥
... σ 2m ⎥
⎥
... ... ⎥
... σ m2 ⎥
⎦
C yy contiene la struttura di covarianza completa di y
Elementi in diagonale contengono le varianze. Elementi fuori
diagonale contengono le covarianze. La matrice è simmetrica:
σ ij = σ ji
Esempio del rettangolo: punto di inizio
⎡ b ⎤
y=⎢
⎥
⎣ h ⎦
C yy = ⎡ σ 2 σ
bh
⎢ b
⎢ σ hb σ h2
⎣
⎤
⎥
⎥
⎦
Punto finale
x=⎡ A ⎤
⎥
⎢
⎢ d ⎥
⎢ p ⎥
⎦
⎣
C xx = ⎡ σ 2 σ
Ad
⎢ A
⎢ σ dA σ 2
d
⎢
⎢ σ pa σ pd
⎣
σ Ap ⎤
⎥
σ dp ⎥
⎥
2
σp ⎥
⎦
La legge di propagazione della covarianza è un corollario del
teorema della media e può essere formalizzata mediante le
seguenti formule
Lineare:
x = Ay + b ,
C xx = AC yy A T
Non lineare:
x = f (y) ,
C xx = JC yy J T
J è la matrice Jacobiana: contiene le derivate parziali di x rispetto
a y.
µy = ⎡
⎢
⎢
⎢
⎢
⎢
⎢
⎢⎣
y =⎡
⎢
⎢
⎢
⎢
⎢
⎢
⎢⎣
y1 ⎤
⎥
.. ⎥
yi ⎥
⎥
.. ⎥
ym ⎥⎥
⎦
⎡
J=⎢
⎢
⎢
⎢
⎢
⎢
⎣
∂x1
∂ y1
∂x1
∂ y2
...
∂xn
∂ y1
...
∂xn
∂ y2
µ y1 ⎤
⎥
... ⎥
µ yi ⎥⎥
... ⎥
⎥
µ ym ⎥
⎦
x =⎡
⎢
⎢
⎢
⎢
⎢
⎢
⎢⎣
x1 ⎤
⎥
.. ⎥
xi ⎥
⎥
.. ⎥
xn ⎥⎥
⎦
∂x1 ⎤
⎥
∂ ym ⎥
⎥
... ...
⎥
... ∂xn ⎥
∂ ym ⎥
⎦µy
...
Le derivate sono calcolate nella media di y.
Esempio del rettangolo
µy = ⎡ µ
⎢ b
⎢ µh
⎣
⎡
J = ⎢ ∂A
⎢ ∂b
⎢ ∂d
⎢
⎢ ∂b
⎢ ∂p
⎢ ∂b
⎣
⎤
⎥
⎥
⎦
∂A
∂h
∂d
∂h
∂p
∂h
⎤
⎥ = ⎡ µh
⎢
⎥
µb
⎢
⎥
⎢
2
2
⎥
µ
+
µ
⎢
b
h
⎥
⎢
⎥
⎣ 2
⎥
⎦µy
µb
µh
µb2 + µ h2
2
⎤
⎥
⎥
⎥
⎥
⎥
⎦