Transcript estimare i

Considerăm o problemă ce constă în estimarea unei componente
continue, A, necunoscută, având la dispoziţie N eşantioane de
date x[n], cu repartiţie gaussiană (normală) identic distribuite şi
independente statistic (IID). Modelul de semnal este deci
x n  A  wn; n  0,1,..., N 1
 x 0 , x 1 ,..., x  N  1
Prin măsurare repetată se obţin valorile eşantioanelor x[n] din
figură. Se observă că ele sunt afectate de zgomot
A  1 2   0,15 
,
2
.
Fig. 1.1 Eşantioanele rezultate în urma măsurării unei componente continue
afectate aditiv de un zgomot normal, w, de medie nulă şi dispersie
 2   0,15 
2
Zgomotul în timp discret, w[n], provine din eşantionarea unui
semnal aleator gaussian w(t) cu evoluţia în timp şi repartiţia în
amplitudine arătate în figură
Reamintim că densitatea de repartiţie (probabilitate) a
eşantioanelor de zgomot este
2

w[n] 

1
p  w n  
exp  
 ; n  0,1,..., N  1
2


2

2


sau, simbolic, se notează
w  n


N 0,  2 ; n  0,1,..., N  1
Deoarece media eşantioanelor de zgomot, w[n], este nulă
E w  n   0
media datelor x[n] este A, aşa cum rezultă din următoarele, în
care se ţine seama de liniaritatea operatorului de mediere E
E x  n  E  A  w  n  E  A  E w  n
 A  0  A;
n  0,1,..., N  1
Dispersia datelor x[n] se calculează aplicând definiţia

Disp  x  n   E x  n   E  x  n 


 E w n   ;
2
2
   E  x n  A 
2
2
n  0,1,..., N  1
Datele, x[n], au o repartiţie gaussiană, deoarece rezultă din
zgomotul gaussian w[n], printr-o transformare liniară, mai
precis afină, x[n]=A+w[n]. Aşa cum se vede din histograma
din figură, datele sunt centrate pe A şi se plasează (în mare
majoritate) în intervalul (A3, A3)
Datele x[n] fiind gaussiene, cu media şi dispersia cunoscute,
putem da expresia densităţii de repartiţie
 ( x[n]  A)2 
1
p  x  n  ; A 
exp  
 ; n  0,1,..., N  1
2
2
2


sau se noteză simbolic
x  n
N


A,  2 ; n  0,1,..., N  1
Ne punem problema găsirii unei modalităţi de a găsi, din datele
cunoscute, o valoare care să aproximeze cât mai bine valoarea
componentei continue, A. Este vorba de a găsi o formulă de
aproximare (un estimator) respectiv o valoare numerică (un
estimat). “Bunul simţ tehnic”, educat ne indică media eşantion ca
un estimator bun al componentei continue A
1
x
N
N 1
x  n

n 0
Media acestui estimator se calculează uşor, deoarece E
este un operator liniar
 1 N 1
 1 N 1
1 N 1
E x   E   x n    x n    A  A
N n0
 N n0
 N n0
Calitatea unui estimator este, până la urmă, dată de
dispersia valorilor furnizate, aşa cum vom arăta mai încolo.
Pentru calculul dispersiei se aplică definiţia, ţinând seama
de proprietăţile operatorului de mediere E

Disp x   E  x  E x 
2

 1
 E 
 N
N 1
 1
x n   A  

n 0
 N
 1 N 1 N 1
2
 E  2   x  n  x  k   2 Ax  A 
 N n0 k 0

1 N 1 N 1
 2   E x  n  x  k   2 AE x   A2
N n0 k 0
N 1

x k   A  

k 0

Eşantioanele de zgomot se prelevează dintr-un zgomot alb
analogic şi deci sunt necorelate. Chiar dacă zgomotul analogic ce
se eşantionează pentru a obţine w[n], est unul colorat, pasul de
eşantionare se alege mai mare decât timpul de corelare, aşa că
zgomotul w[n] are eşantioanele necorelate
 2 n  k
E w  n  w  k   
; n, k  0,1,..., N  1
0 n  k
Calculăm acum intercorelaţia între eşantioanele de semnal x[n]
E  x  n  x  k   E  A  w  n   A  w  k 


 E  A2  Aw  n   Aw  k   w  n  w  k 
 A2  AE w  n   Aw w  k   E w  n  w  k 
 A2  E w  n  w  k 
Se ajunge la concluzia că
2
2

A  , n  k
E  x  n x  k   
2
A
nk

 ,
Rezultă că dispersia estimatorului este de N ori mai mică decât
dispersia datelor, ceeace este bine, deoarece împrăştierea
valorilor calculate pentru A este de N ori mai redusă decât
împrăştierea datelor masurate, x[n]
1
Disp  x   2
N
N 1 N 1
1
2
A  2


N
n 0 k  0
 A2 

2
N
N 1
2
2
2


2
A

A

n 0
 A2
2
N
Repartiţia estimatorului este normală deoarece el este o
combinaţie liniară de termeni cu repartiţie normală. A fost deci
suficient să calculăm media şi dispersia ca să afirmăm că
x

2 
N  A,

N 

Din figuri se poate vedea
limpede cum împrăştierea
valorilor rezultate prin
mediere pe N=100
eşantioane x[n] este de 10
ori mai mică decât
împrăştierea datelor. Măsura
împrăstierii este dată de
deviaţia standard, . Când
scade dispersia scade şi
abareterea standard. Este
deci de dorit să avem
estimatori cu dispersia cât
mai redusă! Se mai poate
observa că, în medie,
estimatorul reproduce
valoarea adevărată A=500
Este prezentat un alt şir de experimente pentru medierea pe
N=100 eşantioane pentru care se calculează o valoare medie.
Se repetă procedura de 1000, tot pe câte 100 de eşantioane,
rezultînd 1000 de valori medii. Se arată histograma unuia din
şirurile de 100 de date ce se mediază, având media A=3 şi
abaterea standard 1. Cele 1000 de medii urmează o repartiţie
gaussiană cu media A=3 şi abaterea standard 0.1, mai redusă
Am stabilit deci că media eşantion este un estimator “bun” pentru
componenta continuă A şi notăm estimatorul cu simbolul
“căciulă”
1
ˆ
A
N
N 1
x  n

n 0
Formularea matematică a problemei de estimare
Se presupune că datele x[n], ce constituie un semnal în timp
discret, depind de un parametru necunoscut ca valoare, q.
Având la dispoziţie datele, dorim să găsim un estimat
(o valoare numerică) pentru q, sau un estimator, sub forma
unei relaţii de tipul:
qˆ  f  x 0 , x 1 ,..., x  N  1
unde densitatea de repartiţie mutuală a eşantioanelor de date,
cunoscută ca formă, este şi ea dependentă de parametrul
necunoscut q.
p  x  0 , x 1 ,..., x  N  1 ;q 
Un exemplu în care semnalul util s[n] depinde de doi parametri
necunoscuţi, A şi B.
Modelul semnalului util, dependent de A şi B, doi parametri
necunoscuţi
s n  A  Bn ;
n  0,1,..., N  1
şi modelul semnalului măsurabil în care w[n] este un zgomot alb
gaussian
x n  s n  wn  A  Bn  wn ;
n  0,1,..., N -1
Datele x[n] se obţin din zgomotul gaussian w[n] printr-o
transformare liniară şi au în consecinţă tot o repartiţie normală.
Este suficient deci să determinăm media şi dispersia datelor ca să
putem scrie densitatea de repartiţie
E  x  n   E  A  Bn  w  n   A  Bn  E w  n   A  Bn

Disp  x  n   E x  n   E x  n 

2

 E  w  n 
2

2
Se ţine seama de faptul că eşantioanele de semnal sunt statistic
independente aşa că densitatea de probabilitate mutuală a celor
N eşantioane, dependentă de parametrii necunoscuşi A şi B este
  x  n   A  Bn 2 
N 1
1


p  x  0 , x 1 ,..., x  N  1 ; A, B   
exp 

2
2
n 0 2





1

2

N
 1
exp  2
 2
N 1
 x n  A  Bn 

n0
2


Putem recurge la o notaţie vectorială atât pentru date, x, cât
şi pentru parametrii necunoscuţi, q
x   x 0 x 1 ... x  N  1
θ   A B
T
T
Densitatea mutuală de repartiţie a datelor, dependentă de
parametii necunoscuţi dar determinişti (nealeatori) A şi B, este
p  x; θ  
1

2

N
 1
exp  2
 2
N 1
 x  n  A  B 

n0
2


Dacă parametrii necunoscuţi sunt determinişti se practică, de
obicei, separarea lor prin caracterul semicoloană ; adică
p  x; θ
Dacă sunt ei înşişi aleatori, se recurge la repartiţia mutuală dateparametrii, exprimabilă în funcţie de probabilitatea apriorică şi
condiţionată
p  x, θ   p  x θ  p  θ 
Se pune problema să definim calitatea unui estimator. Avem în
vedere cazul nivelului continuu, A, afectat de un zgomot alb
gaussian, cu realizarea din figură
Putem estima A pe baza unui singur eşantion de date, x[0]
A  x  0
Media sa este, evident, A
 
E A  E  x  0  A  E w 0  A
dar dispersia sa este aceeaşi cu a datelor
 
Disp A  Disp x 0  
2
Vom căuta estimatori nedeplasaţi (fără eroare sistematică) cu
dispersia minimă. Nedeplasarea se justifică imediat. Măcar în
medie estimatorul să dea valoarea adevărată. Cât priveşte
dispersia vom arăta avantajele dispersiei mici. Pentru
estimatorul bazat pe un singur eşantion valorile generate sunt,
în peste 99% din cazuri în ecartul
 A  3 , A  3   0,55,
1,45
în timp ce în cazul medierii pe N=100 eşantioane, ecartul este
 A  3 /

N , A  3 / N   0,995, 1, 045
Un estimator f(x) se spune că este nedeplasat dacă valoarea sa
medie este egală cu valoarea adevărată a parametrului
necunoscut
qˆ  f  x 

E qˆ  q ; q
medierea statistică fiind făcută relativ la densitatea de repartiție mutuală a
datelor

E qˆ  f  x  p  x,q dx; dx  dx 0 dx 1...dx  N  1
 

Există și o clasă de estimatori cu deplasare (cu eroare sistematică) pentru care

E qˆ  q  b q 
În cazul acestor estimatori se urmărește să se minimizeze nu dispersia ci
eroarea medie pătratică (MSE) definită prin


MSE qˆ  E qˆ  q

2
Se poate stabili o relație între dispersia și eroarea medie pătratică


 

Disp qˆ  E  qˆ  E qˆ


 E qˆ  q

 E qˆ  q

2

2
  E qˆ  q  b q 




2

 2b q  qˆ  q  b 2 q 
   2b q   E qˆ  q   b2 q 
2

 MSE qˆ  b 2 q 
 MSE qˆ  2b q  q  b q   q   b 2 q 
În final rezultă că


MSE qˆ  Disp qˆ  b 2 q 
În domeniul măsurărilor dispersia rezultatelor de măsurare definește precizia, în
timp ce deplasarea, b, (eroarea sistematică) definește așa numita acuratețe.