Classificatore bayesiano

Download Report

Transcript Classificatore bayesiano

Classificatore bayesiano
Date k classi C1, C2, …, Ck e il vettore x delle
osservazioni, la probabilità a posteriori vale:
P(Ci ) p(x / Ci )priori × verosimigl ianza
P(Ci / x)  posteriori =
normalizza zione
p ( x)
P (Ci )
p ( x / Ci )
p ( x)
k
probabilità a priori
densità di probabilità condizionata alla classe
densità di probabilità non condizionata
k
p(x)  ∑P(Ci ) p(x / Ci ) → ∑P(Ci / x)  1
i 1
i 1
fattore di normalizzazione
p(x / Ci ) quando è parametrica è detta funzione di verosimiglianza (likelihood)
Decisione ottima
La probabilità a posteriori P(Ci/x) definisce la probabilità del
pattern di appartenere alla classe Ci
La probabilità di misclassificazione è minimizzata scegliendo la
classe Ci che ha la maggiore probabilità a posteriori, cosicchè il
pattern è assegnato alla classe Ci se:
P(Ci / x)  P(C j / x) per ∀j≠i
semplificando il fattore di normalizzazione comune, si ha:
P(Ci ) p(x / Ci )  P(C j ) p(x / C j ) per ∀ j≠i
N.B. Il confronto è relativo alle d. p. congiunte
Regioni e superfici di decisione
Il classificatore bayesiano definisce una regola
per assegnare ogni punto dello spazio delle
variabili a una delle k classi
Possiamo concepire lo spazio delle variabili come diviso
in k regioni di decisione R1, R2, ..., Rk tali per cui un punto
appartenente a Rk è assegnato alla classe Ck
R1
R2
R3
R3
R2
R1
R4
R1
R2
R5
Le regioni devono essere disgiunte, ma non necessariamente contigue
I confini tra le regioni sono detti confini o superficie di decisione
Errore di misclassificazione
Con riferimento a due sole classi e una sola variable x, si ha:
Perrore  P( x∈R1, C2 )  P( x∈R2 , C1 )
 P( x∈R1 / C2 ) P(C2 )  P( x∈R2 / C1 ) P(C1 )
 ∫p( x / C2 ) P(C2 )dx  ∫p( x / C1 ) P(C1 )dx
R1
R2
p( x / C1) P(C1)
p( x / C2 ) P(C2 )
R1
R2
Corretta classificazione
La probabilità Pc di corretta classificazione, relativa a k
classi e a un vettore d-dimensionale delle variabili, vale:
k
Pc   P(x  Ri , Ci )
i 1
k
  P(x  Ri / Ci ) P(Ci )
i 1
k
   p(x / Ci ) P(Ci ) dx
i 1
Ri
Il massimo di Pc si ha scegliendo le Ri per cui le osservazioni
sono assegnate alla classe che massimizza l’integrando.
Ciò corrisponde alla decisione di assegnamento del pattern nella
classe con massima probabilità a posteriori.
Funzioni discriminanti
Il classificatore bayesiano è basato sulle distribuzioni di
probabilità, ma la decisione di appartenenza alla classe
dipende solo dalle dimensioni relative delle probabilità
Ciò conduce alla riformulazione del processo di classificazione nei
termini di un insieme di funzioni discriminanti:
y1(x), y2 (x),...,yk (x)
Cosicché il vettore delle osservazioni è assegnato alla classe Ci se:
yi (x) > y j (x) per∀j ≠i
La regola di decisione che minimizza la probabilità di
misclassificazione può essere facilmente espressa attraverso
le funzioni discriminanti, ponendo:
yi (x)  P(Ci /x)
Funzioni discriminanti trasformate
Usando il teorema di Bayes e semplificando il fattore comune di
normalizzazione, le funzioni discriminanti possono essere riformulate:
yi (x)  p(x/Ci ) P(Ci )
Poichè per la classificazione interessa solo la relativa grandezza delle
funzioni discriminanti, possiamo sostituirle con una qualsiasi
trasformazione monotona, come per esempio il logaritmo:
yi (x)  ln p(x/Ci )  ln P(Ci )
Le superfici di decisione non sono influenzate dalla trasformazione
monotona e valgono:
yi (x)  y j (x)
Funzioni discriminanti per due classi
Nel caso di due classi, le funzioni discriminanti sono di
solito espresse in forma leggermente diversa:
y(x)  y1(x) - y2 (x)
La regola di decisione quindi diventa:
x  C1 se y(x)  0
x  C2 se y(x)  0
Segue naturalmente anche:
y(x)  P(C1 / x) - P(C2 / x)
p(x/C1 )
P(C1 )
y(x)  ln
 ln
p(x/C2 )
P(C2 )
Minimizzazione del rischio
In taluni casi la regola di minimizzazione della probabilità di
misclassificazione può non essere un criterio appropriato.
P.es., nelle lesioni cutanee, classificare un melanoma come neo
è molto più grave che classificare un neo come melanoma
Considerando tutti i pattern che appartengono alla classe Ci,
occorre allora attribuire un costo alla decisione:
k
 i   Lij  p(x/Ci )dx
j 1
Rj
Lij sono gli elementi di una matrice di perdita che specifica la
penale associata con l’attribuzione alla classe Cj di un
pattern che appartiene alla classe Ci.
Minimizzazione
del rischio
La perdita complessiva attesa per tutti i pattern di tutte le classi è:


k

   i P(Ci )     Lij p(x/Ci ) P(Ci )dx

i 1
j 1 R j 
 i 1

k
k
Il rischio è minimo se l’integrando è minimizzato per ogni
pattern, cioè se le regioni Rj sono scelte in modo che:
x Rj
quando:
k
k
i 1
i 1
 Lij p(x/Ci ) P(Ci )   Lih p(x/Ci ) P(Ci )
per h  j
Costo della decisione di melanoma
Consideriamo le classi: C1 = melanomi; C2 = nei
Attribuiamo alla matrice di perdita i seguenti valori:
melanomi come melanomi
nei come melanomi
L=
0 10
1
0
melanomi come nei
nei come nei
La lesione sarà allora assegnata ai melanomi se:
L11 p(x/C1 ) P(C1 )  L21 p(x/C2 ) P(C2 )  L12 p(x/C1 ) P(C1 )  L22 p(x/C2 ) P(C2 )
p(x/C2 ) P(C2 )  10 p(x/C1 ) P(C1 )
p(x/C1 ) P(C1 ) 1
1

→ P ( M / x )  P ( N / x)
p(x/C2 ) P(C2 ) 10
10
N.B. La matrice di perdita determina una penalità nulla
nell’assegnare la lesione nella giusta classe e una penalità 10
volte superiore all’errato assegnamento dei melanomi come nei
Soglia di rifiuto
In generale ci aspettiamo che molti degli errori di
misclassificazione avvengano nelle regioni dove la più
grande tra le probabilità a posteriori è relativamente bassa
cosicché c’è ampia sovrapposizione tra classi
In alcune applicazioni è bene stabilire una soglia di probabilità
 (nell’intervallo [0,1]) sotto la quale il classificatore viene
rifiutato, cioè:
 θ
max P(Ck / x) 
k
 θ
 classifica x
 rifiuta di classificare x
N.B. Nell’esempio dei melanomi, la soglia potrebbe servire per
lasciare la diagnosi di lesioni particolarmente difficili al
dermatologo esperto
Stima delle probabilità bayesiane
Il classificatore bayesiano garantisce l’errore di
classificazione minimo purché siano note le probabilità
a priori e le d. p. condizionate alle classi
P(Ci ) p(x / Ci )
P(Ci / x) =
p ( x)
In pratica le probabilità a priori e le d. p. vanno stimate
attraverso i dati campionari del learning set.
N.B. La d. p. non condizionata al denominatore (fattore di
normalizzazione) può essere espressa come somma delle d. p.
congiunte di tutte le classi a loro volta scomponibili nel prodotto
di probabilità a priori e d. p. condizionate
Stima delle probabilità a priori
P(Ci ) i = 1,2,...,k
In pratica, a fini di classificazione, le probabilità a priori
possono anche essere incognite e stimate essere
equiprobabili
1
Pˆ (Ci ) =
k
i = 1,2,...,k
Impostando il costo della decisione indipendentemente
dalla probabilità a priori, possono sempre essere
ricomprese nella matrice di perdita L
Stima delle densità di probabilità
p(x / Ci ) i  1, 2, ..., k
Le d. p. condizionate vanno stimate dal campione di learning
facendo alcune ipotesi circa la loro distribuzione parametrica o
ricorrendo a tecniche non parametriche
Metodi parametrici
pˆ (x / Ci )   (x/ˆi , Ci )
Distribuzione
parametrica
Vettore dei parametri
stimato dalle osservazioni
campionarie
Metodi non parametrici
ni

1
( j)
pˆ (x / Ci ) ∑K x - x
ni j 1
Numero
osservazioni
in Ci
Funzione
kernel

Bayesiano
lineare
Distribuzione gaussiana
Blue
content
x melanomi
nei
È l’ipotesi parametrica più frequente
p(x / Ci ) =
1
(2π)d Σi
Bayesiano
1
- ( x-μi )Tquadratico
Σi-1 ( x-μi )
e2
 = matrice di covarianza
kd parametri per i vettori μ i
(simmetrica)
kd (d  1)
 = vettore delle medie
par. per le matrici Σi
d = dimensione delle feature
2
Area (mm2)
Σi ≠Σ j
per ∀i, j | i ≠j
superfici di separazione quadratiche
kd (d + 3)
2
parametri
Σi = Σ j
per ∀i, j
superfici di separazione lineari
d (d + 2k + 1)
2
parametri
Iperellissoide di confidenza
Δ 2 = (x - μ i ) T Σi-1(x - μ i )
Termine esponenziale
(quadrato della distanza di
Mahalanobis)
Σiu j = λ j u j
2 costante definisce un iperellissoide a
probabilità costante.
Gli autovettori uj e gli autovalori j di
 definiscono rispettivamente gli assi
principali dell’iperellissoide e le
varianze (semidiametri al quadrato)
x2
λ2
i
λ1
x1
La regione di confidenza della media vera, con probabilità (1-), è:
d (n - 1) -1
Δ <
F
n( n - d )
2
α
d , n- d
( )
n = numerosità campione
d = dimensione dello spazio
(F-1)d,n-d = inversa della distribuzione F
valutata in (1-), per d e n-d gradi di libertà
Classificatore bayesiano naïve
Matrice di covarianza diagonale  variabili indipendenti.
Direzioni principali degli ellissoidi di uguale probabilità
allineate con le coordinate degli assi
(S i ) jj   2j 
d
p(x / Ci )   p( x j / Ci )
j 1
Riduzione del numero di parametri a 2d
Se  j   per  j, ulteriore semplificazione con d+1
parametri e ipersfere come superfici di ugual probabilità
Proprietà della distribuzione gaussiana
1. Ha proprietà analitiche relativamente semplici
2. Il teorema del limite centrale afferma che la
media di N variabili casuali tende alla
distribuzione normale per N∞, in pratica
già per N>10; molti fenomeni naturali hanno
parecchi costituenti casuali che rendono
normale la loro distribuzione
3. Qualsiasi trasformazione lineare del sistema
di coordinate è ancora gaussiana (con medie e
matrice di covarianza diverse) e mantiene 2
di forma quadratica e definita positiva
Proprietà della
distribuzione gaussiana
4. Le d. p. marginali, ottenute integrando su
qualche variabile, sono ancora gaussiane
5. Le d. p. condizionate, ottenute a valori costanti di
alcune variabili, sono ancora gaussiane
6. Esiste una trasformazione lineare che
diagonalizza la matrice di covarianza, porta a
coordinate basate sugli autovettori, rende le
variabili indipendenti e la d. p. si ottiene come
prodotto delle d. p. delle singole variabili
7. Ha la massima entropia possibile
Funzioni discriminanti
Passando al logaritmo e semplificando i termini classi-indipendenti :
1
1
T -1
yi (x) = - (x - μ i ) Σi (x - μ i ) - ln Σi + ln P(Ci )
2
2
Si tratta quindi di funzioni quadratiche nello spazio a d dimensioni
Se le matrici di covarianza sono uguali per tutte le classi, il termine
con || si semplifica così come il termine quadratico xT-1x;
poichè  è simmetrica lo sarà anche la sua inversa e xT-1= T-1x,
cosicchè la funzione discriminante diventa lineare:
y i (x) = w iT x + wi 0
w iT
= μiT Σ-1
1 T -1
wi 0 = - μi Σ μ i + ln P(Ci )
2
Esercizio: valutare le d. p. con  diagonale e P(Ci) tutte uguali
Stima dei parametri
Una volta scelto il tipo di d. p. parametrica, spesso gaussiana,
occorre stimarne i parametri. Esistono vari metodi:
1. Massima verosimiglianza. Stima i parametri che massimizzano
una funzione di probabilità determinata dai dati di learning
2. Inferenza bayesiana. I parametri vengono descritti da una
distribuzione di probabilità che, tramite l’inferenza bayesiana,
passa da una situazione a priori più incerta e con forma più
allargata, alla probabilità a posteriori, affinata dai dati
campionari, perciò di natura meno incerta con forma più stretta;
la d. p. gaussiana relativa alle variabili di ingresso è ottenuta con
un integrale fatto rispetto tutti i suoi parametri, pesato per la loro
probabilità a posteriori
3. Metodi sequenziali. Tecniche iterative basate sull’aggiornamento
del valore dei parametri ad ogni nuovo dato acquisito
Stima di massima verosimiglianza
Anche se nella classificazione bayesiana si tratta con la d. p.
condizionata alle classi, ci riferiamo per semplicità alla d. p. non
condizionata p(x) che dipende dal vettore dei parametri da
stimare  = (1, 2, …, M)T.
Il processo andrà poi ripetuto per ogni classe separatamente.
p(x) dipende da  e dall’insieme di apprendimento, costituito
dalla matrice dN degli N di vettori delle osservazioni:
χ ≡[x(1) , x(2) ,...,x( N ) ]
N
p(χ/θ) =
∏ p(x(n) /θ) = L (θ)
n=1
La verosimiglianza (likelihood) L( ), si ottiene dalla produttoria
delle d. p. di ogni singola osservazione poiché esse si considerano
indipendenti e, per un dato , è solo funzione di 
Massima
verosimiglianza
Per molte d. p. l’ottimo di  va cercato con tecniche
numeriche di minimizzazione iterative.
Nel caso speciale della distribuzione gaussiana multivariata,
la soluzione è analitica e vale:
N
1
μˆ 
N
( n)
x
∑
ˆΣ  1
N

x
∑
n=1
n=1
N
( n)

- μˆ x
( n)
- μˆ

T
Sebbene l’approccio di massima verosimiglianza appaia
intuitivamente ragionevole, ha qualche difetto.
P.es., nel caso monovariato, la stima della varianza è distorta come
segue perché è valutata rispetto alla stima campionaria della media
N -1 2
E[σˆ ] =
σ
N
2
Inferenza bayesiana
La d. p. relativa alle variabili di ingresso non viene calcolata
fissando i parametri ad uno specifico valore come accade per il
metodo di massima verosimiglianza, ma rappresentandoli
attraverso una funzione di probabilità
Prima di osservare i dati , i parametri vengono descritti da
una d. p. a priori tipicamente piuttosto larga  scarsa
conoscenza dei valori che potrebbero assumere
Dopo che i dati  sono stati osservati, la d. p. a posteriori si
restringe attorno a valori di parametri più compatibili coi dati.
Apprendimento
bayesiano
priori
p()
posteriori
p( /)

Inferenza
bayesiana
La d.p. desiderata per il vettore x, una volta noti i dati di
learning, si può esprimere come l’integrale della d.p. congiunta:
p(x / χ )   p(x, θ / χ )dθ
p(x, θ / χ )  p(x/θ, χ ) p(θ / χ )
Il primo termine della d.p. congiunta è indipendente da 
 forma matematica parametrica della d.p. di x, pertanto:
p (x / χ )   p (x/θ) p (θ / χ )dθ
N.B. L’approccio bayesiano non trova un preciso valore di ,
ma effettua una media su tutti i valori  della d.p. p(x,),
pesata per la d.p. a posteriori p(/  ) dei parametri
La d.p. a posteriori dei parametri può essere valutata
attraverso il teorema di Bayes:
Inferenza
bayesiana
p(χ / θ) p(θ)
p(θ / χ ) =
p(χ )
La d.p. dei dati campionari condizionata ai parametri, p(/),
è esprimibile come prodotto di probabilità poiché i dati sono
assunti essere estratti dalla popolazione indipendentemente
l’uno dall’altro (campionamento casuale):
N
p(χ / θ) =
∏ p(x
N
( n)
/ θ)
e
p(χ )   p(θ' )∏ p(x ( n) / θ' ) dθ'
n 1
n=1
Cosicchè:
p(θ)
p(θ / χ ) =
p(χ )
N
∏
n=1
p(x ( n) / θ)
Inferenza
bayesiana
In generale, gli integrali si risolvono difficilmente in modo
analitico. È possibile solo se la d.p. a priori ha la stessa forma
funzionale della d.p. a posteriori, detta perciò “coniugata”
Usando una successione di N punti è possibile applicare il
processo inferenziale bayesiano ripetitivamente 
la d.p. a posteriori diventa la d.p. a priori del punto seguente
e mantiene la stessa forma funzionale, restringendosi attorno
al valore  ‘vero’; tali d.p. sono dette “riproducibili”
4.5
Esempio
Stima del valor medio ,
dati 12 punti estratti da
una d.p. gaussiana
monovariata con =0.8:
uso di una d.p. a priori
(N=0) di tipo gaussiano
con  0=0 e 0=0.3
4
p(/)
N=12
3.5
3
2.5
2
N=6
1.5
N=1
1
0.5
0
0
N=0
0.1

0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Inferenza bayesiana  massima verosimiglianza
Esiste una semplice relazione tra le due tecniche quando il
numero delle osservazioni N è sufficientemente alto
Trascurando il denominatore, indipendente da , con
l’inferenza bayesiana si ha:
p(θ / χ ) ∝L (θ) p(θ)
ˆ
La verosimiglianza L() ha un massimo per = θ
Per N sufficientemente elevato, la funzione L() è stretta attorno al
picco e l’integrale che stima la d.p. con la tecnica bayesiana può
essere pertanto approssimato da:
p(x / χ ) ~
 p (x/θˆ )  p (θ / χ )dθ  p (x/θˆ )
Metodi sequenziali
Aggiornamento parametri ad ogni nuova osservazione
Godono di importanti proprietà:
1. Non richiedono la memorizzazione di tutti i punti
osservati  ogni punto può essere scartato una
volta usato  utile per grandi quantità di dati
2. Possono essere usati per l’apprendimento “online” in sistemi “real-time” adattivi
3. Se il sistema è stazionario, ma con variazioni
lente, la stima sequenziale dei parametri può
essere usata per inseguire il comportamento del
sistema (“tracking on-line”)
In generale, è possibile esprimere una formula
sequenziale aggiornabile ad ogni nuovo punto N+1:
Metodi
sequenziali
θˆ N +1 = θˆ N + a N g (θˆ N )
g è una funzione della variabile aleatoria 
I coefficienti aN sono una sequenza di numeri positivi che
soddisfano alle seguenti proprietà:
lim a N  0
N →∞
∞
∑a N  ∞
N 1
Assicura che le successive correzioni tendono a
diminuire è il processo converge a un valore limitato
Assicura che le correzioni sono sufficientemente
ampie da trovare effittivamente la soluzione
∞
2
a
∑ N∞
N 1
Assicura che il rumore accumulato si mantenga con
varianza limitata, in modo da non compromettere
la convergenza
Risolvendo in modo sequenziale la stima ottenuta col
metodo della massima verosimiglianza, usando la
formula di Robbins-Monro, si può dimostrare che:
Metodi
sequenziali
∂
( N +1)
ˆθ
ˆ

θ

a
ln
p
(
x
/ )
N +1
N
N
∂
θˆ N
Per esempio la stima sequenziale della media di una
distribuzione gaussiana, si può esprimere come:
1
μˆ N +1 = μˆ N +
(x ( N +1) - μˆ N )
N +1
N.B. È necessario tenere in memoria solo N è il valore della
media stimata al passo N, cosicchè ogni punto viene usato una
sola volta e poi scartato. Il contributo di ogni punto successivo
decresce come conseguenza del coefficiente 1/(N+1)
Metodi non parametrici
Stimano le d.p. la cui forma funzionale complessiva non
viene definita preliminarmente. Ne esistono diversi tipi:
1. Istogrammi. Si dividono gli assi di ogni variabile in classi,
approssimando la d. p. tramite la frazione di dati che cadono in
ogni ‘scatola’ (bin).
2. Metodi a kernel. D. p. come somma di funzioni elementari (kernel)
tutte uguali, di forma e volume prefissato, centrate su ogni dato.
3. K-nearest-neighbours. Fissate K osservazioni sul totale N (K<N) la
d. p. è stimata in rapporto al volume dell’ipersfera che contiene K
dati ed è centrata su ogni valore del vettore delle osservazioni.
4. Modelli misti (semi-parametrici). Si combinano un certo numero
(<N) di d. p. elementari, i cui parametri (posizione e apertura)
sono stimati con tecniche classiche (massima verosimiglianza),
oppure più sofisticate (expected-maximization)
Istogrammi
Il numero di classi M va scelto come giusto
compromesso (c) tra due opposte rappresentazioni:
a) troppo rumorosa  varianza elevata;
b) poco accurata  bias elevato
a)
M=100
b)
M=5
c)
M=20
Istogrammi
La probabilità che ogni vettore delle osservazioni x,
estratto da una d.p. p(x) sia compreso in una regione R
dello spazio x è definita come:
P   p(x' )dx'
R
Presi N valori estratti indipendentemente da p(x), la
probabilità che K appartengano alla regione R è data dalla
legge binomiale:
N!
Π( K ) =
P K (1 - P) N -K
K!( N - K )!
La frazione media di punti in tale regione è P=E{K/N},
mentre la varianza attorno alla media è uguale a P(1-P)/N
All’aumentare di N (N) la varianza tende a 0 e
quindi la frazione media P di punti in R è ≈ K/N
Istogrammi
Se d’altro canto assumiamo che p(x) sia continua e non
vari molto in R, possiamo approssimare in:
P   p(x' )dx' ~
 p(x) V
R
V è il volume di R e x è un punto generico entro R
Si ottiene quindi il risultato intuitivo 
K
~
p(x) =
NV
N.B. Il risultato dipende due valide approssimazioni contrapposte:
R deve essere abbastanza grande affinché si abbia un
sufficiente numero di punti K, ma non troppo da poter
considerate p(x) costante nel volume di interesse