i,k - Dipartimento di Ingegneria dell`informazione e scienze

Download Report

Transcript i,k - Dipartimento di Ingegneria dell`informazione e scienze

Pattern

Oggetto o entità definito da un
nome: p.es. un neo, un volto, un
sintomo, un segnale biomedico,
un paziente, un esame clinico, …

Rappresenta l’unità statistica
oggetto dell’analisi ed è definito
attraverso un insieme di attributi
(variabili statistiche)
Fenomeni multidimensionali

Variabile multimensionale
insieme delle variabili statistiche
qualitative e quantitative che
descrivono i pattern

Spazio multimensionale
ha dimensione pari al numero
di variabili e contiene i pattern
rappresentabili come punti
Pattern recognition

Si traduce in italiano con
“Riconoscimento di configurazioni”,
ma è preferibile non tradurre
“Pattern”

Individuazione (classificazione) di
insiemi o gruppi di pattern con
caratteristiche omogenee  cluster

Riguarda metodi di apprendimento
supervisionato e non supervisionato
Riconoscimento e classificazione

Riconoscimento del pattern
e suo assegnamento a una
classe o cluster

Classe o cluster  insieme di oggetti
(unità statistiche) aventi proprietà
comuni, descritte dai loro pattern:
p.es. classe dei pazienti malati, cluster
dei segnali cardiaci, classe delle auto
d’epoca, cluster dei denti cariati, …
Applicazioni biomediche e sanitarie





Valutazione del valore
prognostico di test clinici
Scelta di opportune strategie
sanitarie
Valutazione del significato
diagnostico di un insieme di
variabili cliniche
Individuazione di aspetti patologici
…
Cluster analysis

La cluster analisi è il nome generico
attribuito a un largo insieme di metodi
statistici orientati ad individuare
gruppi in un campione di oggetti.
Di solito i gruppi sono chiamati cluster.

Nella cluster analysis non è necessario
conoscere a priori la struttura dei
gruppi, cosicché essa rappresenta un
attrattivo strumento esplorativo
Metodi di cluster analysis

Supervisionati  il tipo dei cluster e il
loro numero è definito dall’analista o
progettista del modello

Non Supervisionati  i cluster sono
identificati nello spazio delle variabili
con procedure statistiche e/o algoritmi
di raggruppamento basati
sull’apprendimento da campioni
Problemi da affrontare
I.
Definizione delle classi
Imporre uno schema di classificazione
agli oggetti
II. Classificazione
Trovare una regola di classificazione
sulla base di campioni di oggetti
precedentemente classificati
Soluzione del I problema
DEFINIZIONE DELLE CLASSI
• Il problema è immediatamente risolto
se è disponibile una divisione degli
oggetti in classi o le classi sono
determinabili in modo empirico
• Viceversa, si possono usare tecniche di
cluster analysis non supervisionata:
consentono di raggruppare oggetti in
classi basandosi su misure di distanza o
di similarità
Soluzione del II problema
CLASSIFICAZIONE
• L’esistenza di campioni classificati
implica che esiste un possibile schema
di classificazione
• E’ quindi necessario estrarre questo
schema e trasformarlo in una regola
pratica di classificazione; giocano un
ruolo fondamentale la scelta delle
variabili in base al loro potere
discriminante
Obiettivo matematico
Trovare una funzione o una regola che
rappresenti gli oggetti in un insieme di indici
identificativi delle diverse classi
Per alcuni problemi di classificazione la
percezione umana può essere migliore dei
classificatori quantitativi:
p.es. riconoscimento del sesso dal volto
o diagnosi di malignità di un neo
In generale i classificatori quantitativi sono
superiori all’uomo, specialmente quando
gli oggetti non possono essere percepiti
direttamente e sono rappresentati da dati
numerici in forma tabellare
Schema di un sistema di classificazione
PATTERN
Informazioni: variabili,
classi e dati empirici
(campione di progetto)
Preprocessing e
feature
extraction
Assegnazione
alla classe
Classificazione
Decisione
Metodi statistici e regole di classificazione
VANTAGGI
1. Sono oggettivi e possono essere ripetuti
da altri
2. Permettono di valutare le performance
della regola di classificazione
3. Permettono di misurare formalmente la
dimensione relativa di ogni singola
classe
Metodi statistici e regole di classificazione
VANTAGGI
4. Permettono di determinare quanto un
particolare esempio sia rappresentativo
della sua classe
5. Permettono di stabilire quali sono gli
aspetti di un oggetto che risultano più
importanti per la sua classificazione
6. Permettono di descrivere e testare le
differenze fra le classi
Metodi statistici e regole di classificazione
PROBLEMATICHE
1. Scelta delle variabili (feature selection):
standardizzazione, componenti
principali, ...
2. Scelta della misura di distanza o di
similarità: distanza Euclidea, distanza
di Mahalanobis, coefficiente di
similarità di Gower, …
3. Scelta del metodo di cluster: gerarchico
o non gerarchico
Metodi statistici e regole di classificazione
PROBLEMATICHE
4. Analisi del potere di separazione della
scelta finale delle variabili
5. Scelta del metodo di classificazione:
classificatore bayesiano, parametrico,
non parametrico, logistico, rete
neurale …
6. Valutazione del classificatore: scelta
del testing set, scelta del metodo di
valutazione.
Misure di associazione tra oggetti
METRICHE
Possono essere adottate diverse misure di distanza o
coefficienti di similarità dipendentemente dal tipo di
variabili con cui i pattern sono definiti
Le funzioni distanza più sofisticate dal punto di vista matematico
sono chiamate metriche. Le proprietà formali di una metrica sono:
Sia E una rappresentazione simbolica di uno spazio di misura e
siano X, Y e Z tre punti qualsiasi in E. Allora la funzione distanza
D è una metrica se e solo se soddisfa le seguenti condizioni:
1.
2.
3.
4.
D(X,Y) = 0
D(X,Y)  0
D(X,Y) = D(Y,X)
D(X,Y)  D(X,Z)+D(Y,Z)
se e solo se X=Y
per tutti gli X e Y in E
per tutti gli X e Y in E
per tutti gli X, Y e Z in E
Distanze euclidea e di Mahalanobis
Le metriche più utilizzate sono la distanza euclidea DE
e la distanza di Mahalanobis DM
DE = [x (i ) - x ( k ) ]T [x (i ) - x ( k ) ]
DM = [x
(i )
-x
(k ) T
-1
] Σ [x
(i )
-x
(k )
]
x(i), x(k) = vettori delle osservazioni i e k
 = matrice di covarianza delle osservazioni
T = operazione di trasposizione
N.B. DM tiene conto delle mutue correlazioni tra variabili
Altre distanze o metriche
La norma-p o distanza-p, Dp, tra due punti x(i) e x(k),
detta anche distanza di Minkowski, è:
Dp 
d
p
∑
j 1
x (ji )
(k ) p
- xj
d
Norma-1, detta di Manhattan  D1  ∑x (ji ) - x (jk )
j 1
Norma-, detta di Chebyshev 
D∞  lim
p →∞
d
p
∑
j 1
x (ji )
(k ) p
- xj
N.B. La norma-2 coincide con la distanza euclidea  D2=DE
Coefficiente di similarità di Gower
È una misura generale di associazione valida per
variabili qualitative e quantitative
G
(i ,k )
∑j
=
(i ,k )
∑j w( x j )
c ( x j ) (i ,k )
G(i,k) = coefficiente di similarità di Gower tra i pattern i e k
c(xj)(i,k) = misura di somiglianza tra i e k per la variabile xj
w(xj)(i,k) = peso dicotomico: 0/1 = confronto insensato/sensato
Coefficiente di similarità di Gower
TIPI DI VARIABILI
xj quantitativa
c ( x j ) (i ,k ) =
1 - x j (i ) - x j ( k )
Rj
G(i,k) = coefficiente di similarità
di Gower tra i pattern i e k
Rj = campo di variazione 
Rj = xj(max) - xj(min)
xj dicotomica
xj politomica
xj(i) xj(k)
xj(i) xj(k)
c
w
c
w
a
1
1
b
0
0
1
1
1
1
1
0
0
1
0
1
0
1
c
a
0
1
0
0
0/1
0/1
b
b
1
1
se xj(i) = 0 e xj(k) = 0,
c e w possono essere posti a 0 o a 1
a
w=0, solo se xj(i) o xj(k) mancante
Cluster analysis senza supervisore


Tecniche gerarchiche
Si suddividono in agglomerative
o divisive: la fusione/divisione
tra gruppi avviene a diversi
livelli dando luogo a una
struttura ad albero
Tecniche non gerarchiche
Il numero di gruppi è deciso a
priori
Dendogramma
Rappresentazione grafica ad albero
dei raggruppamenti gerarchici
Metodi gerarchici agglomerativi
Data una misura di distanza D(i-j) tra due punti generici i e j,
due cluster, p e q, sono aggregati considerando la loro
distanza D(p-q), valutata con diversi metodi:
Metodo single-link 
Metodo complete-link 
D
D

 maxD
( p- q )
( p-q )
 min D
(i p - j p)
(i p - j p)


 n p nq (i- j ) 
D
(
p
q
)


Metodo average-link 
D
 min ∑ ∑
 i p1 jq1 n p nq 


 npn q

Metodo Ward (m = punto medio) 
D ( p-q )  min  ∑ D (2i- m)
(minimo incremento degli scarti
 i p ,q

quadratici entro gruppi)


Metodo del baricentro o centroide
(mp,mq = baricentri dei due cluster) 
D
( p-q )
 minD
( mp -mq)

Metodo gerarchico del legame singolo
In un contesto unidimensionale il metodo
agglomerativo del single-link è molto semplice e
può essere descritto come segue:
1. Ordinamento delle osservazioni in ordine
crescente: ogni osservazione è trattata come un
gruppo con un solo membro
2. Esame di tutte le coppie di gruppi adiacenti per
trovare i due più vicini tra loro, considerando la
distanza tra i loro membri più vicini
3. Ripetizione del passo 2 fino a quando non vi è un
solo gruppo
Metodo gerarchico del legame singolo
ESEMPIO IN 2 DIMENSIONI
x2
Dendrogramma
7*
6*
*5
*
4
Distanza tra gruppi
2*
*
1 *3
x1
7 6 4 5 2 1 3
Nodi terminali
Metodo non gerarchico k-means
Il numero k di gruppi deve essere noto a priori
I cluster si formano con la seguente procedura
iterativa, non lineare:
1. Scelta di un punto iniziale per ognuno dei k cluster
2. Attribuzione di ogni caso al cluster più vicino
3. Calcolo del vettore delle medie (centroide) per
ciascuno dei cluster formati al passo 2
4. Ripetizione dei passi 2 e 3 finché i centroidi non
cambiano più
N.B. Il metodo è influenzato dalla scelta dei punti iniziali
Metodo non gerarchico k-means
Scegliendo una metrica euclidea il metodo converge
Minimizza la seguente funzione (errore entro-cluster):
k
nj


E  ∑∑ xij - m j xij - m j
j 1 i 1

T
xij = caso i-mo del j-mo
cluster
mj, nj = media, numerosità
del j-mo cluster
L’algoritmo ha complessità O(n*k*I*d)
n = numero dei punti
I = numero iterazioni
d = numero variabili (dimensione)
N.B. Sebbene I non possa essere stabilito a priori, in pratica
l’algoritmo converge dopo pochissimi passi, tipicamente < 5-6
Metodo non gerarchico k-means
Esempio con n = 10, d = 2 e k = 2
Gruppo A
Passo 4
1
2
3
.
Gruppo B
*
*
Tecniche di partizione
Siano W e B le matrici di covarianza, rispettivamente,
entro e tra gruppi e sia T la loro somma:
T = W+B
La maggioranza delle tecniche di partizione individua
gruppi che minimizzano varie funzioni di tali matrici.
I tre criteri più usati sono:
1. Minimizzazione determinante |W|, equivalente alla
massimizzazione del rapporto |T|/|W|
2. Minimizzazione della traccia (varianza totale) di W,
equivalente alla massimizzazione della traccia di B
3. Massimizzazione della traccia di BW-1
Metodi non supervisionati
CONSIDERAZIONI FINALI

La prima tecnica di partizione (minimo di |W|) isola
gruppi con variabili molto correlate al loro interno 
autovalori bassi

I metodi basati sulla traccia di W dipendono dall’unità
di misura delle variabili.

Il numero di cluster può essere scelto a priori o
cambiato durante l’analisi

Tecniche iterative non lineari  molti minimi, la
soluzione dipende dalla condizione iniziale

Si arriva a una partizione in gruppi del set iniziale
anche se esso ha una distribuzione multinormale
Metodi non supervisionati
CONSIDERAZIONI FINALI

La forma dei cluster dipende dalla tecnica usata: p.es. il
single-link trova cluster a catena, i metodi di partizione
basati sulla traccia di W formano cluster ipersferici,
quelli basati sul determinante formano cluster tutti della
stessa forma  esistono perciò molti aggiustamenti

È bene eseguire più tipi di cluster analisi, studiarne la
stabilità, confrontare i risultati, decidere quali
scartare/conservare  analisi esplorativa

In generale, le tecniche di cluster devono essere
accompagnate da un’analisi esperta in grado di giudicare
criticamente i risultati alla luce della competenza ed
esperienza nel campo in cui l’analisi è condotta.

È utile studiare statisticamente i gruppi formati per
esempio tramite analisi descrittive
Classificatori supervisionati



Metodi statistici, modelli matematici,
algoritmi, alberi decisionali, ecc., che
assegnano pattern a classi predeterminate,
cioè definite a priori
Effettuano pattern recognition ed
eventualmente prendono una decisione
Il problema centrale è quello di assegnare
un oggetto (caratterizzato da un insieme di
n variabili) in una classe nota
Classificazione di lesioni cutanee
attraverso dermoscopia digitale
Classificazione con supervisore: 2 classi
Neo benigno
Melanoma
Lo scopo è quello
di diagnosticare le
lesioni cutanee come
nei o melanomi
Scelta variabili e acquisizione dati
Informazioni a priori: scelta di d
variabili utili a fini diagnostici
Dati empirici: campione di n esempi
utilizzato per costruire il classificatore
x
(k )
(k ) (k )
(k )
= [ x1 , x2 ,..., xd ]
k = 1,2,...,n

Geometria: area, perimetro, diametri massimo
e minimo, circolarità, frattalità dei bordi …

Colore: quantità di rosso/blu/verde lesione e cute …

Tessitura: contrasto, entropia …

Isole di colore: disomogeneità, sbilanciamenti
e concentrazioni locali o periferiche di colore …
Pre-processing e feature extraction
Invece di utilizzare le variabili nella loro
forma originale, esse possono essere
convenientemente trasformate per:





introdurre importanti informazioni a priori;
codificare variabili qualitative e discrete;
rendere adimensionali le variabili quantitative
per poterle confrontare tra loro;
trattare i dati parzialmente mancanti;
sceglierne un sottinsieme ottimale per ridurre la
dimensionalità del fenomeno e filtrare gli errori
statistici.
Codifica variabili qualitative
In generale, la codifica di variabili qualitative deve
tener conto del problema in esame, ma ricorrendo a
una codifica di tipo binario si risolvono molti dei
problemi connessi con la natura delle variabili
Codifica dummy: n categorie  n-1 bit
Es.: variabile = gruppo sanguigno (n=4)
Categorie della
variabile
b2
b1
b3
A
1
0
0
B
0
1
0
AB
0
0
1
ZERO
0
0
0
Standardizzazione
Rende le variabili quantitative adimensionali in
modo da poterle gestire nell’ambito multivariato
( j)
zi

( j)
xi -
i
i
per j  1,2,..., N
i = media campionaria della variabile xi
i = deviazione standard campionaria della variabile xi
N = numerosità campionaria
N.B. Le nuove variabili zi (i=1,2,…,d) hanno media nulla
e varianza (deviazione standard) unitaria
Feature extraction
Scelta sottinsieme ottimo di variabili
Riduzione della dimensionalità
Aumento della generalizzazione
Tecniche stepwise
~
z = [ z1, z2 ,...,zh ] h < d
Criteri statistici di scelta delle variabili
più discriminanti: F di Fisher, lambda di
Wilks, divergenza di Kullback, area sotto
la curva ROC, …
Criteri di ingresso/uscita e fermata: livello
di significatività, decremento non
significativo dell’errore, …
Trasformazione e scelta delle
variabili più informative
~
y  [ f1(z), f 2 (z),..., f h (z)]
Tecniche per la riduzione della varianza
Componenti principali
yi( k )
d
 f i (z )   aij z (jk )
j
Tecniche con controllo del potere discriminante
Fukunaga-Koontz
La sciagura della dimensionalità
La dimensione dello spazio delle variabili influenza
fortemente le prestazioni del classificatore poiché:




i dati di addestramento sono campioni di dimensione
N finita;
N è spesso limitato da ragioni pratiche, economiche o
connaturate col fenomeno studiato (p.es. numero di melanomi);
l’aumento di dimensione comporta un aumento anche
cospicuo del numero di parametri Np del modello;
Se il rapporto N/Np è troppo basso le stime di alcuni
parametri sono molto incerte e perdono di significato,
compromettendo le prestazioni del classificatore.
Progetto del modello di classificazione
Stima del rischio sanitario
Probabilità di evento sanitario sfavorevole (p.es. diagnosi di
melanoma, M) condizionata alle informazioni contenute nelle
variabili scelte e nei dati campionari
~
P(M / z )
Metodi bayesiani
Metodi non bayesiani
Uso del teorema
di Bayes
~z / M )
P
(
M
)
p
(
~
P( M / z ) 
p(~z )
Stima diretta della
probabilità diagnostica
Regressione logistica
Reti neurali artificiali
K-nearest-neighbour
Algoritmi genetici
Classificatori a punteggio intero
Scoring model
Invece di stimare la probabilità dell’evento sanitario
sfavorevole valutano il rischio attraverso una scala discreta
di n valori interi positivi si (i = 0, 1, 2, ..., n) che includono lo
zero per rappresentare il rischio nullo
d
s   i si
i 1
d = numero di variabili
si = punteggio intero associato all’i-ma
variabile xi
λi = coefficiente binario 0/1  rischio
basso/alto (cut-off su xi)
Alcuni derivano dalla semplificazione di modelli probabilistici
arrotondando i loro parametri all’intero più vicino
Utili in ambiente clinico: pratici, non richiedono computer;
non distolgono medici e operatori sanitari da diagnosi e cura.
Addestramento classificatore
DATI CLINICI
NEI
LEARNING
SET
TESTING
SET
MELANOMI
Bias
ERRORE DI MODELLO
x2
e
varianza
ERRORE STATISTICO
Learning set
Testing set
Bias elevato
Varianza elevata
Bias e varianza minimizzate
x1
Complessità e Generalizzazione

Generalizzazione: capacità del classificatore
di mantenere le stesse prestazioni anche su
nuovi dati

Compromesso ottimo tra bias e varianza

Modello né troppo semplice, né troppo
complesso

Principio del rasoio di Occam
(William of Occam, XIV sec.): la metafora del rasoio esprime
l’idea dell’opportunità metodologica di eliminare con tagli
di lama e mediante approssimazioni successive le ipotesi
troppo complesse ed inutili per la spiegazione del fenomeno
Tipi di modelli e generalizzazione
x melanomi
nei
Blue
content
overfitting
good fit
underfitting
Area (mm2)
Underfitting e Overfitting


Underfitting: l’errore di modello (bias)
può essere ridotto, utilizzando modelli di
tipo più sofisticato o aumentando la
complessità degli stessi, p.es. con un
aumento del numero di parametri
Overfitting: il modello è troppo complesso,
stima anche gli errori campionari,
memorizza i dati del learning set invece di
apprendere le regole sottostanti, perde
capacità predittiva, aumenta la varianza
Minimizzazione errore
Funzioni errore
Le principali funzioni errore sono il root mean
square error (RMSE) e la probabilità media di
errata classificazione Pmec
nM
nN
i 1
i 1
(i )
2
(i ) 2
[
P
(
M
/
z
)
1]

[
P
(
N
/
z
)]
∑
∑
RMSE 
nM  nN
nM
nN
i 1
i 1
(i )
(i )
[
1
P
(
M
/
z
)
]

[
P
(
N
/
z
)]
∑
∑
Pmec 
nM  nN
Controllo dell’overfitting
Il miglior modello è quello che minimizza l’errore sui dati
di learning, mantenendo lo stesso errore sui dati di testing
Tecniche di cross-validazione
Una parte dei dati viene efficientemente usata per
controllare il potere di generalizzazione del modello
Metodo di rotazione k-fold
k=5
Testing Training
Testing Training
Testing Training
Testing Training
Testing
Training
Training
set
set
set
set
set
set
set
set
set
Metodo leave-one-out
k=N
Testing= =1 1
Testing
Training = N-1
Regolarizzazione
Un diverso tipo di approccio per controllare complessità
e generalizzazione è quello di introdurre un termine 
di penalizzazione all’errore da minimizzare
~
E = E + νΩ
 = parametro di controllo del
termine di regolarizzazione 
L’overfitting introduce forti oscillazioni, con regioni di ampia
curvatura. Conviene allora introdurre una penalizzazione sulla
derivata seconda (smoothing).
y
P.es., nel caso semplice della
4
funzione di regressione y(x) si ha:
3
2
 d2y 
Ω    2  dx
 dx 


2
1
0
-1
0
25
50
75
x
Early stopping
Un approccio per limitare l’overfitting utilizzato con
modelli a molti parametri, stimati con tecniche iterative,
è quello di arrestare l’addestramento del classificatore
quando comincia a perdere in generalizzazione
Errore
training set
validation set
Learning Stop
Overfitting
0
2
4
6
8
10
12
14
16
18
20
Iterazioni
Divergenza di Kullback-Leibler
Per valutare la bontà di un classificatore è utile avere
una misura della separazione tra le classi
~
p
(
z
/
C
)
j
DKL (C j → Ci )   p(~
z / Ci ) ln ~
d~
z
p( z / C )
i
N.B. La DKL non è simmetrica quindi a rigore non
può essere considerata una metrica
DKL (C j → Ci ) ≠DKL (Ci → C j )
Divergenza di Kullback-Leibler
DISTRIBUZIONI GAUSSIANE
Nel caso in cui le distribuzioni delle classi siano
gaussiane, la DKL simmetrica e diventa quindi una
metrica, semplificandosi in:
1
T
-1
-1
DKL (C j ↔ Ci )  (μ i - μ j ) ( Σ i  Σ j )(μ i - μ j )
2
1
 tr ( Σ i-1Σ j  Σ -j1Σ i - 2I )
2
i = vettore delle medie associato alla classe i
i = matrice di covarianza associato alla classe i
Valutazione delle prestazioni del classificatore
MELANOMA
Con due sole classi possiamo concepire la probabilità a
posteriori di melanoma Pm stimata dal classificatore come
un test diagnostico la cui soglia decisionale Pd individua
la seguente matrice di classificazione:
Melanomi
Nei
Pm > Pd
VERI
POSITIVI
FALSI
POSITIVI
Pm  Pd
FALSI
NEGATIVI
VERI
NEGATIVI
Curva ROC
Receiver Operating Characteristic
Ad ogni soglia Pd corrisponde una coppia (SE, SP)
Riportando in ascisse 1-SP e in ordinate SE si traccia una curva i cui
punti rappresentano le prestazioni del classificatore per ogni Pd
*
SE
P(~z / N ) P( N )
Area di
errore
P(~z / M ) P(M )
0
0.2
0.4
0.6
AUC
Area Under
ROC Curve
0.8
1
Pd
1-SP
Sensibilità, specificità e soglia di decisione
P1
SE
SE
SE
SPECIFICITÀ
TROPPO
BASSA
P3
P2
SP
SE=0.5 SP=0.89
SENSIBILITÀ
TROPPO BASSA
SE=0.75 SP=0.75
SE=0.9 SP=0.5
SP
Pd
Pd