RECONNAISSANCE DE FORMES IAR-6002
Download
Report
Transcript RECONNAISSANCE DE FORMES IAR-6002
RECONNAISSANCE DE
FORMES
IAR-6002
Sélection et/ou extraction des
caractéristiques
Introduction
Critères
d’évaluation de caractéristiques
Sélection des caractéristiques
Extraction des caractéristiques
Introduction
Le
but recherché par la sélection et l’extraction
des caractéristiques est de diminuer le plus possible le nombre de caractéristiques utilisées pour
représenter les formes à classifier
De plus, nous pouvons alors estimer le pouvoir
discriminant des caractérisques permettant la
différenciation d’objets de classes distinctes
Introduction
Nous
pouvons réduire le nombre de caractéristiques requises de deux façons:
– Une approche consiste à trouver les d caractéristiques parmi les D possibles qui discriminent le
mieux les formes à classer
Introduction
Une
seconde approche consiste à projeter l’ensemble des caractéristiques originales dans un
autre espace de caractéristiques de dimension
inférieure (extraction de caractéristiques)
Introduction
Pour
résoudre le problème de sélection ou
d’extraction de caractéristiques nous devons
spécifier:
– Les critères d’évaluation des caractéristiques
– La dimension des espaces de caractéristiques
– La procédure de recherche optimale
– Le type de transformation (extraction)
Introduction
Nous
utilisons les notations suivantes:
– Caractéristiques originales yk, k = 1,2,....,D
y = [y1,y2,...,yD]T
– Chaque observation (objets, formes) y appartient
à une des m classes possibles Ci, i= 1,2,....,m
– Nous savons que l’occurrence des vecteurs y est
modélisée par un processus aléatoire représenté
par la probabilité conditionnelle p(y|Ci) et la
probabilité à priori P(Ci)
Introduction
Nous
utilisons les notations suivantes:
– Un ensemble contient les caractéristiques
candidates j, j=1,2,...,d
– Les caractéristiques optimales sont dénotées par
X={xj|j=1,...,d} et découle du calcul d’un critère
d’évaluation J()
– Pour la sélection, nous cherchons:
J(X) = maxJ()
qui représente les caractéristiques qui
maximise le critère de sélection
Introduction
Nous
utilisons les notations suivantes:
– Pour l’extraction, nous cherchons:
J(A) = maxAJ(A)
où A est un extracteur optimal
– Avec A connu nous pouvons déduire x par:
x = A(y)
Critères d’évaluation de caractéristiques
Basé
sur la probabilité d’erreur
– Dans un espace de caractéristiques de dimension
d définit par un ensemble de caractéristiques =
[1,...,d] la probabilité d’erreur est donnée par
P ( E ) 1 max P (Ci ) p ( ) d
i
1 ,..., d T
m
p ( ) p ( Ci ) P (Ci )
Pdf mixte de
i 1
P (Ci )
p ( Ci ) P (Ci )
p ( )
Pdf à posteriori
Critères d’évaluation de caractéristiques
Basé
sur des mesures de distances probabilistes
– Le concept de distance probabiliste fait référence
à la distance entre 2 pdf et est aussi fonction du
degré de chevauchement des 2 pdf
J ( ) f p( Ci ), P(Ci ), i 1,2d
• J = 0 quand p(|Ci) pour i = 1 et 2 se chevauchent
• J est maximum quand il n’y a pas de chevauchement
Critères d’évaluation de caractéristiques
Basé
sur des mesures de distances probabilistes
– Les principales distances probabilistes sont:
Bhattacharyya et Patrick-Fisher
J B ln p( C1 ) p( C2 ) d
JP
1/ 2
p( C ) p( C ) d
2
1
2
1/ 2
Critères d’évaluation de caractéristiques
Basé
sur des mesures de distances probabilistes
– Les principales distances probabilistes dans leurs
formes moyenne sont:
Bhattacharyya et Patrick-Fisher
J B ln p( C1 ) P(C1 ) p( C2 ) P(C2 )
JP
1/ 2
d
p( C )P(C ) p( C )P(C ) d
2
1
1
2
2
1/ 2
Critères d’évaluation de caractéristiques
Basé
sur des mesures de distances probabilistes
– Si nous supposons que les pdf conditionnelles
sont normales alors
p( Ci )
1
det i (2 )
d
e
1
( i )T i1 ( i )
2
Critères d’évaluation de caractéristiques
Basé
sur des mesures de distances probabilistes
– La distance de Batthacharyya devient
1
1 2
1
1
2
T
1
J B 2 1 1 2 2 1 ln
4
2 1 2
Critères d’évaluation de caractéristiques
Basé
sur des mesures de distances probabilistes
– La distance de Mahalanobis est donnée par
J M 2 1 2 1 SI 1 2
T
1
Critères d’évaluation de caractéristiques
Basé
sur des mesures de distances probabilistes
– Un critère d’évaluation dans le cas multi-classe
peut être déduit par une moyenne pondérée des
distances entre 2 classes ij Jij() de la forme
m
m
J ( ) P(Ci ) P(C j ) J ij
i 1 j i 1
Critères d’évaluation de caractéristiques
Basé
sur des mesures de dépendances probabi-
listes
– La dépendance des variables aléatoires et Ci est
incorporée dans la pdf conditionnelle p(|Ci),
pour i=1,...,m
– Si et Ci sont indépendants alors p(|Ci) = p(),
ce qui veut dire que la iieme pdf conditionnelle est
identique à la pdf mixte
– Dans ces circonstances, une observation sera
difficile à classer
Critères d’évaluation de caractéristiques
Basé
sur des mesures de dépendances probabi-
listes
– Le degré de dépendance entre les variables et
Ci peut alors être donné par une distance entre la
pdf conditionnelle p(|Ci) et la pdf mixte p()
– Mesure de dépendance probabiliste (PatrickFisher)
J R P(Ci ) p( Ci ) p( ) d
m
i 1
2
1/ 2
Critères d’évaluation de caractéristiques
Basé
sur des mesures d’entropie
– Le degré de dépendance entre les variables et
Ci peut aussi être donné par des mesures d’entropie
– L’entropie mesure le degré d’incertitude. Lorsque le gain d’information est faible l’incertitude
est maximale. Si nous avons une observation et
que nous calculons P(Ci |) pour i=1,...,m, et que
P(Ci |) est équiprobable, l’incertitude est dans ce
cas maximale
Critères d’évaluation de caractéristiques
Basé
sur des mesures d’entropie
– Mesure d’entropie (Distance Bayesienne)
J Q P Ci p d
m
2
i 1
Critères d’évaluation de caractéristiques
Basé
sur des mesures de distances inter-classe
– Si nous avons un ensemble d’observations représentatives de chacune de nos classes et que nous
supposons que les observations associées à
chaque classe occupe une région distincte dans
l’espace des observations
– La distance moyenne entre les paires d’observations d’entraînement devient alors une mesure de
discrimination des classes
Critères d’évaluation de caractéristiques
Basé
sur des mesures de distances inter-classe
– Une métrique (ik,jl) permet de mesurer la
distance entre l’observation k de la iième classe et
l’observation l de la jième classe
Ni
j
m
m
1
1
– La distance moyenne J
P(Ci ) P(C j )
ik , jl
2 i 1
N i N j k 1 l 1
j 1
est donnée par
N
d
C k , l kj lj
j 1
2
E k , l kj lj
j 1
d
1/ 2
Sélection des caractéristiques
Basé
sur le mérite individuel
– Si nous avons un ensemble de caractéristiques yj
pour j=1,...,D, à partir d’un sous-ensemble de
caractéristiques de cardinalité d nous cherchons le vecteur de caractéristiques optimal X
– Pour trouver ce vecteur X il faut alors considérer
D!/(D-d)!d! combinaisons de vecteurs de caractérisques ce qui est excessif
Sélection des caractéristiques
Basé
sur le mérite individuel
– Si nous avons m=2 (2 classes) avec des pdf
conditionnelles p(|Ci) distribuées de façon
normale avec 1=2 sur la diagonale (les
mesures sont indépendantes) la distance de
Mahalanobis s’exprime alors par
d
J M
j 1
1j
2 j
2
jj
Sélection des caractéristiques
Basé
sur le mérite individuel
– La contribution de chaque mesure pour la discrimination des classes est indépendantes des autres
mesures
– Nous pouvons alors sélectionner les d meilleures
caractéristiques en sélectionnant les d meilleures
mesures individuelles
Sélection des caractéristiques
Basé
sur le mérite individuel
– Procédure
• Calculer JM(yj), pour j=1,2...,D et les classer selon un
ordre décroissant
JM(y1) > JM(y2) > .... > JM(yD)
• Le meilleur vecteur de caractéristiques X = {yj|j=1,...,d}
Sélection des caractéristiques
Basé
sur une sélection séquentielle avant SFS et
arrière SBS
– La méthode SFS est buttom-up. Partant d’un
ensemble vide nous sélectionnons comme première caractéristique celle qui discrimine le
mieux nos classes
– À chaque itération, nous choisissons une
caractéristique qui jumelée à celle trouvées aux
étapes précédentes permet une discrimination
maximale des classes
Sélection des caractéristiques
Basé
sur une sélection séquentielle avant SFS et
arrière SBS
– L’algorithme SFS
• Initialisation X0 =
• Si nous avons sélectionné k caractéristiques de l’ensemble des mesures Y = {yj|j=1,...,D} pour produire le vecteur
de caractéristiques Xk.
• La (k+1)ième caractéristique est alors choisie à partir de
l’ensemble des mesures disponibles Y - Xk tel que
J(Xk+1) = max J(Xk yj), yj Y - Xk.
Sélection des caractéristiques
Basé
sur une sélection séquentielle avant SFS et
arrière SBS
– La méthode SBS est top-down. Partant de l’ensemble des mesures Y nous éliminons alors une
mesure à la fois
– À chaque itération, nous éliminons une caractéristique qui diminue peu le critère J(). Ce qui
veut dire que cette caractéristique contribue faiblement à la discrimination des classes
Sélection des caractéristiques
Basé
sur une sélection séquentielle avant SFS et
arrière SBS
– L’algorithme SBS
• Initialisation XD = Y
• Si nous avons éliminé k caractéristiques de l’ensemble
des mesures Y = {yj|j=1,...,D} pour produire le vecteur de
caractéristiques XD-k.
• La (k+1)ième caractéristique à éliminer est alors choisie à
partir de l’ensemble des mesures disponibles XD-k tel que
J(XD-k-1) = max J(XD-k - yj), yj XD-k.
Sélection des caractéristiques
Basé
sur une sélection séquentielle avant SFS et
arrière SBS
– L’algorithme SFS est sous optimal
• Aucun mécanisme ne permet d’éliminer une caractéristique qui devient superflue après l’inclusion d’autres caractéristiques
– De même, l’algorithme SBS est aussi sous
optimal
• Aucun mécanisme ne permet de rajouter une caractéristique éliminer
Sélection des caractéristiques
Basé
sur l’algorithme Plus l-Take Away r
– Nous pouvons réduire les problèmes de sous
optimalité dénoté dans les méthodes SFS et SBS
par un processus d’alternance d’ajout et de retrait
de caractéristiques
– Après avoir ajouté l caractéristiques à l’ensemble
des caractéristiques courante, r caractéristiques
sont alors retirée
– La dimension de l’ensemble des caractéristiques
change alors de l-r
Sélection des caractéristiques
Basé
sur l’algorithme Plus l-Take Away r
– Ce processus continu jusqu’à ce que la dimension requise soit atteinte
– Si l > r la sélection progresse de façon
BUTTOM-UP et TOP-DOWN si l < r
Sélection des caractéristiques
Basé
sur l’algorithme Plus l-Take Away r
– L’algorithme Plus l-Take Away r (l > r)
– Si nous avons Xk l’ensemble des caractéristiques
actuelles
• Appliquer SFS l fois pour générer un ensemble Xk+l
• Appliquer SBS r fois pour générer un ensemble Xk+l-r
• Continuer TANT QUE k + l - r != d
Sélection des caractéristiques
Basé
sur l’algorithme Plus l-Take Away r
– L’algorithme Plus l-Take Away r (l < r)
– Si nous avons Xk l’ensemble des caractéristiques
actuelles
• Appliquer SBS r fois pour générer un ensemble Xk-r
• Appliquer SFS l fois pour générer un ensemble Xk-r+l
• Continuer TANT QUE k - r + l != d
Cas
particulier
– (l,r)=(l,0) => algorithme SFS
– (0,r) => algorithme SBS
Sélection des caractéristiques
Basé
sur l’algorithme MIN-MAX
– La sélection est basée sur le mérite des caractéristiques prises individuellement ou par paire
– Supposons que nous avons déjà sélectionné k caractéristiques, nous pouvons alors évaluer le mérite de
l’ensemble de caractéristiques restantes Y-Xk en
déterminant la quantité d’information nouvelle
quelles ajoutent si elles sont ajoutées à l’ensemble
des caractéristiques
Sélection des caractéristiques
Basé
sur l’algorithme MIN-MAX
– La quantité d’information nouvelle ajoutée de l’ajout
d’une caractéristique yj Y - Xk à une autre xl Xk
est donnée par:
J ( y j , xl ) J ( y j , xl ) J ( xl )
Sélection des caractéristiques
Basé
sur l’algorithme MIN-MAX
– Nous cherchons alors une caractéristique yj dont
l’ajout d’information est grand pour toutes les
caractéristiques Xk
– Nous cherchons yj qui maximise pour tout les j le
minimum de J(yj,xl) pour tout les l
Sélection des caractéristiques
Basé
sur l’algorithme MIN-MAX
– Algorithme MIN-MAX
• Si xk est l’ensemble des caractéristiques courantes. Nous
cherchons la caractéristique Xk+1 = yj Y - Xk qui satisfait
J ( xk 1 , xr ) max min J ( y j , xl ), xl X k
j
l