RECONNAISSANCE DE FORMES IAR-6002

Download Report

Transcript RECONNAISSANCE DE FORMES IAR-6002

RECONNAISSANCE DE
FORMES
IAR-6002
Sélection et/ou extraction des
caractéristiques
 Introduction
 Critères
d’évaluation de caractéristiques
 Sélection des caractéristiques
 Extraction des caractéristiques
Introduction
 Le
but recherché par la sélection et l’extraction
des caractéristiques est de diminuer le plus possible le nombre de caractéristiques utilisées pour
représenter les formes à classifier
 De plus, nous pouvons alors estimer le pouvoir
discriminant des caractérisques permettant la
différenciation d’objets de classes distinctes
Introduction
 Nous
pouvons réduire le nombre de caractéristiques requises de deux façons:
– Une approche consiste à trouver les d caractéristiques parmi les D possibles qui discriminent le
mieux les formes à classer
Introduction
 Une
seconde approche consiste à projeter l’ensemble des caractéristiques originales dans un
autre espace de caractéristiques de dimension
inférieure (extraction de caractéristiques)
Introduction
 Pour
résoudre le problème de sélection ou
d’extraction de caractéristiques nous devons
spécifier:
– Les critères d’évaluation des caractéristiques
– La dimension des espaces de caractéristiques
– La procédure de recherche optimale
– Le type de transformation (extraction)
Introduction
 Nous
utilisons les notations suivantes:
– Caractéristiques originales yk, k = 1,2,....,D
y = [y1,y2,...,yD]T
– Chaque observation (objets, formes) y appartient
à une des m classes possibles Ci, i= 1,2,....,m
– Nous savons que l’occurrence des vecteurs y est
modélisée par un processus aléatoire représenté
par la probabilité conditionnelle p(y|Ci) et la
probabilité à priori P(Ci)
Introduction
 Nous
utilisons les notations suivantes:
– Un ensemble  contient les caractéristiques
candidates j, j=1,2,...,d
– Les caractéristiques optimales sont dénotées par
X={xj|j=1,...,d} et découle du calcul d’un critère
d’évaluation J()
– Pour la sélection, nous cherchons:
J(X) = maxJ()
qui représente les caractéristiques  qui
maximise le critère de sélection
Introduction
 Nous
utilisons les notations suivantes:
– Pour l’extraction, nous cherchons:
J(A) = maxAJ(A)
où A est un extracteur optimal
– Avec A connu nous pouvons déduire x par:
x = A(y)
Critères d’évaluation de caractéristiques
 Basé
sur la probabilité d’erreur
– Dans un espace de caractéristiques de dimension
d définit par un ensemble de caractéristiques  =
[1,...,d] la probabilité d’erreur est donnée par


P ( E )   1  max P (Ci  )  p ( ) d
i


  1 ,...,  d T
m
p ( )   p ( Ci ) P (Ci )
Pdf mixte de 
i 1
P (Ci  ) 
p ( Ci ) P (Ci )
p ( )
Pdf à posteriori
Critères d’évaluation de caractéristiques
 Basé
sur des mesures de distances probabilistes
– Le concept de distance probabiliste fait référence
à la distance entre 2 pdf et est aussi fonction du
degré de chevauchement des 2 pdf
J (  )   f  p( Ci ), P(Ci ), i  1,2d
• J = 0 quand p(|Ci) pour i = 1 et 2 se chevauchent
• J est maximum quand il n’y a pas de chevauchement
Critères d’évaluation de caractéristiques
 Basé
sur des mesures de distances probabilistes
– Les principales distances probabilistes sont:
 Bhattacharyya et Patrick-Fisher


J B   ln  p( C1 ) p( C2 ) d
JP 
1/ 2
 p( C )  p( C ) d 
2
1
2
1/ 2
Critères d’évaluation de caractéristiques
 Basé
sur des mesures de distances probabilistes
– Les principales distances probabilistes dans leurs
formes moyenne sont:
 Bhattacharyya et Patrick-Fisher

J B   ln  p( C1 ) P(C1 ) p( C2 ) P(C2 )
JP 

1/ 2
d
 p( C )P(C )  p( C )P(C ) d 
2
1
1
2
2
1/ 2
Critères d’évaluation de caractéristiques
 Basé
sur des mesures de distances probabilistes
– Si nous supposons que les pdf conditionnelles
sont normales alors
p( Ci ) 
1
det i (2 )
d
e
1
 (  i )T  i1 (  i )
2
Critères d’évaluation de caractéristiques
 Basé
sur des mesures de distances probabilistes
– La distance de Batthacharyya devient
1

1   2  

1
1
2
T
1

J B   2  1  1   2   2  1   ln 
4
2  1  2 


Critères d’évaluation de caractéristiques
 Basé
sur des mesures de distances probabilistes
– La distance de Mahalanobis est donnée par
J M   2  1    2  1  SI 1   2  
T
1
Critères d’évaluation de caractéristiques
 Basé
sur des mesures de distances probabilistes
– Un critère d’évaluation dans le cas multi-classe
peut être déduit par une moyenne pondérée des
distances entre 2 classes ij Jij() de la forme
m
m
J (  )    P(Ci ) P(C j ) J ij  
i 1 j i 1
Critères d’évaluation de caractéristiques
 Basé
sur des mesures de dépendances probabi-
listes
– La dépendance des variables aléatoires  et Ci est
incorporée dans la pdf conditionnelle p(|Ci),
pour i=1,...,m
– Si  et Ci sont indépendants alors p(|Ci) = p(),
ce qui veut dire que la iieme pdf conditionnelle est
identique à la pdf mixte
– Dans ces circonstances, une observation  sera
difficile à classer
Critères d’évaluation de caractéristiques
 Basé
sur des mesures de dépendances probabi-
listes
– Le degré de dépendance entre les variables  et
Ci peut alors être donné par une distance entre la
pdf conditionnelle p(|Ci) et la pdf mixte p()
– Mesure de dépendance probabiliste (PatrickFisher)

J R   P(Ci )   p( Ci )  p( ) d
m
i 1
2

1/ 2
Critères d’évaluation de caractéristiques
 Basé
sur des mesures d’entropie
– Le degré de dépendance entre les variables  et
Ci peut aussi être donné par des mesures d’entropie
– L’entropie mesure le degré d’incertitude. Lorsque le gain d’information est faible l’incertitude
est maximale. Si nous avons une observation  et
que nous calculons P(Ci |) pour i=1,...,m, et que
P(Ci |) est équiprobable, l’incertitude est dans ce
cas maximale
Critères d’évaluation de caractéristiques
 Basé
sur des mesures d’entropie
– Mesure d’entropie (Distance Bayesienne)
J Q    P Ci  p d
m
2
i 1
Critères d’évaluation de caractéristiques
 Basé
sur des mesures de distances inter-classe
– Si nous avons un ensemble d’observations représentatives de chacune de nos classes et que nous
supposons que les observations associées à
chaque classe occupe une région distincte dans
l’espace des observations
– La distance moyenne entre les paires d’observations d’entraînement devient alors une mesure de
discrimination des classes
Critères d’évaluation de caractéristiques
 Basé
sur des mesures de distances inter-classe
– Une métrique (ik,jl) permet de mesurer la
distance entre l’observation k de la iième classe et
l’observation l de la jième classe
Ni
j
m
m
1
1
– La distance moyenne J 
P(Ci ) P(C j )
  ik ,  jl 



2 i 1
N i N j k 1 l 1
j 1
est donnée par
N
d
 C  k ,  l     kj   lj
j 1

2
 E  k ,  l     kj   lj  
 j 1

d
1/ 2
Sélection des caractéristiques
 Basé
sur le mérite individuel
– Si nous avons un ensemble de caractéristiques yj
pour j=1,...,D, à partir d’un sous-ensemble de
caractéristiques  de cardinalité d nous cherchons le vecteur de caractéristiques optimal X
– Pour trouver ce vecteur X il faut alors considérer
D!/(D-d)!d! combinaisons de vecteurs de caractérisques ce qui est excessif
Sélection des caractéristiques
 Basé
sur le mérite individuel
– Si nous avons m=2 (2 classes) avec des pdf
conditionnelles p(|Ci) distribuées de façon
normale avec 1=2 sur la diagonale (les
mesures sont indépendantes) la distance de
Mahalanobis s’exprime alors par
d
J M    
j 1

1j
 2 j 
2
 jj
Sélection des caractéristiques
 Basé
sur le mérite individuel
– La contribution de chaque mesure pour la discrimination des classes est indépendantes des autres
mesures
– Nous pouvons alors sélectionner les d meilleures
caractéristiques en sélectionnant les d meilleures
mesures individuelles
Sélection des caractéristiques
 Basé
sur le mérite individuel
– Procédure
• Calculer JM(yj), pour j=1,2...,D et les classer selon un
ordre décroissant
JM(y1) > JM(y2) > .... > JM(yD)
• Le meilleur vecteur de caractéristiques X = {yj|j=1,...,d}
Sélection des caractéristiques
 Basé
sur une sélection séquentielle avant SFS et
arrière SBS
– La méthode SFS est buttom-up. Partant d’un
ensemble vide nous sélectionnons comme première caractéristique celle qui discrimine le
mieux nos classes
– À chaque itération, nous choisissons une
caractéristique qui jumelée à celle trouvées aux
étapes précédentes permet une discrimination
maximale des classes
Sélection des caractéristiques
 Basé
sur une sélection séquentielle avant SFS et
arrière SBS
– L’algorithme SFS
• Initialisation X0 = 
• Si nous avons sélectionné k caractéristiques de l’ensemble des mesures Y = {yj|j=1,...,D} pour produire le vecteur
de caractéristiques Xk.
• La (k+1)ième caractéristique est alors choisie à partir de
l’ensemble des mesures disponibles Y - Xk tel que
J(Xk+1) = max J(Xk  yj), yj  Y - Xk.
Sélection des caractéristiques
 Basé
sur une sélection séquentielle avant SFS et
arrière SBS
– La méthode SBS est top-down. Partant de l’ensemble des mesures Y nous éliminons alors une
mesure à la fois
– À chaque itération, nous éliminons une caractéristique qui diminue peu le critère J(). Ce qui
veut dire que cette caractéristique contribue faiblement à la discrimination des classes
Sélection des caractéristiques
 Basé
sur une sélection séquentielle avant SFS et
arrière SBS
– L’algorithme SBS
• Initialisation XD = Y
• Si nous avons éliminé k caractéristiques de l’ensemble
des mesures Y = {yj|j=1,...,D} pour produire le vecteur de
caractéristiques XD-k.
• La (k+1)ième caractéristique à éliminer est alors choisie à
partir de l’ensemble des mesures disponibles XD-k tel que
J(XD-k-1) = max J(XD-k - yj), yj  XD-k.
Sélection des caractéristiques
 Basé
sur une sélection séquentielle avant SFS et
arrière SBS
– L’algorithme SFS est sous optimal
• Aucun mécanisme ne permet d’éliminer une caractéristique qui devient superflue après l’inclusion d’autres caractéristiques
– De même, l’algorithme SBS est aussi sous
optimal
• Aucun mécanisme ne permet de rajouter une caractéristique éliminer
Sélection des caractéristiques
 Basé
sur l’algorithme Plus l-Take Away r
– Nous pouvons réduire les problèmes de sous
optimalité dénoté dans les méthodes SFS et SBS
par un processus d’alternance d’ajout et de retrait
de caractéristiques
– Après avoir ajouté l caractéristiques à l’ensemble
des caractéristiques courante, r caractéristiques
sont alors retirée
– La dimension de l’ensemble des caractéristiques
change alors de l-r
Sélection des caractéristiques
 Basé
sur l’algorithme Plus l-Take Away r
– Ce processus continu jusqu’à ce que la dimension requise soit atteinte
– Si l > r la sélection progresse de façon
BUTTOM-UP et TOP-DOWN si l < r
Sélection des caractéristiques
 Basé
sur l’algorithme Plus l-Take Away r
– L’algorithme Plus l-Take Away r (l > r)
– Si nous avons Xk l’ensemble des caractéristiques
actuelles
• Appliquer SFS l fois pour générer un ensemble Xk+l
• Appliquer SBS r fois pour générer un ensemble Xk+l-r
• Continuer TANT QUE k + l - r != d
Sélection des caractéristiques
 Basé
sur l’algorithme Plus l-Take Away r
– L’algorithme Plus l-Take Away r (l < r)
– Si nous avons Xk l’ensemble des caractéristiques
actuelles
• Appliquer SBS r fois pour générer un ensemble Xk-r
• Appliquer SFS l fois pour générer un ensemble Xk-r+l
• Continuer TANT QUE k - r + l != d
 Cas
particulier
– (l,r)=(l,0) => algorithme SFS
– (0,r) => algorithme SBS
Sélection des caractéristiques
 Basé
sur l’algorithme MIN-MAX
– La sélection est basée sur le mérite des caractéristiques prises individuellement ou par paire
– Supposons que nous avons déjà sélectionné k caractéristiques, nous pouvons alors évaluer le mérite de
l’ensemble de caractéristiques restantes Y-Xk en
déterminant la quantité d’information nouvelle
quelles ajoutent si elles sont ajoutées à l’ensemble
des caractéristiques
Sélection des caractéristiques
 Basé
sur l’algorithme MIN-MAX
– La quantité d’information nouvelle ajoutée de l’ajout
d’une caractéristique yj  Y - Xk à une autre xl  Xk
est donnée par:
J ( y j , xl )  J ( y j , xl )  J ( xl )
Sélection des caractéristiques
 Basé
sur l’algorithme MIN-MAX
– Nous cherchons alors une caractéristique yj dont
l’ajout d’information est grand pour toutes les
caractéristiques Xk
– Nous cherchons yj qui maximise pour tout les j le
minimum de J(yj,xl) pour tout les l
Sélection des caractéristiques
 Basé
sur l’algorithme MIN-MAX
– Algorithme MIN-MAX
• Si xk est l’ensemble des caractéristiques courantes. Nous
cherchons la caractéristique Xk+1 = yj Y - Xk qui satisfait
J ( xk 1 , xr )  max min J ( y j , xl ), xl  X k
j
l