DIC9315/Notes/NN/chaos - LabUnix

Download Report

Transcript DIC9315/Notes/NN/chaos - LabUnix

Application d’une mémoire associative
bidirectionnelle à fonction de sortie
chaotique à la reconnaissance
d’expressions faciales
Karima Tabari1, Mounir Boukadoum1, Sylvain Chartier2,3, Hakim Lounis1
1Université
du Québec à Montréal, 2Université du Québec en Outaouais,
3Institut Philippe-Pinel de Montréal
Motivation



Les émotions de l’apprenant sont un facteur
important pour un système tutoriel intelligent
Les émotions sont souvents exprimées à l’aide
d’expressions faciales
La reconnaissance des expressions faciales demande
habituellement des algorithmes complexes, dont les
résultats ne sont pas parfaits
Quelques approches



Transformée en ondelettes
de Gabor sur 34 points
Analyse de corrélation en
phase de rappel
75-85% de réussite




Vecteurs propres de regions
choisies
Prétraitement par ACP
MLP avec 1 couche cachée
86% de réussite
Les mémoire associatives


D’un grand intérêt théorique pour expliquer les
capacités d’association du cerveau humain
Un nouveau modèle corrige plusieurs limitations des
mémoires associatives classiques (e.g. apprentissage
binaire).

Architecture récurrente à fonction de sortie chaotique
Topologie du modèle


Les dimensions des couches X et Y n’ont pas à être égales
V n’est pas la transposée de W
Règle d’apprentissage
W( k  1)  W( k )  [ y (0) x(0) y (0) x(t )  y (t ) x(0)  y (t ) x(t ) ]
T
T
T
T
 W( k  1)  W( k )  [ y (0)  y (t )][ x(0)  x(t )]
T
La règle d’apprentissage est interactive
V ( k  1)  V ( k )  [ x(0) y (0) x(0) y (t )  x(t ) y (0)  x(t ) y (t ) ]
T
T
T
 V ( k  1)  V ( k )  [ x(0)  x(t )][ y (0)  y (t )]
T
T
Règle d’apprentissage
W( k  1)  W( k )  [ y (0) x(0) y (0) x(t )  y (t ) x(0)  y (t ) x(t ) ]
T
T
T
T
 W( k  1)  W( k )  [ y (0)  y (t )][ x(0)  x(t )]
T
Les matrices synaptiques convergent lorsque entrées = sorties
V ( k  1)  V ( k )  [ x(0) y (0) x(0) y (t )  x(t ) y (0)  x(t ) y (t ) ]
T
T
T
 V ( k  1)  V ( k )  [ x(0)  x(t )][ y (0)  y (t )]
T
T
Fonction de sortie

Carte cubique dans [-1,1] :

1, If ai[t ]  1

 i, ..., N , y i[t 1]  f (ai[t ] )  
1, If ai[t ]  1
(  1)a   a3 , autrement
Else
i[ t ]
i[ t ]

Algorithme d’apprentissage
1- Sélection aléatoire d’une paire (x[0], y[0])
2- Calcul de x[t] et y[t] selon la nouvelle règle de sortie.
3- Mise à jours des poids selon la règle
d’apprentissage.
4- Répétition des étapes 1 to 3 jusqu’à la convergence
de la matrice des poids.
Ensemble d’apprentissage

Base de données CAFE (California Facial
Expressions)



Images photographiques des visages de 50 sujets
7 images par sujet reflétant les émotions (en
colère, dégoûté, heureux, triste, craintif, neutre,
surpris).
380x240 pixels par image, 8 bit de profondeur
Exemple de 5 sujets, 4 émotions
Méthodologie




Taille des images réduite à 95x60 pixels
Tons de gris normalisés entre [-1, 1]
Paramètre d’apprentissage =0.1 et
=0.00115 (région non chaotique)
Étude de performance pour des prototypes,
face au bruit gaussien, à inversion de pixels, à
la rotation et aux patrons partiellement
masqués
Bruit gaussien (30dbW)
Inversion de pixels (20%)
Rotation (20o)
Résultats

Convergence après 15-17 époques
d’apprentissage (300-340 présentations)
pour des vecteurs d’entrée de de 5700
éléments (95x60 pixels)
Résultats
Bruit
Rappel correct (%)
Nil
100
Gaussien (30 dBW)
100
Inversion de pixels (20%)
100
Inversion de pixels (40%)
100
Inversion de pixels (50%)
60
Inversion de pixels (60%)
15
Inversion de pixels (>60%)
0
Masque 1
100
Masque 2
100
Rotation (10o)
30
Rotation (20o)
35
Généralisation pour CAFE
100
FN 10%
70
60
FN 20%
50
40
FN 40%
30
20
FN 60%
FN 30%
FN 50%
gu
st
ed
Di
s
l
Fe
ar
fu
Su
rp
ris
e
Sa
d
FN 70%
Ha
pp
y
Ne
ut
er
10
0
An
ge
r
Success rate
90
80
Généralisation pour CAFE
70
50
40
Rot-10 degree
30
Rot-20 degree
20
Su
rp
ris
e
Fe
ar
fu
l
Di
sg
us
te
d
Sa
d
0
Ha
pp
y
Ne
ut
er
10
An
ge
r
Success rate
60
Généralisation pour CAFE
70
60
50
40
GN 0-30%
30
20
10
0
GN 99%
GN 40%
GN 60%
Fe
ar
fu
l
Di
sg
us
te
d
Su
rp
ris
e
Sa
d
Ne
ut
er
GN 80%
Ha
pp
y
An
ge
r
Success rate
100
90
80
Discussion et conclusion





Pour le bruit gaussien, et le bruit par inversion de pixels d’intensité faible
à modérée (<40%), le taux de reconnaissance est 100 %.
Le réseau a pu identifier la bonne lettre à associer malgré la suppression
de la région oculaire, une région importante pour l'identification des
émotions.
Les résultats pour l’ensemble complet des émotions et un nombre plus
élevé de sujets révèlent une excellente capacité de mémoire.
La propriété précédente peut être mise à profit pour pallier à la faible
performance du réseau pour des images tournées, qui peuvent être
apprises comme des patrons distincts.
Les résultats obtenus sont surprenants en égard à la simplicité relative de
notre architecture.
Peut-on faire mieux ?