RÉSEAUX DE NEURONES À BASE RADIALE INTRODUCTION Une fonction de base radiale (FBR) dépend de manière non croissante de la distance entre la.
Download
Report
Transcript RÉSEAUX DE NEURONES À BASE RADIALE INTRODUCTION Une fonction de base radiale (FBR) dépend de manière non croissante de la distance entre la.
RÉSEAUX DE NEURONES À BASE
RADIALE
INTRODUCTION
Une fonction de base radiale (FBR) dépend de manière non croissante
de la distance entre la variable indépendante et un vecteur de
référence.
Les FBRs représentent des récepteurs locaux; dans la figure, chaque
point vert est un vecteur de référence pour une FBR.
Un réseau à base radiale contient une couche cachée constituée de
FBRs. Une unité de sortie réalise la combinaison linéaire de leurs
sorties.
w3
w2
w1
Les coordonnées du point noir sont
“interpolées” à l’aide de celles des trois points
verts, dont la contribution individuelle de
chacun dépend de sa distance du point noir et
de son poids w. Dans l’illustration :
w1 w3 w2
ARCHITECTURE RBR
x1
1
w1
x2
y
m1
xm
Couche tampon
wm1
Couche de sortie ;
Couche cachée ; les « poids » combinateur linéaire.
sont les coordonnées
Peut être suivi d’une
des centres des FBR
fonction de sortie au besoin
Couche cachée : fonction d’activation/sortie FBR
Unité de sortie : fonction d’activation/sortie linéaire.
1...m1 Sont généralement des gaussiennes
y w11 (|| x t1 ||) ... wm1m1 (|| x tm1 ||)
|| x t || est la distanceentre x ( x1 ,...,xm )
et le vecteur t ( t1 ,...,tm )
MODÈLE DES UNITÉS CACHÉES
Unités
cachées : Utilisent des FBR
φ( || x - t||)
La sortie dépend de la distance entre
L’entrée x et le centre t
x1
x2
xm
φ( || x - t||)
t est le centre
est l’étendue
t et sont à déterminer
PROPRIÉTÉS DES UNITÉS CACHÉES
Un neurone caché est plus sensible aux
entrées situées proche de son centre.
Pour un FBR de type gaussien, la sensibilité
est réglée à l’aide du paramètre d’étendue
, pour lequel une valeur plus grande
signifie moins de sensibilité.
Plausibilité biologique: Les cellules
cochléaires stéréociliaires du système
auditif possèdent des réponses qui sont
optimales pour des bandes de fréquences
données.
centre
grand
petit
DIFFÉRENTES SORTES DE FBR
Multiquadriques
c0
(r) (r c )
2
Multiquadriques
2
1
2
inverses
1
( r ) 2 2 12
(r c )
Gaussiennes
(les plus utilisées)
r2
( r ) exp 2
2
r || x t ||
ILLUSTRATION DU RÔLE DE LA COUCHE
CACHÉE
f(.)
f( )
f( )
f( )
f( ) f( ) f( )
f( )
f( )
f( )
f( ) f( )
f( )
f( )
f( )
f( )
f( )
f( )
f( )
EXEMPLE: LE PROBLÈME DU OU-X
Espace simuli
(problème) :
x2
(0,1)
(1,1)
(0,0)
(1,0)
0
1
x1
y
Espace réseau
(solution) :
Construire un classifieur RBR tel que :
(0,0) et (1,1) sont projetés sur 0 (classe C1)
(1,0) et (0,1) sont projetés sur 1 (classe C2)
LE PROBLÈME DU OU-X (2)
Dans l’espace des traits (couche cachée) :
1 (|| x t1 ||) e
|| x t1 ||2
2 (|| x t2 ||) e ||x t ||
2
où t1 ( 1,1 ) et t2 ( 0 ,0 )
2
x1
x2
t1
φ2
-1
y
t2
-1
(0,0)
1.0
0.5
(1,1)
+1
y e||x t1|| e||x t2|| 1
2
2
Si y 0 alors C1 ; sinonC0
(0,1) et (1,0)
Frontière de
décision
0.5
1.0
φ1
Une fois projetées dans la couche cachée, C1 and C2 deviennent
linéairement séparables, permettant au classifieur linéaire à la sortie de
prendre 1(x) and 2(x) comme entrées et donner la bonne sortie OU-X.
PARAMÈTRES D’UN RÉSEAU RBR
Que doit-on connaître (apprendre) pour un réseau RBR
donné ?
Le nombre de FBR
Les centres des FBR
Les étendues des FBR
Les poids entre la couche cachée et la couche de sortie
Plusieurs algorithmes d’apprentissage sont possibles
ALGORITHME D’APPRENTISSAGE 1
Centres
: sélectionnés aléatoirement
Les centres sont choisis aléatoirement en partant de l’ensemble
d’apprentissage
Étendues:
déterminées par normalization :
Distancem ax.entre deux centres arbitraires dmax
m
nom breof centres
1
fontion d’activation/sortie d’un neurone caché i
est alors :
La
i x ti
2
m1
exp 2 x ti
2dmax
2
ALGORITHME D’APPRENTISSAGE 1
Poids:
Déterminés par la méthode de la matrice
pseudo-inverse :
Considérons la sortie du réseau pour la paire
d’apprentissage ( xi , di ) :
y( xi ) w11(|| xi t1 ||) ... wm1m1(|| xi tm1 ||)
Nous voulons avoir y( xi ) di pour chaque xi :
w11(|| xi t1 ||) ... wm1m1 (|| xi tm1 ||) di
ALGORITHME D’APPRENTISSAGE 1
On
peut réécrire les équations précédentes :
1(|| xi t1 ||) ...m1(|| xi tm1 ||) [ w1 ...wm1 ]T di
pour un exemple d’apprentissage xi donné, et
1 (|| x1 t1 ||)... m1 (|| x1 tm1 ||)
...
[ w ...w ]T [d ...d ]T
1
N
1 m1
1 (|| x N t1 ||)... m1 (|| x N tm1 ||)
pour tous les exemples simultanément
ALGORITHME D’APPRENTISSAGE 1
Si on pose
1 (|| x1 t1 ||) ... m1 (|| xN tm1 ||)
...
1 (|| x N t1 ||) ... m1 (|| xN tm1 ||)
w1 d1
... ...
wm1 d N
Alors on a :
et
[w1...wm1 ] [d1...d N ]
T
T
où est la matrice pseudo-inverse de
Principe du pseudo inverse
Soit un vecteur X = (X1…Xp) et une relation linéaire :
Règle des moindres carrés :
min
RÉSUMÉ DE L’ALGORITHME
1. Choisir les centres aléatoirement à partir de
l’ensemble d’apprentissage.
2. Déterminer les étendues des FBR en utilisant la
méthode de normalisation.
3. Trouver les poids de sortie en utilisant la
méthode de la pseudo-inverse.
ALGORITHME D’APPRENTISSAGE 2
Centres : déterminés par un l’algorithme de groupement des k
moyennes adaptatif
Initialisation: tk(0) aléatoire k = 1, …, m1
2 Échantillonnage : on tire x dans l’espace d’apprentissage
3 Appariement par similarité: trouver l’index du centre le plus proche de x
1
k(x) arg mink x(n) t k (n)
4
Mise à jour : adaptation des centres
t k ( n 1)
5
t k (n) x(n) t k (n)
t k ( n)
if k k(x)
otherwise
Continuation: n=n+1, aller à 2 et continuer jusqu’à ce que les centres se
stabilisent (changent peu).
ALGORITHME D’APPRENTISSAGE 2
Étendues : déterminés par un algorithme basés sur les plus P
plus proches voisins
1.
2.
Un nombre P est choisi, et pour chaque centre, les P centres les plus
proches sont déterminés.
La distance quadratique moyenne entre le centre courant et les
centres de ses P plus proches voisins est calculée, et est utilisée
comme valeur de .
Si le centre du groupe courant est cj, la valeur de est :
1 P
2
j
(
c
c
)
k i
P i 1
Une valeur typique pour P est 2, auquel cas est la distance moyenne entre
les deux plus proches centroÍdes voisins.
RÉSUMÉ DE L’ALGORITHME
Processus
d’apprentissage hybride:
Algorithme de groupement pour trouver les centres.
Étendue fixée par normalisation des distances entre P
plus proches voisins.
Poids déterminés par un algorithme de moindres
carrés (e.g. Adaline)
ALGORITHME D’APPRENTISSAGE 3
Appliquer la technique de descente de gradient pour trouver
aussi bien les centres, les étendues et les poids, de manière à
minimiser l’erreur quadratique
1
E ( y ( x ) d )2
2
Centres
Étendues
Poids
E
t j t j
tj
E
j j
j
E
w ij ij
w ij
COMPARAISON RBR-PMC
Tous les deux approximateurs universels de
fonctions L2.
Réseaux non récurrents à couches multiples.
RBR surtout utilisé pour la régression et la
classification binaire.
RBR apprend plus vite que PMC
La couche cachée RBR est souvent plus facile à
interpréter que celle d’un PMC
Après apprentissage, les réseaux RBR sont
généralement plus lents en phase de rappel.
COMPARAISON RBR-PMC
Architecture:
RBR possède une seule couche
cachée.
PMC peut posséder plus d’une
couche cachée.
Dans PMC, le modèle de
neurone dans les différentes
couches peut être le même.
Dans PMC, toutes les couches
peuvent être non-lineaires.
Modèle de neurone:
Dans RBR, le modèle des
neurones cachés est différent de
celui des neurones de sortie.
La couche cachée dans RBR est
non-linéaire, celle de sortie est
linéaire.
COMPARAISON RBR-PMC
Fonctions de sortie :
Dans RBR, l’argument d’une FBR de la couche cachée est la
distance (euclidienne ou autre) entre un vecteur d’entrée et le
centre de l’unité.
Dans PMC, l’argument d’un neurone caché est le produit scalaire
d’un vecteur d’entrée et du vecteur des poids synaptiques qui
alimentent le neurone.
Approximation:
Les réseaux RBR construisent généralement une approximation
locale de projections non-linéaires. Peuvent demander plus de
ressources mais mènent à des représententations terses et linéairement
decodables.
Les réseaux PMC construisent une approximation globale des
mêmes projections. Peuvent êter difficiles à interpréter.
APPLICATION: RECONNAISSANCE DE
VISAGES
Le problème :
Reconnaitre des visages de personnes faisant partie
d’un groupe dans un environnement intérieur.
L’approche:
Apprendre les différentes classes, chacune représentant
des poses diverses d’un même visage en utilisant un
réseau RBR.
DONNÉES
Base
de données
100 images de 10 personnes (tons de gris sur 8 bits,
résolution de 384 x 287)
Pour chaque individu, 10 images de la tête vue de face et
de profil
Conçue pour évaluer la performance de techniques de
reconnaissance du visage en présence de variations de
l’angle de prise de vue.
DONNÉES
Images des classes
0-3 de la base de
données Sussex,
centrées sur le nez
et réduites à un
format de 25x25
avant traitement
APPROCHE: RBR POUR CHAQUE
VISAGE
Un
réseau RBR par personne est utilisé pour
reconnaître le visage de la personne.
L’apprentissage
utilise des exemples d’images
de la personne à reconnaître comme évidence
positive et des images d’autres personnes
pouvant prêter à confusion comme évidence
négative.
ARCHITECTURE DU RÉSEAU
La couche d’entrée contient 25*25 entrées répréseantant
les intensités (normalisées) des pixels d’une image.
La couche cachée contient p+a neurones:
p neurones cachés pro (récepteur pour évidence positive)
a neurones cachés con (récepteurs for évidence negative)
La couche de sortie contient deux neurones:
Un pour la personne visée.
Un pour toutes les autres.
Le résultat est ignoré si la différence absolue entre les sorties des
deux neurones est inférieure à un seuil R.
ARCHITECTURE POUR RECONNAÎTRE
UN VISAGE
Unités de sortie
linéaires
Supervisé
Unités FBR
Non-linéaires
Non supervisé
Unités d’entrée
COUCHE CACHÉE
Les unités cachées peuvent être :
Neurones pro : Évidence positive pour la
personne.
Neuones anti : Évidence négative pour la
personne.
Le nombre de neurones pro est égal aux exemples
positifs dans l’ensemble d’apprentissage. À chaque
Neurone pro correspondent un ou deux neurones anti.
Modèle de neurone caché : FBR gaussienne.
APPRENTISSAGE ET TEST
Centres:
d’un neurone pro : l’exemple positif correspondant
D’un neurone anti : l’exemple négatif le plus similaire au neurone
pro correspondant, en utilisant une distance euclidienne.
Étendue : distance moyenne entre le centre du neurone et
tous les autres centres. L’étendue n d’un neurone caché
est donc
1
n
H 2
n
h
||
t
t
||
h
i
t
où H est le nombre de neurones cachés et est le centre
du neurone i .
Poids: déterminés par la méthode du pseudo inverse.
Un réseau RBR avec 6 neurones pro, 12 neurones anti, et R
égal à 0.3, rejeta 23 % des images de l’ensemble de test et
classa correctement 96 % des images retenues.