Une Approche Géométrique Globale pour la Réduction de Dimensionnalité non-linéaire

Download Report

Transcript Une Approche Géométrique Globale pour la Réduction de Dimensionnalité non-linéaire

Une Approche Géométrique
Globale pour la Réduction de
Dimensionnalité non-linéaire
A Global Geometric Framework for Nonlinear Dimensionality
Reduction
Joshua B. Tenenbaum, Vin de Silva, John C. Langford
Science, vol.290 22 décembre 2000
Présentation ISOMAP: Plan













Rappel dernière présentation: problèmes de dimensionnalité
Rappel cerveau humain
Récapitulation des méthodes de réduction
dimensionnalité PCA et Fisher, MDS, LLE
MDS classique, Least squares
ISOMAP
Description de l’algorithme
Fonctions de coût
Temps d’exécution et analyse asymptotique
ISOMAP vs LLE
Résultats et exemples d’utilisation
Sous-problèmes: eigenvalues-eigenvectors, ARPACK, algèbre linéaire
Conclusion, classification
Références
Rappel dernière présentation






disciplines scientifiques: données à distribution multivariée
Problèmes de vision, d’analyse, de reconnaissance: haute
dimension (climatologie, génome, spectre stellaire)
Prémices: étude de structures cohérentes impliquent structures
inhérentes de dimensionnalité moindre
Distributions localisées sur/près d’un hyperplan(ang. manifold)
lisse de dimensionnalité réduite.
La classification et la comparaison(raisonner) de ces
observations dépends de façon cruciale sur la modélisation de
ces hyperplans réduits
Réduction dimensionnelle extrême: classification!
Rappel cerveau humain



Le cerveau humain: réduit la dimensionnalité de problèmes
quotidiennement en une fraction de seconde (reconnaissance
de visages, de textures, de lettres, de mots… etc. Même sans
s’en rendre compte: sonnette et téléphone)
Neurobiologie: 30 000 nerds auditifs et 1 000 000 nerds visuel,
pourtant nous extrayons un sous-ensemble relativement petit
d’informations importantes au plan perception.
Le but pour le scientifique est donc similaire: de réduire(projeter)
des problèmes à haute dimensionnalité dans une
dimensionnalité minimale tout en gardant le maximum de
modes de variabilité dans les données, afin de les traiter avec
des alglos qui fonctionnent en temps raisonnable avec ces
dimensions réduites (SVM, réseaux multicouches, etc…)
Récapitulation sur méthodes linéaires
vues:PCA, Fisher, MDS

LINEAIRE


PCA et MDS: Méthodes de projection
sur des hyperplans linéaires qui ne
tiennent pas compte de la
séparabilité des classes
Fisher: Méthode de projection sur des
hyperplans linéaires qui tient compte
de la séparabilité des classes
Récapitulation sur méthodes non-linéaires
vues:LLE, réseau tronqué et ISOMAP

NON-LINEAIRE


LLE, réseau tronqué et ISOMAP : Méthodes de projection sur des
hyperplans non-linéaires qui ne tiennent pas compte de la séparabilité des
classes
Méthodes de projection sur des hyperplans non-linéaires qui tiennent
compte de la séparabilité des classes: n’existent pas !!!?!??
Classical Multi-Dimensional
Scaling





Tente de conserver dans l’ensemble des dimensions originales
les distances euclidiennes relatives et reconstruire l’ensemble
dans une dimension moindre en respectant ces contraintes
Young et Householder(1938) Torgerson(1952)
Applications en génie: stress sur les matériaux, etc.
Eigenvalues, Eigenvectors, algèbre linéaire, moindres carrés
Si on utilise des distances non euclidienne –non-linéaire,
approximation géodésique: ISOMAP
Qu’est-ce que ISOMAP

Une technique de réduction de
dimensionnalité non-linéaire qui tient compte
de l’ensemble des données
 Calcule la distance a des voisins (K-plus
proche ou radius) et calcule par la suite les
plus courts chemins de tout les points à tout
les points
 Une extension de MDS, mais linéarité locale
seulement
ISOMAP: Algorithme

1-Construit un graphe de voisinage:


2-Calcule les plus courts chemins:


On définie un Graph G sur tout les points en connectant les points i
et j si (mesuré par dx(i,j)) ils sont plus proche que ε (ε-Isomap) ou si
i est un k plus proche voisin (k-Isomap). On la longueur des arc est
dx(i,j)
Initialise dG(i,j)=dx(i,j) si i et j partagent un arc,  sinon. Pour tout k
1ànon remplage tout les dG(i,j) par min{dG(i,j), dG(i,k)+dG(k,j)}, G
contient les plus courts chemins point à point.
3-Construit la réduction en d-dimension

Soit p est le p-ieme eigenvalue (en ordre décroissant) (DG) et vip
le i-ième élement du p-ième eigenvector; On donne au p-ième
composante du vecteur yi de coordonée en (petit)d-dimension la
valeur: racine(p vip). (MDS)
Fonction de coût
 En
reconstruisant on minimise:
Temps d’exécution et analyse
asymptotique
Etape 2 couteuse: O(n3) algo dans matlab:
floyd, malgré que dijkstra donne de meilleurs
résultats pcq la matrice est éparse,avec
matlab on ne peut pas gerer la memoire…
Code en C++ de l’auteur beaucoup plus
rapide
 Temps d’execution de floyd dans matlab avec
1000 points du “tapis”(3D à 2D) sur mon PC:
(PIII 650 512Mb RAM) 10 minutes!
 Dijkstra en C++ de l’auteur: 40 secondes

ISOMAP vs LLE

Utilisent tous deux en eigensolver pour la
matrice calculé
 ISOMAP calcule toutes les distances
 LLE ne regarde que localement plus rapide
mais moins précis
 ISOMAP plus lent mais converge dans plus
de cas pcq precedent
 Approches similaires LLE local, ISOMAP
global
Résultats
Résultats
Résultats
Résultats
 Approximation
de la distance
geodesique de l’hyperplan de
dimensionnalité deduite
Exemples 4096-3D
Exemple 4096-2D
Details
 A.
3D ligne =
angle
 B.4D ligne =
mouvement
 C. 6D ligne =
trait du crayon,
vrai degre de
liberté
Variance résiduelle

MDS(triangles et cercles) PCA(triangles dans D A: images de faces
sous differentes conditions d’eclairage B:roule suisse C: Mains D: 2
Sous-problèmes
 Algebre
lineaire complexe et CPU
intensive(étape 3)
 Eigensolve pour trouver les eigenvalues
et eigenvectors: ARPACK 3.0 (sous
matlab) encore en FORTRAN
 Plutôt dur a parallèliser
Conclusion


Techniques très interessantes pour les cas ou PCA
ou MDS ne donnent pas de bon résultats parce qu’on
a une structure sous-jacente non-linéaire
Pourrait mener à une meilleure compréhension de
comment le cerveau humain représente l’apparence
dynamique des objets; les etudes psychophysiques
de mouvement apparent sugèrent un rôle central
pour les tranformations géodésique sur des
hyperplans sous-jacent non-linéaires. (articles de R.N
Shepard dans Science 191, 952 (1976) et M. Shiffar
Psychol. Science 1, 257 (1990)
Références








Joshua B. Tenenbaum, Vin de Silva, John C. Langford Science, vol.290
22 décembre 2000 + code source de Josh Tenenbaum
Nonlinear Dimensionality Reduction by Local Linear Embedding, Sam T
Roweis & Lawrence K. Saul Science, vol.290 22 décembre 2000
Pattern Recognition Duda, Hart, Stork Chapt 4 et 10
Multidimensional Scaling 2ieme Ed, T.Cox, A.Cox
Computing Science et statistics: proceedings of the 24th symphosium
on the interface, M.Littman, D Swayne N. Dean A.Buja
Advances in Neural Information Processing 10, J.Tenenbaum
Neural Computing, C.Bishop (1998)
Sur le web: Locally Linear Embedding (LLE) Homepage
Http://www.cs.toronto.edu/~roweis/lle/related.html