Optimisation incrémentale - du comportement des - ISIR

Download Report

Transcript Optimisation incrémentale - du comportement des - ISIR

Optimisation incrémentale
Optimisation incrémentale
du comportement des robots
Olivier Sigaud
http://people.isir.upmc.fr/sigaud
UE Animat, M2 IAD
5 novembre 2014
Optimisation incrémentale
Optimisation de contrôleurs
Apprentissage par renforcement pour la robotique
I
L’apprentissage par renforcement avec espace d’état continu a connu des
développements considérables en 10 ans
I
Le cas de l’action continue est plus difficile, bien que la programmation
dynamique puise ses racines historiques dans la commande optimale
I
Deux difficultés : paramétrisation du continu, optimisation
Optimisation incrémentale
Optimisation de contrôleurs
Paramétrisation : approcher le continu
5
4
3
2
1
0
−1
−2
−3
−5
0
5
10
15
I
Pour faire de l’apprentissage de la commande, il faut faire de
l’apprentissage par renforcement avec des actions continues
I
Les fonctions continues ne peuvent pas être énumérées
I
Solution générale : features paramétrées, régler un vecteur de paramètres
I
Vaut pour l’état et l’action
Optimisation incrémentale
Optimisation de contrôleurs
Optimiser les actions
I
Avec les méthodes de différences temporelles “classiques”, il faut faire un
max sur les actions
I
Dans le cas continu, c’est un problème d’optimisation
I
Les méthodes de gradient et acteur-critique atténuent le problème, au prix
de ne fournir qu’un maximum local (méthodes de Pontryagine plutôt que
de Bellman)
Pour l’apprentissage par renforcement avec actions continues, deux
approches :
I
I
I
Méthodes « acteur pur » : représentation paramétrée de la politique...
Méthodes « acteur-critique » : ...ET de la fonction de valeur
Optimisation incrémentale
Optimisation de contrôleurs
Approches acteur pur
Politiques paramétrées
I
On paramètre des politiques stochastiques notées πθ (u|x) par un vecteur θ
I
Note : on trouve aussi π(u|x; θ)
I
On cherche le gradient d’une performance sur le long terme J(πθ )
I
On note ∇θ =
I
J s’exprime différemment selon qu’on considère une récompense moyenne,
actualisée par un facteur γ, etc.
∂J(πθ (u|x))
∂θ
Optimisation incrémentale
Optimisation de contrôleurs
Approches acteur pur
Différences finies
I
On veut maximiser J(πθ ) par une descente (ou montée) de gradient
I
Pour estimer J(πθ ), on utilise des échantillons de performance récoltés le
long de trajectoires du système
I
Approche naïve : fixer différentes valeurs de θ, mesurer la performance, en
déduire ∇θ et faire varier θ selon la pente
I
Intérêt : aucun présupposé sur la forme de la politique, donc très général
I
Inconvénient : très lent, très grande variance, donc besoin de beaucoup
d’échantillons et réglage délicat
Optimisation incrémentale
Optimisation de contrôleurs
Approches acteur pur
REINFORCE
I
Si on connaît la forme explicite de πθ (u|x), on peut calculer
analytiquement la dérivée par rapport à θ
I
On peut alors utiliser cette dérivée pour estimer à moindre coût le gradient
de performance le long de trajectoires
I
C’est plus efficace, mais moins général
Optimisation incrémentale
Optimisation de contrôleurs
Approches acteur-critique
D’acteur pur à acteur-critique
I
Sachant que la fonction de valeur V πθ (ou Qπθ ) « résume » la
performance de πθ en chaque état
I
Peut-on utiliser des valeurs estimées de V πθ ou Qπθ pour calculer le
gradient plus efficacement ?
I
[Sutton et al., 2000] montre que oui : des méthodes qui utilisent la valeur
atteignent la même qualité que REINFORCE avec moins d’échantillons
Sutton, R. S., McAllester, D., Singh, S., and Mansour, Y. (2000). Policy gradient methods for
reinforcement learning with function approximation. NIPS 12
Optimisation incrémentale
Optimisation de contrôleurs
Approches acteur-critique
Articulation des contributions successives
Optimisation incrémentale
Optimisation de contrôleurs
Approches acteur-critique
Aperçu
I
Les méthodes acteur-critique continues stockent une approximation
linéaire de la fonction avantage Aπ (x, u) = Qπ (x, u) − V π (x)
I
Cette fonction est utilisée pour calculer un gradient de performance
I
Ce gradient est utilisé pour mettre à jour l’acteur = la représentation
paramétrique de la politique.
I
Pour que ça marche, il faut une condition de compatibilité entre les
features du critique et celles de l’acteur
I
[Peters & Schaal, 2008] : ça marche mieux avec le gradient naturel
qu’avec le gradient naïf
Peters, J. and Schaal, S. (2008). Reinforcement learning of motor skills with policy gradients. Neural
networks 21(4) :682-697.
Optimisation incrémentale
Optimisation de contrôleurs
Optimisation stochastique
Evolution récente
I
La nécessité d’une approximation linéaire de Aπ (x, u) = Qπ (x, u) − V π (x)
fait perdre en efficacité
I
De plus, l’estimation du gradient est locale et très dépendante d’un « pas
d’apprentissage » qui la rend instable
I
Les méthodes EM-based suppriment cette sensibilité au pas
d’apprentissage (inférence probabiliste)
I
Permettent d’unifier l’apprentissage par démonstration (ou imitation) et
l’apprentissage par renforcement
I
Autre avancée : Reward Weigthed Averaging + robuste que gradient
naturel
I
Retour aux méthodes acteur pur
Optimisation incrémentale
Optimisation de contrôleurs
Optimisation stochastique
CEPS
1.Start with the normal distribution
N (μ,σ²)
2. Generate N vectors with this
distribution
3. Evaluate each vector and select a
proportion ρ of the best ones. These
vectors are represented in grey
4. Compute the mean and standard
deviation of the best vectors
5. Add a noise term to the standard
deviation, to avoid premature
convergence to a local optimum
6. This mean and standard deviation
define the normal distribution of
next iteration
Marin, and Sigaud, O. (2012) Towards fast and adaptive optimal control policies for robots : A direct policy
search approach, Proceedings conference Robotica, pp. 21-26
Optimisation incrémentale
Optimisation de contrôleurs
Optimisation stochastique
Perturbation des paramètres ou de l’action
I
Perturber dans l’espace des paramètres fonctionne mieux que dans l’espace des
actions
I
Perturber une fois par trajectoire fonctionne mieux que perturber à chaque pas
de temps
Stulp, F. and Sigaud, O. (2013) Robot skill learning : From reinforcement learning to evolution strategies.
Paladyn Journal of Behavioral Robotics, 4(1), 49–61.
Optimisation incrémentale
Optimisation de contrôleurs
Optimisation stochastique
Sélection de l’action versus optimisation
I
Convergence progressive des méthodes d’A/R vers l’optimisation stochastique
I
CEM ≈ CMA-ES ≈ P I 2 > PoWER > eNAC
I
Cette évolution est liée au domaine (apprentissage pour la robotique)
I
Et à l’utilisation de « Dynamic Motor Primitives » (DMP)
Stulp, F. and Sigaud, O. (2012) Path integral policy improvement with covariance matrix adaptation,
Proceedings ICML
Optimisation incrémentale
Optimisation de contrôleurs
Optimisation stochastique
Optimisation globale : limites
I
Vouloir optimiser tout mouvement possible dans tout l’espace atteignable
par un corps humanoïde semble sans espoir
I
Idée que notre comportement est structuré, répétable, et que nous
n’utilisons qu’une petite partie des configurations possibles
I
Nous n’optimisons que ce que nous réalisons souvent
I
Idée de n’optimiser que le long de trajectoires bien choisies
I
Les « Primitives Motrices Dynamiques » (DMP) sont un formalisme pour
apprendre le long de trajectoires
Optimisation incrémentale
Optimisation de contrôleurs
Optimisation stochastique
Exemples d’apprentissage avec des DMP
Kormushev, P., Calinon, S., Saegusa, R., and Metta, G. (2010). Learning the skill of archery by a humanoid
robot icub. In Proceedings of the IEEE-RAS Humanoids
Kober, J., Oztop, E., and Peters, J. (2010) Reinforcement learning to adjust robot movements to new
situations. In Proceedings RSS
Optimisation incrémentale
Optimisation de contrôleurs
Optimisation stochastique
Limites des DMP
I
I
I
I
I
I
Souvent, la partie apprise des DMP n’est paramétrée que par le temps
L’état n’y est pas, donc on ne peut pas apprendre une fonction de valeur
Donc le problème se ramène à de l’optimisation « boîte noire »
(performance globale)
Explique la supériorité de l’optimisation stochastique
Mais on ne généralise pas pour d’autres point de départ/buts, on répond
mal aux perturbations...
On aimerait apprendre des primitives moins locales
Optimisation incrémentale
Optimisation de contrôleurs
Optimisation stochastique
Intérêt des DMP
I
Les approches qui optimisent pour tout état sont plus puissantes, mais
elles s’effondrent quand le nombre de dimensions augmente
I
Les approches qui n’optimisent qu’en fonction du temps sont l’autre
extrême, elles font leur preuve pour des problèmes robotique significatifs
I
On sacrifie la généralité pour gagner en efficacité
I
A la recherche d’un juste milieu...
I
L’alternative est de revenir aux approches acteur-critique...
Ijspeert, A., Nakanishi, J., Hoffmann, H., Pastor, P., & Schaal, S. (2012). Dynamical movement primitives :
Learning attractor models for motor behaviors. Neural Computation 1-46
Optimisation incrémentale
Optimisation de contrôleurs
Optimisation stochastique
DMP contextuels
I
I
On veut généraliser les DMP à un
ensemble de contextes (variation du
but, du départ, de contraintes...)
Approche standard :
I
I
I
Optimiser des paramètres de
contrôleurs par DMP avec des
paramètres de tâches variées
Interpoler à partir d’un ensemble de
ces contrôleurs
Approche nouvelle :
I
I
Mettre les paramètres de tâches
variées avec les paramètres de
contrôleurs
Optimiser d’un coup sur l’espace
résultant
Optimisation incrémentale
Optimisation de contrôleurs
Optimisation stochastique
Combinaison de tâches et DMP
I
Les méthodes de commande réactive “corps complet” permettent
d’exécuter dans des espaces articulaires de grande taille des combinaisons
de tâches définies dans des espaces plus raisonnables
I
On peut remplacer les contrôleurs réactifs (PID) dans l’espace de la tâche
par des DMP
Optimisation incrémentale
Optimisation de contrôleurs
Optimisation stochastique
Résolution de tâches de la vie de tous les jours
I
I
Il reste beaucoup à faire pour réaliser des tâches avec des outils (saisie,
manipulation, contacts, gestion de la raideur...)
Chercher la raideur optimale (projet européen CODYCO)
I
I
I
I
Gérer les interactions avec les humains (modèles de contact, perturbations)
Apprendre un modèle des perturbations pour déterminer la raideur la plus
adaptée
Problème pratique : gérer la raideur sur iCub (capteur d’effort, peau
artificielle, dynamique)
Apprendre des modèles des objets
Optimisation incrémentale
Décision robotique séquentielle
Décision séquencielle avec des DMP
Trois problèmes liés
1. Optimiser les paramètres internes des
DMP
2. Trouver une politique basée sur ces
DMP
DMP 2
DMP 1
DMP 2
DMP 1
DMP 3
DMP 4
3. Fortes interdépendances sur les
paramètres (exemple de la bouteille)
Optimisation incrémentale
Décision robotique séquentielle
LAWER
DMP1
a,b,c,x0,x1
DMP2
DMP3
k1,K2
a,x0,x1
DMP1
a,b,c,x0,x1
DMP3
a,x0,x1
I
Cadre des SMDP (options)
I
Basé sur Fitted Q-iteration (méthode batch)
I
Nombreux bidouillages spécifiques
I
Optimise seulement les paramètres des DMP
Neumann, G., Maass, W., and Peters, J. (2009).Learning complex motions by sequencing simpler motion
templates, ICML, pages 753-760.
Optimisation incrémentale
Décision robotique séquentielle
MoMP
I
Mélange de « Motion Templates »
I
NB : toutes les « Motion Templates » sont similaires (coups de tennis de
table)
Mülling, K., Kober, J., Kroemer, O., and Peters, J. (2012). Learning to select and generalize striking
movements in robot table tennis. In Proceedings of the AAAI 2012 Fall Symposium on robots that Learn
Interactively from Human Teachers.
Mülling, K., Kober, J., and Peters, J. (2011). A biomimetic approach to robot table tennis. Adaptive
Behavior, 19(5) :359-376.
Optimisation incrémentale
Décision robotique séquentielle
HiREPS
a0
DMP1
DMP2
DMP3
a,b,c,x0,x1...
a,b,c,x0,x1...
a,b,c,x0,x1...
a1
a2
a4
a0
a3
a1
a
a4
a2
I
Relative Entropy Policy Search (Kullback-Leibler)
I
Variables latentes
I
Déterminer la structure sous-jacente
I
Partitionner l’espace des actions
a4
a2
Daniel, C., Neumann, G., and Peters, J. (2012). Hierarchical Relative Entropy Policy Search. In
International Conference on Artificial Intelligence and Statistics.
Optimisation incrémentale
Décision robotique séquentielle
Perspectives
I
Organiser hiérarchiquement contrôle moteur et
sélection de l’action
I
Deep Learning pour représenter les primitives motrices
I
Apprentissage des affordances
I
Application à iCub
Optimisation incrémentale
Décision robotique séquentielle
Des questions ?
Optimisation incrémentale
Références
Daniel, C., Neumann, G., & Peters, J. (2012).
Hierarchical relative entropy policy search.
In International Conference on Artificial Intelligence and Statistics.
Ijspeert, A. J., Nakanishi, J., Hoffmann, H., Pastor, P., & Schaal, S. (2013).
Dynamical movement primitives : learning attractor models for motor behaviors.
Neural computation, 25(2), 328–373.
Kober, J., Oztop, E., & Peters, J. (2010).
Reinforcement learning to adjust robot movements to new situations.
In Proceedings of Robotics : Science and Systems Zaragoza, Spain.
Kormushev, P., Calinon, S., Saegusa, R., & Metta, G. (2010).
Learning the skill of archery by a humanoid robot icub.
In Proceedings of the IEEE-RAS International Conference on Humanoid Robots (Humanoids) Nashville,
TN, USA.
Marin, D. & Sigaud, O. (2012).
Towards fast and adaptive optimal control policies for robots : A direct policy search approach.
In Proceedings Robotica (pp. 21–26). Guimaraes, Portugal.
Mülling, K., Kober, J., Kroemer, O., & Peters, J. (2012).
Learning to select and generalize striking movements in robot table tennis.
In Proceedings of the AAAI 2012 Fall Symposium on robots that Learn Interactively from Human Teachers.
Mülling, K., Kober, J., & Peters, J. (2011).
A biomimetic approach to robot table tennis.
Adaptive Behavior, 19(5), 359–376.
Neumann, G., Maass, W., & Peters, J. (2009).
Learning complex motions by sequencing simpler motion templates.
In Proceedings of the 26th Annual International Conference on Machine Learning (pp. 753–760).
Peters, J. & Schaal, S. (2008).
Optimisation incrémentale
Références
Reinforcement learning of motor skills with policy gradients.
Neural networks : the official journal of the International Neural Network Society, 21(4), 682–97.
Stulp, F. & Sigaud, O. (2012).
Path integral policy improvement with covariance matrix adaptation.
In Proceedings of the 29th International Conference on Machine Learning (ICML’2012) (pp. 1–8).
Edinburgh, Scotland.
Stulp, F. & Sigaud, O. (2013).
Robot skill learning : From reinforcement learning to evolution strategies.
Paladyn Journal of Behavioral Robotics, 4(1), 49–61.
Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000).
Policy gradient methods for reinforcement learning with function approximation.
In Advances in Neural Information Processing Systems 12 (pp. 1057–1063). : MIT Press.