Coopération d’algorithmes d’apprentissage par renforcement multiples
S7793 v1 Article de référence

Coopération d’algorithmes d’apprentissage par renforcement multiples

Auteur(s) : Benoît GIRARD, Mehdi KHAMASSI

Date de publication : 10 déc. 2016 | Read in English

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

1 - Apprentissage par renforcement

2 - Méthodes de coordination d’algorithmes d’apprentissage

3 - Conclusion

Sommaire

Présentation

RÉSUMÉ

Développées initialement dans le cadre de l’intelligence artificielle, les méthodes d’apprentissage par renforcement sont des composantes essentielles des architectures de contrôle robotique adaptatives. Deux grandes classes d'algorithmes ont été proposées : avec ou sans modèle interne du monde. La première est coûteuse en calculs mais est très adaptative, alors que la seconde est peu coûteuse mais lente à converger. La combinaison de ces différents algorithmes dans une même architecture de contrôle permet donc d’envisager de tirer le meilleur parti des deux mondes. Nous présentons ici ces deux familles d’algorithmes, ainsi que les méthodes de combinaison qui ont été proposées et évaluées, tant en neurosciences qu’en robotique.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

  • Benoît GIRARD : Directeur de recherche CNRS - Institut des systèmes intelligents et de robotique, ISIR (UMR7222, CNRS – UPMC)

  • Mehdi KHAMASSI : Chargé de recherche CNRS - Institut des systèmes intelligents et de robotique, ISIR (UMR7222, CNRS – UPMC)

INTRODUCTION

Les méthodes d’apprentissage par renforcement sont des composantes essentielles du développement de systèmes robotiques autonomes. Elles doivent en effet permettre à ces systèmes d’apprendre, par essais et erreurs, sans intervention additionnelle de leurs concepteurs, les actions qui doivent être effectuées, et celles qui doivent être évitées, pour la réalisation de leur mission.

Deux grandes classes d’algorithmes ont été historiquement développées dans la littérature : celle fondée sur l’utilisation d’un modèle interne du monde, et en particulier des transitions entre états, et celle sans modèle interne. La première est grande consommatrice de ressources computationnelles (i.e. calculs nécessaires pour déduire l’action qui semble aboutir aux meilleures conséquences telles que prédites par le modèle interne), mais permet de réagir en quelques essais aux changements de l’environnement en réutilisant les connaissances précédemment apprises sur la structure de l’environnement grâce au modèle interne ; la seconde est extrêmement peu coûteuse (pas de modèle, donc pas d’estimation des conséquences de l’action), mais au prix d’une convergence lente de l’apprentissage et d’une très mauvaise adaptabilité au changement (i.e. des centaines d’essais sont nécessaires pour mettre à jour les valeurs associées aux actions suite à un changement de l’environnement). Il pourrait donc sembler logique de chercher à bénéficier des complémentarités de ces deux approches en les combinant. Pourtant, la coopération de systèmes d’apprentissage par renforcement multiples a, jusqu’ici, été peu explorée dans la littérature de l’apprentissage automatique.

La mise en avant des bonnes propriétés d’une telle approche s’est donc initialement développée dans le contexte de l’étude du comportement animal. En effet, la cohabitation de systèmes d’apprentissage multiples, et l’existence de substrats neuronaux distincts, ont été clairement démontrées en neurosciences. Plusieurs modèles computationnels ont été proposés pour rendre compte de la manière dont les animaux coordonnent leurs systèmes d’apprentissage multiples. Ces modèles constituent une source d’inspiration pour la conception de systèmes robotiques. Cette importation a principalement eu pour cadre la navigation, mais ne doit pas nécessairement s’y limiter. Enfin, les limites de ces méthodes, dont l’objectif scientifique est la simulation du -comportement animal et non l’efficacité opérationnelle, sont parfaitement dépassables dans le cadre de l’ingénierie, en se défaisant des contraintes biologiques.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-s7793

Lecture en cours
Présentation

Article inclus dans l'offre

"Robotique"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Robotique"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BALLEINE (B.W.), O’DOHERTY (J.P.) -   Human and rodent homologies in action control : corticostriatal determinants of goal-directed and habitual action.  -  Neuropsychopharmacology, 35(1), 48-69, (2010).

  • (2) - BELLMAN (R.E.) -   Dynamic Programming.  -  Princeton University Press, Princeton, NJ, (1957).

  • (3) - CALUWAERTS (K.), STAFFA (M.), N’GUYEN (S.), GRAND (C.), DOLLÉ (L.), FAVRE-FÉLIX (A.), GIRARD (B.), KHAMASSI (M.) -   A biologically inspired meta-control navigation system for the psikharpax rat robot.  -  Bioinspiration & biomimetics, 7(2), 025009, (2012).

  • (4) - CHAVARRIAGA (R.), STRÖSSLIN (T.), SHEYNIKHOVICH (D.), GERSTNER (W.) -   A computational model of parallel navigation systems in rodents.  -  Neuroinformatics, 3(3), 223-241, (2005).

  • (5) - COLLINS (A.G.), FRANK (M.J.) -   How much of reinforcement learning is working memory, not reinforcement learning? A behavioral, computational, and neurogenetic analysis.  -  European Journal of Neuroscience, 35(7), 1024-1035, (2012).

  • ...
Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Robotique"

(66 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Ressources documentaires

Identification dynamique des robots industriels

Cet article traite de l’identification dynamique des robots manipulateurs très largement utilisés dans ...

Droit de la robotique

Le robot, qu’il s’agisse d’un robot industriel ou d’un robot de service, n’est pas saisi en tant que tel ...

État de l’art de la robotique bio-inspirée

Cet article fait état des études récentes sur la robotique dite bio-inspirée, visant à concevoir des ...