Les méthodes d’apprentissage par renforcement sont des composantes essentielles du développement de systèmes robotiques autonomes. Elles doivent en effet permettre à ces systèmes d’apprendre, par essais et erreurs, sans intervention additionnelle de leurs concepteurs, les actions qui doivent être effectuées, et celles qui doivent être évitées, pour la réalisation de leur mission.
Deux grandes classes d’algorithmes ont été historiquement développées dans la littérature : celle fondée sur l’utilisation d’un modèle interne du monde, et en particulier des transitions entre états, et celle sans modèle interne. La première est grande consommatrice de ressources computationnelles (i.e. calculs nécessaires pour déduire l’action qui semble aboutir aux meilleures conséquences telles que prédites par le modèle interne), mais permet de réagir en quelques essais aux changements de l’environnement en réutilisant les connaissances précédemment apprises sur la structure de l’environnement grâce au modèle interne ; la seconde est extrêmement peu coûteuse (pas de modèle, donc pas d’estimation des conséquences de l’action), mais au prix d’une convergence lente de l’apprentissage et d’une très mauvaise adaptabilité au changement (i.e. des centaines d’essais sont nécessaires pour mettre à jour les valeurs associées aux actions suite à un changement de l’environnement). Il pourrait donc sembler logique de chercher à bénéficier des complémentarités de ces deux approches en les combinant. Pourtant, la coopération de systèmes d’apprentissage par renforcement multiples a, jusqu’ici, été peu explorée dans la littérature de l’apprentissage automatique.
La mise en avant des bonnes propriétés d’une telle approche s’est donc initialement développée dans le contexte de l’étude du comportement animal. En effet, la cohabitation de systèmes d’apprentissage multiples, et l’existence de substrats neuronaux distincts, ont été clairement démontrées en neurosciences. Plusieurs modèles computationnels ont été proposés pour rendre compte de la manière dont les animaux coordonnent leurs systèmes d’apprentissage multiples. Ces modèles constituent une source d’inspiration pour la conception de systèmes robotiques. Cette importation a principalement eu pour cadre la navigation, mais ne doit pas nécessairement s’y limiter. Enfin, les limites de ces méthodes, dont l’objectif scientifique est la simulation du -comportement animal et non l’efficacité opérationnelle, sont parfaitement dépassables dans le cadre de l’ingénierie, en se défaisant des contraintes biologiques.