Des programmes informatiques qui apprennent à jouer

Posté le 3 février 2016
par La rédaction dans Informatique et Numérique

Les jeux informatiques servent de terrain privilégié d’expérimentation de ces intelligences artificielles « apprenantes ». Un programme conçu à l’université d’Alberta (Canada) s’est révélé imbattable dans une variante du poker Texas Hodl’em (partie en face à face) après 1500 parties jouées.

L’algorithme, dit de « minimisation rétrospective du regret », construit un arbre de décision à partir des résultats de chaque partie, associés à un degré de « regret ». Il réévalue également les décisions prises dans les tours précédents.

Le bluff est généré par fréquences statistiques calculées à partir des observations. Ces technologies font envisager des applications pour l’aide à la décision dans les domaines médicaux, biologiques ou financiers.

L’innovation de l’algorithme DeepMind est de pouvoir évoluer dans des environnements différents et d’y former chaque fois par apprentissage un schéma d’action. Il apprend formellement à reconnaître les configurations favorables de pixels.

Les ingénieurs l’ont d’abord entraîné à jouer à 49 jeux d’arcades, tels Pong, Space invaders et Breakout. Dans chacun d’eux, l’algorithme a décidé d’un comportement jusqu’à jusqu’à totalement « maîtriser » le jeu. Demis Hassabis, co-fondateur de DeepMind, en fait la démonstration avec le jeu Breakout (une plaque mobile renvoie une balle verticalement pour casser des briques.

L’algorithme après 300 parties gagne à tous les coups. Au bout de 500 parties, il a identifié une stratégie optimale, renvoyant la balle de manière à creuser dans les briques par le dessus.

Par Etienne Monin

Cet article se trouve dans le dossier :

Google DeepMind : l'intelligence humaine est-elle déjà dépassée ?

Google DeepMind

Google DeepMind : la machine surpasse une nouvelle fois l’intelligence humaine
Les machines à apprendre : réseaux neuronaux et apprentissages en profondeur
Des programmes informatiques qui apprennent à jouer
Les performances derrière la victoire d’AlphaGo
Des machines qui se souviennent, le défi des intelligences artificielles à venir

A voir plus loin

Pour aller plus loin

Dans l'actualité

Dans les ressources documentaires

Supervision des systèmes industriels