Intelligence artificielle | Article

Apprentissage par renforcement : une IA puissante dans toujours plus de domaines

lundi 3 février 2020 - Mis à jour le mercredi 5 février 2020

Temps de lecture : 5 min

Ecouter le contenu de la page avec notre synthèse vocale

En s’inspirant du processus humain d’acquisition des connaissances, l’apprentissage par renforcement parvient à résoudre des problèmes extrêmement complexes. Focus sur cette technique de machine learning qui repousse les limites de l’IA.

“Un système de “récompenses” et de “punitions” à travers lequel l’algorithme va apprendre, par expériences successives.”

En psychologie, le renforcement vise à favoriser la reproduction d’un comportement en donnant un stimulus au sujet, humain ou animal. Si l’on place un rat dans une boîte où il doit actionner un levier pour obtenir de la nourriture, il finira par répéter cette action chaque fois qu’il aura faim. C’est un exemple de renforcement positif.

On retrouve ce même procédé en intelligence artificielle (IA), avec l’apprentissage par renforcement, “reinforcement learning” (RL) en anglais. Cette méthode de machine learning consiste à mettre en place un système de “récompenses” et de “punitions” à travers lequel l’algorithme va apprendre, par expériences successives, à résoudre un problème en adoptant un comportement idéal.

Livré à lui-même au sein d’un environnement, l’agent autonome (l’algorithme) se retrouve confronté à plusieurs choix. Contrairement aux deux autres méthodes d’apprentissage automatique – supervisé et non supervisé –, il ne dispose pas (ou peu) de données sur cet environnement. Il commence donc par effectuer des actions de façon aléatoire et reçoit une récompense après chaque bonne décision.

Afin de maximiser la quantité de récompenses obtenues sur le long terme, il affine sa stratégie pour améliorer la séquence d’actions lui permettant d’accomplir la tâche qui lui est confiée de la façon la plus optimale.

Comme le note le “Data Analytics Post”, publication spécialisée portée par le master MVA (Mathématiques, Vision, Apprentissage) de l’Ecole normale supérieure Paris-Saclay, “l’apprentissage par renforcement diffère fondamentalement des problèmes supervisés et non supervisés par ce côté interactif et itératif : l’agent essaie plusieurs solutions (on parle ‘d’exploration’), observe la réaction de l’environnement et adapte son comportement pour trouver la meilleure stratégie (il ‘exploite’ le résultat de ses explorations). Un des concepts clés de ce type de problèmes est l’équilibre entre ces phases d’exploration et d’exploitation”.

La force de ce modèle réside dans sa capacité à résoudre des problèmes réputés ne pas pouvoir l’être. Il est particulièrement performant lorsque l’algorithme opère dans des environnements complexes et incertains, impliquant un nombre quasi infini de combinaisons et une grande diversité de comportements possibles.

Du jeu de go aux data centers

L’apprentissage par renforcement n’est pas nouveau, mais les progrès se sont accélérés ces dernières années, donnant lieu à des succès spectaculaires dans différents domaines. Il est aussi devenu beaucoup plus puissant en étant combiné avec les réseaux de neurones artificiels – on parle alors d’apprentissage par renforcement profond (DRL).

La victoire en 2016 du programme AlphaGo, développé par Google DeepMind, contre le Coréen Lee Sedol, l’un des meilleurs joueurs mondiaux de go, marque un tournant décisif pour le reinforcement learning.

La grande richesse combinatoire et la profondeur stratégique de ce jeu bimillénaire en font un problème d’IA particulièrement difficile à résoudre, face auquel les méthodes traditionnelles s’appuyant sur la force brute offrent des résultats insatisfaisants.

Après avoir été entraîné à “imiter” les joueurs humains (grâce à la méthode de Monte-Carlo, guidée par deux réseaux de neurones profonds), AlphaGo a joué des milliers de parties contre lui-même, utilisant le DRL pour découvrir de nouvelles stratégies et s’améliorer progressivement.

Les techniques sous-jacentes utilisées pour résoudre ce type de problèmes (on parle de “toy problems”) – jeu de go, jeux ATARI, manipulation de LEGO, etc. – peuvent être mises en pratique sur des systèmes réels.

Les possibilités de l’apprentissage par renforcement profond (DRL) sont par exemple explorées pour relever l’un des plus gros défis soulevés par les data centers : leur efficacité énergétique. En 2018, deux chercheurs de l’université de technologie de Nanyang, à Singapour, publiaient un article sur l’optimisation du refroidissement des data centers.

De leur côté, des chercheurs du MIT ont développé une nouvelle méthode de DRL (Decima), qui apprend automatiquement comment répartir les opérations de traitement des données sur des milliers de serveurs pour réduire les ressources mobilisées.

Le futur de l’industrie passe par le DRL

Des méthodes de DRL peuvent également être utilisées dans l’industrie, pour contrôler et optimiser les systèmes industriels (contrôle des robots industriels, optimisation énergétique, de la chaîne logistique ou de la production, maintenance préventive, etc.). La start-up californienne Bonsai, rachetée par Microsoft en 2018, a développé une plateforme de DRL permettant à ses clients de construire, entraîner et déployer des modèles d’IA dans leurs usines.

En robotique, l’apprentissage par renforcement permet d’améliorer les mouvements ou la préhension des robots. L’algorithme développé dans le cadre du projet OpenAI Five (une équipe de robots affrontant des joueurs professionnels à “Dota 2”) a été utilisé pour contrôler une main robotique. On retrouve également d’autres applications du reinforcement learning dans les domaines de la santé ou de la finance.

Un nouveau paradigme pour la conduite autonome

Autre domaine d’application dans lequel l’apprentissage par renforcement se révèle particulièrement intéressant : la conduite autonome, dans la mesure où cela permet aux véhicules de mieux s’adapter à leur environnement grâce à une approche humaine de la conduite. Après tout, un individu apprend à conduire en 35 heures en moyenne. Ensuite, il est censé être capable de manœuvrer sur n’importe quelle route, de s’adapter à n’importe quel contexte…

En 2018, la start-up britannique Wayve publie une vidéo montrant “la première voiture conduite par apprentissage par renforcement”. On y voit une petite voiture apprendre à suivre une ligne droite sur une route qu’elle n’a jamais empruntée, sans règles prédéfinies ni plan, uniquement avec une caméra.

Au départ, l’agent interagit avec son environnement en effectuant des actions aléatoires ; le conducteur intervient lorsqu’il commet une erreur. L’algorithme est récompensé chaque fois qu’il effectue un nouveau trajet sans intervention. Au bout de onze essais, la voiture parvient à se maintenir au milieu de la route.

Partout dans le monde, les projets visant à faire rouler les futures voitures autonomes grâce au DRL se multiplient. Citons les algorithmes dits “de conduite de bout en bout avec apprentissage profond par renforcement” de l’équipe de recherche Robotics for Intelligent Transportation Systems de l’Inria et la plateforme de simulation de conduite open source Voyage Deepdrive.

Nouvel horizon

En s’inspirant du processus humain d’acquisition des connaissances grâce à la méthode essai-erreur, les modèles d’apprentissage par renforcement parviennent désormais à atteindre des niveaux humains dans la résolution de problèmes variés, voire à dépasser l’homme. Selon la “MIT Technology Review”, qui publiait en 2019 un article intitulé “Nous avons analysé 16 625 publications pour découvrir la direction que va prendre l’IA dans l’avenir”, ils constituent le nouvel horizon de l’intelligence artificielle.

Pour aller plus loin : Learning Zoo