“Grâce au transfer learning, le système d’IA va pouvoir transférer des connaissances obtenues en effectuant une tâche source à l’exécution d’une tâche similaire, et ainsi s’adapter à un grand nombre de cas d’usage.”
“Ce n’est pas forcément celui qui a le meilleur algorithme qui gagne, c’est celui qui a le plus de données.” Cet aphorisme du chercheur en intelligence artificielle (IA) Jean-Claude Heudin montre à quel point les données sont essentielles en apprentissage automatique. Les algorithmes de deep learning (apprentissage profond), en particulier, nécessitent une immense quantité de données annotées (pour le mode apprentissage supervisé).
Or, la production de ces données est un processus long et coûteux, qui nécessite parfois – dans des domaines spécialisés – une expertise rare. En pratique, donc, les ingénieurs en IA et data scientists doivent souvent se contenter d’un jeu de données réduit.
Comment, dès lors, construire des modèles de machine learning robustes tout en prenant en compte leur impact énergétique ? Trois voies principales sont explorées.
Transfer learning : faire du neuf avec du vieux
Une visite des référentiels UCI Machine Learning, VisualData ou Google Dataset Search montre que de nombreux jeux de données étiquetées ont été mis en accès libre par des administrations publiques, des universités ou des entreprises.
Dans le domaine de la détection d’objets 3D, Google publiait récemment son jeu de données Objectron, une collection de 15000 clips vidéo et de millions d’images annotés d’objets du quotidien, capturés sous différents angles et bénéficiant de boîtes englobantes décrivant leur position, orientation et dimensions, accompagnée de modèles pré-entraînés.
Certains jeux de données sont devenus des références, comme la base de données moléculaires GenBank, qui regroupe l’ensemble des séquences d’ADN accessibles au public, annotées par les Instituts américains de la santé (NIH).
À partir de ces ressources, il est possible de faire du transfer learning, ou apprentissage par transfert, qui s’inspire du processus cognitif par lequel les humains appliquent des connaissances précédemment acquises dans de nouvelles situations.
Grâce à cette technique, le système d’IA va pouvoir transférer des connaissances obtenues en effectuant une tâche source à l’exécution d’une tâche différente, mais similaire (tâche cible), et ainsi s’adapter à un grand nombre de cas d’usage.
Par exemple, ce qui a été appris par un algorithme, pour reconnaître des chats ou pour déterminer si une critique de film est positive ou négative, pourra être réutilisé respectivement pour distinguer des chiens ou classifier des évaluations de produits.
Cette approche est particulièrement populaire en deep learning où des modèles pré-entraînés sont utilisés comme point de départ pour des tâches de vision par ordinateur ou de traitement du langage naturel (TLN), particulièrement complexes et chronophages.
Algorithmes curieux et apprentissage continu
L’apprentissage actif est employé dans les cas où les données sont disponibles mais leur étiquetage coûte cher.
Ce modèle d’apprentissage semi-supervisé, qui repose sur l’hypothèse selon laquelle un algorithme est plus performant s’il est “curieux”, introduit un oracle (un médecin spécialiste, par exemple) dans le processus d’apprentissage.
Ici, c’est l’algorithme qui formule des requêtes (c’est-à-dire qui choisit les données à étiqueter par l’oracle), le principe étant de trouver les requêtes les plus pertinentes pour maximiser le gain d’information. L’apprentissage actif est très utilisé dans le TLN, qui nécessite beaucoup de données étiquetées et où il en existe assez peu de librement accessibles.
L’apprentissage incrémental consiste, quant à lui, à entraîner un algorithme en continu, à partir de données reçues au fur et à mesure et visibles une seule fois (on parle de flux de données). Contrairement aux algorithmes “hors-ligne”, où le modèle est généré à partir d’un jeu de données disponible au moment de la phase d’apprentissage puis déployé sur les nouvelles données, le système poursuit son apprentissage une fois en production, intégrant de nouvelles connaissances à chaque incrément.
Cette approche dynamique peut être utilisée pour résoudre des problèmes liés au volume et à la disponibilité des données et permettre de pallier des ressources matérielles limitées – comme une mémoire insuffisante –, qui peuvent ralentir l’apprentissage.
L’efficacité environnementale, deuxième volet de l’IA frugale
L’IA frugale comporte un deuxième volet : l’efficacité énergétique, autre grand défi posé par la généralisation des usages du machine learning. Certains chercheurs tentent en effet aujourd’hui de réduire la consommation électrique des systèmes d’IA, en particulier les réseaux de neurones artificiels, qui nécessitent une puissance de calcul phénoménale pour traiter les données.
Sont ainsi apparues des initiatives comme le Low-Power Computer Vision Challenge, un concours annuel visant à améliorer l’efficacité énergétique de la vision par ordinateur.
En 2019, des chercheurs du Allen Institute for AI plaident pour une IA plus efficace – investissant le champ de recherche de la Green AI (“IA verte”, qui considère que l’efficacité environnementale, au même titre que l’exactitude, permet d’évaluer la performance d’un système), en opposition à la Red AI (“IA rouge”, qui cherche à obtenir des résultats très fiables en utilisant une puissance de calcul massive) –, mais également plus inclusive. Cela signifie une IA dont le coût de développement, d’entraînement et de fonctionnement serait suffisamment modéré pour “permettre à tout étudiant de premier cycle inspiré équipé d’un ordinateur portable de mener des travaux de recherche ou de développement et d’écrire des papiers de recherche de haute qualité”.
Graver le fonctionnement du cerveau dans les circuits électroniques
De fait, un algorithme moins gourmand en données pourrait être moins gourmand en énergie, mais la quête de frugalité va plus loin.
Parmi les pistes explorées, l’informatique neuromorphique s’inspire de la structure et du fonctionnement du cerveau humain, particulièrement efficient, pour repenser entièrement l’architecture matérielle servant de support au deep learning.
Les puces neuromorphiques, qui s’inspirent des neurones et des synapses biologiques, font ainsi l’objet de nombreuses recherches, notamment du côté des géants de l’électronique et de l’informatique comme IBM, Intel ou Qualcomm. Contrairement aux puces classiques, les unités de calcul et la mémoire y sont situés à proximité l’un de l’autre, ce qui limite les transferts de données et donc la consommation énergétique et la latence.
La puce TrueNorth d’IBM associe un million de neurones et 256 millions de synapses programmables individuellement, répartis en 4096 cœurs parallèles et distribués, reliés entre eux par un réseau sur puce. Elle consommerait plus de mille fois moins d’énergie qu’un processeur conventionnel de taille similaire.