● Difficile à mener, l’évaluation de cette empreinte carbone est devenue un sujet à part entière chez les chercheurs.
● La montée en puissance des méthodes statistiques de l’intelligence artificielle, rend le sujet particulièrement pressant.
Pour l’internaute, difficile d’imaginer qu’interagir avec ChatGPT ou visionner des vidéos suggérées par YouTube, implique… des émissions de gaz à effet de serre. En revanche, du côté des chercheurs, le bilan carbone du numérique est devenu un véritable sujet d’étude à l’heure du réchauffement climatique. La raison ? L’usage de combustibles fossiles (charbon, pétrole, gaz) pour générer l’électricité nécessaire aux réseaux, aux batteries, aux terminaux et surtout aux datacenters où sont stockées les données et les applications, et où se déroulent les calculs informatiques.
En France, le sujet fait partie du programme Numérique et environnement de l’Inria, lancé en 2022. Au début de l’année, Soumya Sudhakar, Vivienne Sze et Sertac Karaman du Massachusetts Institute of Technology (États-Unis) présentaient les résultats préoccupants d’un modèle de simulation concernant le cas spécifique des voitures sans conducteur, fonctionnant à l’électricité pour la motorisation, les capteurs ou l’intelligence artificielle (IA) : si un milliard de véhicules totalement autonomes circulaient dans le monde, leur empreinte carbone serait équivalente à celle de tous les datacenters de la planète !
Un sujet rendu pressant par la montée en puissance de l’IA
Une étude publiée mi-février 2023 s’intéresse à l’impact carbone de l’apprentissage automatique entre 2012 (date clef marquant l’envolée de l’apprentissage profond) et 2021. Les deux auteurs, une chercheuse spécialiste du sujet chez la société Hugging Face, et un postdoctorant de l’université de Montréal au Mila, centre de recherche en IA, ont retenu 95 algorithmes mentionnés dans 77 articles scientifiques, le tout dans cinq domaines : classification d’images, détection d’objets, traduction automatique, agent conversationnel (ou « chatbot ») et reconnaissance d’entités nommées (aspect du traitement de langage naturel consistant à classer un mot dans une catégorie : personne, lieu, entreprise, date, quantité, adresse, etc.).
Il est très difficile d’obtenir toutes les informations nécessaires pour estimer une empreinte carbone détaillée
L’idée n’est pas de chiffrer la quantité de dioxyde de carbone liée à chacun, mais plutôt de dessiner de grandes tendances. « Il est très difficile d’obtenir toutes les informations nécessaires pour estimer une empreinte carbone détaillée, explique Sasha Luccioni, de Hugging Face. Les articles en IA ont tendance à ne pas dévoiler la puissance de calcul utilisée ni à dire où l’entraînement a eu lieu. »
Des performances moindres ne signifient pas moins d’émissions
Ce travail porte sur la phase d’entraînement des modèles d’apprentissage, très gourmande en puissance de calcul. Premier constat : 73 modèles sur 95 ont été entraînés grâce à une électricité provenant principalement du charbon, du gaz naturel et du pétrole. En guise d’ordre d’idée, les modèles « nourris » au charbon génèrent en moyenne 512 g équivalent CO2 par kilowattheure, contre 100,6 pour ceux usant majoritairement d’hydroélectricité (plusieurs gaz à effet de serre sont impliqués, mais convertis en un équivalent en CO2 pour indiquer un chiffre unique). Ensuite, si plus l’électricité est consommée, plus l’empreinte carbone est importante, ce n’est pas le cas de modèles basés sur l’hydroélectricité, qui maintiennent un niveau bas d’émissions carbonées. Autre découverte : entre deux modèles usant d’énergies fossiles, le moins performant n’aura pas forcément une moindre empreinte carbone.
L’empreinte des algorithmes de traduction se réduit depuis 2019
En revanche, les auteurs n’observent pas de « tendance selon laquelle les émissions carbonées auraient systématiquement augmenté pour chacune des tâches » au fil du temps. Celles des modèles de classification d’image et des chatbots n’ont fait que croître, mais celles des algorithmes de traduction se réduisent depuis 2019.
Il reste que l’augmentation globale est indéniable. Les modèles d’apprentissage généraient 487 tonnes équivalent CO2 en moyenne en 2015-2016. En 2020-2022, c’est 2020 tonnes, juste pour l’entraînement. Or, le déploiement a aussi un impact. Une requête faite à ChatGPT aura certes un coût énergétique minime, mais des millions de requêtes des centaines de fois par jour sur plusieurs chatbots deviennent beaucoup plus problématiques. « C’est ce sur quoi je suis en train de travailler, poursuit Sasha Luccioni. Mais dans la mesure où le mode de déploiement, les matériels informatiques utilisés et le dimensionnement, ont tous un rôle important dans l’énergie nécessaire et le carbone émis, c’est une tâche complexe. »