● Il a développé des méthodes de mesure de l’empreinte carbone des outils de machine learning, et propose d’optimiser les modèles d’IA pour limiter leur impact climatique.
● Tant dans l’utilisation des logiciels et leur optimisation que dans la manière dont sont réalisés les calculs, il est possible de créer des outils performants moins énergivores.
L’Intelligence Artificielle (IA) contribue-t-elle davantage au dérèglement climatique ou offre-t-elle des solutions pour lutter contre ?
Raghavendra Selvan. En tant que scientifiques, nous souhaitons utiliser davantage d’outils performants sans que ceux-ci contribuent au changement climatique. Pour nous, les modèles d’IA permettent de résoudre de très nombreux problèmes. Je travaille par exemple avec différents climatologues sur des projets pour lesquels nous utilisons l’IA pour résoudre des problèmes complexes, par exemple pour étudier les évolutions de populations d’insectes, à l’aide de capteurs optiques, pour obtenir des indicateurs précis d’évolution de la biodiversité. Nous avons créé des modèles de machine learning capables de détecter des groupes de manière non supervisée, c’est-à-dire sans implication humaine. Ce type d’étude permet, quand elle est mise en perspective avec les évolutions climatiques, d’être plus rigoureux scientifiquement sur l’impact climatique. Si on présente l’IA comme un outil qui permet de trouver des réponses à des enjeux environnementaux, par exemple pour mieux modéliser le climat ou optimiser les réseaux d’énergie, nous devons faire en sorte que l’IA soit énergétiquement efficace.
Pour réaliser les modèles de machine learning que nous connaissons aujourd’hui, la puissance de calcul double tous les six mois
Pourquoi l’impact de l’IA est-il plus important que les outils que nous utilisions avant ?
Auparavant, quand on devait construire des outils de traduction automatique, on devait comprendre la grammaire et la sémantique des deux langues. Aujourd’hui, on prend des données existantes dans les deux langues et on demande à l’outil d’en déduire les règles. Cela demande des quantités de données très importantes et une puissance de calcul considérable. Et pour réaliser les modèles de machine learning que nous connaissons aujourd’hui, la puissance de calcul nécessaire augmente de manière exponentielle, c’est-à-dire qu’elle double tous les six mois.
Qu’est-ce qui consomme autant d’énergie ?
Les processeurs graphiques, ou GPU, qui sont traditionnellement utilisés pour le jeu vidéo, peuvent réaliser des multiplications matricielles de manière très rapide mais cela implique une augmentation proportionnelle de la consommation d’énergie : nous devons entraîner ces modèles sur des fermes de serveurs avec des centaines voire des milliers de GPU. Pour donner un exemple, l’entraînement de GPT3 a nécessité 188.000 KwH. C’est comme si vous rouliez 700.000 kilomètres avec votre voiture. C’est uniquement l’énergie nécessaire à l’entraînement du modèle, et pas à son utilisation… Si des centaines de millions de personnes utilisent l’outil, la consommation va également augmenter. Sur ce point, il est impossible de faire des prédictions. En réalité, le coût énergétique est même bien plus élevé, car vous devez entraîner votre modèle plusieurs fois pour l’aboutir. OpenAI a confirmé, par exemple, que la quantité de calculs nécessaires doublait tous les trois mois et demi.
Comment améliorer l’efficacité énergétique des modèles de machine learning ?
Il existe des méthodes qui permettent de réduire la taille des modèles de machine learning. Par exemple, nous savons que GPT3 compte 175 milliards de paramètres. En réalité, on peut les réduire. Nous devons également repenser les grands modèles en fonction de leurs usages. Leur manière d’être conçus doit donc être pensée pour être optimisée énergiquement.
Il existe une branche de la recherche que nous appelons « neural architecture research », où l’on étudie la structure des réseaux de neurones. Aujourd’hui, on veut avoir de très bons résultats sur certaines tâches, comme la traduction : si on veut des résultats corrects à 100%, il faut un grand modèle, mais si vous êtes d’accord avec une précision à 99%, dans ce cas vous pouvez vraiment réduire la complexité du modèle. Il faut donc trouver un compromis entre performance et complexité.
Ces consommations d’énergie sont-elles mesurables ?
Je fais partie de l’équipe qui a développé Carbon Tracker, un outil Python qui permet de suivre et de prédire l’empreinte carbone de l’entraînement et du développement de modèles de deep learning. Cet outil, qui a été téléchargé 65.000 fois depuis sa création il y a trois ans, résulte du besoin d’avoir des chiffres concrets sur l’impact de l’IA. Il permet de répondre à des hypothèses du type « qu’est-ce qu’il se passerait en termes de consommation d’énergie sur 10 ans si ce modèle fonctionnait en faisant telle ou telle itération ». Aujourd’hui et pour des raisons concurrentielles, certaines sociétés n’indiquent pas comment leurs modèles de langage ont été entraînés. Cependant, les modèles accessibles en open source comme LLaMA ou Stable Diffusion peuvent être perfectionnés par la communauté scientifique et informatique pour être optimisés et entraînés sur des machines consommant moins d’énergie.
Et côté hardware…
Vous pouvez également améliorer la manière dont le matériel est utilisé : la plupart des calculs sont réalisés en 32 bits à 8 bits et donc au lieu d’utiliser quatre GPUs, vous allez pouvoir obtenir les mêmes résultats avec un seul. Cela va avoir un impact important sur l’énergie qui est utilisée. Dans les centres de données, il y a également beaucoup d’énergie nécessaire au refroidissement en raison de la dissipation de la chaleur. Par exemple, dans un centre universitaire, on perd un watt en refroidissement pour un watt utilisé en calcul. Il faut donc optimiser l’utilisation des infrastructures. Dans tous les cas, les entreprises privées sont de facto incitées à travailler sur leur propre efficacité énergétique, ne serait-ce qu’en raison du coût de l’énergie…