Lancé en 2015 par l’Agence nationale de la recherche et un consortium franco-américain, le projet DATAZERO (DATA center avec Zéro Émission de CO2) vise à faire sortir de terre des centres de données (data centers) alimentés uniquement par des énergies renouvelables grâce à une démarche scientifique rigoureuse. Rencontre avec Jean-Marc Pierson, enseignant-chercheur en sciences informatiques à l’université Toulouse III et coordinateur du projet. Il en explique les objectifs scientifiques, et présente les défis liés à la conception et à l’exploitation de data centers décarbonés et autosuffisants.
Quels sont les principaux défis auxquels une entreprise – un fournisseur de cloud, par exemple – est confrontée lorsqu’elle souhaite faire fonctionner un centre de données avec des énergies renouvelables ?
La première difficulté est de trouver les bons interlocuteurs. Aujourd’hui, les fournisseurs de centres de données et les cabinets de conseil et d’ingénierie spécialisés ne disposent pas toujours de l’expertise pour “penser” des data centers alimentés par des énergies renouvelables. Ils ne le proposent pas spontanément. Après quelques échanges avec différents acteurs du marché, j’ai compris que le client devait manifester sa volonté de façon expresse et insister pour qu’un tel projet se réalise.
Nous penchons pour un modèle open source pour qui souhaiterait fournir une expertise dans la conception de data centers à énergies renouvelables.
Le dimensionnement du data center constitue le deuxième défi, avec un réel questionnement sur la taille et la pérennité de l’infrastructure. Le temps de retour sur investissement d’un centre de données décarboné est long, au moins huit à dix ans.
Éviter le surdimensionnement du data center tout en permettant son évolutivité pour garantir sa pérennité : cela doit être extrêmement compliqué…
Tout à fait ! Combien de panneaux solaires ou d’éoliennes seront nécessaires ? Combien de batteries au lithium ou de piles à combustible faudra-t-il ? Quelles sources renouvelables privilégier et quels systèmes de stockage installer ? Le logiciel de dimensionnement que nous avons développé dans le cadre du projet DATAZERO nous permet de répondre à ces questions avec des préconisations vis-à-vis du type d’équipements à partir d’une charge de travail donnée et en fonction de la localisation du data center et de la météo observée lors des années précédentes (typiquement, sur une période de dix ans). Le défi consiste bien sûr à estimer la charge de travail, car lorsque l’on veut créer un cloud en partant de zéro, on n’a souvent qu’une idée vague de l’usage de son data center ou de sa croissance annuelle.
Quels sont les objectifs scientifiques du projet DATAZERO ?
Le projet DATAZERO a été lancé en 2015, en partant de la question suivante : est-il possible de piloter un data center uniquement avec des énergies renouvelables ? Plusieurs acteurs annonçaient alors alimenter leurs centres de données par 100 % d’énergies renouvelables, ce qui n’était pas entièrement vrai puisqu’ils étaient toujours reliés au réseau de distribution d’électricité. Nous nous sommes demandé s’il était possible d’aller plus loin et de devenir complètement indépendants vis-à-vis du réseau.
Deux questions scientifiques principales se sont posées. La première est celle du dimensionnement d’une infrastructure autosuffisante lors de la phase de construction. La seconde est celle de l’optimisation de son fonctionnement dans la phase d’opération avec un double challenge : optimiser le flux d’électricité dans le système électrique en fonction des flux de données et de calcul d’une part, optimiser le flux de services dans le système informatique en fonction de la production d’électricité d’autre part.
Comment avez-vous répondu à la première question ? Pourriez-vous décrire le logiciel de dimensionnement utilisé dans la phase de construction ?
Nous avons utilisé une programmation linéaire en nombres entiers (PLNE) pour résoudre ce problème. Ce type d’optimisation est connu pour prendre du temps, puisque l’on cherche à produire une solution optimale. Mais contrairement à la phase d’opération, où l’on est en temps réel (les algorithmes doivent donc être très rapides), on peut se permettre de prendre le temps de trouver la meilleure solution. Finalement, nous sommes parvenus à développer un algorithme relativement rapide, capable d’obtenir un résultat – le dimensionnement optimal pour un data center contenant des milliers de serveurs qui exécutent des centaines de milliers de tâches – en quelques minutes. Ce résultat nous permet de simuler plusieurs scénarios. Par exemple, si la charge de travail est de x, il nous faudra telle configuration ; si l’on augmente cette charge de 10 % par an, il faudra ajouter x serveurs informatiques et x éoliennes.
Dans la phase d’exploitation, l’idée est d’optimiser la production d’énergie pour répondre à la demande électrique des ressources informatiques d’un côté, et d’ajuster le flux de services informatiques en fonction de la production d’énergie de l’autre. Comment y parvenez-vous ?
Il existe plusieurs méthodes pour résoudre ce problème d’optimisation assez classique en informatique. L’approche traditionnelle consiste à créer un modèle mathématique qui prendra en compte l’ensemble des contraintes, à la fois de la partie électrique et de la partie informatique. Nous avons adopté une approche différente, dans laquelle la partie électrique et la partie informatique sont optimisées séparément, puis une boucle de négociation intervient.
D’un côté, le système électrique est optimisé en fonction d’une charge de travail déterminée afin d’adresser la demande des serveurs pendant une durée donnée (trois jours dans le cadre de ce projet) grâce à des techniques de programmation linéaire. De l’autre, le système informatique optimise son fonctionnement selon l’approvisionnement en électricité envisagé grâce à des algorithmes heuristiques (produisant des résultats approchés).
Pour ce faire, il existe deux options. Première option : on peut agir au niveau des serveurs en faisant varier leur vitesse. Un ordinateur classique aura généralement une fréquence de processeur de 3 GHz, que l’on peut réduire. S’il fonctionne à 1 GHz, il ira trois fois moins vite, mais économisera plus de trois fois l’énergie consommée ! On peut également agir sur la planification des tâches informatiques en retardant l’exécution de certaines tâches non urgentes.
Nous avons ensuite développé un algorithme de négociation utilisant la théorie des jeux pour répondre aux contraintes provenant des deux côtés. Voici donc les trois briques utilisées pour optimiser l’utilisation des énergies renouvelables dans le data center.
Quelles sont les nouveautés introduites dans DATAZERO2, la deuxième phase du projet qui a débuté en 2020 ?
Dans le cadre de DATAZERO2, nous travaillons beaucoup sur la notion d’incertitude. Les prévisions météo et les prédictions de charge constituent par essence des données incertaines. Dans DATAZERO1, lorsque l’on s’apercevait que l’on s’était trompé, que l’on ne disposerait pas de la puissance électrique anticipée, on relançait l’optimisation. Pour la deuxième étape du projet, nous avons souhaité prendre en compte l’incertitude dès le départ.
Nous avons attaché aux prédictions de production électrique et de charge informatique un “objet d’incertitude” et développé de nouveaux algorithmes d’optimisation sous incertitudes. Nous espérons que les résultats nous montreront que l’impact des erreurs est moins important, et que l’on n’est plus obligé de relancer une optimisation, car le système est capable de les anticiper et de s’adapter automatiquement.
Comment les différents algorithmes que vous avez décrits seront-ils mis à disposition des entreprises pour concevoir et pour exploiter des centres de données décarbonés ?
Avec DATAZERO2, nous cherchons à augmenter la maturité de nos logiciels. Notre objectif est d’atteindre une maturité de niveau 5, ce qui nous permettrait de collaborer avec une entreprise de développement informatique pour faire de la solution un produit commercial.
Nous penchons plutôt pour un modèle open source, avec une mise à disposition des logiciels utilisables par qui souhaiterait fournir une expertise dans la conception de data centers à énergies renouvelables. C’est en discussion avec notre partenaire industriel, Eaton.
La maturation des logiciels issus de la recherche est un défi important et nous essayons de trouver les moyens de valoriser nos travaux. Nous pourrons par exemple être accompagnés par une société d’accélération du transfert de technologies (SATT), structure qui a pour objectif de réaliser le transfert des résultats de recherches vers les entreprises et d’amener les inventions à un niveau de maturité proche de celui du marché.
Dernière question : à quoi ressemble un data center “DATAZERO idéal” selon vous ?
En premier lieu, précisons que le projet DATAZERO cible des data centers de taille moyenne, consommant jusqu’à 1 MW de puissance électrique. Un data center à énergies renouvelables idéal, c’est d’abord une infrastructure complètement indépendante et autonome, qui n’a pas besoin de recourir à un fournisseur d’électricité externe.
Or, aujourd’hui, nous sommes face à une barrière psychologique. Les clients sont frileux à l’idée d’opérer un data center qui ne soit pas relié au réseau électrique. Notre défi est de montrer que c’est possible, et ce, en limitant au maximum la redondance lors du dimensionnement. Si un data center fonctionne avec trois éoliennes, on peut estimer qu’il faut en installer six pour garantir sa résilience. Mais il est peu probable que les trois éoliennes tombent en panne toutes en même temps. Nous cherchons donc à déterminer la configuration optimale. Dans un scénario idéal, le data center n’aurait besoin que de quatre éoliennes et nous serions parvenus à convaincre l’acheteur que cela est suffisant.