L’ADN, prochain disque dur pour nos données numériques ?

Face à l’accroissement exponentiel du volume de données, les scientifiques explorent des solutions de stockage plus performantes et pérennes que les technologies actuelles. Les supports moléculaires constituent une piste sérieuse, en particulier l’ADN. Compact et durable, il pourrait être utilisé, dans un premier temps, pour l’archivage.

“La sphère globale des données, c’est-à-dire l’ensemble des données numériques créées par l’humanité, pourrait tenir dans une fourgonnette.”

Molécule support du patrimoine génétique des êtres vivants, l’acide désoxyribonucléique (ADN) contient toutes les informations nécessaires au fonctionnement de l’organisme. Depuis les travaux du physicien américain Richard Feynman, à la fin des années 1950, les scientifiques envisagent également d’en faire le support des connaissances humaines.

En théorie, c’est plutôt simple : il s’agit de coder les données numériques sous forme de lettres : A (adénine), C (cytosine), G (guanine) et T (thymine), soit les quatre nucléotides qui forment l’ADN.

Mais en pratique, si la preuve de concept du stockage sur l’ADN a été établie, plusieurs défis restent à relever avant que cette approche ne devienne économiquement viable.

Une densité et une durabilité phénoménales

Le volume des données numériques générées à l’échelle mondiale croît exponentiellement. En outre, les technologies de stockage électroniques actuelles sont peu pérennes, puisqu’elles reposent sur des supports physiques (bande magnétique, disque dur, disque compact, clés USB, etc.) qui ont une durée de vie limitée. Les données sauvegardées doivent donc être recopiées périodiquement ‒ tous les cinq à dix ans selon le support ‒ pour garantir leur intégrité.

En comparaison, l’ADN est extrêmement compact et durable. Selon l’Académie des technologies, la densité informationnelle de l’ADN est dix millions de fois supérieure à celle des meilleurs systèmes traditionnels. En tenant compte de différents facteurs de pertes de densité, l’institution estime que la “sphère globale des données”, c’est-à-dire l’ensemble des données numériques créées par l’humanité, pourrait tenir dans… une fourgonnette.

La longévité de l’ADN est, elle, environ 10 000 fois supérieure à celle des supports traditionnels. Et sa conservation s’affranchit du froid, puisque l’ADN est stable à température ordinaire : cette méthode de stockage est donc peu gourmande en énergie.

Traduire le langage informatique en langage du vivant

Le processus se décompose en cinq étapes : le codage des données, l’écriture sur ADN artificiel, l’entreposage de l’ADN, sa lecture et le décodage de l’information (pour un descriptif détaillé de ces différentes étapes et des technologies impliquées, lire le rapport publié en octobre 2020 par l’Académie des technologies).

Le fichier informatique ‒ un fichier texte, image, son ou vidéo ‒ est d’abord converti en séquences de 0 et de 1, puis en séquences de nucléotides A, C, G et T (codage). Ces nucléotides sont ensuite synthétisés sous forme de fragments d’ADN (écriture) par voie chimique ou enzymatique.

L’ADN synthétisé peut dès lors être conservé à température ambiante grâce à des systèmes de stockage, physiques ou chimiques, qui le protègent de l’eau, de l’oxygène et de la lumière.

Dans le stockage chimique, l’ADN est encapsulé dans des nanobilles de silice avec une durée de conservation de plusieurs décennies. Dans le stockage physique, l’ADN est entreposé dans des capsules en acier inoxydable avec une durée de vie estimée à plus de 50 000 ans. Certains scientifiques envisagent également de stocker des fichiers sur de l’ADN “in vivo”, dans le génome des bactéries. En 2017, une équipe de chercheurs du département de génétique de la Harvard Medical School a encodé un court film dans des bactéries E. coli en utilisant le système CRISPR-Cas.

Enfin, pour accéder aux données contenues dans l’ADN, il faudra d’abord le séquencer, c’est-à-dire déterminer l’ordre d’enchaînement des nucléotides au sein des différents fragments (lecture), puis retranscrire ces séquences sous la forme de la séquence originale de bits (décodage).

Un coût élevé et des vitesses de lecture et d’écriture lentes

Bien que le potentiel soit immense, le stockage sur ADN reste expérimental. Plusieurs obstacles devront être surmontés avant que cette technologie ne puisse véritablement rivaliser avec les systèmes électroniques conventionnels et devienne commercialisable à grande échelle. Les deux principaux facteurs limitants sont ses coûts élevés et la lenteur des processus d’écriture et de lecture des données.

L’Académie des technologies indique que le coût et le temps requis pour stocker 1 Go
(109 octets) de données sur l’ADN sont actuellement comparables à ceux nécessaires pour stocker 1 Po (1 015 octets) de données sur un support informatique. A titre illustratif, les systèmes actuels synthétisent l’ADN nucléotide par nucléotide au rythme de 30 secondes/nucléotide.

La société savante cite l’entreprise Illumina, leader du séquençage de l’ADN, selon qui
le coût devra être divisé par un facteur 10 000 avant que l’approche ADN puisse être largement adoptée.

Les taux d’erreur lors de la lecture des données constituent un autre frein. Ce taux augmentant avec le nombre de nucléotides par fragments d’ADN, cela limite la longueur de ces derniers.

Des progrès considérables ont toutefois été réalisés ces dernières années dans tous ces domaines. Plusieurs experts estiment par exemple que, grâce aux avancées technologiques de ces prochaines années, le coût du stockage sur ADN pourrait diminuer suffisamment d’ici le milieu des années 2020 pour qu’il devienne viable à grande échelle.
Le procédé mis au point par la start-up américaine Catalog DNA (lire l’encadré) permet déjà de réduire les coûts de la synthèse d’ADN grâce à une bibliothèque de fragments d’ADN pré-synthétisés.

Stocker les données “froides” sur des disques ADN

En raison de la lenteur des procédés de lecture et d’écriture, les experts s’accordent à dire que l’usage de l’ADN se cantonnera d’abord à l’archivage à long terme de données dites “froides”, c’est-à-dire des données auxquelles on n’accède que rarement. Selon Marc Antonini, directeur de recherche au CNRS, “ce stock [de données froides] grandit de 60 % chaque année, alors que les capacités de stockage des systèmes actuels ne s’améliorent que de 20 % […]”.

Le développement de méthodes d’archivage alternatives répond donc à un besoin croissant de différentes organisations : institutions culturelles (cinémathèques, musées, bibliothèques, etc.), laboratoires de recherche (spécialisés en physique des particules, par exemple), ou même administrations et banques.

“Le stockage sur l’ADN entrera en compétition ou en complémentarité avec la bande magnétique, actuellement la solution de choix pour l’archivage à long terme”, souligne l’Académie des technologies. Par exemple, Marc Antonini et son équipe travaillent sur OligoArchive. Ce projet financé par la Commission européenne et rassemblant plusieurs entités françaises et britanniques “ambitionne de construire un disque ADN : un prototype de bout en bout pleinement fonctionnel qui montre que l’ADN pourrait un jour remplacer les technologies actuelles de stockage d’archives sur bandes magnétiques”.

Deux projets de stockage sur ADN prometteurs

En 2019, Microsoft et l’Université de Washington (UW) ont dévoilé le premier système de stockage de données sur l’ADN entièrement automatisé. À ce jour, l’équipe de recherche est parvenue à stocker 1 Go de données, un record.

La même année, Catalog DNA, jeune pousse américaine issue du Massachusetts Institute of Technology (MIT), a codé l’ensemble des pages de Wikipédia en anglais, soit 16 Go d’information. Pour réaliser cette prouesse, les scientifiques ont conçu un procédé plus rapide et moins coûteux que les procédés actuels. Au lieu de synthétiser l’ADN nucléotide par nucléotide, ils utilisent de petits fragments d’ADN, appelés “composants”, déjà synthétisés. Ces composants, piochés dans un “catalogue”, sont ensuite combinés par une machine pour former des molécules d’ADN plus longues, un peu comme pourrait le faire une presse typographique.

Contrairement au prototype de Microsoft et UW, le procédé développé par Catalog DNA a vocation à devenir rapidement viable économiquement.

A lire aussi sur Hello Future

Modèle de molécule

Matérialiser les données pour mieux les comprendre

Découvrir

« Réhumaniser la data urbaine par le design »

Découvrir

Des cochons et des données

Découvrir