Intelligence artificielle | Article

L’IA générative, une nouvelle approche pour pallier la rareté des données

Un homme regarde des données sur une tablette

lundi 21 mars 2022

Temps de lecture : 5 min

Ecouter le contenu de la page avec notre synthèse vocale

Dans un contexte de multiplication de faux contenus hyperréalistes à des fins malveillantes, la technologie de l’intelligence artificielle (IA) générative est aussi porteuse de progrès importants, en particulier dans le domaine médical. Elle peut aider à résoudre les problèmes liés aux biais d’échantillonnage ou à la rareté des données, goulet d’étranglement critique de l’apprentissage automatique.

“Selon le cabinet de conseil Gartner, plus de 30 % des nouveaux médicaments et matériaux seront découverts à l’aide de techniques d’IA générative d’ici 2025.”

Les algorithmes d’IA générative peuvent générer, à partir de contenus existants (images, fichiers audio, textes), des contenus similaires originaux. Il en existe plusieurs modèles. Les plus populaires sont les réseaux antagonistes génératifs (GAN), classe d’algorithmes d’apprentissage non supervisé qui met en compétition deux réseaux. Le “générateur” produit des données artificielles semblables aux données d’entrée avec le plus de réalisme possible. Le “discriminateur” essaie lui de distinguer les données authentiques et originelles. Après chaque test, en fonction du résultat, le générateur ajuste ses paramètres pour créer des données plus convaincantes, jusqu’à ce que le discriminateur, qui se perfectionne lui aussi à chaque itération, ne puisse plus distinguer le vrai du faux.

Un GAN, plutôt qu’une copie conforme d’un tableau, peut ainsi créer une nouvelle œuvre crédible dans le style de l’original. Le projet Meet the Ganimals, lancé par le Massachusetts Institute of Technology de Boston (MIT), en créant des images photoréalistes d’animaux hybrides, illustre cette capacité à créer de toutes pièces de nouvelles données, dites “données synthétiques”. La performance des algorithmes d’apprentissage automatique est en général corrélée à la quantité de données qui constituent leur matière première. Dans certaines situations où ces données sont rares, l’utilisation de données synthétiques peut accroître la quantité de données dans un ensemble d’apprentissage (on parle d’augmentation de données) ou les altérer.

IRM cérébrales synthétiques

La médecine fait partie des domaines où les données sont peu disponibles, en raison de leur rareté – des images médicales présentant des résultats anormaux sont par définition peu fréquentes – et des restrictions légales entourant l’utilisation et le partage des dossiers des patients.

En 2018, aux Etats-Unis, des chercheurs de Nvidia, de la Mayo Clinic et du MGH & BWH Center for Clinical Data Science ont mis au point un modèle génératif capable de produire des IRM cérébrales synthétiques montrant des tumeurs, pouvant être utilisées pour l’entraînement d’un modèle d’apprentissage profond. L’équipe de recherche estime que ces images synthétiques constituent à la fois un outil complémentaire d’augmentation des données et une méthode efficace d’anonymisation. Elles offrent une source de données diverses peu coûteuse, qui a permis d’améliorer les performances de la segmentation des tumeurs (processus qui consiste à distinguer le tissu tumoral des tissus cérébraux normaux sur une IRM) tout en permettant le partage de données entre différentes institutions.

Découverte accélérée de médicaments

La pharmacologie pourrait aussi bénéficier de cette approche. Concevoir un nouveau médicament est difficile, coûteux et chronophage : plus de douze ans et un milliard d’euros en moyenne pour une mise sur le marché. La synthèse de milliers de molécules, qui n’aboutira qu’à un seul candidat avant d’entamer une étude pré-clinique, est responsable d’une part substantielle de ce coût et de ce délai. Ce processus nécessite d’utiliser des méthodes d’optimisation multi-objectifs pour explorer un vaste “espace chimique” (étendue quasiment infinie contenant toutes les molécules et tous les composés chimiques possibles), car le système d’IA doit évaluer et arbitrer plusieurs critères déterminants tels que l’activité du médicament, sa toxicité ou la facilité avec laquelle il pourra être synthétisé. Les méthodes d’optimisation en question requièrent une grande quantité de données d’apprentissage, que les modèles génératifs peuvent fournir en partie.

Ainsi, Insilico Medicine a créé la plateforme Chemistry42, qui combine algorithmes génératifs et apprentissage par renforcement permettant de trouver automatiquement et en quelques jours de nouvelles structures moléculaires dotées des propriétés attendues. On parle de conception “de novo” de molécules. Cette plateforme a été utilisée par l’entreprise de biotechnologie, en combinaison avec d’autres outils, dans plusieurs domaines thérapeutiques, par exemple les maladies pulmonaires. En 2021, Insilico annonçait avoir identifié une nouvelle cible thérapeutique (l’élément de l’organisme, comme une protéine, sur lequel va agir le médicament) et une nouvelle molécule pour un médicament contre la fibrose pulmonaire idiopathique (FPI). Cette découverte, présentée comme une première mondiale, a pris moins de 18 mois et a coûté 10 % du coût d’une étude conventionnelle, affirme l’entreprise.

Selon le cabinet de conseil Gartner, plus de 30 % des nouveaux médicaments et matériaux seront découverts à l’aide de techniques d’IA générative d’ici 2025.

Visages de synthèse

Les biais d’échantillonnage font partie des critiques adressées aux technologies de reconnaissance faciale. Certains de ces outils identifient moins souvent des personnes à la peau foncée que des personnes à la peau claire, des femmes que des hommes. Ces biais documentés, souvent liés à la sous-représentation de certains groupes dans les bases de données d’entraînement, peuvent conduire à des discriminations envers une partie de la population.

Pour éviter les biais d’échantillonnage, les ingénieurs en IA ont besoin de jeux de données représentatifs de la diversité de la population. Or, ces ensembles sont rares et l’utilisation de ceux qui existent est encadrée en raison du caractère sensible des données biométriques.

D’une part, les données synthétiques peuvent aider à limiter les biais d’échantillonnage. L’utilisation de vrais visages reste nécessaire en début de chaîne pour entraîner le modèle génératif. Aux concepteurs, ensuite, d’équilibrer le jeu de données grâce à un contrôle granulaire de la génération des données synthétiques selon différents attributs (sexe, âge, couleur de peau, etc.).

D’autre part, elles permettent de s’affranchir des contraintes liées à la confidentialité des données sensibles et de réduire les risques d’interférence. Les modèles génératifs produisent des données réalistes, mais factices, sans lien avec des individus réels. Plusieurs travaux ont cherché à montrer que les données synthétiques pouvaient offrir la même utilité que les données authentiques tout en protégeant la vie privée des individus (ici en partant d’une base de données de mobilité partagée).

Des entreprises comme Datagen ou Synthesis AI se sont spécialisées dans la fourniture de visages de synthèse. En Suisse, le projet SAFER, mené par l’Institut de Recherche Idiap et regroupant l’université de Zurich et l’entreprise SICPA, vise à créer des bases de données représentatives à l’aide de visages de synthèse qui serviront à alimenter des outils de “reconnaissance faciale éthique”.