En 2020, le groupement de coopération sanitaire (GCS) HUGO, qui regroupe plusieurs CHU du Grand Ouest, annonçait le lancement de la première plateforme interrégionale de données hospitalières en Europe. Quatre projets de recherche sur les données de santé se sont structurés autour de cette plateforme. L’un d’eux, baptisé HUGO-RD/TAXY, ambitionne de réduire l’errance diagnostique en matière de maladies génétiques rares. Afin d’atteindre cet objectif, une équipe pluridisciplinaire composée d’ingénieurs et de médecins issus du monde académique (CHU de Rennes et Université de Rennes 1) et industriel (b<>com et Orange) a été constituée.
Décrypter des comptes-rendus de médecins
En l’absence totale d’indice sur les causes d’une maladie, l’analyse, en l’état actuel de la science et malgré la possibilité de réaliser un séquençage complet du génome, se heurte encore à certains écueils. L’identification des variants dans les gènes est en effet complexe, d’autant que certains d’entre eux sont non pathogènes. Ainsi, la moitié des maladies génétiques rares à ce jour n’ont pas de cause génétique connue, d’où une errance diagnostique difficile à vivre pour les patients et leurs familles.
En exploitant les informations relatives aux phénotypes des patients, c’est-à-dire l’expression et la traduction observable de leur génome, une solution consiste à filtrer les variants les plus probablement pathogènes pour les analyser. La tâche est ardue. “Il n’existe aucun processus systématique et standardisé selon lequel pourraient être renseignés tous les phénotypes d’un patient, précisent Thomas Labbé et Jean-Michel Sanner, respectivement Data Scientist et Ingénieur de Recherche chez Orange, qui partagent leurs expertises en matière de traitement du langage naturel dans le cadre du projet TAXY. Ce sont les comptes-rendus cliniques, rédigés lors des consultations de génétique sous forme libre, qui nous servent de source de renseignement. L’idée est d’identifier dans ces comptes rendus les groupes de mots faisant référence à des termes phénotypiques standards. Or utiliser des techniques de correspondance de chaînes de caractères, ou ‘string matching’, ne suffit pas car beaucoup d’informations sont sous-entendues dans la rédaction des médecins. Dès lors, tout l’enjeu consiste à identifier l’implicite pour le rendre explicite, ce qui nécessite d’interpréter des concepts abstraits inhérents au langage, en d’autres termes, comprendre précisément la sémantique (le sens) du texte.”
Des modèles pré-entraînés, et adaptés
Dans cette perspective, les équipes projet se fondent sur des modèles de langage pré-entraînés et très élaborés, grâce auxquels il est possible d’effectuer des calculs de similarités sémantiques. Ces modèles obéissent à un principe de “transfer learning” (apprentissage par transfert), leur permettant d’être adaptés à de nombreux cas d’usage (traduction, classification de texte, etc.), du plus simple jusqu’au plus complexe, comme dans le cas du projet TAXY.
Les comptes-rendus cliniques, rédigés lors des consultations de génétique sous forme libre, servent de source de renseignement et d’analyse.
L’adaptation s’opère en deux temps. Une première étape, dite non supervisée, consiste à alimenter le système de quelque 20.000 comptes-rendus non annotés dans le but d’ajuster le modèle au domaine cible. Puis vient l’apprentissage en mode supervisé. “Pour cette deuxième étape, il nous faut des comptes-rendus annotés qui constitueront notre jeu de données d’entraînement. Dans cette perspective, nous avons développé un outil d’annotation dédié, baptisé ACUITEE, proposé en Open Source afin de le faire adopter largement par la communauté des généticiens” détaille Majd Saleh, Ingénieur de Recherche chez b<>com.
Comme l’explique Paul Rollier, médecin au CHU de Rennes, “ce logiciel novateur d’aide à l’annotation permettra de constituer une base de comptes-rendus annotés suffisamment consistante pour affiner le modèle de langage pour l’objectif visé”.
Des réseaux qui prêtent beaucoup d’attention
Une fois entraînée, l’IA peut procéder à l’extraction automatisée des phénotypes décrits dans les comptes-rendus. Ce rôle est attribué au module ENLIGHTOR. Cette solution est basée sur des réseaux Transformer – des réseaux neuronaux sophistiqués permettant de générer des modèles de langage aux propriétés statistiques très performantes. La fiabilité de ces modèles capables de capturer les caractéristiques les plus subtiles d’une langue est en partie due à une nouvelle classe d’algorithmes capables de calculer une représentation numérique contextualisée pour chaque mot d’une phrase selon un principe dit “d’attention”. La prise en compte des multiples contextes potentiels dans lesquels un mot donné peut apparaître permet ainsi d’encoder l’information de manière très fine et différenciée, préalable indispensable à l’extraction de connaissances même implicites. Les résultats de l’extraction sont ensuite évalués à la fois de manière automatique via un jeu de données ad hoc, mais également manuellement par les cliniciens impliqués dans le projet. Ces évaluations sont exploitées pour améliorer l’IA de manière itérative.
Les travaux dans le cadre de TAXY arrivent dans la dernière ligne droite. Ils se poursuivront à travers le projet POLLEN, pour continuer d’explorer l’apport du traitement du langage en médecine génétique.