Intelligence artificielle | Article

Quand l’IA connaît votre état de santé grâce au son de votre voix

Un homme équipé d’un casque analyse le son d’une voix sur son ordinateur.

vendredi 29 octobre 2021

Temps de lecture : 6 min

Ecouter le contenu de la page avec notre synthèse vocale

Les biomarqueurs vocaux sont des paramètres extraits de la voix qui peuvent être mesurés objectivement et associés à un panel de maladies. Leur analyse par des algorithmes d’apprentissage automatique ou profond pourrait constituer une méthode d’aide au diagnostic précoce et à la surveillance à distance fiable, simple et peu coûteuse.

“De la même manière que des systèmes d’IA réalisent des diagnostics en interprétant l’imagerie médicale, ils pourraient, en analysant ces paramètres vocaux, identifier et classifier certaines maladies.”

La voix recèle de nombreuses informations sur l’état de santé des personnes. En effet, plusieurs pathologies ‒ maladies neurodégénératives ou pulmonaires, affections cardiovasculaires, troubles psychiques ‒ peuvent modifier la façon dont parle une personne. Celle-ci articulera moins bien, ou allongera davantage les voyelles, par exemple.

Si le cerveau humain est capable d’analyser certains de ces signes pour “deviner” la forme physique ou l’état mental d’un locuteur, d’autres passent totalement inaperçus. Peut-être plus pour longtemps, grâce à l’extraction de biomarqueurs vocaux et à l’intelligence artificielle (IA).

Les National Institutes of Health (NIH) américains définissent un biomarqueur comme “une caractéristique qui est objectivement mesurée et évaluée comme un indicateur de processus biologiques normaux, de processus pathogènes ou de réponses pharmacologiques à une intervention thérapeutique”. On peut, par exemple, utiliser des biomarqueurs sanguins pour le diagnostic des personnes atteintes d’une sclérose en plaques. Il en va de même pour les biomarqueurs vocaux.

On distingue deux catégories principales de caractéristiques ‒ ou paramètres ‒ vocales. Les paramètres acoustiques mesurent la qualité de la voix (fréquence, amplitude, etc.). Les paramètres prosodiques, tels que la durée des voyelles, la vitesse d’élocution ou la longueur des pauses, indiquent la qualité du phrasé. À cela s’ajoutent les paramètres linguistiques, qui concernent les mots employés.

Tous ces paramètres peuvent être associés à une grande variété de pathologies. On parle d’identification ou d’extraction de biomarqueurs. De la même manière que les systèmes d’IA réalisent déjà des diagnostics en interprétant l’imagerie médicale, ils pourraient, en analysant ces paramètres vocaux, identifier et classifier certaines maladies, pour le diagnostic, mais aussi la prévention et la surveillance de ces maladies. Les avantages d’une telle approche sont multiples : précision, rapidité, simplicité et coût.

Une démarche en plusieurs étapes

La démarche classique pour identifier les biomarqueurs vocaux se décompose en plusieurs étapes, décrites dans cet article rédigé par une équipe de chercheurs luxembourgeois. Dans un premier temps, il faut choisir le type d’enregistrement que l’on veut obtenir (sons verbaux, production de voyelles et de syllabes, vocalisations non verbales) et collecter les données audio. On pourra demander aux participants de lire un texte, de décrire une expérience vécue, de maintenir la prononciation d’une voyelle aussi longtemps qu’ils le peuvent ou de forcer une toux.

La collecte de données est réalisée grâce à un enregistrement en studio, téléphonique, sur le Web (mode très utilisé pour des campagnes de collecte de données à grande échelle) ou encore sur smartphone, via une application, ce qui permet d’obtenir une bonne qualité grâce au haut débit mobile. À ce stade, un prétraitement audio est nécessaire, qui comprend le rééchantillonnage, la réduction du bruit, le cadrage et le fenêtrage des données, etc.

L’étape suivante est la sélection des paramètres vocaux qui seront utilisés pour l’apprentissage des algorithmes, c’est-à-dire l’identification des caractéristiques les plus dominantes et discriminantes. “Le bon choix de caractéristiques dépend fortement du trouble de la voix, de la maladie et du type d’enregistrement de la voix”, expliquent les chercheurs luxembourgeois. “Par exemple, les caractéristiques acoustiques extraites de phonations de voyelles soutenues ou d’enregistrements diadochocinétiques [les tâches diadochocinétiques comprennent la répétition rapide de syllabes, qui combinent des consonnes occlusives et des voyelles, comme /pa/] sont courantes dans la détection de la maladie de Parkinson, tandis que les caractéristiques linguistiques extraites de la parole spontanée ou semi-spontanée peuvent être plus appropriées pour l’estimation de la maladie d’Alzheimer ou des troubles mentaux.”

On peut ensuite entraîner des algorithmes d’apprentissage automatique ou profond pour prédire ou classer automatiquement différentes pathologies, à partir de ces paramètres vocaux seuls ou en les combinant à d’autres données (anthropométriques ‒ c’est-à-dire les mensurations du corps humain ‒, cliniques ou épidémiologiques). Le plus souvent, ce sont des algorithmes d’apprentissage supervisé qui sont utilisés comme modèles prédictifs, mais les auteurs soulignent que l’apprentissage par transfert est une approche prometteuse.

Surveiller la Covid-19…

En 2020, de nombreux essais ont été menés pour dépister et surveiller l’évolution de la Covid-19 grâce à la voix, notamment en Israël où la start-up Vocalis Health, soutenue par le ministère de la Défense, a travaillé en collaboration avec des hôpitaux et des institutions académiques. Des échantillons de voix ont été recueillis auprès de patients hospitalisés et de volontaires, malades ou non, ayant envoyé leurs données audio via une application mobile. Ces échantillons ont ensuite été analysés à l’aide d’un algorithme afin d’identifier une “empreinte vocale unique” pour détecter les symptômes de la maladie et une détérioration de la santé des patients atteints. L’université de Cambridge et le Luxembourg Institute of Health (LIH) mènent des projets similaires.

Aux États-Unis, une équipe de recherche du Massachusetts Institute of Technology (MIT) a quant à elle cherché à dépister les cas asymptomatiques de Covid-19 grâce au son de la toux enregistrée sur un téléphone portable. Avant le début de la pandémie, les chercheurs travaillaient sur la détection précoce de la maladie d’Alzheimer, une maladie neurodégénérative associée à un déclin de la mémoire et à une dégradation des fonctions des muscles, notamment un affaiblissement des cordes vocales. À cet effet, ils avaient développé un cadre d’IA combinant plusieurs réseaux neuronaux qu’ils ont pu réutiliser pour identifier quatre biomarqueurs spécifiques à la Covid-19 : force des cordes vocales, sentiments, changement dans les capacités pulmonaires et respiratoires et dégradation musculaire.

… et prévenir la dépression

Plusieurs études ont montré que l’analyse de la voix par des systèmes d’apprentissage automatique pouvait aussi permettre d’améliorer le diagnostic et le traitement des maladies et troubles psychiques tels que la dépression. Aujourd’hui, le système de soins en santé mentale est confronté à un double défi : le manque de professionnels agréés d’une part ; la fiabilité des diagnostics et la qualité des soins d’autre part. En effet, les outils de dépistage actuels reposent beaucoup sur l’autodéclaration subjective du patient. De ce fait, une petite partie seulement des maladies mentales sont correctement diagnostiquées (47,3 %, selon une étude publiée dans “The Lancet” en 2009).

Pour combler les lacunes et désengorger le système de santé, Sonde Health a développé une technologie permettant de recueillir de courts échantillons de voix à l’aide d’un smartphone, de les analyser et de déceler des signes précoces de dépression clinique ou d’anxiété par le biais de changements subtils dans certains paramètres acoustiques.

Enfin, comme l’explique une chercheuse de la faculté de médecine Université Côte d’Azur, certains symptômes de la dépression sont communs à ceux de pathologies neurodégénératives, en particulier chez les personnes âgées, ce qui peut entraîner des erreurs de diagnostic. Or, il existe à ce jour peu d’outils permettant de différencier les deux. Pour elle, l’analyse automatique de la voix pourrait être une nouvelle méthode d’aide au diagnostic non invasive et facile d’utilisation.

Soins à distance et santé augmentée

Un des objectifs de la recherche sur l’extraction automatique de biomarqueurs est de pouvoir intégrer des solutions basées sur l’IA à des plateformes de télémédecine et des applications de gestion des soins proposées aux praticiens, leur permettant de faire des consultations ou de suivre leurs patients à distance. Par exemple, VocalisTrack, mise au point par Vocalis Health, mesure l’essoufflement de patients atteints de BPCO (bronchopneumopathie chronique obstructive) via une application disponible sur leur smartphone. En analysant les données recueillies, l’équipe de soins peut suivre ces patients à leur retour à domicile et détecter tout signe d’aggravation. Le but est de réduire le nombre d’examens physiques et surtout d’éviter les réadmissions hospitalières.

Des solutions grand public pourraient également voir le jour, permettant aux individus de surveiller leur santé quotidiennement à l’aide d’un smartphone ou de n’importe quel autre appareil intelligent. À ce titre, le nom de l’application développée par Sonde Health, “Mental Fitness”, est évocateur, l’idée étant que les utilisateurs puissent utiliser ce type d’outils pour surveiller ‒ et améliorer ‒ des paramètres de santé mentale, comme ils pourraient utiliser un bracelet connecté pour surveiller leur fréquence cardiaque.