Intelligence artificielle | Article

L’IA franchit le mur du son

vendredi 11 décembre 2020 - Mis à jour le mercredi 22 juin 2022

Temps de lecture : 4 min

Ecouter le contenu de la page avec notre synthèse vocale

La reconnaissance des sons reste un champ relativement peu exploré en matière d’intelligence artificielle, posant plusieurs défis techniques depuis la captation d’un bruit jusqu’à son analyse. La recherche dans ce domaine franchit toutefois des caps majeurs et s’appuie, pour cela, sur la contribution du grand public.

“Partie d’une feuille blanche, l’équipe a créé un système pour capter et analyser les sons tout en respectant les exigences de confidentialité.”

Si la reconnaissance de texte relève des sujets soumis à l’intelligence artificielle depuis de nombreuses années, celle des sons est bien plus récente et constitue un domaine de recherche encore émergent. Les subtilités du bruit présentent un défi de taille en termes d’assimilation pour la machine et sont compliquées à saisir. Un premier obstacle réside dans la captation du son et dans l’élaboration des bases de données qui serviront à l’entraînement des algorithmes.

A la recherche de “l’Oreille d’Or”

En 2016, un projet de recherche baptisé “Golden Ear for Things” a été initié chez Orange afin de concevoir un système de reconnaissance sonore hors parole. A terme, celui-ci sera capable de capter, d’identifier, d’analyser des sons et d’initier en conséquence une action différente selon le contexte d’utilisation. L’usage peut notamment être domestique (reconnaissance d’activités pour favoriser le maintien à domicile des seniors par exemple), ou lié à l’industrie (pour détecter des anomalies sur des robots industriels). Nicolas Pellen, concepteur de services, et Katell Péron, chef de projet de recherche chez Orange, décryptent le socle du projet : “Il s’agit d’utiliser et d’entraîner des algorithmes de ‘machine learning’ à base de réseaux de neurones, à l’aide d’un maximum de données. Parce que l’acquisition de ces données est coûteuse en temps et en argent, nous avons eu l’idée de lancer une appli grand public afin d’en faire un jeu et d’accélérer l’enregistrement et la qualification des sons. Avec l’appli d’énigmes sonores Soundary, les utilisateurs peuvent deviner des mots-mystère à partir de 1 à 3 sons, ou créer eux-mêmes un mot-mystère basé sur un ou des sons enregistrés par leurs soins, ou récupérés dans une sonothèque à leur disposition. Prochainement, un mode ‘battle’ proposera de répondre au plus grand nombre d’énigmes possible dans un temps limité. A travers ces jeux, l’utilisateur a la possibilité d’étiqueter les sons, en apposant un tag sur ceux-ci. Pour un son donné, nous aurons donc plusieurs tags à partir desquels nous pourrons faire une pondération. Cela nous aidera à identifier les ambiguïtés – ou homonymes – sonores et à affiner le système : une personne X peut reconnaître et étiqueter un son, quand une personne Y pensera à un bruit différent et l’étiquètera autrement.”

Plusieurs méthodes de classification

Si la “gamification” est utilisée depuis plusieurs années comme un biais pour qualifier des données par des laboratoires, instituts et universités – la NASA par exemple pour des photos de l’ISS – la démarche est nouvelle pour la recherche d’Orange, a fortiori pour un projet de reconnaissance sonore. Dans l’idéal et à ce stade, l’objectif est de parvenir a minima à trois personnes labellisant un même son.

Cette logique de recherche participative s’ajoute à l’effort déployé jusqu’ici pour avancer sur la conception du système. Au lancement du projet, l’équipe pluridisciplinaire (chercheurs en apprentissage machine, en acoustique, développeurs mobiles, etc.) s’est appuyée sur des bases de données publiques pour initier l’entraînement des algorithmes.

Le travail s’est orienté par ailleurs sur les techniques de classification des sons à mettre en œuvre. En interne, un panel de personnes aveugles a été interviewé pour savoir quels sons étaient déterminants afin de comprendre une scène sonore. “Nous avons constaté avec cette expérimentation que la bonne interprétation d’une situation se faisait à partir de trois sons, et nous essayons de reproduire cela de façon automatisée par le système. Mais d’autres méthodes et critères sont employés, tels que la scène sonore dans sa globalité, ou l’utilisation d’un objet émettant un son bien distinctif et associé à un contexte tout aussi spécifique – une poêle dans une cuisine, par exemple.”

En quatre ans, l’équipe Golden Ears for Things est parvenue à un système de bout-en-bout pour capter et analyser les sons tout en apprenant et en respectant les exigences de confidentialité. Elle se projette maintenant vers de nouveaux défis et réflexions, comme la détection des sons en mouvement ou l’apprentissage avec très peu de données. Elle se penchera à terme sur le volet “action” du projet, à savoir : l’interaction du système avec son environnement post-reconnaissance.