Intelligence artificielle | Article

Toujours plus de neurones dans la reconnaissance de la parole

vendredi 15 avril 2022

Temps de lecture : 3 min

Ecouter le contenu de la page avec notre synthèse vocale

Le domaine de recherche de la reconnaissance de la parole, en ébullition permanente depuis plusieurs décennies, se décline sur de nombreux cas d’usage, du sous-titrage automatique de contenus à son intégration au sein de callbots. Récemment encore, il poursuit sa révolution avec l’exploration d’approches neuronales de bout-en-bout.

“Parvenir à un traitement 100 % neuronal, couvrant à la fois le domaine du signal acoustique et celui de la transcription en mots et en texte.”

Chez Orange, la reconnaissance de la parole fait l’objet de nombreux travaux de recherche depuis une vingtaine d’années. Les projets en la matière essaiment autour de solutions internes, dont l’une conçue à l’origine comme une plateforme d’analyse de flux audiovisuels et d’indexation et d’extraction automatisées de contenus.

Parvenir à un traitement 100 % neuronal, couvrant à la fois le domaine du signal acoustique et celui de la transcription en mots et en texte.

La rupture des traitements neuronaux

Comme l’expliquent Henri Sanson, Directeur du domaine de recherche Décisions et Connaissance, et Benoit Besset, Ingénieur de Recherche en reconnaissance de la parole, “les projets se sont structurés historiquement en deux filières technologiques. L’une s’intéresse à la transcription de contenus, tandis que l’autre explore le sujet des serveurs vocaux interactifs. Aujourd’hui, une seule technologie peut répondre à une large diversité de besoins, à partir d’un socle logiciel commun. Au milieu des années 2010, l’arrivée des premiers traitements neuronaux a constitué une rupture technologique majeure. L’utilisation et la valorisation des méthodes et systèmes de Deep Learning ont coïncidé avec un saut qualitatif significatif, et marqué le point de départ d’une nouvelle filière technologique.”

Vers des solutions 100% neuronales

Les systèmes de reconnaissance de la parole qui émergent à partir de cette rupture privilégient une architecture hybride. Alors que les réseaux de neurones sont employés pour le traitement du signal acoustique, et la transformation de vibrations en phonèmes, ils laissent ensuite la place à des couches plus traditionnelles, avec l’usage de graphes pour la mise en correspondance des sons avec des mots. A partir de 2019, une stratégie technologique alternative voit le jour, fondée sur une approche neuronale de bout-en-bout. “Il s’agit de parvenir à un traitement 100% neuronal, couvrant à la fois le domaine du signal acoustique et celui de la transcription en mots et en texte, précise Valentin Vielzeuf, chercheur en IA dans la reconnaissance de la parole. Cette architecture en un bloc permettrait notamment de simplifier l’entraînement et d’optimiser la mise à jour du modèle. L’approche 100% neuronale permet effectivement de simplifier l’entraînement et éviter certaines étapes “manuelles” nécessaires à l’entraînement d’un modèle hybride (alignement entre audio et texte, définition d’un lexique, annotation des disfluences). Se dispenser de ces étapes permet alors d’exploiter plus facilement une grande quantité de données et donc de tendre vers une meilleure généralisation du modèle, notamment face à certains accents et à divers bruits.”

Des technologies omniprésentes

La transition vers cette nouvelle génération de systèmes demandera toutefois un peu de temps, nécessaire afin de lever certains freins ou questionnements techniques. Le chemin vers le 100 % neuronal implique en effet des réflexions approfondies sur certains enjeux, par exemple une relative perte de contrôle sur ce qui se passe à l’intérieur du réseau neuronal, qui pourrait par exemple inventer ses propres mots.

Sans attendre cette évolution, la reconnaissance vocale continue d’étendre son empreinte dans les domaines de la tech et du numérique. Popularisée à travers sa mise en œuvre dans des systèmes vocaux interactifs, elle peut aussi, du point de vue d’un opérateur tel qu’Orange, servir à l’analyse de conversations de clients avec des call centers, ou à la saisie vocale de comptes-rendus pour les techniciens d’intervention.

Son influence pourrait s’accroître à travers son association avec d’autres technologies – la lecture labiale en particulier, pour une double reconnaissance audio et visuelle de la parole, et des performances augmentées.