Toujours plus de neurones dans la reconnaissance de la parole

Une femme parle à son smartphone
Le domaine de recherche de la reconnaissance de la parole, en ébullition permanente depuis plusieurs décennies, se décline sur de nombreux cas d’usage, du sous-titrage automatique de contenus à son intégration au sein de callbots. Récemment encore, il poursuit sa révolution avec l’exploration d’approches neuronales de bout-en-bout.

“Parvenir à un traitement 100 % neuronal, couvrant à la fois le domaine du signal acoustique et celui de la transcription en mots et en texte.”

Chez Orange, la reconnaissance de la parole fait l’objet de nombreux travaux de recherche depuis une vingtaine d’années. Les projets en la matière essaiment autour de solutions internes, dont l’une conçue à l’origine comme une plateforme d’analyse de flux audiovisuels et d’indexation et d’extraction automatisées de contenus.

Parvenir à un traitement 100 % neuronal, couvrant à la fois le domaine du signal acoustique et celui de la transcription en mots et en texte.

La rupture des traitements neuronaux

Comme l’expliquent Henri Sanson, Directeur du domaine de recherche Décisions et Connaissance, et Benoit Besset, Ingénieur de Recherche en reconnaissance de la parole, “les projets se sont structurés historiquement en deux filières technologiques. L’une s’intéresse à la transcription de contenus, tandis que l’autre explore le sujet des serveurs vocaux interactifs. Aujourd’hui, une seule technologie peut répondre à une large diversité de besoins, à partir d’un socle logiciel commun. Au milieu des années 2010, l’arrivée des premiers traitements neuronaux a constitué une rupture technologique majeure. L’utilisation et la valorisation des méthodes et systèmes de Deep Learning ont coïncidé avec un saut qualitatif significatif, et marqué le point de départ d’une nouvelle filière technologique.”

Vers des solutions 100% neuronales

Les systèmes de reconnaissance de la parole qui émergent à partir de cette rupture privilégient une architecture hybride. Alors que les réseaux de neurones sont employés pour le traitement du signal acoustique, et la transformation de vibrations en phonèmes, ils laissent ensuite la place à des couches plus traditionnelles, avec l’usage de graphes pour la mise en correspondance des sons avec des mots. A partir de 2019, une stratégie technologique alternative voit le jour, fondée sur une approche neuronale de bout-en-bout. “Il s’agit de parvenir à un traitement 100% neuronal, couvrant à la fois le domaine du signal acoustique et celui de la transcription en mots et en texte, précise Valentin Vielzeuf, chercheur en IA dans la reconnaissance de la parole. Cette architecture en un bloc permettrait notamment de simplifier l’entraînement et d’optimiser la mise à jour du modèle. L’approche 100% neuronale permet effectivement de simplifier l’entraînement et éviter certaines étapes “manuelles” nécessaires à l’entraînement d’un modèle hybride (alignement entre audio et texte, définition d’un lexique, annotation des disfluences). Se dispenser de ces étapes permet alors d’exploiter plus facilement une grande quantité de données et donc de tendre vers une meilleure généralisation du modèle, notamment face à certains accents et à divers bruits.”

Des technologies omniprésentes

La transition vers cette nouvelle génération de systèmes demandera toutefois un peu de temps, nécessaire afin de lever certains freins ou questionnements techniques. Le chemin vers le 100 % neuronal implique en effet des réflexions approfondies sur certains enjeux, par exemple une relative perte de contrôle sur ce qui se passe à l’intérieur du réseau neuronal, qui pourrait par exemple inventer ses propres mots.

Sans attendre cette évolution, la reconnaissance vocale continue d’étendre son empreinte dans les domaines de la tech et du numérique. Popularisée à travers sa mise en œuvre dans des systèmes vocaux interactifs, elle peut aussi, du point de vue d’un opérateur tel qu’Orange, servir à l’analyse de conversations de clients avec des call centers, ou à la saisie vocale de comptes-rendus pour les techniciens d’intervention.

Son influence pourrait s’accroître à travers son association avec d’autres technologies – la lecture labiale en particulier, pour une double reconnaissance audio et visuelle de la parole, et des performances augmentées.

A lire aussi sur Hello Future

Trois personnes collaborent autour d'un ordinateur portable dans un environnement de bureau moderne. L'une d'elles, debout, explique quelque chose aux deux autres assis, qui semblent attentifs. Sur la table, on peut voir un ordinateur de bureau, une tablette et des accessoires de bureau. Des plantes et des bureaux sont visibles en arrière-plan.

FairDeDup : un outil pour aider les modèles d’IA à se libérer des biais sociaux

Découvrir
PLEAIS

P-C. Langlais (Pleais) : « Nos modèles de langue sont entraînés sur des corpus ouverts »

Découvrir
GettyImages - Khiops

Khiops, le machine learning simple et automatisé

Découvrir
GettyImages - attaques IA nettoyage données - attacks AI cleaning data

Attaques sur les IA : le nettoyage des données devient un enjeu de cybersécurité

Découvrir
GettyImages - IA et recherche pharmaceutique - AI and pharmaceutical research

L’IA générative aide à designer les molécules éligibles à une application pharmaceutique

Découvrir
Deux développeurs regardent du code sur un écran

L’AutoML est-il la clé de la démocratisation de l’apprentissage automatique ?

Découvrir