Intelligence artificielle | Vidéo

Les voix artificielles s’humanisent et investissent notre quotidien

mardi 5 février 2019 - Mis à jour le jeudi 16 juin 2022

Temps de lecture : 5 min

Ecouter le contenu de la page avec notre synthèse vocale

Grâce à l’évolution de la technologie, les voix des assistants vocaux s’humanisent et leurs champs d’application se déploient. Les assistants vocaux investissent aujourd’hui tous les secteurs d’activité. Une technologie qui nécessite d’être encadrée pour prévenir les dérapages.

Grâce aux réseaux neuronaux, l’analyse de grandes quantités de textes parlés et l’apprentissage permettent de modéliser la voix.

Et si une voix artificielle digne de celle d’une voix humaine n’était plus de la science-fiction ? Depuis longtemps, nombre de chercheurs tentent d’ « humaniser » les voix artificielles, conscients que les assistants personnels et autres bots vocaux ne parviendront à séduire les utilisateurs que s’ils troquent leurs voix monocordes, synthétiques et hachées par des tonalités humaines à débit fluide. Une prouesse technologique au regard de la complexité d’un message oral qui véhicule non seulement du contenu, mais aussi des intonations, un rythme, des tics de langage, une respiration, des hésitations, des onomatopées, des émotions…

Plusieurs technologies associées pour humaniser les voix

Dans le cadre de la synthèse vocale paramétrée (statistical parametric speech synthesis), les informations requises pour générer la donnée vocale sont stockées dans les paramètres du modèle. Le contenu et les caractéristiques du discours sont contrôlés par l’injection de nouvelles données.

Pour humaniser la voix, Google utilise les réseaux neuronaux qui, grâce à l’analyse de grandes quantités de textes parlés et à l’apprentissage, parviennent à modéliser la voix. La parole n’est plus découpée en syllabes ni même en phonèmes, mais en de minuscules morceaux de son ‒ de l’ordre de 16 000 échantillons par seconde. Grâce aux statistiques, le système parvient à prédire chaque nouvel échantillon à partir des milliers qui le précèdent, et ainsi à produire une voix de synthèse.

En utilisant les couches de réseaux de neurones, le système réduit de moitié le fossé entre voix synthétique et voix humaine. Sur une échelle de 1 (synthèse vocale basique) à 5 (voix humaine), sa performance atteint 4,21, contre 3,86 pour la concaténation et 3,67 pour la méthode paramétrique. Grâce au modèle d’ondes sonores brutes, le logiciel peut par ailleurs générer des respirations et des bruits de bouche très humains, et il est également capable de prononcer la même phrase avec des voix et des intonations différentes.

Voix de synthèse : un vaste champ d’application

Aujourd’hui, la synthèse vocale trouve déjà de nombreuses applications. Dans le secteur automobile par exemple, la voix de synthèse est, via les smartphones ou ordinateurs de bord, utilisée pour indiquer la route ou délivrer des informations sur la circulation, mais aussi pour signaler l’état de certains paramètres du véhicule. Dans le secteur de la santé, elle redonne une capacité à communiquer oralement à des patients atteints de sclérose latérale amyotrophique (SLA), une maladie neurodégénérative provoquant la perte de la voix. C’est ainsi que le célèbre astrophysicien Stephen Hawking, atteint de ce syndrome, a utilisé pendant des années un logiciel d’assistance vocale capable de retranscrire ce qu’il écrivait sur une tablette. Cette technique lui a ainsi permis de converser de façon relativement fluide avec ses interlocuteurs. De son côté, la start-up bretonne Voxygen a redonné de la voix à trois malades de l’hôpital de Saint-Brieuc grâce à son système éponyme capable de décomposer les phonèmes (sons élémentaires) et de reconstituer le texte des paroles à une vitesse six fois plus rapide que le temps réel.

Pour les personnes déficientes visuelles, la synthèse vocale est par exemple utile à la lecture d’e-mails et de SMS, à la réalisation de commandes en ligne, ou à la gestion de tâches à distance : allumer le chauffage, baisser des rideaux, rappeler un rendez-vous médical, etc. Des expériences sont actuellement menées pour déléguer à des assistants vocaux des tâches du quotidien. Ainsi, lors de la conférence des développeurs Google I/O, tenue au siège social de la firme à Mountain View du 8 au 10 mai dernier, Google a présenté Duplex, son système de réservations et de prises de rendez-vous via un assistant vocal. Ni le coiffeur ni le restaurateur appelés ne se sont aperçus que leur interlocuteur était un robot.

Enfin, la synthèse vocale entre également dans l’enseignement pour l’apprentissage des langues.

Toutefois, selon la finalité de l’assistant ou du bot vocal, ses caractéristiques seront différentes. S’il n’a pas vocation à être interactif et doit seulement délivrer des informations « simples » (la météo, des horaires…), un assistant informatif et sans émotions peut s’avérer suffisant. En revanche, dans un contexte où la relation avec le client se veut plus personnalisée et empathique, le vocabulaire, le ton, voire l’accent, utilisés seront importants pour renforcer la proximité et le sentiment du client d’être en phase avec le fournisseur du service.

Une technologie qui n’est pas sans risques de dérives

Cependant, tous ces assistants vocaux aux couleurs humaines ne sont pas sans soulever des questions d’éthique à l’instar de l’intelligence artificielle. Ainsi, l’assistant vocal ne doit-il pas annoncer qui il est avant d’entamer une quelconque communication ? Peut-il être en droit de refuser de répondre si l’on n’est pas poli avec lui ? Comment être sûr que l’assistant vocal n’usurpe pas une identité pour soutirer des informations à son interlocuteur comme un numéro de carte bancaire ? Associée à de nouvelles technologies de trucage vidéo, la capacité à reproduire des voix célèbres est ainsi déjà utilisée pour véhiculer des fake news (vidéo de Barack Obama prononçant un discours entièrement fabriqué). Autant de dérapages craints notamment par Kay Firth-Butterfield, responsable de l’intelligence artificielle et de l’apprentissage automatique au Forum économique mondial et intervenante à la conférence des développeurs Google I/O, qui confiait : « C’est un développement important et il signale le besoin urgent qu’il y a à mettre au point un contrôle adéquat des machines qui peuvent tromper les gens en se faisant passer pour des humains. Ces machines pourraient passer des coups de fil de la part de partis politiques et donner des consignes de vote bien plus convaincantes ».

En entretenant des liens quotidiens avec des assistants vocaux, les relations homme-machine vont devenir de plus en plus complexes. Si pour l’instant le dialogue avec ces assistants reste très contraint par des scripts pré-écrits et limités, ce qui laisse peu de doute quant à la nature artificielle de l’interlocuteur (qu’il soit un bot ou un assistant vocal), de nouvelles évolutions pourraient permettre des dialogues plus intuitifs, brouillant les cartes entre humains et intelligence artificielle.