Intelligence artificielle | Article

Voix artificielle chez Orange : la fluidité avant tout !

lundi 4 février 2019 - Mis à jour le jeudi 16 juin 2022

Temps de lecture : 6 min

Ecouter le contenu de la page avec notre synthèse vocale

Le procédé de création de voix de synthèse ou Text-To-Speech (TTS) démarre par des enregistrements de voix humaines, une matière première essentielle. Des équipes chez Orange travaillent pour rendre la voix artificielle la plus naturelle possible sans pour autant l’humaniser.

"Nous sommes plutôt dans un système de questions-réponses conçu à partir de scénarios prédéterminés avec beaucoup d’intelligence humaine derrière la voix artificielle"

La voix est l’une des formes les plus importantes de la communication humaine qui va bien au-delà d’une simple juxtaposition de mots. Elle embarque de nombreuses modalités d’expressions telles que sa hauteur, sa mélodie ou encore ses silences. Autant d’éléments qui participent à la portée des messages à partir desquels les équipes Orange, qui travaillent sur la voix artificielle, s’inspirent pour retranscrire la parole.
« Travailler sur cette technologie pour en rendre l’expression naturelle, est un des aspects les plus challengeant de notre métier », estime David Carvalho, responsable Vision Design chez Orange.
Pour atteindre cet objectif, il est nécessaire dans un premier temps d’observer les mécanismes de l’appareil phonatoire humain à l’origine de la production de la parole et de sa perception.

Sons voisés et non voisés, pitch, phonèmes et logatomes

La vibration des cordes vocales détermine le timbre des sons produits propres à chaque individu. Lorsqu’elles sont tendues, le flux de l’air les fait vibrer et se propage dans les différentes cavités. Il permet ainsi d’obtenir ce qu’on appelle un son voisé. En revanche, lorsque les cordes vocales sont relâchées, l’air passe librement au niveau du larynx sans les faire vibrer. On obtient alors un son non voisé comme par exemple, les silences.
Le mouvement des cordes vocales produit un son intimement lié à la façon dont il est perçu. C’est ce qu’on appelle le pitch c’est à dire la fréquence qui donne des informations sur l’intonation de la phrase et aussi sur le locuteur, notamment son émotivité. Les variations de pitch contribuent à distinguer une affirmation, d’une interrogation ou d’un ordre. Autant de caractéristiques de la voix humaine qui sont intégrées dans les technologies liées aux voix de synthèse. Elle en constitue même la matière première avec le procédé de création de voix en synthèse par sélection d’unité à partir d’un texte enregistré, ou Text-To-Speech (TTS).
Chez Orange, c’est la comédienne Catherine Nullans, dont la voix incarne la signature sonore de la marque, qui a enregistré plusieurs dizaines d’heures de textes avec un timbre et un ton qui doivent rester neutres et uniformes tout au long de la lecture du script. « La qualité de la voix de synthèse est directement liée à la performance de la voix du locuteur, notamment à sa constance », souligne David Carvalho.
Une fois collectées, les paroles sont ensuite découpées en phonèmes eux-mêmes composés de logatomes. Un phonème représente les sons qui doivent être prononcés. « Par exemple, dans le mot « PAPA », on compte deux phonèmes car l’intonation du premier « PA » est différente du second », note Pascal Taillard, Designer sonore chez Orange. La langue française en comprend 36, l’anglais, 46.
Quant aux logatomes, ils sont constitués de syllabes ou de groupes de syllabes possédant des caractéristiques articulatoires et acoustiques particulières. Sans signification précise, ils servent parfois d’exercice de prononciation. Il y en a plus de 1 000 pour le français.

Une composition de la voix vue comme une succession de notes

Ces phrases sont ensuite retranscrites phonétiquement et mises bout à bout. C’est ce qu’on appelle la concaténation de la chaine phonétique. Des algorithmes effectuent ensuite un travail de collage des phonèmes en y appliquant une prosodie c’est-à-dire la bonne mélodie (variations des hauteurs), le bon rythme (variations de durée) et la bonne intensité (variations d’énergie). « Il faut voir la composition de la voix comme une succession de notes qui, grâce à des outils spécifiques, servent à composer des phrases », fait remarquer Pascal Taillard.
En parallèle, des architectes de l’information construisent des arbres de dialogues qui structurent sous forme d’arborescences le parcours du message par grands domaines de compétences comme par exemple la météo, l’heure… Selon David Carvalho, « tout est programmé de manière assez classique via des processus automatisés dans la reconnaissance de ce qui est dit, pour être associés au bon domaine de compétences ».
Une fois ces étapes franchies, des linguistes écoutent la façon dont les mots sont prononcés, vérifient s’il y a la bonne articulation, les bonnes liaisons et corrigent les éventuelles erreurs. « C’est à ce moment-là aussi qu’on repère si certains sons ne correspondent pas à une voix naturelle », explique Pascal Taillard. Par exemple, des sons voisés qui ne devraient pas l’être ou inversement. Certains mots peuvent être retirés du texte et d’autres, au contraire, ajoutés. Des phrases peuvent apparaitre comme beaucoup trop longues, sans respiration. Enfin, les textes écrits sous forme affirmative sont parfois transformés sous forme interrogative pour respecter certaines convenances comme, par exemple, la courtoisie. « La technique de concaténation ne permet pas de retranscrire de l’émotion. Or, elle est nécessaire pour qu’une voix artificielle soit la plus naturelle possible », constate Pascal Taillard.

Trois systèmes existent pour donner de l’expressivité aux voix artificielles

Aussi, pour éviter de rester sur un ton constamment neutre et donner du sens dans une certaine mesure à l’expression orale, plusieurs systèmes existent :
Le premier consiste à insérer des balises SSML (Speech Synthesis Markup Language) qui font varier la base de voix neutre et permettent un meilleur contrôle de la restitution vocale. Par exemple, la balise <break> permet d’ajouter une pause plus longue entre deux phrases, ou la balise <prosody> accélère la vitesse d’élocution.
Deuxième solution : ajouter des interjections comme des « Hmmm », « Euh »…, voire des gimmicks sonores inspirés des jeux vidéo… Un moyen de créer du relief dans la voix à un moment donné sur une information précise.
Enfin, la troisième est de recourir à des phrases audio pré enregistrées. « Via le fichier audio, on obtient directement l’intonation qu’Orange a voulu y mettre », souligne Pascal Taillard. Car toute production vocale suppose un travail préalable sur l’écrit afin d’envisager plusieurs types de réponses prenant en compte la personnalité de l’agent virtuel. Analysés par des algorithmes, les scénarii sont conçus par des bases de données alimentées par des équipes composées de dialoguistes venant du monde du cinéma, de la BD ou des séries télé qui ont l’habitude de créer l’identité de personnages (style, posture, caractère). Ces travaux sont également validés par les équipes de la Direction de la Marque pour conserver une posture proche, simple audacieuse et positive.

Savoir désambiguiser les questions

Les algorithmes répertorient les différents contextes en les caractérisant et en apportant une réponse adaptée en fonction de l’environnement. Et si l’agent virtuel n’a pas reconnu le domaine de compétence de la question avec un degré de confiance suffisant, il est en capacité de poser une autre question pour être certain d’apporter la bonne réponse. « Un book de dialogue est prévu et permet de désambiguiser la question », précise Pascal Taillard. « Sans pour autant arriver à un dialogue qui prenne en compte la réponse du locuteur pour reposer une autre question en référence à la première », ajoute- t-il.
« Nous sommes plutôt dans un système de questions-réponses conçu à partir de scénarii prédéterminés et, aujourd’hui encore, avec beaucoup d’intelligence humaine derrière ces voix artificielles », insiste David Carvalho.
Les équipes d’Orange s’attachent à observer la vitesse à laquelle évoluent ces technologies dans lesquelles s’introduit de plus en plus d’intelligence artificielle (IA). Un jour peut-être, possibilité sera donnée aux agents virtuels d’imiter, voire d’égaler les modes d’expression humaine en commençant par la voix.