En 2016, Google a publié un chiffre édifiant : 20 % des requêtes effectuées sur son moteur de recherche depuis un mobile provenaient de son assistant vocal Google Assistant, une proportion qui grimpait jusqu’à 25 % chez la nouvelle génération des « millennials ». Chez Apple, à la même période, on apprenait que Siri avait dépassé la barre du milliard de requêtes… par semaine. Quant à Amazon, son assistant Echo aurait déjà élu domicile dans 9 % des foyers américains.
Et ce n’est pas fini : « Dans les cinq à dix années à venir, entre 30 et 50 % des usages pourraient être vocaux », avance Patrick Constant, cofondateur du moteur de recherche Qwant et président-fondateur de la société Pertimm.
« L’interaction la plus naturelle reste la voix »
Cette montée en puissance de l’usage des assistants vocaux s’explique par les progrès de la technologie et aussi, de manière très prosaïque, par l’évolution des usages. « Grâce à la maturité des technologies voice to text, qui permettent de retranscrire la demande vocale en texte, on commence à bien reconnaître les choses, poursuit Patrick Constant. De plus, on s’éloigne doucement des usages des claviers, des souris, etc., parce qu’on se rend compte que c’est quand même plus compliqué de taper “Je veux une robe rouge à 30 €” que de le dire à haute voix. Troisième raison, l’avènement de l’Internet des objets amène l’être humain à interagir de manière plus naturelle avec ces objets. Et l’interaction la plus naturelle, ça reste la voix. »
De fait, et parce que le smartphone est toujours à portée de main, il est beaucoup plus pratique de faire appel aux assistants vocaux pour demander, commander, voire contrôler à distance les choses. A condition que lesdits assistants fonctionnent correctement. C’est là que les spécialistes du langage interviennent.
Des dizaines de spécialistes chez les GAFA
Comment les spécialistes du langage travaillent-ils pour améliorer les services des assistants vocaux ? Et qui sont ces « spécialistes du langage » ? « Beaucoup de linguistes et de phonéticiens se sont reconvertis dans l’industrie des assistants vocaux, mais cela concerne aussi ceux qui s’intéressent aux différentes techniques de traduction, explique Jean-Gabriel Ganascia, expert en intelligence artificielle et professeur à l’université Pierre et Marie Curie Paris-VI. Les spécialistes de la phonologie vont par exemple essayer de comprendre ce qu’est un mot, une phrase, etc. D’autres encore se consacrent au traitement automatique du langage. »
Et manifestement, il y a assez de travail pour occuper, chez les GAFA (Google, Amazon, Facebook, Apple) comme au sein de Microsoft, « plusieurs dizaines de personnes », selon Patrick Constant. C’est, poursuit-il, que « le langage a cette particularité d’être infini en expressions possibles, tout comme les usages et les demandes sont infinis ».
Voice to text, deep learning et parsing
Le voice to text (capter un langage sur lesquels les linguistes interviennent d’un point de vue phonologique), le deep learning (par exemple, apprendre à reconnaître l’orthographe précise d’un mot prononcé), ou encore le parsing (technique qui consiste à découper les mots puis à les comprendre – où est le verbe, où est l’action, où est l’objet, quelle est la demande exacte ?) sont autant d’étapes pour perfectionner la compréhension des assistants vocaux face aux attentes de leurs utilisateurs.
« Quand quelqu’un dit : “Je veux réserver un avion pour ce soir pour Nice”, l’intelligence artificielle doit comprendre “je veux réserver”, que c’est un avion et pas un train ou une voiture, la date “ce soir” et l’endroit “Nice”. Et encore, l’intelligence artificielle ne sait pas où se trouve la personne qui demande. Il y a toute une compréhension sémantique avant d’envoyer la requête », développe Patrick Constant.
Et d’ajouter : « 99,9 % des systèmes d’intelligence artificielle de langage fonctionnent avec des tâches effectuées sur des demandes très précises, ce sont en quelque sorte des « perroquets ». Tout ce que l’homme peut mécaniser va se retrouver dans une intelligence artificielle. Or, le langage est une mécanique de précision ; on va donc aller beaucoup plus loin que ce qu’on peut imaginer sur ce sujet-là. » Et pour cela, la connaissance des linguistes, phonéticiens, traducteurs et autres lexicologues est encore une fois indispensable.