Les assistants vocaux doivent-ils imiter les mécanismes de pouvoir pour mieux s’intégrer dans nos habitudes, ou offrent-ils au contraire une occasion de les dépasser ?
Selon une étude de Capgemini, 40 % des consommateurs préféreront utiliser un assistant vocal plutôt qu’un site Web ou une application d’ici trois ans. Alors qu’une personne sondée sur deux est déjà utilisatrice d’assistants vocaux (en particulier via un smartphone pour 81 % d’entre elles), un tiers de ce panel de 5 000 personnes résidant aux États-Unis, au Royaume-Uni, en France et en Allemagne se déclare même prêt à remplacer purement et simplement l’interface client par une voix synthétique dans les magasins physiques. Une appétence qui va transformer les expériences d’achat, la logistique de vente et les services au consommateur.
Mais subsistent encore des freins à l’adoption massive de cette technologie, à commencer par la crédibilité de l’assistant vocal : jusqu’à quel point peut-on faire oublier qu’il n’est qu’un robot et comment sa voix synthétique peut-elle nous sembler suffisamment complice ou empathique pour emporter notre adhésion ?
Des films d’anticipation comme Her de Spike Jonze laissent entrevoir le bouleversement qu’apporteraient les intelligences artificielles si elles étaient dotées d’une voix et d’une personnalité si attachantes que nous pourrions en tomber amoureux. Mais entre cette image d’Épinal et la réalité, il reste une vallée à franchir.
La “vallée de l’étrange”
Comme le savent les roboticiens depuis les travaux de Masahiro Mori dans les années 1970, une technologie androïde doit être extrêmement crédible pour être adoptée. À l’inverse, toute tentative imparfaite pour imiter l’humain aura un aspect purement effrayant, en éveillant chez nous la peur de la maladie et de la mort ‒ c’est la fameuse “vallée de l’étrange”, dont les exemples visuels ne manquent pas.
Et en matière sonore, qui ne s’est jamais senti mal à l’aise en entendant la voix robotique d’un mauvais support client ? Dans un TED Talk, l’orthophoniste et chercheuse en linguistique Joana Révis explique que la voix de synthèse manque de réalisme, car elle “n’a aucune intention. Elle est neutre, en toutes circonstances”. En revanche, c’est l’immense variété d’émotions colorant la tonalité d’une voix humaine qui lui donne son esthétique… et sa capacité de persuasion.
Mais cette “vallée” est-elle vraiment si difficile à franchir ? En réalité, les voix synthétiques les plus suaves ne sont peut-être qu’à portée d’un saut technologique bien identifié et accessible : la voix générée par intelligence artificielle. Pour exemple, des ingénieurs de l’entreprise Dessa qui sont parvenus à reproduire d’une manière bluffante la voix du podcasteur Joe Rogan en faisant ingérer à une IA les quelque 1 300 heures de son émission.
Non contente de soulever des inquiétudes sur de possibles usurpations d’identité via cette technologie, l’entreprise Dessa a déclaré que dans les années à venir, nous la verrions progresser “au point où seules quelques secondes d’audio seront nécessaires pour créer une réplique réaliste de la voix de n’importe quelle personne sur la planète”.
Les sciences sociales à la rescousse
Au-delà de l’impératif de ressemblance à la voix naturelle, la biologie et les sciences sociales sont utiles pour guider les innovateurs dans le choix d’une “bonne” voix pour nos assistants vocaux. Différentes études montrent en effet que certaines voix sont plus efficaces que d’autres selon les situations. Parfois pour des raisons d’hormones : les voix graves par exemple, sont un marqueur de bonne santé que nous reconnaissons instinctivement et qui influence inconsciemment nos choix… ponour le bien de l’évolution de l’espèce.
Parfois, ce sont aussi des facteurs politiques et sociaux qui nous influencent à notre insu : dans une société dominée par les hommes, les voix de femme sont ainsi jugées d’autant plus crédibles qu’elles sont graves ‒ ce qui explique sans doute pourquoi l’arrivée massive des femmes dans nombre de métiers et de postes à responsabilité s’est accompagnée d’une diminution de la fréquence des voix féminines (de 229 Hz en 1945 à 206 Hz en 1993).
Nos assistants vocaux doivent-ils alors imiter les mécanismes de pouvoir de notre société pour mieux s’intégrer dans nos habitudes, ou offrent-ils au contraire une occasion de les dépasser ?
C’est la question qui a animé un groupe de linguistes, informaticiens et concepteurs sonores danois pour créer Q, la première voix synthétique pour assistant vocal non genré. En travaillant cette voix à la fréquence comprise entre 145 et 175 Hz, commune aux femmes et aux hommes et perçue comme la plus neutre, ils ont ainsi mis au point une voix qui ne renforce pas les stéréotypes de genre. Et contribue à un futur plus apaisé ?