- Expériences dans la maison et l’entreprise
- Objets connectés
- Société numérique soutenable
- Univers Cyber-Physique
Les récentes avancées réalisées dans le traitement automatique de la parole – notamment grâce au perfectionnement de certaines techniques de l’apprentissage automatique profond [1], rendu possible par la disponibilité de volume de plus en plus grand de données « d’apprentissage » et de ressources plus grandes de calcul – ont donné lieu au développement d’une nouvelle génération d’Assistants Vocaux « Intelligents » (AVI). Les discours promotionnels sur ces AVI (« personnels » tels Siri ou Google Now, ou « domestiques » comme Amazon Echo ou Google Home) mobilisent largement la terminologie dialogue « naturel ». Pourtant, par conception, leur fonctionnement est davantage basé sur le principe de la commande vocale à deux tours (requête de l’utilisateur – réponse du système) précédée par un mot d’activation (par exemple « Ok Google »). Dans le domaine de l’habitat, des systèmes comme Amazon Echo ou Google Home offrent une grande diversité de services qui ne cessent de croître : accès à des informations météo ou l’état de la circulation routière) ; accès à des contenus multimédias, pilotage d’équipements comme le chauffage, la lumière ou la TV ; jeux ; aide-mémoire, etc. L’usage de ces systèmes soulève plusieurs questions concernant leurs usages : Quelles formes prennent les interactions et les relations entre les personnes et ces assistants ? Comment les familles se les approprient-elles et pour quels types d’usages ? Quels peuvent être les apports des assistants actuels au sein du foyer ?
Pour éclairer ces questions, deux études d’usage des AVI en environnement domestique ont été réalisées à partir d’observations vidéo et d’entretiens. Une première impliquant trois familles anglophones a porté sur deux AVI anglophones (Ivee et Amazon Echo). La seconde étude a porté sur un prototype expérimental appelé « Alice », développé dans le cadre d’un projet de recherche d’Orange et testé par sept familles durant plusieurs semaines en 2016-17 (fig. 1). Les usages de ces systèmes se sont étalés sur une période de 3 semaines à 4 mois, selon les familles.
LE TRAVAIL D’ADAPTATION DE L’UTILISATEUR
Une interaction fluide et sans effort, très proche de la conversation humaine est la promesse avancée dans les discours promotionnels qui accompagnent les AVI domestiques. Or nos études montrent des écarts importants entre cette promesse et la réalité des interactions observées.
Tout d’abord la reconnaissance vocale n’est pas toujours efficace, y compris pour des requêtes simples comme la suivante (U = Utilisateur) :
Exemple 1 – Défaillance de la reconnaissance vocale
1- U : hello ivee what time is it in New York City?
2- Ivee : it is now 4:41 am in Sydney Australia
Les utilisateurs doivent parfois répéter leurs énoncés plusieurs fois pour se faire comprendre, ce qui peut les conduire à abandonner rapidement l’usage du système. Dans les cas où ils persévèrent, ils s’engagent dans un « travail de réparation et de production du sens de l’interaction » [1]. Ce travail de réparation peut se traduire par une variété d’actions telles que reformuler les énoncés en les raccourcissant (voir exemple 2) ou en les développant pour apporter des précisions, s’approcher de l’objet ou parler plus fort.
Exemple 2. Travail d’adaptation syntaxique (réduction) de la commande
Conventions de transcription :
[ = chevauchement temporel entre deux événements
(.) = bref silence1- U: (.) Alexia go on to YouTube and look up Katy Perry please
2- Alexa : hm (.) I can’t find the answer to the question I heard
3- U : Alexia (.) go on to You Tube (.) now
4- Alexa : hm (.) I can’t find the answer to the question I heard
5- U : Alexia You Tube
Cet effort s’étend au-delà de la formulation des énoncés pour englober l’ensemble des activités accomplies par les personnes pour faire fonctionner le système, y compris celles visant à faire sens de ses réponses non pertinentes ou le travail d’apprentissage lié à la « structure » interactionnelle imposée (activer le système puis parler au bon moment, c’est-à-dire lorsqu’il est « en écoute »).
Enfin, l’efficacité de ce travail d’adaptation est variable selon les personnes. Par exemple les jeunes enfants ont beaucoup de mal à se faire comprendre, ce qui crée des situations d’exclusion et de frustration. Les usages des systèmes vocaux actuels impliquent ainsi, de la part des utilisateurs au sein des foyers, un travail d’ajustement aussi bien individuel que collectif sous forme d’entraide (cf. exemple 3 ci-dessous) et d’accompagnement des enfants.
Ce type de travail d’adaptation est caractéristique des usages de systèmes vocaux automatisés en général. Il peut prendre des formes variées selon les contextes et le type d’interface vocale (cf. [2] pour une étude sur les Serveurs Vocaux Interactifs dans la relation client d’Orange). Mais lorsqu’il est trop coûteux il peut être un frein à l’appropriation, voire une cause d’abandon.
L’illusion d’une conversation naturelle
La capacité des AVI à gérer le dialogue de manière fluide est au cœur des discours promotionnels. Or, cette capacité est en réalité limitée et produit une apparence de conversation naturelle qui est source de difficultés interactionnelles.
Lorsque les systèmes fonctionnent de façon optimale, les utilisateurs ont tendance à leur « attribuer » implicitement des capacités qu’ils ne possèdent pas. Un exemple de cette attribution concerne l’usage de termes indexicaux (comme « maintenant », « ici ») qui renvoient à des éléments contextuels que ces systèmes sont incapables de traiter. C’est ce que l’on peut voir dans l’exemple 3 où le premier utilisateur (U1) fait référence dans la ligne 5 à un élément évoqué précédemment (« it » qui fait référence à ce qui est dit à la ligne 1, « cuisiner du Porc »). Notons au passage le problème de reconnaissance vocale qui est manifeste dans la réponse d’Alexa à la ligne 4 (le système ajoute ce qui a été dit par U1 à une liste de course) et qui conduit U1 à reformuler sa demande. De façon intéressante, on peut voir qu’U1 reprend le référent « it » utilisé par la machine (ligne 4) ; ce qui peut laisser supposer qu’elle « comprend » le sens de ce type d’indexical. Mais, cette reprise va être source de difficultés.
Exemple 3. Utilisation des indexicaux (« it » dans cet exemple)
1- U1 : Alexa I [need a r, I need to cook some pork
2- Alexa : [feed-back lumineux
3- U1 : [and-sh
4- Alexa : [I added it to your shopping list
5- U1 : and I need a recipe for it can you find me one?
6- U2 : You didn’t say Alexa
7- U1 : Alexa need I need a recipe for it can you find me one?
8- Alexa : I was unable to understand the question I heard
Dans la suite, la personne oublie d’abord le mot d’activation (ligne 5), problème que lui signale un autre membre de la famille U2 (ligne 6) et qu’U1 corrige (ligne 7). Mais, Alexa ne parvient pas à fournir la réponse attendue, sans doute du fait de son incapacité à interpréter l’indexical « it » réitéré en ligne 7. Pourtant, la raison de l’échec n’est jamais explicitée, à savoir l’incapacité des systèmes d’IA, à comprendre le contexte. Les utilisateurs se retrouvent ainsi dans une situation paradoxale : plus le système fonctionne correctement et mobilise des pratiques conversationnelles ordinaires comme l’utilisation d’indexicaux (ici « it »), plus ils ont tendance à parler « naturellement » et plus cela risque de conduire à l’échec du dialogue sans que les personnes puissent déterminer la cause de cet échec. Autrement dit, ces systèmes engendrent l’illusion d’une conversation naturelle qui peut être source de difficultés d’usage.
La question de la confiance
Les AVI ont la particularité d’être en « écoute » permanente pour détecter le mot qui les active. Or, cet aspect est source d’inquiétudes dans la mesure où les personnes ne disposent d’aucun moyen pour savoir ce qui est réellement écouté, traité et stocké. Les AVI leur apparaissent ainsi comme des « boites noires » avec un fonctionnement opaque, source de méfiance. Comme le suggère l’extrait d’entretien suivant, plus de transparence sur le fonctionnement du système et la possibilité de le contrôler paraissent essentielles :
« II faudrait que ce soit plus clair dans les moments où on peut déconnecter et se reconnecter. Il faudrait que ce soit possible, dans les moments de la journée, par exemple, de dire : là, Alice dort, et elle s’endort et elle ne fait plus rien. Ça veut dire qu’elle coupe, elle disparaît de la vie. » (extrait d’entretien – étude Alice).
Il est intéressant de noter que ce manque de transparence est devenu une préoccupation publique. Par exemple, différents acteurs (institutions, académiques, etc.) ont proposé des recommandations d’usage comme mesures de protection de la vie privée. C’est par exemple le cas de la CNIL [3].
Conclusion
Au-delà des limites identifiées des AVI domestiques, nos études mettent en évidence leur intérêt potentiel en tant qu’interface vocale unifiée d’accès aux équipements domestiques et multimédia. De façon générale, les participants ont identifié leurs bénéfices possibles malgré la qualité parfois aléatoire de la reconnaissance vocale.
Mais nos analyses soulignent également le travail d’adaptation de l’utilisateur, qui risque de compromettre l’adoption sur le long terme s’il est trop coûteux. Perfectionner la reconnaissance vocale, la gestion du dialogue et minimiser cet effort constituent ainsi des enjeux cruciaux d’amélioration de ces systèmes. Afin d’éviter d’induire des attentes trop fortes chez les utilisateurs, il est important de tenir un discours plus réaliste sur leurs capacités interactionnelles actuelles.
Plusieurs pistes d’amélioration ressortent de nos analyses concernant l’intelligibilité pour l’utilisateur des AVI : permettre à l’utilisateur de comprendre les réponses du système et la source du problème, par exemple en cas de réponse non pertinente ou d’incapacité du système à répondre; le guider dans la découverte des formulations efficaces (par exemple, via des exemples de formulations de commandes). Une autre piste concernant la gestion du dialogue est de développer des systèmes capables de procéder à des « réparations » comme celles qu’on retrouve dans la conversation humaine [4]. Il s’agit des procédés à travers lesquels les locuteurs traitent les difficultés qui émergent dans l’interaction (par exemple, la demande de clarification d’un énoncé mal compris, la répétition d’un énoncé qui a été mal compris). Cela suppose que les AVI ne se limitent plus à la gestion de deux tours de parole (une commande et une réponse) comme aujourd’hui ; ce qui suppose une capacité de construire un historique plus large de l’interaction.
D’autres enjeux tout aussi importants restent à traiter. Par exemple, la gestion de l’accès au système en fonction de l’identité du locuteur constitue un point crucial car sans authentification, un assistant vocal soulève des questions de sécurité et de vie privée. Sur ce point, l’une des pistes prometteuses est la reconnaissance du locuteur mais certains problèmes demeurent comme la variabilité de la locution d’une même personne. Les AVI actuels comme Google Home et Alexa peuvent apprendre à reconnaître la voix d’un utilisateur mais cette technologie ne s’avère pas suffisamment robuste en termes de sécurité [5]. Les activations intempestives des AVI, non initiées par les personnes, soulèvent également des questions de sécurité. Par exemple, récemment, le système Alexa a enregistré et envoyé un extrait de conversation au contact d’un couple à leur insu [6]. Ceci soulève la question du contrôle des systèmes par les personnes et, par conséquent, là aussi celle de la confiance. Enfin, il y a les inquiétudes concernant la vie privée par rapport au fournisseur de service. Concernant ce point, comme nous l’avons vu, les utilisateurs n’ont pas une compréhension claire du fonctionnement des systèmes (ce qui est enregistré, stocké, etc.), ce qui génère de la méfiance. Un enjeu central pour les entreprises qui proposent ces dispositifs est de garantir une protection des données personnelles collectées (conversations, activités des habitants) tout en offrant aux personnes concernées une visibilité et un contrôle sur ces données. Le traitement de l’ensemble de ces enjeux – gestion enrichie du dialogue, intelligibilité, contrôle, sécurité, protection de la vie privée et confiance – jouera sans doute un rôle crucial dans l’adoption de ces systèmes.
En savoir plus :
[1] Deng, L., Hinton, G. et Kingsbury, B. (2013). « New types of deep neural network learning for speech recognition and related applications: An overview ». 2013 IEEE International Conference on Acoustics, Speech and Signal Processing
[2] Velkovska, J. et Beaudouin, V. (2014). « Parler aux machines, coproduire un service. Intelligence artificielle et nouvelles formes de contribution du client dans les services téléphoniques de l’après-vente » in Kessous, E., Mallard, A. La Fabrique de la vente. Le travail commercial dans les télécommunications, Paris, Presses des Mines, pp. 97-128.
[3] https://www.cnil.fr/fr/enceintes-intelligentes-des-assistants-vocaux-connectes-votre-vie-privee
[4] Moore, R. J. (2018) Repeat Repair & Disengagement with Voice-enabled Conversational Agents. Extended abstracts, Voice UX workshop, CHI 2018, Montréal, Canada, April 21-26.
[5] https://www.cnet.com/news/fooling-amazon-and-googles-voice-recognition-isnt-hard/
[6] https://www.theguardian.com/technology/2018/may/24/amazon-alexa-recorded-conversation