En ce moment

Dans les coulisses de production des chatbots


“Des systèmes qui ‘comprennent’… mais pas seuls, conçus et supervisés par un artisanat de l’automatisme.”


Cet article s’intéresse à la fabrication de systèmes d’automatisation de dialogues, dans les domaines du marketing et de la relation client. Depuis 2016, les marques et les réseaux sociaux ne cessent de mettre en avant ces dispositifs d’interactions langagières en ligne que sont les “chatbots” et les assistants virtuels.
Dans le principe, ces automates conversationnels sont des programmes qui permettent à des humains de dialoguer en langage courant via une interface de tchat automatique. Ces “robots” sont particulièrement prisés dans les domaines du marketing et de la relation-client, qui y voient le moyen de gérer de forts volumes d’échanges, ainsi que la possibilité de rester en contact continu avec les clients.

Pourtant, ces systèmes que l’on désigne parfois comme des “intelligences artificielles”, dévoilent un mode de production qui hybride automatisation et prise en main humaine. En effet, les chatbots sont des dispositifs qui requièrent une phase d’élargissement des connaissances, puis une supervision continue du système ; dans cette optique, nous interrogeons la manière dont ce travail humain s’organise autour de l’activité de conception algorithmique.

Des chatbots de service

C’est en 1966 qu’apparaissait publiquement la première machine à interagir en langage naturel : Joseph Weizenbaum, informaticien germano-américain, publiait alors un article consacré à ELIZA (Weizenbaum, 1966), un programme avec lequel on pouvait dialoguer. Basé sur un principe de reformulation, ce programme s’inspirait du modèle de réponses d’un psychothérapeute, à l’écoute de ses patients. Ce modèle permettait de développer un automate dont les connaissances très limitées n’entravent pas la discussion, puisque celle-ci se centre uniquement sur ce qu’exprime l’interlocuteur humain. Dans son article, Joseph Weizenbaum montrait ainsi qu’une machine pouvait, par sa gestion de l’interaction,  être perçue comme ayant une compréhension proche de celle d’un psychothérapeute, et malgré les fortes critiques concernant son système simpliste de reconnaissance par mots-clés, ELIZA reste connue comme une expérience fondatrice dans le milieu des programmes conversationnels. En juin 2016, soit 50 ans plus tard, Facebook lançait une interface de développement sur Messenger à destination de concepteurs de “chatbots”, suivie bientôt par d’autres réseaux sociaux et des applications mobiles telles que Skype, Telegram, ou encore Slack… le mouvement des chatbots était ainsi lancé.

Et pour cause : de nouvelles ressources infrastructurelles, comme l’Internet en nuage, les méga données et le déploiement des algorithmes d’apprentissage, constituent autant de possibilités de calcul et de stockage des données qui n’existaient pas il y a quelques décennies. Ces “robots” numériques, programmés pour répondre instantanément à des questions simples, apparaissent à présent sur des sites marchands de marques, mais aussi sur des réseaux sociaux ainsi que sur certaines applications de messagerie instantanée. À l’image d’ELIZA, les “chatbots” sont développés dans de nombreux domaines de service, amenant dans le débat public des inquiétudes concernant une possible substitution des humains par des machines dans des métiers relationnels. Pourtant, la configuration des activités autour de la conception des chatbots montre au contraire une forte présence des humains derrière ces dispositifs. Nous posons donc plutôt la question de la nature de ces activités humaines, intrinsèques au fonctionnement de ces dispositifs.

Pour explorer cette question, nous nous appuyons sur une enquête menée auprès d’Orange entre février et juillet 2018 : cette enquête comprend 7 entretiens auprès de professionnels (développeurs et designers), ainsi qu’une ethnographie au sein d’un projet de chatbot.

Dans le concret, développer des programmes d’automatisation de dialogues exige de construire des modèles de conversation opératoires ; c’est-à-dire, un modèle de correspondance entre les tours de parole humains et les tours de “parole” de la machine, une manière de lier l’échange entre utilisateurs et programme avec cohérence, notamment par une “détection  des intentions” des utilisateurs. Cependant, contrairement aux algorithmes d’apprentissage automatique, les algorithmes de traitement automatique du langage naturel utilisés dans les interfaces de gestion de chatbots n’évoluent pas de manière autonome: ils ne peuvent donc pas reconnaître par eux-mêmes de nouveaux termes.

Comme il n’existe pas à ce jour de système capable de générer de lui-même ses propres connaissances, il faut continuellement injecter des nouvelles connaissances dans le système afin que celui-ci puisse comprendre tout vocabulaire ou intention imprévu. En l’absence d’automatisation intégrale du processus, ces bases de connaissances sont entrées à la main, c’est-à-dire imaginées et scénarisées par des humains : le dialogue en “libre-service” doit donc d’abord être anticipé et écrit, tel un dialogue de théâtre.

La conception d’automates conversationnels nécessite en conséquence un travail scriptural de scénarisation et d’anticipation des dialogues, en amont du traitement du langage naturel.

Ainsi, ces dispositifs font la promesse d’interagir en langage courant ; cependant ils ne peuvent le faire qu’à condition de traiter des sujets très limités. Cette condition invisible empêche de satisfaire n’importe quelle demande, puisque chaque dialogue doit être catégorisé et écrit au préalable pour être opérationnel.

Artisanat de l’automatisme

L’écriture n’est donc pas uniquement un travail initial de développement, mais constitue une activité à part entière dans le fonctionnement du système. Cette intrication entre «artisanat» de création et de supervision d’une part, et automatisme du dispositif d’autre part, pose ainsi la question de l’échelle de production ; si l’automatisation complète du système est difficilement envisageable, dans quelle mesure peut-on parler d’industrialisation ? Cette question se pose plus globalement pour les solutions logicielles plus généralistes intégrant des algorithmes d’apprentissage (bien souvent désignées comme des “intelligences artificielles” ou des “assistants”) censées s’appliquer à n’importe quel domaine de traitement de l’information (dans le milieu médical ou juridique par exemple).

“Premier problème, l’IA est difficilement industrialisable. A chaque nouvelle application, il faut entraîner spécifiquement la machine. (…) Pour le client, choisir cette solution technique signifie donc un investissement en temps et en argent. (…) Trop peu de solutions conçues par cette entreprise de logiciels peuvent être vendues à grande échelle à des clients. A la place, on dirait qu’IBM doit inventer la roue pour chaque client et chaque problème” Tom Austin, analyste chez Gartner, 2018.

Le problème ici attribué à “Watson”, produit par IBM, est en réalité commun à toutes les solutions d’automatisation de dialogues disponibles sur le marché. Un paradoxe de “l’intelligence artificielle” réside ainsi dans sa faible autonomie – même si ces algorithmes sont entraînés à prendre des décisions, et qu’ils peuvent le faire, ceux-ci requièrent avant tout un transfert de connaissances humaines (une traduction, pour la modélisation, et un transfert des connaissances de bases), connaissances qui demandent au préalable plusieurs opérations de traitement de données. Développés pour effectuer des “raisonnements logiques”, ces systèmes manquent de connaissances spécifiques : le travail “d’apprentissage” manuel est donc propre à chaque secteur d’activité… Au final, les automates conversationnels constituent des acteurs peu autonomes.

Des systèmes qui “comprennent”… mais pas seuls

Ainsi, l’élaboration des dialogues passe par des niveaux de conception différents : d’une part, la scénarisation des interactions par thématique de service, puis l’élargissement continu des bases de connaissances de l’outil, afin de reconnaître une diversité de termes correspondant aux besoins. Enfin, un travail de design est effectué pour fluidifier et faciliter les échanges langagiers entre chatbot et usager. Ces différentes étapes de conception montrent que l’automatisation des dialogues est un processus d’écriture multidimensionnel. Cette multitude de dimensions scripturales enchevêtre des activités distinctes et complémentaires :

“L’intérêt de ce type de projet, c’est qu’étant donné que tout le monde découvre le sujet, tout le monde met la main à la pâte. Tout le monde a vraiment travaillé sur tous les aspects. Je n’ai pas seulement fait du design. J’ai fait de l’écriture de parcours et de la gestion des intentions.” Dominique, chatbot assistance, 2018.

L’entraînement du système, nécessitant un travail humain conséquent, implique la participation de tous les membres de l’équipe, y compris dans des domaines s’éloignant de leurs compétences initiales. Au-delà des compétences spécifiques de conception, des compétences plus ordinaires de compréhension, à la manière des entraînements des reCAPTCHA, constituent une autre ressource-clé : les concepteurs sont amenés à repérer des défauts de détection d’intention, des réponses qui manquent de précisions, des tournures de phrases syntaxiquement incorrectes… Cette supervision continue du système compense par l’attention des concepteurs, le manque de flexibilité des dialogues automatiques.

Un des projets de chatbots d’Orange se trouve confronté à une autre problématique imprévue ; le système technique du prestataire est en effet peu accessible d’utilisation aux non-développeurs, et n’est pas si automatique qu’espéré.

“On s’est rendu compte que c’était beaucoup plus compliqué que prévu ; le système ‘d’IA’ qu’on utilise, ce n’est pas un truc magique qui fait tout, tout seul. L’entreprise prestataire prétendait, au départ, que leur système d’Intelligence Artificielle était auto-apprenant. C’est faux ! (…) Il fallait lui apprendre à apprendre, en fait. Donc il y a beaucoup plus d’interventions humaines que ce qu’on croit pour maintenir une Intelligence Artificielle.“ Dominique, chatbot assistance, 2018.

L’utilisation de l’outil de reconnaissance du langage naturel a donc amené Orange à formuler de nouvelles compétences métier adaptées à la solution technique, comme par exemple des compétences de gestion des échanges dialogiques, représentés par des “arbres“.

Ces automates conversationnels ont donc une autonomie limitée, et requièrent une forte activité humaine : activité de création, bien sûr, mais aussi de supervision et d’entraînement. Cette forte dépendance se concrétise par l’apparition de différents acteurs intermédiaires, incarnés par des métiers médiateurs faisant le pont entre le système technique, le design, et les analyses d’interactions. Ces agents médiateurs doivent alors mobiliser un éventail de compétences dépassant leur propre activité, phénomène donnant lieu à des reconsidérations sur les métiers appelés à concevoir ces interfaces. Les concepteurs sont également amenés à mobiliser leur propre expérience du langage et de la communication pour élaborer des cadres conversationnels.

Ce qui accompagne le développement du dispositif, ce n’est donc pas uniquement des compétences techniques, mais aussi un transfert de compétences ordinaires et transversales, comme la construction d’un dictionnaire de synonymes, la compréhension des mots mal écrits, ou la reformulation de réponses mal comprises par les usagers…ce que le système n’intègre pas.

Conclusion

L’automatisation des dialogues en langage naturel se développe dans une dynamique d’hybridation entre compétences “cognitives“ et sociales des concepteurs, et compétences calculatoires des logiciels : le dialogue automatique avec une marque est ainsi scénarisé par différents profils de professionnels (marketing, technique et design). Les chatbots sont donc des dispositifs hybrides, dont la question de l’apprentissage est un point important du processus de développement, car il s’agit d’un moment de transition et de montée en capacité du système. Plus les connaissances sont élargies, plus le script des usages est étoffé, plus le système est en mesure de pouvoir répondre aux interlocuteurs sur des thématiques diverses. Ce travail d’apprentissage manuel est néanmoins celui qui prend le plus de temps puisqu’il s’étend de la conception initiale à la supervision continue du bot, et comprend aussi des activités de réajustements des interactions ; il s’agit à la fois de mémoriser des variations d’expression en langage courant, et à la fois de traiter de nouvelles intentions (de nouveaux besoins ou de nouvelles thématiques de dialogues). Si les chatbots sont des systèmes «ouverts» dans la mesure de leurs possibilités d’évolution continue, ils restent à ce jour des dispositifs dont les fonctionnalités sont dépendantes d’une supervision humaine attentive, qu’elle qu’en soit sa fréquence.  L’avenir des chatbots en tant que dispositifs industriels d’automatisation des dialogues dépend donc, en partie, des possibilités futures d’ajustements de ce travail humain de recadrage de la “compréhension“ des chatbots, qui est à ce jour une composante essentielle au fonctionnement des systèmes d’agents conversationnels.

Mots-clés :

, , ,

Auteurs :

Pour aller plus loin

  • Bernard, S., 2014, “Le travail de l’interaction. Caissières et clients face à l’automatisation des caisses“, Sociétés contemporaines (N° 94), p93-119
  • Denis, J., 2018, Le travail invisible des données, Presse des Mines
  • Velkovska, J., Beaudouin, V., 2014, p. 97-128 “Parler aux machines, coproduire un service. Artificial intelligence and customer work in automated voice services“, in Kessous, E., Mallard, A., (dir.), La fabrique de la vente, Le travail commercial dans les télécommunications, Presses des mines, Paris
  • Weinzenbaum J., 1966, ELIZA–A Computer Program For the Study of Natural Language Communication Between Man and Machine, Communications of the ACM