● Les résultats fournis par de grands modèles de langage émergents comme ChatGPT donnent dans certains cas l’impression d’être aussi concluants que ceux d’origine humaine.
● Une expérience inspirée du test de Turing tend à montrer que la distinction entre humain et machine est de plus en plus difficile à établir lors d’une conversation en ligne.
● Les performances des outils actuels masquent néanmoins de sérieuses limites, en matière de langage ou dans d’autres domaines comme celui de la voiture autonome.
La technologie dite d’intelligence artificielle (IA) fournirait-elle désormais des résultats d’une qualité équivalente à ceux de l’esprit humain ? Depuis plusieurs mois, le succès de ChatGPT et, plus généralement, des outils d’IA générative, met cette question sur la table. Une expérience menée par AI21 Lab, société israélienne spécialisée dans les modèles de langage, tend à montrer combien se brouille la frontière entre les produits de l’intelligence humaine et ceux de la machine.
Ses chercheurs ont créé un à grande échelle sous la forme d’un jeu en ligne, appelé « Human or Not ? ». Utilisant une interface conversationnelle, les participants devaient deviner s’ils discutaient avec un interlocuteur humain ou une IA. Le simulacre était particulièrement soigné. Plusieurs modèles de langage différents ont été utilisés, parfois au cours d’une même conversation, et les interlocuteurs « artificiels » se présentaient avec un nom, un métier, une personnalité et des tics de langage (argot et erreurs de grammaire compris). Les IA étaient paramétrées pour répondre avec un certain délai, en tenant compte du temps nécessité par les frappes de clavier.
Un test de Turing géant au bilan troublant
L’équipe d’AI21 Lab a ainsi analysé 10 millions de conversations sur un mois (entre humain et IA et entre deux humains), impliquant plus d’1,5 million de personnes. Bilan : les participants ont su déceler le statut de leur interlocuteur dans 68% des cas seulement. Concernant les conversations avec une IA, les humains n’ont réussi à les identifier que dans 60% des cas.
Ces résultats doivent être relativisés. Sur « Human or Not ? », les échanges ne duraient pas plus de deux minutes (Turing imaginait un test de 5 minutes) ; or, plus un échange se prolonge, moins les grands modèles de langage font illusion. Cependant, pour Sébastien Konieczny, directeur de recherche au Centre de Recherche en Informatique de Lens, c’est le test de Turing lui-même qui pose question : « Ce n’est pas parce que vous articulez habilement du langage que vous comprenez son contenu et que vous êtes intelligent. Le test de Turing était le seul test empirique dont on disposait pour évaluer des IA ; or, ces travaux sur les grands modèles de langage montrent que, finalement, il n’est peut-être pas pertinent. »
Piéger des IA conversationnelles avec des majuscules
Une preuve : une équipe de l’université de Santa Barbara, aux États-Unis, a mis au point une série de techniques capables de trahir un chatbot au premier échange. Par exemple, remplacer telles lettres par telles autres dans un mot. Ou « supprimer au hasard deux 1 dans la suite 0110010011, et indiquer trois résultats possibles ». À ce jeu, les IA sont très mauvaises, comparées aux humains.
Les voitures autonomes peuvent accomplir des choses incroyables, mais elles semblent bloquées dès qu’il s’agit de comprendre les autres sur la route.
La meilleure méthode consiste à coller un mot en lettres majuscules, sans rapport avec la question posée, après chaque mot d’une phrase, comme dans « isCURIOSITY waterARCANE wetTURBULENT orILLUSION drySAUNA ? ». Un humain devine vite qu’il faut lire « is water wet or dry ? », car c’est visuellement évident. Les chatbots testés (dont ChatGPT et LLaMa de Meta) échouent totalement. Car on touche là à toute la subtilité des interactions humaines, où se mêlent souvent différentes compétences en même temps. C’est particulièrement notable dans une autre application de l’IA : la voiture sans conducteur.
Les voitures autonomes, bloquées sur la compréhension des usagers de la route
Une recherche à l’université de Copenhague a analysé des heures de vidéos de trajets de voitures autonomes en conditions réelles. Très forts pour détecter des obstacles ou respecter des règles de conduite, ces véhicules peinent à réagir correctement à des gestes et attitudes de piétons, ou à des comportements de conduite que tout automobiliste saurait, lui, interpréter. « Les voitures autonomes peuvent accomplir des choses incroyables, mais elles semblent bloquées dès qu’il s’agit de comprendre les autres sur la route, estime Barry Alan Brown, coauteur de l’étude. Mais il peut y avoir soudain une avancée et, en un sens, mes propres travaux contribuent à améliorer les comportements de ces véhicules. » Sur la route comme dans le cadre d’une discussion, les IA actuelles apparaissent au fond pour des outils plutôt que des interlocuteurs.