Demain, les avancées du machine learning pourraient donner un visage aux agents virtuels, les humanisant encore davantage en les dotant d’expressions faciales convaincantes.
Avec ses 38 muscles et ses entrelacements complexes, le visage humain constitue une des parties du corps les plus difficiles à reproduire de façon réaliste. Cela s’explique non seulement par les caractéristiques anatomiques des humains qui permettent de générer une multitude d’expressions faciales, mais aussi par la difficulté de maîtriser toutes les subtilités d’une interaction humaine. Il est donc nécessaire d’enseigner à ces personnages virtuels comment leur attribuer des intentions en leur apprenant à ajuster leur comportement – geste, parole, regard – en fonction du contexte de leur interlocuteur.
Franchir la vallée de l’étrange
Dans un article paru en 2010, des chercheurs de l’université de Floride centrale expliquent ainsi que, parce que nous avons été « entraînés » depuis l’enfance à interpréter les déformations du visage humain, nous sommes capables de percevoir la moindre dissemblance d’un avatar (ici défini comme une représentation virtuelle d’une intelligence artificielle). « Lorsque ces différences deviennent évidentes, l’avatar sera davantage remarqué pour ses dissimilitudes que pour son réalisme, et au lieu de produire une meilleure empathie, apparaîtra comme « zombiesque » et tendra à inspirer de la méfiance, voire de la révulsion. Cette région qui se situe entre l’animation cartoonesque et le photoréalisme […] s’appelle la vallée dérangeante. »
Selon la théorie de la vallée de l’étrange (« uncanny valley », en anglais), imaginée en 1970 par le roboticien japonais Masahiro Mori, selon laquelle plus un robot ou un avatar nous ressemble, plus ses imperfections nous paraissent monstrueuses. Elle provoque une sensation désagréable d’étrangeté, qui peut entraîner un rejet. Pour que le robot ou l’avatar soit mieux accepté, il faut passer un certain seuil de réalisme dans l’imitation. L’enjeu, pour la modélisation et l’animation 3D des visages, est donc de contribuer à franchir cette vallée de l’étrange.
Le machine learning fait son cinéma
À ce titre, les technologies utilisées par les sociétés de production de cinéma dans la création de personnages virtuels sont particulièrement intéressantes. L’industrie cinématographique fut l’une des premières à recourir aux visages virtuels, qu’ils soient créés de toutes pièces ou à partir des mouvements et expressions faciales d’acteurs grâce à la motion capture. En 2001, Final Fantasy : Les Créatures de l’esprit est le premier long-métrage entièrement réalisé grâce à la capture de mouvement et visant le photoréalisme. Le film est un flop commercial, mais une prouesse technologique dans ce domaine de représentation d’êtres humains de façon réaliste. Aujourd’hui, l’animation faciale est également utilisée pour insérer un personnage non réel aux côtés d’acteurs. On pense par exemple à Gollum, de la trilogie Le Seigneur des Anneaux.
Plus récemment, les spectateurs de Avengers : Infinity War ont aussi pu découvrir Thanos, « le meilleur méchant de l’univers Marvel ». Ce que l’on retient du Titan à la peau violette ? Son humanité. Le journaliste Aloysius Low écrit par exemple : « Thanos est superbement animé avec une large palette d’émotions allant de la colère à la joie et même la tristesse… On ne peut pas s’empêcher d’éprouver de la compassion pour lui, malgré son plan diabolique de génocide galactique. »
Le personnage de Thanos est le fruit d’un mélange de performance capture (une évolution de la capture de mouvement) et d’animation 3D. Il est incarné par l’acteur Josh Brolin ‒ qui lui prête sa voix, ses mouvements corporels et ses expressions faciales ‒, et modélisé et animé par les studios Weta Digital et Digital Domain. Ce dernier étant responsable des scènes d’émotion, c’est à lui que l’on doit le rendu réaliste des expressions faciales de Thanos. Pour ce faire, la société américaine a employé pour la toute première fois un outil propriétaire, appelé Masquerade, utilisant de nouveaux algorithmes de machine learning.
Comme le décrit très bien cet article, une fois que les données d’un acteur ont été captées, elles sont habituellement appliquées sur un modèle virtuel basse résolution. Digital Domain s’y est pris différemment. L’équipe a d’abord fait des captations haute résolution du visage de Josh Brolin en utilisant l’outil Medusa de Disney Research Zurich. Les données ont ensuite alimenté Masquerade afin qu’il « apprenne » à quoi ressemble le visage de Brolin et comment il agit en haute résolution. Des données faciales basse résolution captées lors de la performance de l’acteur sur le plateau ont également été ajoutées. Le logiciel a ensuite converti automatiquement 150 points issus de ces données basse résolution en 40 000 points haute résolution, en se basant uniquement sur la connaissance du visage de Josh Brolin acquise précédemment grâce au machine learning. Cela a permis à l’équipe d’économiser énormément de temps et de reproduire avec fidélité les détails et subtilités dans les mouvements du visage et expressions faciales de l’acteur.
1 001 agents virtuels
Quelles sont les applications d’une telle technologie dans d’autres secteurs d’activité comme l’industrie ou la santé ? Pour répondre à cette question, il convient de préciser que les applications de l’animation faciale dans ces domaines n’appartiennent pas à la même famille que celles dans le cinéma, dites « hors-ligne », où « l’utilisateur n’est que simple spectateur ». Il s’agit ici d’applications en temps réel, dans lesquelles l’utilisateur interagit avec des personnages virtuels qui se comportent en fonction des actions et paroles de ce dernier. Autre différence, les techniques utilisées dans le cinéma font intervenir une multitude de professionnels hautement qualifiés et nécessitent des milliers d’heures de travail. Des moyens colossaux dont ne disposent pas les entreprises. C’est là qu’intervient le machine learning, qui apparaît comme une solution pour surmonter la difficulté et les coûts associés à ces techniques.
Par exemple, la méthode de machine learning proposée par l’équipe de chercheurs de l’université de Floride centrale, appelée « optimisation par essaims particulaires », consiste à enregistrer et analyser automatiquement les expressions faciales d’un individu sur une photographie numérique grâce à des algorithmes de reconnaissance faciale pour en extraire les caractéristiques distinctives. Ces dernières sont paramétrées afin qu’un avatar dynamique puisse les reproduire et les combiner selon les besoins. Cette approche vise à créer un système capable de fonctionner avec un minimum d’intervention humaine, afin qu’un utilisateur relativement novice puisse créer et animer un avatar simplement à partir d’une image de lui dans un contexte professionnel, par exemple.
Les progrès de l’intelligence artificielle et du machine learning (notamment dans le domaine du deep learning) ont ouvert de nouvelles perspectives dans de nombreux domaines (vision par ordinateur, reconnaissance automatique de la parole ou traitement automatique du langage naturel). Cela a permis l’émergence de chatbots dialoguant avec les utilisateurs de façon de plus en plus naturelle. Demain, les avancées du machine learning pourraient donner un visage à ces agents virtuels, les humanisant encore davantage en les dotant d’expressions faciales convaincantes.
Parmi les cas d’usages possibles, la production de doubles digitaux (pour des visioconférences où chaque participant est incarné par un avatar, par exemple) ou la création d’agents virtuels pour des interfaces homme-machine pouvant être utilisés pour le service après-vente et le support technique, la santé (exemple des psychologues virtuels), l’éducation, le recrutement ou le conseil financier… Bref, une fois que le machine learning aura permis de franchir la vallée de l’étrange, les possibilités seront infinies !