En poursuivant votre navigation sur ce site, sans modifier le paramétrage de vos cookies, vous acceptez l’utilisation de cookies nous permettant de réaliser des statistiques de visite.
En savoir plus

En ce moment

Les deep fakes, falsification de la réalité


En analysant différentes couches de notre réseau, on s’est rendu compte que les yeux jouaient un rôle prépondérant dans la détection des deep fakes.


Interview de Vincent Nozick sur le thème des deep fakes. L’enseignant-chercheur au Laboratoire d’électronique et d’informatique Gaspard-Monge (LIGM) nous explique ce que sont les deep fakes, les défis qu’ils posent et comment les détecter.

Danger pour la démocratie (manipulation de l’opinion publique, exacerbation de tensions sociales ou communautaires, etc.), atteintes à la vie privée et à la dignité de la personne, risques de fraudes et d’escroqueries, ou encore casse-tête pour les futurs chercheurs en quête de vérité… Les deep fakes, technologies qui permettent de remplacer le visage d’une personne par celui d’une autre dans une vidéo grâce au deep learning, inquiètent. De plus en plus sophistiqués, ils sont aujourd’hui quasiment à la portée de tous grâce à des outils relativement simples à utiliser.
Échange sur ces « armes de falsification massive » avec Vincent Nozick, enseignant-chercheur au LIGM et coauteur d’une publication proposant une méthode efficace pour détecter les deep fakes (MesoNet : a Compact Facial Video Forgery Detection Network, Darius Afchar, Vincent Nozick, Junichi Yamagishi, Isao Echizen, 2018).

On utilise désormais le deep learning pour falsifier des visages dans des vidéos. Comment fonctionnent les technologies des deep fakes ?

Il existe plusieurs méthodes de falsification du visage dont certaines utilisent en effet le deep learning, comme Deepfake, l’une des plus connues. Deepfake est un programme qui appartient à la famille des GAN, les Generative Adversarial Networks, et permet de faire du transfert d’expressions faciales sur vidéo. Il s’appuie sur un auto-encodeur, qui se compose d’un encodeur et d’un décodeur.

Un auto-encodeur est un réseau de neurones artificiels que l’on nourrit de différentes photos du visage d’une même personne, où ses expressions faciales, sa position, l’éclairage, la texture, la résolution, etc. changent. On demande à l’encodeur d’encoder ces données en un nombre réduit de paramètres. En effet, un encodeur ressemble à un entonnoir ; chaque couche est plus petite que la précédente et contient de moins en moins de neurones. Quand on arrive au bout de l’encodeur, il ne reste plus qu’un petit millier de neurones, ce qui est très peu comparé à ce que l’on avait au départ.

On demande ensuite au décodeur, qui, lui, ressemble à un entonnoir à l’envers (il commence avec un faible nombre de neurones – le même qu’au bout de l’encodeur – et grossit au fur et à mesure), d’utiliser ces mille paramètres pour générer un visage identique au visage original. Entraîner un réseau de neurones signifie donc l’entraîner à reproduire tout seul le plus fidèlement possible un visage. En fait, il apprend à compresser et décompresser le visage d’une personne en particulier.

Dans le cas des deep fakes, on prend le visage de deux personnes différentes, A et B. La bonne idée a été de dire : plutôt qu’A et B aient leur propre auto-encodeur, elles vont partager le même encodeur tout en ayant chacune un décodeur distinct. Durant la production d’un deep fake, l’encodeur va encoder les données faciales de A, mais, au lieu de les décoder avec le décodeur A, on va le faire avec le décodeur B. Ce faisant, on met le visage de B sur A.

On présente souvent les deep fakes de façon alarmiste. Est-ce si facile d’utiliser cette technologie ? Suffit-il de télécharger une application pour créer un deep fake ?

Il existe effectivement des applications, notamment FakeApp (basé sur TensorFlow, un outil open source de machine learning développé par Google, N.D.L.R.). Il n’y a aucune connaissance informatique à avoir pour l’utiliser, il suffit de suivre quelques étapes clés. On commence par constituer une base de données de la personne source et de la personne cible. Tout le monde est capable de le faire. Si je veux créer une fausse vidéo d’une personne, je rassemble le plus possible de photos et de vidéos de cette personne, de bonne qualité et avec une grande variété d’expressions faciales, de luminosité, etc. Il faut ensuite choisir quelques paramètres. À ce stade, les personnes qui ont l’habitude de réaliser des deep fakes disent que l’expérience joue beaucoup pour identifier les paramètres les plus pertinents. Il faut ensuite faire tourner le logiciel et l’entraîner sur une machine équipée d’une bonne carte graphique. Cela dure une demi-journée environ et demande simplement un petit investissement en temps. Ce serait donc très simple pour une équipe de professionnels qui souhaiterait par exemple manipuler une élection. Créer un deep fake malveillant représente beaucoup moins d’efforts que beaucoup d’autres attaques plus sophistiquées.

Vous écrivez que la plupart des techniques de forensics (qui reposent sur des outils mathématiques sans apprentissage automatique) que l’on utilise pour analyser les images et détecter les faux peuvent se montrer inefficaces sur les vidéos. Pourquoi ?

Le problème c’est que sur une image, une photographie par exemple, il y a beaucoup d’informations, notamment « le bruit » (petites imperfections de l’image). Une vidéo, c’est une succession d’images, mais sur lesquelles il y a beaucoup moins de « bruit », car celui-ci a été absorbé par une très forte compression. Si on ne compressait pas autant, on se retrouverait avec des vidéos beaucoup trop lourdes… Par ailleurs, la compression d’image est quelque chose de simple ; il y a trois ou quatre techniques, 99,9 % du temps c’est en JPEG et on sait exactement comment ça marche. En vidéo, il y a de très nombreuses façons de compresser, souvent assez différentes les unes des autres. Autrement dit il n’y a pas de norme dans les usages, donc c’est très compliqué pour nous de développer une méthode de détection qui fonctionne pour toutes les vidéos.

Avec MesoNet, vous proposez d’utiliser des réseaux de neurones artificiels à l’échelle mésoscopique. Comment fonctionne cet outil de détection des deep fakes ?

Lors de nos travaux précédents, nous avions utilisé le deep learning pour distinguer les images de synthèse des photographies. Le « bruit » de l’image s’est révélé être un très bon indicateur. Ce « bruit » est observé au niveau du pixel, à l’échelle microscopique. Mais dans le cas des deep fakes, il n’y en a presque plus à cause de la compression vidéo.

Quant au niveau macroscopique, cela consiste à analyser une image dans son entier pour savoir si elle représente un humain, un animal, un bâtiment… C’est la sémantique de l’image. En l’occurrence, on sait déjà qu’il s’agit d’un visage. Notre postulat de départ était donc de dire : l’échelle microscopique ne fonctionne pas, l’échelle macroscopique ne nous intéresse pas, donc plaçons-nous entre les deux, au niveau mésoscopique ; prenons des éléments de l’image et non pas un pixel ou toute l’image.

Cela nous a aidés à définir notre réseau de neurones. On savait qu’il fallait le nourrir de données mésoscopiques. À partir de là, on a constitué une base de données et construit le design du réseau. En réalisant plusieurs tests, on a constaté avec surprise que les réseaux moyens marchaient mieux que les réseaux plus profonds.

En modifiant notre réseau pour augmenter ses performances, on s’est rendu compte que chaque fois qu’on le raccourcissait, il ne faiblissait pas et devenait parfois meilleur. Le réseau qui fonctionnait le mieux était donc finalement assez court, avec une vingtaine de couches.

Cela comporte deux avantages : le premier, c’est qu’il est facile à entraîner, cela prend environ deux heures sur une machine normale. Une fois entraîné, on peut l’utiliser sur une machine peu puissante, comme un smartphone. Le deuxième avantage, c’est qu’on est capable de l’explorer et de l’étudier. Ainsi, en analysant différentes couches de notre réseau, on s’est rendu compte que les yeux jouaient un rôle prépondérant dans la détection des deep fakes.

L’exemple récent du deep fake de Donald Trump prodiguant des conseils à la Belgique sur le changement climatique montre que la solution pour détecter les deep fakes n’est pas uniquement technologique. Dans un contexte où les deep fakes sont amenés à être de plus en plus sophistiqués, comment « entraîner » les êtres humains à les identifier, ou du moins à s’en méfier ?

Lorsque vous consultez vos réseaux sociaux, si vous voyez une photo qui vous paraît complètement invraisemblable, est-ce que vous croyez qu’elle est vraie ou est-ce que vous pensez tout de suite qu’il s’agit d’un fake ? Je crois que la plupart des gens ont appris à se méfier des images. C’est quelque chose qui a pris un peu de temps, mais qui est devenu un automatisme. Pour le moment, on a tendance à croire ce que l’on voit sur les vidéos qui apparaissent sur les réseaux sociaux. Mais comme pour les images, on apprendra à rester vigilant. Une période pendant laquelle on va devoir s’éduquer sera certainement nécessaire et indispensable, qu’il s’agisse d’auto éducation ou de campagnes de sensibilisation. Je trouve ça intéressant qu’il y ait des cours de « zététique », c’est-à-dire d’études didactiques qui permettent la réflexion et l’enquête critiques dans certaines écoles. Il s’agit d’enseigner aux enfants à développer leur esprit critique, à prendre des précautions vis-à-vis des informations qu’ils reçoivent tout en trouvant un équilibre entre croire tout ce qu’on leur dit ou rester totalement sceptique et comment y parvenir.


En analysant différentes couches de notre réseau, on s’est rendu compte que les yeux jouaient un rôle prépondérant dans la détection des deep fakes.


Mots-clés :

, ,