Recherche | Blog

Reconnaître et modifier vos caractéristiques faciales grâce à l’intelligence artificielle

mardi 6 février 2018 - Mis à jour le lundi 25 février 2019

Temps de lecture : 7 min

Ecouter le contenu de la page avec notre synthèse vocale

Les modèles mis au point par les chercheurs d’Orange sont capables de reconnaître le genre avec une précision d’environ 99 % et d’estimer l’âge avec une erreur moyenne de 4 ans.

Résumé

Personnaliser des services numériques en fonction du genre et de l’âge de l’utilisateur, ou encore proposer des publicités plus ciblées : ce sont quelques innovations rendues possibles par les progrès de la reconnaissance des caractéristiques faciales par l’intelligence artificielle. Cette technologie appelée « deep learning » repose sur une architecture de neurones artificiels composée de nombreuses couches (d’où la notion de profondeur). En apprenant à partir d’un grand nombre de « données d’apprentissage » (par exemple, des milliers de photos de célébrités annotées), les modèles mis au point par les chercheurs d’Orange sont capables de reconnaître le genre avec une précision d’environ 99 % et d’estimer l’âge avec une erreur moyenne de 4 ans, soit aussi bien qu’un humain ‒ une performance qui a valu à l’équipe Multimedia contents Analysis technologieS (MAS) d’Orange de remporter une compétition internationale sur l’estimation de l’âge apparent.

Au-delà de la reconnaissance, il peut être utile de modifier les traits d’un visage pour connaître, par exemple, l’apparence actuelle d’une personne dont on ne dispose que d’une photo ancienne. Les modèles de « réseaux adversaires génératifs » (GAN) d’Orange permettent ainsi de vieillir ou de rajeunir une personne en entraînant conjointement une paire de réseaux de neurones artificiels, l’un à générer des visages synthétiques et le second à évaluer leur crédibilité.

Article complet

Avec les avancées significatives de l’intelligence artificielle, et plus particulièrement de l’apprentissage profond (« deep learning » en anglais), il est possible de reconnaître des traits faciaux, comme le genre ou l’âge, ou encore de les modifier. Par exemple, une personne apparaissant sur une ancienne photo peut être vieillie pour paraître 30 ans plus âgée. Ces nouvelles technologies ouvrent beaucoup de perspectives en terme de personnalisation de services et permettent de rendre robustes les systèmes de reconnaissance faciale.

Le genre et l’âge, des caractéristiques importantes en analyse faciale

Le visage humain est une source d’information très riche, au point que certains psychologues en parlent comme d’une « fenêtre de l’âme ». En particulier, le genre et l’âge sont des caractéristiques faciales qui peuvent être très utiles pour une multitude d’applications.

Imaginez par exemple un distributeur automatique équipé d’une simple caméra qui se base sur la prédiction de l’âge de la personne pour restreindre l’accès à certains produits (par exemple ceux interdits aux mineurs), ou alors un robot humanoïde qui adapte sa manière de saluer ses interlocuteurs humains en fonction de leur genre. Aujourd’hui, la prédiction automatique du genre et de l’âge est d’ailleurs déjà utilisée notamment pour profiler les clients qui sont intéressés par un produit ou encore pour la publicité ciblée. Plus généralement, pour les grandes entreprises du numérique, comme Orange, la reconnaissance de ces caractéristiques faciales est essentielle, par exemple, pour indexer des larges collections de données, ou pour personnaliser les services proposés à nos clients.
Certaines applications nécessitent, en plus de reconnaître ces traits, de pouvoir également les modifier. Par exemple, dans un scénario d’authentification / contrôle d’accès basé sur un système de reconnaissance faciale à partir d’une ancienne photo d’identité, ou bien pour les enquêtes policières, quand les enquêteurs ne disposent que d’une ancienne photo d’un individu recherché.

Une approche par deep learning

Des chercheurs de l’équipe Multimedia contents Analysis technologieS(MAS), à Orange Labs Cesson-Sévigné, ont récemment proposé des solutions innovantes d’analyse faciale pour reconnaître et modifier l’âge et le genre d’une personne. Les technologies développées se basent sur ce qu’on appelle le deep learning, un domaine de l’intelligence artificielle qui a connu des progrès considérables dans la dernière décennie. Ceci a permis de révolutionner la reconnaissance d’images, allant jusqu’à dépasser les performances de l’être humain pour plusieurs tâches comme la reconnaissance faciale.
Le deep learning fait en réalité référence aux réseaux de neurones artificiels qui ont une architecture contenant un nombre important de couches, d’où le mot « deep » qui renvoie à cette notion de profondeur. Ces réseaux sont entraînés à accomplir une tâche donnée (par exemple la prédiction du genre et de l’âge) en apprenant à partir d’un jeu de données annotées (on parle de données d’apprentissage). Le principal atout de cette famille d’approches (qui explique d’ailleurs le succès du deep learning par rapport à d’autres méthodes d’apprentissage automatique) est sa capacité à généraliser les concepts appris à des exemples qu’ils n’ont pas traités pendant l’apprentissage. Cette notion de « généralisation » est également primordiale pour l’intelligence humaine, puisque c’est elle qui nous permet de comprendre le monde qui nous entoure en se basant sur notre expérience. Par exemple, un enfant qui a vu une dizaine de voitures sera déjà capable de deviner qu’un véhicule qu’il n’avait jamais vu auparavant est une voiture.

Reconnaître le genre et l’âge à partir d’un visage

Entraîner un modèle en deep learning à reconnaître le genre et l’âge à partir d’un visage nécessite, entre autres, beaucoup de données d’apprentissage (en l’occurrence, des photos annotées avec le genre et l’âge). Par exemple, les chercheurs d’Orange ont dû utiliser pas moins de 250 000 photos de célébrités, ainsi que les métadonnées associées, disponibles publiquement sur IMDb et Wikipedia.
Après avoir prétraité ces données, conçu l’architecture de réseau qui correspond au mieux au problème, et entraîné le modèle, les solutions obtenues sont capables de reconnaître le genre avec une précision d’environ 99 %, et d’estimer l’âge avec une erreur moyenne d’environ 4 ans dans des conditions non contrôlées (c’est-à-dire sur des photos « de la vraie vie », souvent de mauvaise qualité et très difficiles à traiter). Ainsi, en 2016, les chercheurs d’Orange ont remporté une compétition internationale sur l’estimation de l’âge apparent. La solution d’estimation de l’âge a également été évaluée sur des données provenant de l’émission « Guess My age » (diffusée sur la chaîne française C8), et les résultats obtenus ont démontré que la solution automatique était au moins aussi performante que les participants humains.

Modifier l’âge sur un visage

Vieillir ou rajeunir un visage est une tâche beaucoup plus complexe que l’estimation de l’âge. Cela requiert en effet une modélisation globale des informations anthropomorphiques présentes sur ce visage. Plus particulièrement, la préservation de l’identité de la personne après la modification de l’âge conditionne directement la qualité et l’utilité du résultat obtenu.

Les chercheurs d’Orange ont traité ce problème via ce qu’on appelle les réseaux génératifs adversaires (Generative Adversarial Networks, ou GAN, en anglais), une famille relativement récente de modèles de deep learning, proposée en 2015. Un GAN est une paire de réseaux de neurones entraînés conjointement : le premier (appelé « générateur ») génère des visages synthétiques, et le second (appelé « discriminateur ») évalue si le visage synthétique généré est plausible. Le discriminateur joue le même rôle qu’un critique d’art qui conseillerait un artiste (le générateur) sur la manière d’améliorer la qualité de ses peintures.
Néanmoins, le générateur d’un GAN standard n’est capable de produire que des visages aléatoires, qui sont certes plausibles, mais qui ne correspondent à aucun attribut facial particulier. C’est là que réside la nouveauté de l’approche, basée sur les GANs, proposée par les chercheurs d’Orange Labs. Elle permet en effet de produire une image synthétique correspondant à un âge donné, tout en préservant l’identité de la personne présente sur la photo originale. Ceci permet donc de modifier l’âge de cette personne. Pour exemple, la figure ci-dessous illustre le résultat obtenu sur les photos des deux auteurs de cette méthode et du présent article de blog.

Les technologies de prédiction du genre et de l’âge, ainsi que celles permettant le vieillissement et le rajeunissement, ont attiré l’attention de plusieurs médias scientifiques français et internationaux. De plus, elles ont été intégrées dans le moteur d’analyse faciale de l’équipe qui intègre également des technologies de détection, de suivi, d’extraction de points caractéristiques, de reconnaissance d’identité et de reconnaissance d’émotions. Ce moteur, qui a fait l’objet d’une démonstration à l’édition 2017 du Salon de la Recherche d’Orange (la vidéo ci-dessous illustre en partie cette démonstration), propose ainsi une panoplie complète de technologies d’analyse faciale similaire à celles mises sur le marché par Google, Microsoft ou encore Amazon.
Les progrès en deep learning ont atteint un niveau sans précédent et des avancées significatives sont réalisées dans ce domaine presque toutes les semaines. Dans ce contexte, les chercheurs d’Orange continuent à améliorer leurs solutions, en étudiant par exemple d’autres traits faciaux, notamment les émotions.

Pour en savoir plus sur les solutions de prédiction de l’âge / genre, rajeunissement et vieillissement, développées au sein d’Orange, vous pouvez vous référer aux publications suivantes :
— « Effective training of convolutional neural networks for face-based gender and age prediction » par G. Antipov, M. Baccouche, S.-A. Berrani et J.-L. Dugelay (Pattern Recognition, 2017).
— « Boosting cross-age face verification via generative age normalization » par G. Antipov, M. Baccouche et J.-L. Dugelay (International Joint Conference on Biometrics, 2017).

Pour une introduction plus générale au domaine du deep learning dans le contexte de la vision par ordinateur, nous vous recommandons l’excellent cours de Stanford, ainsi que le récent ouvrage intitulé « Deep Learning » de Ian Goodfellow, Yoshua Bengio et Aaron Courville, paru aux éditions MIT Press.