C’est en Russie, son pays natal, que Grigory Antipov a commencé ses études. À l’Université de Moscou, il étudie d’abord les maths appliquées et l’informatique, avant de se renseigner sur les domaines pouvant intéresser l’industrie. Nous sommes en 2012, et on entend alors beaucoup parler de data mining (« fouille de données »), et de machine learning (« apprentissage automatique ») : deux domaines émergents qui annoncent de grandes promesses. Grigory se spécialise avec un master de recherche. C’est à l’issue de ces deux années passées en France et en Espagne, déterminé à poursuivre sa carrière dans la recherche, que l’aspirant doctorant croise la route d’Orange. « Lorsque j’ai terminé mon master fin 2014, raconte Grigory, le monde de la recherche entrait dans une très grande vague de deep learning, un ensemble de techniques d’apprentissage automatique qui révolutionnent l’analyse des images et du son par les machines. Orange proposait une thèse dans ce domaine, sur un sujet particulièrement intéressant, dans une équipe d’experts réputés dans le domaine. C’était l’opportunité qu’il me fallait ».
Visages et apprentissage profond
Depuis bientôt trois ans, Grigory Antipov travaille comme chercheur au sein d’Orange. Sa thèse, encadrée par l’ingénieur de recherche d’Orange Moez Baccouche et par le professeur d’Eurecom Jean-Luc Dugelay, porte sur deux problématiques. D’une part, l’analyse sémantique d’images pour reconnaître le genre et l’âge d’un individu à partir de sa photo. Et d’autre part, le vieillissement ou le rajeunissement d’une photo, qui permet notamment à la machine de reconnaître une même personne à partir de deux images différentes. « Les moteurs de reconnaissance faciale actuels ont du mal à dire si deux visages appartiennent à la même personne, particulièrement lorsqu’il y a un grand écart d’âge entre les deux images. Le vieillissement de photo existe depuis longtemps, mais les algorithmes existants se contentaient, à partir d’une photo d’entrée, d’appliquer quelques filtres. Dans notre travail, tout l’enjeu est de générer une photo à partir de zéro ». Les premiers résultats sont probants. L’équipe a remporté un défi sur la reconnaissance de l’âge apparent d’une personne lancé par Chalearn, une association qui organise des compétitions internationales de machine learning. Les travaux de Grigory ont même été cités sur le prestigieux Technology Review, blog de vulgarisation scientifique du Massachussetts Institute of Technology (MIT).
Deux réseaux adversaires et alliés
Grigory et ses encadrants travaillent à partir d’un corpus de milliers d’images « naturelles », principalement de célébrités. La première étape est l’apprentissage des machines, avec une approche qui se fonde sur les Generative Adversarial Networks (GAN). Un GAN est une paire de réseaux de neurones : ici, un « dessinateur » et un « arbitre ». D’un côté, le dessinateur tente de dessiner un visage humain aléatoire qui corresponde à un âge demandé. De l’autre, on fournit un mélange d’images naturelles et d’images synthétiques créées par le dessinateur, que l’arbitre essaie de distinguer les unes des autres. Les deux réseaux apprennent en même temps avec des objectifs opposés : le dessinateur essaie de tromper l’arbitre en dessinant des visages de plus en plus réalistes et correspondant aux âges demandés, alors que l’arbitre trouve les différences entre les images naturelles et synthétiques de l’âge donné, en rendant la tâche plus complexe pour le dessinateur. Les deux réseaux sont donc en compétition – d’où le nom « adversarial » – mais le progrès de l’un n’est pas possible sans le progrès de l’autre.
Lorsque l’apprentissage est terminé, le dessinateur est capable de créer des visages humains aléatoires correspondant aux âges demandés. Il peut donc rajeunir, vieillir, ou changer le genre d’une personne donnée. Pour cela, on donne au dessinateur la description de cette personne sous une forme d’encodage spécifique. Cet encodage contient les informations clés de la personne en question (la forme du visage, du nez, etc.). Dans sa thèse, Grigory propose une méthode originale pour trouver cet encodage spécifique en se basant seulement sur une photo de la personne cible. Dès que ce bruit est trouvé, on peut facilement générer des photos de la personne à tous les âges.
Quelles applications dans le monde réel ?
Ce domaine de recherche suscite l’intérêt de la sphère académique comme du monde industriel. Du côté des applications grand public, cette technologie permettra par exemple de faciliter le contrôle parental, ou encore de proposer des services d’organisation automatique de photos. Il sera ainsi possible de retrouver en quelques instants toutes les photos de l’un de ses proches, depuis l’enfance jusqu’à l’âge adulte. À plus longue échéance, le vieillissement des photos présentera aussi un intérêt dans le cas des enlèvements, pour réaliser le portrait-robot d’un enfant disparu plusieurs années après. Pour les annonceurs, la reconnaissance de l’âge est enfin un enjeu de taille, puisqu’elle permet de qualifier l’audience et d’adapter les contenus diffusés en conséquence. La technologie pourrait ainsi être utilisée dans les écrans publicitaires de l’espace public. « Il convient de noter que l’intérêt de la démarche n’est pas d’identifier les personnes, qui conservent leur anonymat, mais bien d’obtenir des informations sur leur âge pour personnaliser les services. De façon plus générale, la reconnaissance de l’âge permettra aussi de réaliser l’estimation statistique d’une foule pour obtenir des données démographiques ».
Plus vite que la Recherche
Le quotidien d’un doctorant comme Grigory se déroule entre journées de tests, lectures approfondies et conférences. Et il ne manque pas de rebondissements dans un domaine très mouvant, et pris d’assaut par de nombreux laboratoires : « la compétition scientifique s’est considérablement accélérée, et aujourd’hui le rythme classique de la recherche n’est plus adapté à l’évolution rapide des technologies. Dans le domaine du deep learning, de nouveaux articles sortent chaque semaine. Le temps qu’un article soit étudié et validé par les comités de conférences, de nouvelles données entrent en ligne de compte, qui changent parfois totalement la donne. Il est devenu indispensable de diffuser des pré-publications sur Internet. Et les conférences ne sont plus des moments où l’on découvre le travail de ses pairs, mais où l’on vient déjà bien renseigné pour discuter, partager, faire avancer ses travaux bien sûr, mais surtout la recherche ! ».
Car dans la course à la connaissance, les chercheurs du monde entier avancent aussi en confrontant leurs idées, dans un juste équilibre entre compétition et coopération… à l’image de deux réseaux de neurones adversaires ?