En ce moment

L’apprentissage auto-supervisé ouvre la voie à une IA de bon sens


“La version finale du modèle SEER de Facebook affiche un taux de précision de 84,2%.”


Après avoir permis des avancées majeures en traitement automatique du langage, l’apprentissage auto-supervisé est aujourd’hui appliqué à la vision par ordinateur. Cette méthode d’apprentissage automatique qui ne nécessite pas d’étiquetage manuel des données pourrait contribuer à combler le fossé entre intelligence humaine et intelligence artificielle.

En mars 2021, les laboratoires de recherche en intelligence artificielle de Facebook (FAIR) dévoilaient un nouveau modèle de vision par ordinateur développé en collaboration avec l’Institut national de recherche en sciences et technologies du numérique (Inria).

Baptisé “SEER” (pour SElf-supERvised), ce modèle a la particularité d’avoir été préentraîné sur un milliard d’images Instagram aléatoires non étiquetées grâce à un apprentissage auto-supervisé (SSL, Self-Supervised Learning).

Selon Facebook, cette méthode d’apprentissage automatique permet de s’attaquer à des tâches qui dépassent de loin les capacités actuelles de l’intelligence artificielle (IA) et ouvre une nouvelle ère pour la vision par ordinateur “Computer Vision” (CV).

Dans un billet de blog, Yann LeCun, scientifique en chef de l’IA chez Facebook, affirme que l’apprentissage auto-supervisé est “l’un des moyens les plus prometteurs pour construire [des] connaissances d’arrière-plan et se rapprocher d’une forme de bon sens chez les systèmes d’IA”. Ce bon sens, “matière noire de l’intelligence artificielle”, aide les humains à acquérir de nouvelles compétences sans un temps d’apprentissage trop long.

Étiquetage automatique

L’apprentissage auto-supervisé (SSL) est une méthode d’apprentissage où les données d’entraînement sont étiquetées de manière automatique. Contrairement à l’apprentissage non supervisé, le SSL repose toujours sur des annotations et des métadonnées, mais ces dernières sont générées de manière autonome par le système d’IA en exploitant la structure sous-jacente des données et leurs relations.

La technique consiste généralement à prendre un ensemble de données d’entrée et à en occulter une partie. L’algorithme de SSL doit dès lors analyser les données restées visibles pour prédire les données cachées (ou certaines propriétés des données cachées). Ce faisant, il crée lui-même les étiquettes qui lui permettront d’apprendre.

L’apprentissage auto-supervisé présente plusieurs avantages. Le premier est évident, puisque l’étiquetage de données est un goulot d’étranglement majeur de l’apprentissage supervisé.

Pour être efficaces, les algorithmes d’apprentissage automatique (en particulier profond) nécessitent une grande quantité de données préalablement sélectionnées et annotées par des humains.

Ce processus est extrêmement long et coûteux. Dans certains domaines comme la médecine, qui requièrent une expertise spécifique et où les données sont parfois rares, il peut être très complexe.

Le SSL permet de contourner cet obstacle, le modèle pouvant être entraîné sur une immense quantité de données sans curation ni marquage manuel.

Comme le souligne Facebook, cette approche pourrait également limiter l’encodage de biais, qui peut intervenir lors de ces étapes, et parfois améliorer l’étiquetage (en imagerie médicale, par exemple).

De manière générale, le SSL permet à la communauté IA de travailler avec des jeux de données plus vastes et diversifiés et de créer et déployer des modèles plus rapidement.

Des percées spectaculaires

Les approches auto-supervisées ont permis des avancées majeures en traitement automatique du langage (TAL) où le préentraînement de réseaux de neurones artificiels sur des corpus de texte très volumineux a conduit à des percées dans plusieurs domaines, comme la traduction automatique ou les systèmes de question-réponse.

Word2Vec est un bon exemple d’utilisation du SSL. Cette famille de modèles de “word embedding” (plongement lexical, en français) développés par des chercheurs de Google s’appuie sur des réseaux de neurones artificiels à deux couches pour représenter les mots par des vecteurs et tenter de prédire un mot à partir de son contexte (modèle de sacs de mots continus, CBOW) et vice-versa (modèle skip-gram).

Le SSL a également permis d’entraîner une nouvelle génération de modèles de langages s’appuyant sur l’architecture des Transformers, dont BERT, lui aussi développé par Google, est un exemple représentatif.

Contrairement à Word2Vec, BERT est un modèle de représentation contextuel. Ainsi, là où Word2Vec génère un seul vecteur pour chaque mot de vocabulaire (Orange aura la même représentation bien qu’il puisse désigner une couleur, un fruit, une ville ou une entreprise), BERT peut en générer plusieurs selon le contexte dans lequel il est utilisé.

Dans un premier temps, le modèle est préentraîné sur d’énormes ensembles de données textuelles non étiquetées (toutes les pages de Wikipedia en anglais, par exemple).

Il est ensuite affiné (“fine-tuning”), c’est-à-dire réentraîné sur une plus petite quantité de données, pour une tâche spécifique (telle que l’analyse de sentiments ou la génération de texte). Cette méthode le rend beaucoup plus précis dans ses résultats et rapide dans son apprentissage que ses prédécesseurs.

Il est par ailleurs capable de se spécialiser sur beaucoup de tâches, avec peu de données, et surclasse les modèles spécialisés existants dans de nombreux cas. Grâce à la version ouverte publiée par Google, BERT a donné lieu à plusieurs dérivés.

Du traitement automatique du langage à la vision par ordinateur

Si l’apprentissage auto-supervisé a fait progresser le traitement automatique du langage, les techniques utilisées ne peuvent pas être transposées facilement à de nouveaux domaines, comme la vision par ordinateur.

Yann LeCun écrit que cela s’explique principalement par le fait qu’il est beaucoup plus difficile de représenter efficacement l’incertitude dans la prédiction d’images que dans la prédiction de mots.

“Lorsque le mot manquant ne peut pas être prédit exactement […], le système peut associer un score ou une probabilité à tous les mots possibles du vocabulaire […].” Cela n’est pas possible en CV. “On ne peut pas lister toutes les images vidéo possibles et associer un score à chacune d’elles, car il en existe une infinité.”

Les ingrédients de la recette SEER

Pour résoudre le problème, Facebook a mis au point le modèle SEER, qui combine plusieurs innovations concoctées au sein de ses laboratoires.

Premier ingrédient : SwAV, développé en collaboration avec l’Inria, est un algorithme de “clustering online”, qui tire parti des méthodes contrastives pour regrouper des images partageant des caractéristiques visuelles sans nécessiter de comparaison explicite entre une multitude de paires d’images.

L’apprentissage contrastif permet d’entraîner un modèle à reconnaître les similarités et les différences entre des images — et, ce faisant, à apprendre les caractéristiques invariables d’un objet — en comparant des paires d’images ayant subi des transformations ou ayant été prises sous des angles différents.

C’est une méthode très efficace pour apprendre des concepts visuels sans supervision, mais le processus de comparaison est extrêmement gourmand en temps de calcul, d’où l’intérêt de trouver une alternative. Avec SwAV, Facebook affirme avoir atteint de bonnes performances tout en divisant par six le temps d’apprentissage du modèle.

Toutefois, si l’on veut entraîner un gros modèle sur de larges bases de données, il faut aussi une architecture à la hauteur. Facebook s’est appuyé sur une autre innovation récente de FAIR, ses laboratoires de recherche en IA : RegNet, une famille de réseaux de neurones convolutifs (ConvNet) capables d’être mis à l’échelle avec des milliards de paramètres, et optimisés pour s’adapter à différents environnements d’exécution et limitations de mémoire.

Dernier ingrédient qui a rendu SEER possible : VISSL, une boîte à outils polyvalente pour l’apprentissage auto-supervisé appliqué à l’image publiée en open source.

Selon Facebook, la version finale du modèle SEER (1,3 milliard de paramètres, 1 milliard d’images aléatoires, 512 processeurs) a atteint un taux de précision de 84,2 % top-1 sur ImageNet, base de données de référence où des équipes de recherche du monde entier évaluent la justesse de leurs modèles. Ce taux correspond à la proportion des prédictions correctes. La “précision top-1” signifie que la première réponse donnée par le modèle, celle avec la probabilité la plus élevée, correspond bien à la réponse attendue (alors que la “précision top-5” prend en compte les cinq premières réponses données par le modèle). Le score obtenu par SEER le classe parmi les modèles auto-supervisés les plus performants et ne le place pas très loin des meilleurs modèles supervisés pouvant atteindre environ 90,5 % top-1.

Mots-clés :

, , ,

Sources

Self-supervised learning: The dark matter of intelligence https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence

SEER: The start of a more powerful, flexible, and accessible era for computer vision https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/

Self-supervised learning gets us closer to autonomous learning https://hackernoon.com/self-supervised-learning-gets-us-closer-to-autonomous-learning-be77e6c86b5a

BERT : Le « Transformer model » qui s’entraîne et qui représente https://lesdieuxducode.com/blog/2019/4/bert–le-transformer-model-qui-sentraine-et-qui-represente