• Membre d’une équipe de recherche partenaire d’Adobe, Eric Slyman a travaillé sur un outil facilitant la représentation équitable des données en amont des entraînements des modèles.
• Baptisé FairDeDup, cet outil s’adapte à tous les modèles, fournit une représentation des données plus équitable et diminue les coûts d’entraînement.
Vous avez publié un article de recherche avec Adobe sur le rôle de la déduplication dans la création de biais sociaux. De quoi parle-t-on ?
Nos recherches portent sur les aspects pratiques de la mise en œuvre d’une IA plus équitable. Quand on souhaite entraîner un grand modèle d’IA, il faut une quantité de données à l’échelle du Web, soit des milliards de points de données, ce qui est extrêmement coûteux. Ce que les entreprises font pour rendre cela moins coûteux, c’est la déduplication, qui consiste à supprimer les données redondantes d’un ensemble de données, afin d’optimiser l’espace de stockage, faciliter la récupération des données, etc.
Quand on entraîne un modèle d’image à partir de photos de médecin, on va en prendre la moitié (…) si la précision change peu, les préjugés sociaux changent quant à eux beaucoup.
Par exemple quand on entraîne un modèle d’image à partir de photos de médecin, au lieu d’en prendre 10.000, on va en prendre la moitié, donc 5.000. Cela permet d’entraîner le modèle plus rapidement et la différence en termes de précision des résultats est faible : on passe de 93% à 92,8% pour la moitié du prix. Le problème est qu’un autre compromis est alors réalisé : si la précision change peu, les préjugés sociaux changent quant à eux beaucoup. Dans ce cas, il risque d’y avoir une surreprésentation des hommes blancs de plus de 40 ans, tandis que le modèle va identifier les femmes de couleur comme des infirmières, et non des médecins.
Existe-t-il encore des biais après l’utilisation de cet outil ?
FairDeDup a pour objectif de trouver un moyen de réaliser la déduplication de contenus en trouvant un compromis entre rapidité d’entraînement et précision – d’où le nom FairDeDup, pour duplication éthique –, et ce sans sacrifier l’équité dans le processus. L’outil permet de faire de l’élagage de données en amont tout en choisissant quelles données sont conservées et lesquelles sont supprimées avant l’entraînement du modèle. Cela permet donc de conserver une équité plus importante relative aux données portant sur les professions, le genre, la race, la culture, etc.
Cet outil ne supprime pas tous les biais, mais permet d’affiner les clusters qui contiennent des données similaires : pour chaque cluster, nous allons garder un échantillon représentatif. L’idée est donc de conserver un échantillon de chaque cluster pour l’entraînement. Par la suite, l’algorithme utilise une autre IA qui indique au modèle de conserver une représentation équilibrée entre les échantillons. Cette dernière sera capable de dire si par exemple, une population est surreprésentée. Sous la forme de langage naturel, cette IA peut par exemple indiquer à un ingénieur de s’assurer d’inclure des données contenant des femmes de couleur.
Cela ne s’applique qu’aux modèles de diffusion ou à d’autres ?
Notre approche est adaptée à tous les modèles, qu’il s’agisse des modèles de langage, de vision et aux modèles de fondation. Il s’adapte également à CLIP, qui est un réseau de neurones qui fait le lien entre le texte et les images. Ces modèles sont normalement utilisés pour entraîner des modèles de diffusion ou pour fournir des conseils dans des outils comme GPT 4.0 où il y a des images. C’est ainsi que l’on peut introduire de l’équité dans des modèles d’IA multimodale.
Vous dites qu’il réduit les coûts d’entraînement…
Notre outil permet aux entreprises d’accélérer le développement et la recherche de leurs modèles. Quand une société doit déterminer quelle sera la prochaine version d’un modèle qui sera déployé, elle ne peut pas entraîner ce modèle sur tout l’ensemble de données. Il faut utiliser des méthodes qui rendent le processus plus rapide, et notre approche en est une. Elle permet ainsi de diviser le coût par deux : c’est une approche est donc économique, mais également précieuse sur le plan éthique.
Quelles sont les prochaines étapes pour vos recherches ?
Nous passons à une autre étape de ce processus. Ce qui m’intrigue vraiment en ce moment, c’est d’améliorer la manière dont on peut accroître les évaluations des IA. On a mentionné les modèles de diffusion plus tôt, et la capacité à utiliser une autre IA pour juger le résultat des modèles de diffusion. Je suis en train d’étudier des moyens de mettre en œuvre des méthodes humaines pour effectuer ce type de jugement et d’évaluation en prenant en compte les résultats en matière d’équité, et les implications de l’utilisation des IA pour évaluer d’autres IA. Car si cela reste efficace et peu cher, il y a des dangers potentiels à le faire sans supervision. Certains chercheurs se penchent justement sur ce que l’on appelle la méta-évaluation, mais ce n’est que le début, je n’ai vu que quelques articles seulement sur ce sujet.
Sources :
FairDeDup: Detecting and Mitigating Vision-Language Fairness Disparities in Semantic Dataset Deduplication (en anglais)
En savoir plus :
Researchers develop new training technique that aims to make AI systems less socially biased (en anglais)
FairDeDup: Detecting and Mitigating Vision-Language Fairness Disparities in Semantic Dataset Deduplication (Adobe) (en anglais)