● Un nouveau modèle cherche à mieux équilibrer précision et équité dans la détection des discours haineux.
● Chez Orange, une équipe pluridisciplinaire explore comment rendre ces technologies plus justes et efficaces en croisant données, IA et sciences sociales.
La modération des contenus postés sur les médias sociaux sert à implémenter, dans des configurations variables, les règles auxquelles ces plateformes soumettent leurs utilisateurs. Les données concernées, en grand volume, incluent des discours violents qui affectent négativement les modérateurs humains. L’utilisation de l’intelligence artificielle (spécifiquement des outils de traitement naturel du langage (NLP)) devrait, dans ce contexte, permettre de modérer les contenus à grande échelle et minimiser l’exposition des personnes aux contenus blessants. Les utilisateurs des plateformes ont des représentations du monde multiples et s’expriment dans différentes langues et différents contextes. A ce titre, utiliser des règles d’analyse génériques fait courir le risque d’actions de modération non pertinentes. Ainsi, les outils de NLP ont des performances différentes dans la modération de contenus en fonction des groupes démographiques.
La modération doit s’adapter aux contextes sociaux
Dans l’analyse des contenus, un algorithme peut être précis dans la détection de propos toxiques dits généralistes, mais il peut échouer dans certains contextes sociaux et géographiques, ce notamment parce que certains groupes sociaux ne vont pas considérer certains propos comme toxiques tandis qu’ils le seront pour d’autres. À l’inverse, un système de détection mal paramétré pourrait exposer des utilisateurs à des contenus haineux. « En France il y a eu par exemple des études sur l’usage du verlan dans lesquels des systèmes informatiques catégorisent la plupart des mots comme toxiques, alors qu’ils ne le sont pas », explique Lara Alouan, sociologue chez Orange et spécialiste du cyberharcèlement. A cela s’ajoute le fait que la nature toxique de certains propos évolue dans le temps : un terme reconnu comme injurieux aujourd’hui ne sera peut-être pas qualifié comme tel demain.
Vers des algorithmes plus justes : l’équilibre entre précision et équité
La plupart des mesures d’équité — qui permettent de déterminer si le modèle d’IA traite tous les groupes sociaux de manière juste — ne peuvent pas être utilisées telles quelles pour entraîner un modèle, car elles ne sont pas adaptées aux méthodes classiques d’optimisation. Pour répondre à cette problématique, une équipe de recherche de l’Université du Texas et de l’Université de Birmingham a développé un algorithme qui aide les parties prenantes à équilibrer la précision et l’équité pour adapter les outils de traitement du langage de manière plus juste. Les chercheurs ont utilisé une mesure de l’équité appelée Group Accuracy Parity (GAP), ainsi que des formules qui ont permis de former un modèle d’apprentissage automatique plus performant que ceux alors connus, et en mesure d’équilibrer l’équité et la précision dans l’analyse des corpus.
Chez Orange, des collaborations pluridisciplinaires pour renforcer les modèles
Chez Orange, une équipe pluridisciplinaire composée de sociologues, de data scientists et de spécialistes des modèles de langue se penche sur un projet visant à détecter et prévenir les discours de haine (hate speech), et l’exposition aux contenus toxiques. L’équipe travaillera sur des données réelles obtenues dans le cadre d’une collaboration avec Marlène Dulaurans, de l’Université Bordeaux-Montaigne et la Gendarmerie. Pour compléter ce corpus, les données synthétiques pourraient être la clef : « Nous devons voir ce que pourraient apporter les LLM décensurés, c’est-à-dire qui peuvent produire des données synthétiques de cyberharcèlement car, en France, les corpus sont peu étoffés », explique Franck Meyer, chercheur en data science chez Orange. En effet, les LLMs décensurés pourraient potentiellement générer des données réalistes, indiscernables des données réelles, dans le domaine des textes toxiques et aider à mieux détecter les textes à problèmes.
Des études sociologiques pour évaluer la perception des contenus haineux
L’objectif est de constituer des dictionnaires sémantiques, mais également d’évaluer si les utilisateurs sont capables de discerner les données réelles des données synthétiques, pour voir si ces dernières peuvent être utilisées dans des entraînements d’IA. « Il faut également tester ces données lors d’ateliers pour évaluer la perception des individus quant à la réception des informations, sachant que les personnes présentes dans ces ateliers seront exposées à différents types de données », ajoute Lara Alouan. Ce projet propose d’aborder la lutte contre les discours toxiques en s’appuyant sur une étude sociologique poussée afin d’analyser différents cas d’usages en fonction de différentes populations. « ll y a des situations de cyberharcèlement qui seront plus faciles à détecter que d’autres, et certaines qui ont un impact plus ou moins grave », précise Franck Meyer. D’autres difficultés dans ce type d’études sont à prévoir : « Il peut y avoir des freins chez les utilisateurs qui, pour certains, peuvent challenger les algorithmes en adoptant un vocabulaire dit “gossip” c’est-à-dire un langage codé ou détourné, qui leur permet de contourner les systèmes de modérations automatiques », conclut Lara Alouan.
Sources :
Finding Pareto trade-offs in fair and accurate detection of toxic speech (en anglais)

