● Elle explique craindre que la quantité de données sur lesquelles ces outils sont entraînés soit privilégiée au détriment de la qualité, laissant ainsi la porte ouverte à des litiges en matière de droits d’auteur, notamment en matière d’images.
● Elle souligne également les risques de biais algorithmiques de ces outils de génération de contenus, entraînés sur des données et des contenus opaques.
Quel est le métier de Hugging Face et quel est votre rôle en tant qu’éthicienne principale ?
Giada Pistilli. Nous sommes un peu comme le GitHub de l’intelligence artificielle, c’est-à-dire que nous mettons à disposition une plateforme sur laquelle les développeurs trouvent des outils qui leur permettent de développer, d’entraîner et de déployer des modèles de machine learning basés sur des technologies en open source. C’est donc une plateforme qui rassemble une large communauté de scientifiques, de données, de chercheurs… Dans cette société, mon travail est à l’intersection de différents aspects de l’intelligence artificielle que sont la recherche et l’application en éthique, droit et affaires publiques. Je dois donc me poser des questions quant à l’impact social de l’intelligence artificielle et répondre à certaines questions qui n’ont pas encore été posées.
Dans quelle mesure les modèles d’intelligence artificielle en open source représentent des dangers ?
Il est de notre rôle de vérifier l’intégrité et les risques inhérents à certains modèles car, par exemple, certains modèles de langage permettent de créer des spams, des arnaques, des faux mails, des faux avis et même de faux contenus. Si, demain, une personne souhaite améliorer la modération des contenus de son site grâce à un détecteur de langage toxique, il a besoin de créer un modèle qui est entraîné sur ces données toxiques (insultes…). Le risque est que ce type d’outil peut être utilisé à des fins malveillantes pour créer, à l’inverse, un bot capable de créer explicitement des contenus malveillants. Dans ce type de cas, nous allons demander aux développeurs qui travaillent sur ce modèle de le faire uniquement en mode privé.
Il est important de savoir sur quelles données les modèles ont été entraînés et quel type de contenu ils vont générer
Le marché de l’IA générative est-il structuré ?
On peut dire que nous sommes à l’âge du Far West de l’IA générative : de gros modèles sont entraînés avec de très importantes quantités de données. Le risque est de délaisser la qualité pour la quantité. Chez Hugging Face, notre équipe scientifique cherche davantage à comprendre comment aller chercher la bonne donnée, c’est-à-dire la donnée qualitative, consentie et qu’il est juridiquement possible d’utiliser et de partager. À ce titre, le modèle Stable Diffusion, qui permet de générer des images numériques, a été attaqué par la justice par Getty Images pour violation du droit d’auteur. L’issue de ce procès va créer un précédent juridique important.
Quelles questions une entreprise doit-elle se poser avant de créer un modèle en intelligence artificielle ?
Il est important de savoir sur quelles données les modèles ont été entraînés et quel type de contenu ils vont générer. Dans le cas d’images, on doit se poser la question du consentement et des droits d’auteurs, ainsi que de l’autorisation des personnes qui sont sur les photographies. Sur Stable Diffusion, des recherches ont prouvé que dans les données avec lesquelles le modèle a été entraîné, on retrouve du contenu à caractère pornographique. La question éthique est donc de se demander, d’une part, d’où viennent ces données, jusqu’où est-il possible d’aller et quelle est son utilisation ? Si on interroge ces outils pour générer des images même avec les plus nobles intentions, ils sont capables de créer des contenus de type « soft porn ». C’est très problématique si un mineur se trouve confronté à l’usage de ce type d’outil. Il en va de même en matière de création de puisqu’il est possible que l’image de personnes connues soit décontextualisée, quitte à tromper des acheteurs, créer de faux produits, etc. Il est donc impératif de mentionner clairement quand une image a été créée grâce à l’intelligence artificielle et chercher à anticiper et mitiger ces risques.
Qu’en est-il en matière de contenus écrits ?
On se pose beaucoup la question sur les images, car c’est plus simple de repérer le style d’un artiste, mais sur les modèles de langage, le sujet est le même : on ne sait pas si certains modèles ont été entraînés sur des livres ou des articles de journaux qui sont protégés par le droit d’auteur. Il est par ailleurs important que les modèles soient entraînés sur des données diversifiées. Dans le cas contraire, puisqu’il s’agit de statistiques, cela va créer des biais et l’IA répondra avec les mêmes arguments sur une thématique donnée ou ne parlera que d’une personne, ce qui risque de discriminer les autres.
Je pense qu’il est problématique de brancher un modèle de langage à un moteur de recherche, car il n’y a rien de plus imprécis, ne serait-ce que parce que les sources ne sont pas hiérarchisées et il n’est pas acceptable de voir des sources hétérogènes mises au même niveau comme, par exemple, un article scientifique à côté d’un billet de blog d’une marque agroalimentaire. La solution est peut-être de concevoir des chatbots plus fermés, car c’est presque le seul moyen de contrôler les contenus à ce jour.
Un deepfake est une séquence vidéo ou audio générée grâce à l’intelligence artificielle, généralement dans l’intention de tromper l’auditeur ou le téléspectateur.