● Un rapport américain du National Institute of Standards and Technology identifie les types d’attaques potentielles : l’empoisonnement des modèles, les atteintes à la vie privée et les déviations d’objectif dans l’IA générative, etc.
● Un des auteurs, Apostol Vassilev, revient notamment sur l’importance de nettoyer les données. La sécurité de ces systèmes nécessite une vigilance constante, des méthodes de standardisation des données et la mise en place de systèmes de surveillance pour détecter rapidement les modèles compromis.
Comment aborder l’IA en matière de sécurité ?
Apostol Vassilev. Quand on parle d’IA on parle aujourd’hui souvent d’IA générative, comme ChatGPT ou des modèles de diffusion d’image à qui on pose des questions pour générer du contenu. Il faut également prendre en compte les modèles d’IA non générative qui sont déployés dans l’industrie, par exemple comme c’est le cas pour des composants d’IA intégrés dans des véhicules autonomes, capables par exemple de classer des objets sur la route ou de calculer une trajectoire sûre. C’est également le cas dans les cabinets médicaux pour obtenir des diagnostics à partir d’images ou de données envoyées à des systèmes capables de déterminer si vous avez une pathologie. Il est donc difficile, au regard de cette diversité, d’identifier et définir toutes les attaques possibles qui peuvent manipuler ces systèmes, d’où la publication de notre rapport qui vise à les recenser. Nous devons donc distinguer deux types d’IA : les technologies prédictives et les technologies génératives.
Les attaques peuvent aussi cibler des attaques multimodales, par exemple dans le but de modifier l’apparence d’une personne ou sa voix dans les données d’entraînement.
Dans quelles mesures les systèmes d’IA sont vulnérables ?
Nous avons identifié différents types d’attaques, à commencer par l’empoisonnement du modèle (model poisoning) dont l’objectif est de modifier directement la manière dont l’IA est entraînée, ce qui peut produire de faux résultats. Par exemple, une personne malveillante peut interchanger la lecture des panneaux de signalisation sur la route dans le système d’un véhicule. Il existe également des attaques sur la vie privée (privacy attacks), dont l’objectif est de récolter des données privées ou sensibles. Par exemple, si l’on prend l’IA générative, les modèles ratissent le Web et s’entraînent en récoltant un volume considérable de données, dont des données privées. Il est possible, avec des prompts malveillants, de récupérer ces informations.
L’IA générative est-elle particulièrement vulnérable ?
On retrouve également en IA générative des attaques dites « abuse violations » qui visent à détourner l’objectif initial d’une IA, par exemple pour créer un malware grâce à un modèle de langue (LLM). Mais cela peut aller plus loin : si des chatbots médicaux sont altérés, ils peuvent donner de mauvais conseils. En mars 2023, un Belge s’est suicidé suite aux conseils administrés par un chatbot. Les attaques peuvent aussi cibler des IA multimodales, par exemple dans le but de modifier l’apparence d’une personne ou sa voix dans les données d’entraînement. En matière de manipulation d’informations, cela peut induire les internautes en erreur : Wikipédia, qui propose des contenus sur Snapchat, peut voir les contenus consommés modifiés, afin d’induire l’audience en erreur.
Comment prévenir ce type de problème ?
Il est important d’appliquer des techniques spécifiques de nettoyage des données : nous donnons dans le rapport des références dans la manière dont vous devez prendre les données d’entrée et les données d’entraînement des modèles. Et évidemment il faut les nettoyer le mieux possible. Ce n’est pas forcément possible sur les grands ensembles de données.
Est-il possible de repérer ce qui a été modifié par des actions malveillantes ?
Scientifiquement, la réponse n’est pas définitive. Il y a environ un an, des chercheurs ont abouti à des résultats indiquant qu’il est impossible de distinguer les données provenant de deux distributions qui se chevauchent. Par conséquent, si vous avez des données que vous attendez du modèle et qu’il existe une distribution statistique de données légèrement modifiées, l’exploit malveillant peut se produire. Tant que ces deux distributions se chevauchent, cela donne toujours une porte d’entrée aux attaquants. La clef est de pouvoir mettre en place un système de surveillance dynamique, capable de surveiller les résultats en continu, tout en anticipant les actions à mettre en place en cas de problème. L’objectif est d’identifier rapidement le problème pour recycler le modèle au plus vite.
Sources :
Vassilev A, Oprea A, Fordyce A, Anderson H (2024) Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations. (National Institute of Standards and Technology, Gaithersburg, MD) NIST Artifcial Intelligence (AI) Report, NIST Trustworthy and Responsible AI NIST AI 100-2e2023. https://doi.org/10.6028/NIST.AI.100-2e2023
En savoir plus :
NIST Identifies Types of Cyberattacks That Manipulate Behavior of AI Systems (en anglais)
NIST: If someone’s trying to sell you some secure AI, it’s snake oil (en anglais)