Depuis 2023, on observe un essor de l’IA générative mais les risques liés à la sécurité de ces systèmes sont peu abordés. Il existe le risque d’utilisation détournée des systèmes d’IA générative, comme par exemple pour les chatbots : on pourrait demander à un chatbot de nous générer du code pour conduire une attaque sur un système d’information en le plaçant dans un scénario particulier, par exemple en lui indiquant que le code généré servira à tester notre propre système d’information. Cette méthode permettrait de lui faire produire tout de même ce code informatique et à détourner donc les filtres de sécurité qui sont prévus.
L’empoisonnement de modèle est préoccupant puisque les data scientists ont en réalité assez peu de maîtrise sur les données collectées pour entraîner les modèles.
Un autre type d’attaque qu’on observe en pratique s’appelle l’évasion du modèle et consiste à fournir en entrée au modèle des données qui ont été choisies de telle sorte à faire adopter un comportement détourné au modèle. Par exemple une voiture autonome va utiliser des images pour détecter les panneaux de signalisation. En modifiant légèrement les panneaux, par exemple avec des morceaux de scotch ou de la peinture, il est possible de faire en sorte que la voiture ne détecte plus un panneau « stop » mais détecte en fait un panneau de limitation de vitesse, ce qui peut évidemment conduire à un accident.
Un troisième type d’attaque, cette fois-ci lors de la conception du modèle d’IA, consiste à fournir en entrée des données qu’on appelle empoisonnées et qui vont introduire une porte dérobée ou « backdoor » dans le modèle d’IA. Cette « backdoor » peut être activée par la suite pour faire adopter à l’IA un comportement qui n’était pas prévu à l’origine. Ce type d’attaque est particulièrement préoccupant puisque les « data scientists » ont en réalité assez peu de maîtrise sur les données collectées pour entraîner les modèles.
En savoir plus :
Vassilev, A., Oprea, A. , Fordyce, A. and Andersen, H. (2024), Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations, NIST Trustworthy and Responsible AI, National Institute of Standards and Technology, Gaithersburg, MD, [online], https://doi.org/10.6028/NIST.AI.100-2e2023