Intelligence artificielle | Mot de l'innovation | Découvrir

Cybersécurité : attaques et détournements des IA

jeudi 27 juin 2024

Temps de lecture : 2 min

Ecouter le contenu de la page avec notre synthèse vocale

• Les systèmes d’IA et d’IA générative peuvent être facilement détournés, par exemple pour générer du code malveillant, même lorsqu’ils sont conçus pour refuser ce type de demandes.
• D’autres types d’attaques, « les attaques par évasion de modèle » exploitent des entrées modifiées pour provoquer des comportements inattendus chez les IA, comme faire en sorte qu’une voiture autonome interprète mal les panneaux de signalisation.
• Les données empoisonnées peuvent quant à elles introduire des portes dérobées dans les modèles d’IA, permettant des comportements non prévus, ce qui est préoccupant en raison du manque de contrôle des ingénieurs sur les sources de leurs données.

Depuis 2023, on observe un essor de l’IA générative mais les risques liés à la sécurité de ces systèmes sont peu abordés. Il existe le risque d’utilisation détournée des systèmes d’IA générative, comme par exemple pour les chatbots : on pourrait demander à un chatbot de nous générer du code pour conduire une attaque sur un système d’information en le plaçant dans un scénario particulier, par exemple en lui indiquant que le code généré servira à tester notre propre système d’information. Cette méthode permettrait de lui faire produire tout de même ce code informatique et à détourner donc les filtres de sécurité qui sont prévus.

L’empoisonnement de modèle est préoccupant puisque les data scientists ont en réalité assez peu de maîtrise sur les données collectées pour entraîner les modèles.

Un autre type d’attaque qu’on observe en pratique s’appelle l’évasion du modèle et consiste à fournir en entrée au modèle des données qui ont été choisies de telle sorte à faire adopter un comportement détourné au modèle. Par exemple une voiture autonome va utiliser des images pour détecter les panneaux de signalisation. En modifiant légèrement les panneaux, par exemple avec des morceaux de scotch ou de la peinture, il est possible de faire en sorte que la voiture ne détecte plus un panneau « stop » mais détecte en fait un panneau de limitation de vitesse, ce qui peut évidemment conduire à un accident.

Un troisième type d’attaque, cette fois-ci lors de la conception du modèle d’IA, consiste à fournir en entrée des données qu’on appelle empoisonnées et qui vont introduire une porte dérobée ou « backdoor » dans le modèle d’IA. Cette « backdoor » peut être activée par la suite pour faire adopter à l’IA un comportement qui n’était pas prévu à l’origine. Ce type d’attaque est particulièrement préoccupant puisque les « data scientists » ont en réalité assez peu de maîtrise sur les données collectées pour entraîner les modèles.

Sources :

Petite taxonomie des attaques des systèmes d’IA

En savoir plus :

Vassilev, A., Oprea, A. , Fordyce, A. and Andersen, H. (2024), Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations, NIST Trustworthy and Responsible AI, National Institute of Standards and Technology, Gaithersburg, MD, [online], https://doi.org/10.6028/NIST.AI.100-2e2023

Alexis Leautier

Ingénieur IA à la CNIL, il contribue à la construction de la doctrine du régulateur sur l’intelligence artificielle. Il a participé à des publications l’apprentissage fédéré, les données synthétiques et sur les enjeux des systèmes d’IA sur la vie privée.