L’explicabilité, récent néologisme tiré de l’anglais (explainability), est devenue un sujet central en IA. Bien qu’il ne soit pas nouveau, ce sujet prend aujourd’hui une plus grande ampleur pour au moins trois raisons. Premièrement, les techniques d’apprentissage automatique qui sont devenues dominantes en IA, en particulier celles basées sur les réseaux de neurones artificiels, comme l’apprentissage profond produisent des modèles qualifiés de « boîtes noires » car leur fonctionnement repose non pas sur des règles explicitement programmées comme dans le cas de l’IA symbolique mais sur des opérations mathématiques probabilistes complexes difficiles à retracer. Plus précisément, on parle de boîte noire pour indiquer que ces modèles sont opaques, c’est-à-dire que les mécanismes internes relatifs à leur fonctionnement ne sont pas ou sont difficilement appréhendables. Cette opacité est notamment liée à la complexité mathématique des calculs effectués et à la grande quantité de paramètres manipulée par ces modèles. Par exemple, la version 4 de GPT d’OpenAI reposerait sur 1 trillion (108) de paramètres. La deuxième raison est que si ces modèles « boîtes noires » génèrent de bons résultats dans la phase d’apprentissage, leur performance est beaucoup moins bonne dans des contextes d’usage réels. Il importe alors de comprendre le fonctionnement de ces modèles pour déterminer l’origine de cet écart. Enfin, l’utilisation des modèles « boîtes noires » dans un nombre croissant de secteurs (par exemple, justice, assurances, médecine) soulève d’importants enjeux éthiques qui là aussi semblent exiger de comprendre le fonctionnement de ces modèles.
Si l’explicabilité apparaît aujourd’hui comme un principe incontournable de l’IA responsable, sa définition n’est cependant pas stabilisée
L’explicabilité comme principe éthique pour l’IA « responsable »
Eriger l’explicabilité en un principe éthique ne va pas de soi. Dans le passé, il s’agissait principalement d’un problème d’interaction Humain-machine. Il est donc intéressant de comprendre ce qui a rendu l’explicabilité si centrale aujourd’hui d’un point de vue éthique.
Tout d’abord, il a été constaté que certains systèmes produisent des résultats biaisés qui soulèvent des questions d’équité et de justice sociale. Par exemple, il a été observé que certains systèmes de reconnaissance faciale fonctionnent mieux pour les peaux claires que pour les peaux foncées. Des études ont montré qu’une bonne partie des systèmes de reconnaissance vocale fonctionne beaucoup mieux pour les voix masculines. Un autre système utilisé par Amazon pour le recrutement a été retiré car il s’est avéré qu’il favorisait les candidats masculins. Ces résultats inattendus sont notamment liés à l’utilisation de données d’apprentissage qui sont elles-mêmes biaisées dès le départ. Compte tenu de ces phénomènes « discriminatoires », comprendre comment et pourquoi un modèle d’IA a produit un résultat donné est apparu comme nécessaire pour identifier ces biais, les corriger ou éviter leur apparition.
Deuxièmement, l’utilisation des modèles de type « boîtes noires » dans un nombre croissant de secteurs sensibles de la vie sociale comme la justice, la médecine, le secteur assurantiel ou bancaire implique le besoin de pouvoir expliquer leur fonctionnement lorsque les décisions prises sur la base de ces modèles peuvent avoir de lourdes conséquences pour les individus concernés (par exemple, le refus d’un prêt bancaire ou l’augmentation d’une prime d’assurance). L’opacité des modèles « boîtes noires » contribue ainsi au problème de ce que MacLure [1] nomme un « déficit de raison publique » (Public Reason deficit), au sens où un individu ne peut pas comprendre les « raisons » qui sous-tendent les décisions prises par une institution (par exemple, médicale) à son égard à l’aide de l’IA lorsque ces décisions ne sont pas publiquement accessibles et justifiables. L’enjeu est de permettre à toute personne, quel que soit son niveau de compétences en IA, de pouvoir comprendre les décisions prises à l’aide de l’IA lorsqu’elles la concernent directement. C’est le « droit à l’explication » qui a été posé comme un principe de régulation des algorithmes intervenant dans la prise de décision et qui a été inclus dans le règlement européen sur la protection des données personnelles (RGPD) en 2018. On retrouve ce droit dans d’autres pays, par exemple, aux États-Unis, où le Code of Federal Regulations stipule que chaque décision liée à un crédit bancaire doit être sous-tendue par un droit d’explication.
L’explicabilité : définitions et méthodes
Si l’explicabilité apparaît aujourd’hui comme un principe incontournable de l’IA responsable, sa définition n’est cependant pas stabilisée [2]. Il existe ainsi plusieurs définitions qui se recouvrent plus ou moins et les termes utilisés pour qualifier ce principe sont parfois différents. Par exemple, selon certains auteurs, il s’agit de la capacité à expliquer des processus algorithmiques dans des termes compréhensibles ou intelligibles pour un humain [3]. Une autre approche consiste à rattacher l’explicabilité à la notion de « cause ». Dans ce cadre, l’explicabilité définit le degré par lequel un humain peut saisir les « causes » d’un résultat produit par un système d’IA [4]. L’explication consiste ainsi à fournir les « causes » du résultat. Si certains auteurs utilisent l’interprétabilité comme synonyme de l’explicabilité, d’autres les distinguent. Ainsi, pour Rudin [5], l’explicabilité concerne essentiellement les modèles « boîtes noires » dont on cherche à expliquer les résultats a posteriori, tandis que l’interprétabilité concerne les modèles qui sont intrinsèquement interprétables (contrairement aux modèles « boîtes noires »). Les modèles intrinsèquement interprétables correspondent à des modèles dont les sorties sont non seulement explicables, mais surtout ne nécessitent pas le recours à des algorithmes supplémentaires particuliers pour les expliquer. Des distinctions sont également faites entre transparence et explicabilité. La transparence est parfois associée à la compréhension globale du modèle (l’ensemble des paramètres manipulés, leur combinaison, etc.) tandis que l’explicabilité est rattachée aux explications post-hoc d’un résultat spécifique fourni par le modèle.
Mais, plus concrètement, quels types d’explications des modèles « boîtes noires » peut-on réellement produire ? Il existe aujourd’hui toute une panoplie de méthodes algorithmiques de génération d’explications, sachant qu’elles évoluent et que de nouvelles sont élaborées. Ces méthodes peuvent être regroupées en trois grandes catégories. Une première catégorie regroupe les méthodes qui fournissent des explications dites locales ou post-hoc, c’est-à-dire qui concernent une sortie spécifique d’un système (par exemple, la détection d’une pathologie dans une radiographie ou un score de crédit bancaire). Il s’agit d’algorithmes particuliers qui sont utilisés après-coup. Dans ce cadre, les explications locales consistent à indiquer les variables (features), c’est-à-dire les données en entrée, qui ont le plus fortement influencé la sortie observée. L’explication contrefactuelle constitue une autre forme d’explication locale qui décrit la plus petite modification des valeurs d’une variable qui fait évoluer une sortie vers un autre résultat. Par exemple, si un système d’IA est utilisé pour estimer la probabilité qu’un client résilie un abonnement téléphonique (churn) à partir d’un certain nombre de variables (informations personnelles, services souscrits, etc.), l’explication contrefactuelle consisterait à rechercher les modifications (des variables) qui changent cette probabilité [6]. Une deuxième catégorie de méthodes regroupe celles dites globales qui consistent en des algorithmes spécifiquement conçus pour rendre compréhensible le fonctionnement global des modèles de type « boîtes noires » et qui s’appliquent après l’apprentissage. La troisième catégorie rassemble les techniques qui concernent les modèles d’apprentissage qui sont auto-explicatifs. Ces modèles sont « intrinsèquement » explicables ou interprétables (explainable by design) dans la mesure où ils sont nativement dotés d’algorithmes qui génèrent des explications. Enfin, certaines méthodes sont dites « agnostiques » lorsqu’elles peuvent être appliquées à n’importe quel modèle d’apprentissage.
Mais qu’en est-il des usages des explications produites par ces techniques ? Dans quelle mesure permettent-elles véritablement aux utilisateurs destinataires de comprendre les sorties produites par un système d’IA ? Sur ce plan, la structure et la formulation de ces explications ne sont pas véritablement adaptées à tous les contextes d’utilisation, en particulier à des utilisateurs profanes (non spécialistes de l’IA). Ces explications ont d’abord été développées par et pour des spécialistes de l’IA. Il s’agit de questions importantes en termes de conception des explications, d’interface utilisateur, d’interaction Humain-machine et d’adaptation à différents contextes d’usage. Plusieurs catégories de contextes d’usage des explications peuvent être distinguées. Une première catégorie regroupe les personnes qui ont besoin d’explications pour le débogage, l’optimisation du modèle, ou l’identification et la suppression de biais éventuels (data scientists, développeurs, responsables techniques, etc.). Une autre catégorie de contexte dans laquelle il peut y avoir un besoin d’explications est l’audit ou l’analyse de la conformité d’un système par rapport à la réglementation. Dans ce cas, les utilisateurs des explications peuvent être des auditeurs (qui peuvent être juristes) ou des contrôleurs (par exemple, de la sécurité ou de la qualité). L’utilisation de systèmes d’IA dans le cadre d’activités de travail (par exemple, comme aides au diagnostic dans le domaine médical) constitue une troisième catégorie de contextes dans lesquels les utilisateurs ayant une expertise spécifique dans leur domaine respectif (médecin, juriste, conseiller bancaire, etc.) peuvent avoir besoin d’explications. Enfin, il y a les contextes d’usage « grand public », par exemple les clients d’une banque, des patients, les passagers d’une voiture autonome, etc. Par exemple, le client d’une banque peut vouloir comprendre la note de crédit bancaire qui lui a été affectée par un système d’IA. Ce découpage montre qu’il existe ainsi une grande variété de situations pour lesquelles il peut être utile voire nécessaire de produire des explications. L’analyse de ces situations est fondamentale pour déterminer les besoins en explications des destinataires potentiels et le format pertinent de présentation des explications. Dans cette perspective, la démarche de conception centrée utilisateur bien connue en ergonomie et en interaction Humain-machine paraît tout à fait idoine car elle met précisément les besoins utilisateurs au centre de la conception.
Débats et critiques : l’explicabilité des modèles « boîtes noires » serait-elle illusoire ?
Si l’explicabilité apparaît comme étant à première vue essentielle au développement d’une « IA responsable », elle suscite cependant d’importants débats.
Outre les critiques qui pointent le manque de rigueur dans les définitions de l’explicabilité et des notions connexes comme l’interprétabilité et la transparence [7], un premier débat concerne l’utilisation des modèles « boîtes noires ». Certains chercheurs appellent à ne plus utiliser ces modèles dans les domaines où les décisions instrumentées par l’IA peuvent entraîner des conséquences négatives élevées, humaines ou économiques, par exemple dans le domaine de la justice, la médecine, le transport ou la banque, car il n’est pas possible de s’assurer de la fiabilité de ces modèles [5]. Qui plus est, d’après certains auteurs comme Rudin et al. [8], les techniques d’explicabilité ne génèrent au mieux que des explications approximatives, qui ne reflètent pas vraiment le processus algorithmique réel qui sous-tend la production d’un résultat. Pire, ces explications pourraient dans certains cas être trompeuses, au point que certains auteurs considèrent que les techniques d’explicabilité sont menacées par le piège de la rationalisation a posteriori qui peut conduire à du « fairwashing », c’est-à-dire que les explications qu’elles génèrent pourraient laisser faussement croire qu’un modèle respecte certaines valeurs éthiques [9]. Pour les domaines à risques, ces chercheurs prônent donc l’utilisation de techniques intrinsèquement interprétables (par exemple, les arbres de décisions ou la régression linéaire) qui génèrent des modèles « transparents » (« white ou glass box models »). Et, prenant le contre-pied de l’idée courante selon laquelle ces modèles sont moins performants, Rudin et al. [8] estiment ainsi qu’ils peuvent l’être tout autant que les modèles « boîtes noires » pour de nombreuses applications. Autrement dit, accepter l’inexplicabilité au profit de la performance ne constitue pas forcément la seule perspective qui existe dans le choix des techniques d’apprentissage machine. Ces auteurs vont même plus loin en considérant que l’explicabilité constitue une sorte de prétexte qui encourage l’utilisation de modèles « boîtes noires » en dépit des problèmes qu’ils posent.
Une autre critique de l’explicabilité s’appuie sur un raisonnement analogique. La prémisse de ce raisonnement est que nous ne cherchons pas toujours à expliquer les décisions humaines et que nous acceptons le fait qu’il n’est pas toujours possible de les comprendre, notamment en raison du caractère ineffable ou inaccessible du processus de décision. La conclusion de ce raisonnement est que nous devrions appliquer la même posture vis-à-vis des modèles « boîtes noires », c’est-à-dire accepter leur opacité. C’est ce que soutient l’un des plus grands spécialistes de l’apprentissage profond, Geoffrey Hinton [10]. Ce point de vue semble cependant fallacieux [1]. Il repose sur une perspective qui reste à l’échelle individuelle et ne tient pas compte des dimensions sociales et institutionnelles de la prise de décision. Ainsi, dans le cas de la justice, il existe des normes et des procédures qui encadrent les décisions de justice et qui permettent à un justiciable de pouvoir connaître les raisons motivant une décision le concernant. Vu sous cet angle, l’opacité constitue un problème car l’utilisation d’un modèle « boîte noire » dans la prise de décision ne permettrait pas l’accès à ce type de justifications puisque le juge ou le médecin seraient alors dans l’incapacité d’expliquer les résultats (du modèle) sur lesquels ils s’appuient pour prendre une décision. On retombe sur le problème du « déficit de raison publique » évoqué plus haut.
Conclusion
Si l’explicabilité apparaît aujourd’hui comme étant essentielle au développement d’une IA « responsable », son application ne va pas de soi du fait des nombreux débats et critiques qu’il soulève. Il convient de voir ces critiques et débats comme autant de points de vigilance sur les limites actuelles de l’explicabilité et, par conséquent, de ce que l’on peut en faire en matière d’éthique de l’IA. Il convient aussi de comprendre que l’explicabilité n’est pas en soi un principe éthique, c’est plutôt un moyen permettant d’aligner le développement de l’IA sur des principes éthiques plus fondamentaux (par exemple, l’équité, le consentement éclairé, le respect de la vie privée) lorsque ces principes sont en jeu dans l’usage de l’IA (par exemple, l’évaluation de la capacité d’emprunt d’un client d’une banque ou la prise de décision médicale). Les débats sur l’explicabilité font émerger une autre question plus large, celle d’utiliser ou non les techniques d’IA qui génèrent des modèles « boîtes noires » en raison de la difficulté à pouvoir expliquer les résultats qu’ils produisent. Si la performance de ces modèles est indéniable, il semble qu’il existe d’autres techniques d’IA qui l’atteignent tout autant, tout en étant interprétables. Il apparaît donc plus prudent d’utiliser ces modèles interprétables dans les applications pour lesquelles ils sont tout aussi performants que les modèles « boîtes noires ». Un autre point à retenir est qu’il importe de ne pas dissocier l’explicabilité des contextes d’usage des systèmes d’IA. Le besoin d’explication doit-être défini en fonction de ces contextes dans la mesure où il peut varier selon les destinataires des explications, les objectifs visés, les activités concernées, etc. Autrement dit, il convient d’adopter une approche contextuelle de l’explicabilité.
Sources :
[1] Maclure, J. (2021) AI, Explainability and Public Reason: The Argument from the Limitations of the Human Mind. Minds & Machines 31, 421–438.
[2] Zouinar, M. (2020). Évolutions de l’Intelligence Artificielle : quels enjeux pour l’activité humaine et la relation Humain‑Machine au travail ? Activités, 17(1).
[3] Doshi-Velez, F. and Kim, B. Towards a rigorous science of interpretable machine learning. arXiv 2017, arXiv:1702.08608.
[4] Miller, T. (2019). Explanation in artificial intelligence: Insights from the social sciences. Artificial Intelligence, 2019, 267, 1–38.
[5] Rudin, C. (2019). Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature Machine Intelligence, 1, 206–215.
[6] Guyomard, F. Fessant, T. Bouadi, et Guyet, T. (2022). Générer des explications contrefactuelles à l’aide d’un autoencodeur supervisé. Revue des Nouvelles Technologies de l’Information, Extraction et Gestion des Connaissances, RNTI-E-38 :111–122.
[7] Krishnan, M. (2020). Against Interpretability: A Critical Examination of the Interpretability Problem in Machine Learning. Philosophy and Technology. 33, 487–502 (2020).
[8] Rudin, C. et al. (2022). Interpretable machine learning: Fundamental principles and 10 grand challenges, Statistics Surveys, 16, 1-85.
[9] Aïvodji, U., Arai, H., Fortineau, O., Gambs, S., Hara, S., and Tapp, A. (2019). Fairwashing: the risk of rationalization. In International Conference on Machine Learning. PMLR, 161–170.
[10] Simonite, T. (2018). Google’s AI guru wants computers to think more like brains. WIRED. https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/