En ce moment

IA non biaisée : les entreprises sont-elles prêtes ?


“L’attente sociétale est importante, mais les entreprises se heurtent à de nombreuses limites pour déployer à grande échelle des systèmes d’IA équitables.”


Alors que l’intelligence artificielle est en plein essor, les biais discriminants ou inéquitables dans nombre de solutions déployées inquiètent. Des pistes sont proposées pour y remédier. Entre pratiques et limites, où en sont les organisations ?

Le développement et le déploiement des technologies d’intelligence artificielle s’accélèrent. Pour autant la présence de biais discriminants ou inéquitables dans nombre de solutions déployées est inquiétante. Par exemple les aléas du modèle d’Amazon en matière de tri des CV, arrêté au bout de 3 ans pour cause de rejet des CV féminins, a marqué les esprits et aujourd’hui encore les méthodes pour gérer l’équité sont très diverses. Le sujet est d’autant plus important à l’heure où ce domaine d’usage de l’IA est qualifié à Haut Risque par la Commission européenne dans sa proposition de régulation. Un autre exemple concerne les biais dans les systèmes de reconnaissance faciale analysés par Buolamwini et Gebru, dont le licenciement récent par Google a fait polémique.

Des pistes sont proposées de toutes parts pour gérer ces biais et assurer l’équité, des jeux de données diversifiés au choix de critères d’équité, de la définition de métriques à l’introduction de contraintes dans les modèles, de la formation des data scientists à la diversité des équipes. Mais où en est-on aujourd’hui sur la mise en pratique de ces pistes et quelles limites restent à franchir pour les déployer dans les organisations ?

Biais, équité, discrimination de quoi parle-t-on ?

Malgré l’absence de consensus sur la définition d’un modèle d’IA équitable, dans le contexte d’un apprentissage machine, l’équité peut se définir comme l’absence d’un quelconque préjudice ou favoritisme envers un individu ou un groupe sur la base de leurs caractéristiques intrinsèques ou acquises. L’absence d’équité peut être qualifiée de discrimination si elle porte sur des caractéristiques protégées par la loi. Or  les biais cognitifs (schémas de pensée trompeurs et faussement logiques), statistiques ou économiques, peuvent nous conduire à des modèles non équitables voire discriminants. Dans le domaine de l’apprentissage machine, un grand nombre de types de biais interviennent tout au long du cycle de vie d’un modèle d’IA. Identifier et limiter les biais devrait permettre le développement de modèles plus équitables.

Outils issus de la Recherche

Des acteurs, entreprises, université (Google, IBM, Amazon, Microsoft, Aequitas…), ont rendu accessibles des solutions développées en recherche afin d’identifier la présence de biais dans les données et de les atténuer soit en modifiant le poids des individus que l’on sait discriminés dans les données d’entrainement, soit en imposant des contraintes dans le programme d’optimisation avant, pendant ou après le développement du modèle.

Si la prise de conscience est partagée, ces propositions devraient encore évoluer pour pouvoir être industrialisées en entreprise.

Limite des outils : peu d’attention aux données elles-mêmes, des hypothèses non réalistes et des outils limités au seul modèle entrainé de façon centralisée

Bien que les biais dans les données soient la source des manques d’équité, la recherche semble pour le moment se concentrer davantage sur les actions à mener sur le modèle que sur l’ingénierie et la gestion des données elles-mêmes. En effet les initiatives visant à supprimer la source des biais, en se dotant de données naturellement non biaisées, sont rares et limitées au monde de la recherche : Facebook depuis peu met à disposition une base de données variées et  non biaisées de plus de 45.000 vidéos de personnes aux caractéristiques variées (âge, genre, couleur de peau) afin de permettre aux chercheurs de tester la performance de leur modèle de vision par ordinateur ou reconnaissance vocale. Par ailleurs, lors de la construction des modèles, les outils disponibles imposent d’accéder dans les jeux de données d’entrainement aux données individuelles et personnelles, de connaitre les variables sensibles (genre, sexe…). Dans la réalité, pourtant, il n’est pas toujours facile de savoir d’avance si des variables sensibles existent, d’autres variables que le genre ou le sexe pourraient être plus pertinentes selon le contexte, parfois aucune variable sensible ne figure dans le jeu de données mais des variables dites proxy peuvent jouer ce rôle, enfin l’accès aux données individuelles et personnelles n’est pas toujours possible. Les outils disponibles pour les entreprises conviennent essentiellement pour limiter les biais dans les modèles de classification de données structurées entrainés en centralisé, excluant bien d’autres domaines tels que la gestion des images, l’apprentissage fédéré. Enfin la non intégration des outils dans le cycle complet de développement des systèmes d’IA complique leur utilisation dans les entreprises qui peinent à passer le cap de la mise en production. L’utilisation des corrélations plus que de la causalité entre les paramètres d’entrées et ceux de sortie d’un modèle d’IA entraine les risques d’un modèle biaisé mais aussi d’une mauvaise généralisation et d’une incapacité à réutiliser les modèles (apprentissage par transfert). Si des outils commencent à apparaitre pour monitorer les modèles et détecter les dérives possibles et les biais associés (Watson Open Scale d’IBM, Nanny ML), leur usage reste encore à industrialiser au sein des entreprises.

Des outils ne ciblant que les équipes techniques déjà fortement sollicitées en raison de la rareté de leurs compétences

Ces outils ciblent les équipes techniques en charge du développement des modèles d’IA, déjà fortement sollicitées en raison de la rareté de leurs compétences alors même qu’en entreprise les orientations à prendre en matière d’équité doivent être le fruit d’une décision collective et délibérative entre tous les acteurs. Les apports des sciences humaines et sociales autour du design thinking sont très utiles pour développer des pratiques de responsabilité au cœur des produits et valoriser les choix éthiques.

Une gouvernance de l’IA balbutiante en entreprise

L’émergence du mouvement IA responsable dans les organisations est indéniable. La gouvernance de l’IA en entreprise se structure autour des questions éthiques et de lignes directrices : des comités éthiques se forment (Orange par exemple a créé un conseil éthique de la data et de l’IA et participe également à l’initiative du cercle InterElles du groupe Femmes et IA). Les labels aident les entreprises à monter en compétence et à s’organiser. Mais la mise en pratique par tous les collaborateurs des principes et valeurs éthiques de l’entreprise est un long chemin. Le nouveau rôle de correspondant éthique ou IA responsable apparait alors comme nécessaire pour centraliser la remontée des questions à trancher et organiser la gestion de risque et le déploiement des outils. Si la formation est une piste privilégiée pour faire monter les collaborateurs en compétence et les mettre en action, elle doit innover pour s’adapter aux contraintes opérationnelles et aux profils multiples, techniques ou non. Aujourd’hui la maturité des organisations est inégale, des collectifs de partage de bonnes pratiques sont nombreux (ex Impact AI ou Substra) pour aller peut-être vers l’automatisation cible décrite par IBM.

Une complexité accrue pour les entreprises à dimension internationale

Mais au sein des entreprises à dimension internationale, quelles valeurs éthiques privilégier, selon les régions du monde dans lesquelles elles opèrent, alors que les outils disponibles reproduisent une vision occidentale voire nord-américaine ?

Finalement, des pistes nombreuses sont proposées pour gérer ces biais et assurer l’équité, mais les entreprises se heurtent encore à de nombreuses limites opérationnelles pour les déployer à grande échelle dans les organisations. Pourtant l’attente est importante en matière d’équité des systèmes d’IA. La Commission Européenne engage une démarche de régulation et doit trouver l’équilibre avec la protection de son écosystème d’innovation. Les systèmes à haut risque pourront avoir des exigences sur la qualité des jeux de données (article 10) et de contrôle humain (article 14) de manière à éviter les biais techniques ou humains. Le conseil de l’Europe travaille également sur des instruments de régulation pour prévenir les violations des droits de l’homme et les atteintes à la démocratie et à l’État de droit.

Plusieurs instances de standardisations internationales travaillent déjà le sujet des biais de l’IA (comme l’ISO, IEEE, NIST) qui pourront alimenter les stratégies européennes de standardisations (organisées par le CENELEC) et également les standardisations verticales par secteur à risque.

Gageons que toutes ces initiatives agiront comme un guide et un accélérateur pour l’implémentation concrète de la gestion de biais en entreprises. Les réflexions et démarches pour aboutir à des systèmes d’IA de confiance sont loin d’être terminées, et les pistes de recherche sont encore nombreuses pour franchir les limites actuelles.

Mots-clés :

, , ,

Auteurs :