• La compression des modèles est proposée comme une solution clé pour déployer des réseaux neuronaux sur des dispositifs aux ressources matérielles limitées comme des PC dédiés à l’IA ou des dispositifs en « edge computing ».
• Pour optimiser l’équité et les performances des modèles d’IA, il est essentiel de co-concevoir les architectures matérielles et logicielles. L’intégration des dispositifs de mémoire non volatile (NVM) et la réduction du bruit dans les systèmes neuromorphiques sont des pistes prometteuses pour l’avenir.
Ce sont le plus souvent les biais algorithmiques qui sont montrés du doigt quand il s’agit de travailler à l’intégrité et à la fiabilité de certains systèmes d’intelligence artificielle. On oublie la nature du matériel utilisé, qui n’est pas neutre. Ce matériel peut être contraint : les systèmes d’IA sont de plus en plus souvent déployés sur des plateformes aux ressources hardware limitées, comme des infrastructures en Edge, des PC IA dans le monde médical, et bientôt sur des smartphones dits IA. En étudiant la relation entre la plateforme matérielle et la conception des réseaux neuronaux profonds (Deep neural networks ou DNN), une équipe de chercheurs de l’Université Notre-Dame (Indiana, Etats-Unis) a prouvé que l’équité des résultats des modèles d’IA est variable. « Pourtant, de plus en plus d’utilisateurs souhaitent faire fonctionner ces modèles en dehors du cloud pour des raisons de confidentialité des données, et ce notamment dans l’Union européenne », souligne Yiyu Shi, professeur en sciences informatiques et ingénierie à Notre-Dame et co-auteur de l’article Hardware design and the fairness of a neural network.
Le risque est qu’en affectant la performance des modèles en fonction du choix du hardware, on impacte des groupes démographiques avec des biais dus à la performance
Compresser les modèles pour limiter les biais
« Nous avons étudié la relation entre le matériel et l’équité en menant différentes expériences sur différentes configurations matérielles, en nous concentrant particulièrement sur les architectures CiM [compute in memory, NDLR].» Sur ce type de modèles, le nombre de poids de neurones, qui se compte en milliards, peut ralentir et affecter l’efficacité énergétique des systèmes et c’est la raison pour laquelle les fabricants de puces conçoivent des puces spécifiques, mais elles ne sont pas idéales « Le risque est que les non-idéalités matérielles, telles que les variations au cours du processus de programmation, affectent les performances du modèle, et que cet impact diffère entre les différents groupes démographiques, ce qui pourrait exagérer les problèmes d’équité. » Problème : ce type de variation dans les résultats est a priori impossible à contrôler.
Pour répondre à ces enjeux dont les implications peuvent à l’avenir être colossales, dans un scénario où les systèmes d’IA sont généralisés, l’équipe de recherche a évalué plusieurs hypothèses pour contrebalancer les lacunes des architectures hardware étudiées. Pour éviter une importante variation dans les résultats, « la compression des modèles est l’une des approches les plus efficaces pour permettre aux réseaux neuronaux d’être déployés sur des appareils périphériques et mobiles avec des ressources matérielles limitées » souligne Yiyu Shi. Pour le chercheur, mieux vaut compresser un grand modèle de langue pour l’intégrer dans un smartphone, que de prendre un modèle de petite taille, car le processus de compression peut en fait être cultivé pour atténuer certains problèmes d’équité, comme l’ont suggéré des recherches antérieures du groupe de Yiyu Shi.
Repenser la conception des architectures
Il est par ailleurs crucial pour les fabricants de développer des architectures qui tiennent compte de la variabilité des dispositifs [différences ou incohérences de performances entre les mémoires, NDLR] pour améliorer à la fois les performances et l’équité des modèles. « Pour avoir des réseaux de neurones profonds efficaces, il est essentiel de ne pas séparer la conception d’un modèle et celle du matériel, ce qui permettrait d’optimiser l’accélérateur CiM et l’architecture du DNN. » Pour le garantir, la programmation des dispositifs de mémoire non volatile (NVM) (utilisés par les architectures CiM) doit être réalisée dès leur conception dans le but d’améliorer l’équité des DNN, afin de limiter la variabilité des dispositifs et les bruits – perturbations des signaux – associés.
À l’avenir, les modèles d’IA qui sont basés sur des modèles Transformers (une architecture d’apprentissage profond) continueront de fonctionner sur des architectures conventionnelles. « Cependant, si on est capables d’aller vers des SNN (spiking neural networks) conçus pour l’informatique neuromorphique, ce type d’architecture sera certainement plus approprié pour les modèles d’IA. » Pour l’heure, optimiser la structure des réseaux neuronaux en tenant compte de l’équité et des contraintes matérielles est un processus complexe. La lutte contre les biais en tant qu’objectif supplémentaire complique cette optimisation, et souligne la nécessité de nouveaux cadres de conception basés sur des algorithmes d’apprentissage par renforcement ou d’évolution.
Sources :
Guo, Y., Yan, Z., Yu, X. et al. Hardware design and the fairness of a neural network. Nat Electron 7, 714–723 (2024). https://doi.org/10.1038/s41928-024-01213-0
En savoir plus :
Jia, Z., Chen, J., Xu, X. et al. The importance of resource awareness in artificial intelligence for healthcare. Nat Mach Intell 5, 687–698 (2023). https://doi.org/10.1038/s42256-023-00670-0