● Doctorant chez Orange, Tanguy Le Cloirec détaille le fonctionnement de l’apprentissage fédéré décentralisé (decentralized federated learning) et de l’apprentissage fédéré personnalisé (personalized federated learning).
● Dans le cadre d’un projet financé par l’ANR, il travaille sur le découplement des paramètres des modèles d’IA qui permettent de développer des approches d’apprentissage fédéré personnalisé plus performantes et économes.
Qu’est-ce que l’apprentissage fédéré décentralisé et en quoi diffère-t-il des approches classiques ?
L’apprentissage fédéré classique (federated learning) est une approche en Edge AI (IA en périphérie de réseau) qui s’appuie sur un serveur qui agrège les mises à jour des modèles entraînés localement par chaque appareil. Dans l’apprentissage fédéré décentralisé (decentralized federated learning), on travaille sans serveur central : les appareils communiquent directement entre eux via un réseau de télécommunication. Par exemple, pour des voitures autonomes, chaque voiture entraîne un modèle sur ses propres données (images, capteurs) et échange uniquement les paramètres du modèle avec ses voisins, ce sans partager les données brutes. Cette approche réduit la consommation énergétique liée à la transmission des données vers le cloud et renforce la confidentialité des données.
L’apprentissage fédéré personnalisé (personalized federated learning) permet de personnaliser une partie du modèle ou de l’entraînement pour chaque appareil ou utilisateur, tout en partageant une base commune.
Pourquoi choisir l’apprentissage fédéré décentralisé plutôt qu’un apprentissage fédéré classique ou un cloud centralisé ?
Le cloud centralisé, où toutes les données remontent vers un serveur, est énergivore. L’apprentissage fédéré classique améliore cela puisque l’on ne remonte que les poids des modèles entraînés et non les données elles-mêmes. La version décentralisée va plus loin : elle supprime le serveur central, ce qui est plus flexible et moins consommateur. Les voitures autonomes sont un cas d’usage parlant : elles doivent classer des images (piétons, autres véhicules, conditions météo) en temps réel, sans surcharger le réseau.
Quels sont les avantages et les défis de cette approche ?
L’avantage principal est la réduction de la consommation énergétique : les voitures gardent leurs données et modèles localement et ne communiquent que des mises à jour légères. Cependant, sans serveur central, se pose la question de la coordination, puisqu’il faut s’assurer que les modèles atteignent une performance globale similaire. Dans un réseau décentralisé, une voiture à Paris ne communique pas directement avec une voiture à Rennes. La propagation de l’information prend donc plus de temps, ce qui peut impacter la qualité.
Vous travaillez sur le projet TREES, financé par l’ANR, qui porte sur l’apprentissage fédéré personnalisé. Quelle est cette approche ?
Dans l’apprentissage fédéré classique, les données des appareils sont souvent hétérogènes. Une voiture à Marseille ne verra pas les mêmes conditions qu’une voiture au Canada (neige, pluie, etc.). Cette hétérogénéité induit que chaque appareil apprend une tâche locale, mais le modèle global peut devenir inefficace pour des données inédites – cela s’appelle le manque de généralisation en machine learning. Le personalized federated learning (PFL) répond à cela en personnalisant une partie du modèle pour chaque appareil, tout en partageant une base commune. Nous avons décidé de l’étudier au sein du projet TREES où l’on essaie d’améliorer l’efficacité énergétique des réseaux face à de nouveaux cas d’usage de l’IA distribuée. Or, dans une application réelle, les données sont réparties de manière hétérogène à travers le réseau de clients. Ainsi, implémenter des solutions d’apprentissage fédéré personnalisé permettrait de réduire les effets néfastes des données hétérogènes inhérentes au déploiement de ces IA tout en améliorant l’efficacité énergétique du réseau.
Comment fonctionne concrètement cet apprentissage fédéré personnalisé ? Pourquoi parler de découplage des paramètres ?
L’apprentissage fédéré personnalisé vise à ajuster l’entraînement ou l’architecture des modèles pour répondre aux tâches spécifiques de chaque client, tout en préservant le principe central de l’apprentissage fédéré : permettre à chaque participant de bénéficier des connaissances apprises collectivement grâce aux autres. Par exemple, dans le Parameter Decoupling (découplement des paramètres), on découpe le modèle en deux parties : une partie partagée, qui apprend des caractéristiques génériques (ex. : reconnaître une route, un piéton), et une partie privée, qui s’adapte à des tâches spécifiques (ex. : reconnaître la neige pour une voiture au Canada, ou les bâtiments pour une voiture en ville). L’objectif : concilier performance globale et adaptation locale. Par exemple, pour classer une image en ville ou à la campagne, la partie partagée apprendra à identifier des éléments communs (route, ciel, signalisation), tandis que la partie privée affinera la classification selon le contexte local (présence de verdure en campagne, d’immeubles en ville). Le défi est de savoir comment entraîner ces deux parties : ensemble, séparément, ou de manière décalée. L’enjeu est de trouver le bon équilibre pour éviter que le modèle ne devienne trop spécialisé et perde en généralisation.
L’apprentissage fédéré personnalisé est donc adapté aux données qui nécessitent un important niveau de confidentialité…
Oui, en santé, par exemple, des montres connectées pourraient analyser des données médicales sans les partager, en ne transmettant que les paramètres du modèle. Cela préserve la vie privée tout en permettant une amélioration collective des algorithmes.
Tanguy Le Cloirec







