Quoi de neuf dans les TAC ? L’apprentissage fédéré

Les technologies améliorant la confidentialité (TAC) tentent d’allier exploitation massive de données et éthique. Parmi elles, l’apprentissage fédéré fait avancer le machine learning dans le sens de la décentralisation, et annonce une nouvelle génération d’intelligence artificielle.

L’économie de la data est confrontée à un paradoxe. La multiplication exponentielle des données ouvre un champ des possibles inédit en termes de connaissance et de développement de nouveaux services, tout en menaçant la protection de la vie privée, ce qui peut freiner l’exploitation de cette mine d’informations.

Avec l’essor de l’apprentissage fédéré, les vieux paradigmes centralisés vont céder la place à des services distribués.

Le “privacy by design”, ou protection de la vie privée dès la conception, est une approche de l’ingénierie des systèmes qui prend en compte la vie privée et son respect tout au long du processus. Ce concept, à même de concilier éthique et data en mobilisant des technologies qui améliorent la confidentialité et réduisent l’identifiabilité des données personnelles, est aujourd’hui répandu. C’est ce qu’on appelle les TAC, ou technologies améliorant la confidentialité (privacy-enhancing technologies).

Dans l’édition 2021 de son rapport sur les tendances technologiques, le cabinet de recherche et de conseil Gartner estime que d’ici 2025, 60 % des grandes organisations utiliseront une ou plusieurs techniques améliorant la confidentialité dans les domaines de l’analyse, de la veille stratégique ou du cloud computing.

Garantir la confidentialité des données

Parmi les technologies améliorant la confidentialité les plus répandues et robustes, citons le chiffrement homomorphe, les preuves à connaissance zéro (zero-knowledge proofs), le calcul multipartite, les environnements d’exécution de confiance et la confidentialité différentielle.

Une technologie semble particulièrement prometteuse : l’apprentissage fédéré (federated learning). Ce dernier permet aux algorithmes d’apprentissage automatique d’acquérir des connaissances à partir d’un large éventail d’ensembles de données provenant de différentes sources tout en garantissant la confidentialité de leur data respective.

Une méthode moins intrusive

L’apprentissage fédéré consiste en fait à entraîner un modèle de machine learning directement sur l’appareil de l’utilisateur. Les paramètres du modèle sont fédérés sur un cluster centralisé mais pas les données (textes, son, photo, etc.) utilisées dans le processus d’apprentissage. Chaque appareil bénéficie ainsi des connaissances accumulées par l’ensemble des autres terminaux qui “gardent” leur data.

L’apprentissage fédéré garantit une meilleure confidentialité des données des utilisateurs que la méthode d’apprentissage centralisé appliquée sur les serveurs du fournisseur de service.

“Cette technologie a également l’avantage d’offrir une meilleure efficacité en termes d’utilisation des ressources, en diminuant notamment les espaces de stockage et le computing”, relève Gianluca Rizzo, Senior Research Associate au ConEx Lab (Connected Experience Lab) de l’Institute of Information Systems (IIG) à l’HES-SO Valais-Wallis en Suisse. “Des entreprises comme Apple avec Siri, et notamment Google avec Gboard, ont été les pionniers de cette méthode moins intrusive pour les utilisateurs”, ajoute le chercheur.

Horizontal ou vertical

Différentes formes d’apprentissage fédéré existent. Chacune répond à des besoins et contextes spécifiques. L’apprentissage fédéré vertical entraîne un modèle prédictif portant sur les mêmes cibles (consommateurs, fournisseurs, etc.) à partir de deux bases d’apprentissage métier différentes, par exemple une banque et un site d’e-commerce. Un serveur fédéré procède à la fusion des deux bases de données en les anonymisant. Chaque société peut ainsi entraîner son modèle d’apprentissage sans connaître les données de l’autre.

L’apprentissage fédéré horizontal, quant à lui, fusionne des bases de données ayant le même type de caractéristiques métier, mais issues d’utilisateurs distincts, par exemple sur l’épargne bancaire au niveau européen.

Autres formes d’apprentissage fédéré : l’apprentissage fédéré centré sur les données (un propriétaire de données permet à des tiers de créer leurs modèles à partir de ses data mais sans en partager les données brutes) et l’apprentissage fédéré cross-silo (agrégation de data issue d’organisations de secteurs différents pour créer de manière collaborative un modèle d’apprentissage automatique original).

De larges champs d’application

“Cette technologie n’est évidemment pas utile dans le cas où les données seraient naturellement centralisées comme dans un hôpital”, note Gianluca Rizzo. “En revanche, si plusieurs hôpitaux ont besoin de construire un modèle de machine learning sur un domaine particulier, l’apprentissage fédéré permet d’échanger de la data de nature très confidentielle, en l’occurrence de santé, pour créer un modèle qui finalement n’échange pas des données spécifiques mais des informations.”

Le chercheur du ConEx Lab en Suisse relève que cette technique peut être utile dans d’autres secteurs : “Des banques concurrentes, mais aussi des départements internes à une même banque ayant chacun des données confidentielles à préserver peuvent ainsi entraîner des modèles pour créer de nouveaux services. Des organisations dans les télécoms ou les transports peuvent aussi trouver un moyen de monétiser leurs données en participant au développement de nouveaux modèles.”

Compte tenu de l’essor irrépressible de la collecte de données à l’avenir et ce, dans tous les domaines d’activité, les besoins en capacité de calcul et en entraînement de machine learning ne vont cesser d’augmenter. “Pour exploiter toute cette data, l’apprentissage fédéré offre plus de sécurité dans le traitement des données privées et une plus grande fiabilité des services ainsi générés. Les vieux paradigmes centralisés vont céder la place à des services distribués”, estime Gianluca Rizzo, qui prévoit très vite une large adoption de l’apprentissage fédéré.

A lire aussi sur Hello Future

GettyImages - open data - Samuel Goëta

« L’IA permet de valoriser les données non structurées en open data » – Samuel Goëta

Découvrir
Big data & sports

Comment l’intelligence artificielle et le big data aident les sportifs de haut niveau

Découvrir
Deux femmes scientifiques dans un laboratoire, discutant de données médicales.

Mesurer et guider : l’apport de la data dans la réponse à la crise sanitaire

Découvrir
Homme assis à un poste de travail face à des ordinateurs mettant en avant des données.

Data-IA : comment les opérateurs peuvent rivaliser avec les GAFA

Découvrir

Identité numérique : vers un portefeuille numérique européen ?

Découvrir

Dossier : Blockchain, des promesses aux résultats

Découvrir