“La confidentialité différentielle donne une mesure quantifiable de la confidentialité.”
Nous produisons et exploitons de plus en plus de données. Celles-ci constituent une ressource importante pour les décideurs politiques, les chercheurs et les entreprises, car elles leur permettent de disposer d’informations utiles pour mener leurs activités.
Cependant, leur traitement crée des risques pour les individus, les communautés et les organisations. L’utilisation des données personnelles, en particulier, peut porter atteinte à la vie privée (lire à ce sujet “A taxonomy of privacy” du juriste américain Daniel J. Solove).
Associées à des outils réglementaires et des changements culturels au sein des entreprises, les technologies améliorant la confidentialité (TAC) pourraient limiter ces risques sans pour autant couper l’accès à de précieux gisements de données.
L’acronyme TAC désigne un éventail de technologies et d’approches émergentes qui visent à éliminer toute possibilité de réidentification d’un individu ou d’une organisation spécifique, tout en préservant l’utilité des données. En voici quelques exemples.
Chiffrement homomorphe et calcul multipartite
Le chiffrement homomorphe permet de réaliser des calculs sur des données cryptées, produisant un résultat crypté que seul le détenteur des données peut déchiffrer. Il peut être utilisé pour externaliser certaines opérations vers le cloud.
Par exemple, une entreprise souhaite effectuer une analyse de données sur le cloud pour ne pas avoir à investir dans des ressources informatiques, sans partager ces données avec son fournisseur de services. Au lieu de cela, elle les transmet au serveur en version chiffrée. Une fois l’analyse effectuée, l’entreprise peut ensuite déchiffrer le résultat à l’aide d’une clé privée.
Le chiffrement homomorphe peut servir à mettre en œuvre d’autres TAC, comme le calcul multipartite sécurisé (MPC). Cette approche permet d’analyser les données détenues par plusieurs parties indépendantes (des entreprises concurrentes ou des organismes de santé, par exemple) qui souhaitent mettre en commun leurs données sans en dévoiler le contenu (et sans recourir à un tiers de confiance).
De la même manière, le MPC peut être utilisé pour l’apprentissage automatique multipartite, où les différentes parties partagent des données confidentielles sous forme chiffrée afin d’obtenir un meilleur modèle d’apprentissage à partir de leurs données combinées.
La première application à grande échelle du MPC est apparue au Danemark, en 2008. Il s’agissait de déterminer le prix d’équilibre de la betterave sucrière en lançant des prix successifs jusqu’à ce que l’intention des acheteurs et des vendeurs – d’acheter et vendre au prix proposé – coïncide.
Dans cette situation, les enchères effectuées par les producteurs révèlent des informations sur leur situation économique ou la productivité de leurs champs pouvant potentiellement être utilisées dans des négociations futures. Ils auraient donc été très réticents à l’idée de les rendre publiques.
La confidentialité différentielle
La confidentialité différentielle a été mise en œuvre par des entreprises du secteur des technologies (Facebook, Google) et des organisations publiques, comme le Bureau du recensement des États-Unis dans le cadre du recensement de 2020.
Introduite en 2006, cette technique d’anonymisation vise à minimiser les risques d’identification d’un individu ou d’une organisation dans une base de données.
Ce qui explique l’engouement suscité par cette approche, c’est qu’elle donne une mesure quantifiable de la confidentialité. Dans l’équation mathématique posée, le paramètre ε (epsilon, aussi appelé “budget de confidentialité”) décrit le montant “acceptable” d’informations divulguées sur une entité.
Il est fixé par le détenteur de la base de données (et découle non pas d’un choix technique, mais de gouvernance) et augmente avec le nombre de requêtes.
Le niveau de confidentialité souhaité peut alors être atteint grâce à plusieurs mécanismes, tels que l’ajout de bruit aléatoire aux résultats des requêtes.
Ce bruit – des données fausses, mais plausibles – réduit les risques d’associer des attributs sensibles à une personne ou de déduire de nouvelles informations sur cette personne (inférence). En revanche, il peut nuire à la pertinence des résultats de requêtes.
C’est le problème principal de la confidentialité différentielle, qui aboutit à un meilleur compromis entre confidentialité et utilité des données avec des ensembles de données volumineux (dans lesquels moins de bruit est nécessaire). Sa mise en œuvre paraît donc adaptée dans le cadre d’un recensement de la population et autorise, en théorie, la publication d’un plus grand nombre de tableaux statistiques avec des données plus granulaires (c’est-à-dire plus fines), permettant aux décideurs politiques et aux chercheurs de mener des travaux législatifs ou de recherche.
Et du côté utilisateurs ? Les “Personal Data Stores”
Les “Personal Data Stores” (PDS), que l’on pourrait traduire par “entrepôts de données personnelles”, sont des systèmes de stockage, locaux ou en ligne, qui fournissent aux individus un accès et un contrôle sur les données qu’ils génèrent.
Ces outils et services, dont la conception peut intégrer un certain nombre d’autres TAC, proposent aux utilisateurs de récupérer et gérer leurs données, et de décider avec qui ils les partagent, à quelles fins et pour combien de temps. C’est ce que l’on appelle le “consentement granulaire”.
Comme le souligne la Royal Society, l’équivalent anglais de l’Académie des sciences, qui a consacré une étude détaillée aux TAC, “les PDS permettent un système distribué, où les données sont stockées et traitées à la ‘périphérie’ du système, plutôt que centralisées”.
Cela peut permettre d’éviter un certain nombre de problèmes liés à une concentration trop importante des données au même endroit, qui peut faire d’une organisation une cible trop attrayante pour les hackers ou créer une asymétrie de puissance (au profit, par exemple, des géants du numérique).
Cela pourrait également faire émerger de nouveaux modèles économiques, donnant la possibilité aux individus de monétiser leurs données.
Il existe déjà plusieurs solutions PDS telles que Mydex, MyData, CitizenMe ou encore Solid, développé par Tim Berners-Lee, l’inventeur du World Wide Web, au sein du Massachusetts Institute of Technology (MIT).
Des désavantages à atténuer
De nombreux rapports suggèrent que les technologies améliorant la confidentialité sont prometteuses. Une fois parvenues à un stade de maturité suffisant, elles pourraient non seulement permettre de mieux protéger les données personnelles, mais aussi créer de nouvelles opportunités en matière d’analyse de données.
Une grande partie des recherches consiste à atténuer leurs désavantages, par exemple le coût élevé des calculs effectués sur des données chiffrées pour le chiffrement homomorphe, ou le risque de perte d’utilité des données pour la confidentialité différentielle.
Pour aller plus loin, lire le rapport de la Royal Society of London publié en mars 2019 : Protecting privacy in practice: The current use, development and limits of Privacy Enhancing Technologies in data analysis.