Comment mesurer l’anonymat d’une base de données ?
À l’ère du Big Data, les données personnelles constituent une matière première incontournable pour le développement de la recherche et le fonctionnement de quantité d’entreprises. Cependant, malgré leur grande valeur, l’utilisation de ce type de données implique nécessairement un risque de ré-identification et de fuite d’informations sensibles même en ayant suivi un traitement de pseudonymisation préalable (voir article 1). Dans le cas de données personnelles, a fortiori sensibles, le risque de ré-identification peut être considéré comme une trahison de la confiance des individus à l’origine des données, d’autant plus quand elles sont utilisées sans consentement clair et éclairé.
La mise en vigueur du Règlement général sur la protection des données (RGPD) en 2018 et de la Loi informatique et libertés avant lui a offert une tentative de réponse à cette problématique en initiant un changement dans les pratiques de collecte, traitement et stockage des données personnelles. Un groupe de réflexion indépendant et spécialisé dans les questions de protection de la vie privée a également été mis en place. Appelé Comité européen de la protection des données (CEPD) ou anciennement G29, cet organe consultatif a publié des travaux (ref Article G29) qui servent aujourd’hui de références aux autorités nationales européennes (CNIL en France) dans l’application du RGPD.
Le CEPD convient ainsi du potentiel de l’anonymisation pour valoriser les données personnelles tout en limitant les risques pour les individus qui en sont l’origine. Pour rappel, des données sont considérées comme anonymes si la ré-identification des individus d’origine est impossible. Il s’agit donc d’un processus irréversible. Les méthodes d’anonymisation développées pour répondre à ce besoin ne sont toutefois pas infaillibles et leur efficacité dépend souvent de nombreux paramètres (voir article 2). Pour utiliser ces méthodes de façon optimale, il est nécessaire d’apporter une précision supplémentaire sur la nature des données anonymes. Le CEPD, dans son Avis du 05/2014 sur les techniques d’anonymisation, identifie trois critères pour déterminer l’impossibilité de ré-identification ; à savoir :
- Individualisation
- Corrélation
- Inférence
- Individualisation : est-il toujours possible d’isoler un individu ?
Le critère d’individualisation correspond au scenario le plus favorable pour un attaquant, c’est-à-dire une personne, malveillante ou non, cherchant à ré-identifier un individu dans un jeu de données. Pour être considéré anonyme, un jeu de données ne doit pas permettre à un attaquant d’isoler un individu cible. En pratique, plus un attaquant possède d’informations sur l’individu qu’il souhaite isoler dans une base, plus les probabilités de ré-identification sont élevées. En effet, dans un jeu de données pseudonymisé, c’est-à-dire débarrassé de ses identifiants directs, les informations quasi-identifiantes restantes agissent comme un code barre de l’identité d’un individu quand elles sont considérées ensemble. Ainsi plus l’attaquant a d’informations préalables sur l’individu qu’il cherche à identifier, plus il peut réaliser une requête précise pour tenter d’isoler cet individu. Un exemple d’attaque par individualisation est représenté Figure 1.
Figure 1 : Ré-identification d’un patient par individualisation dans un jeu de données sur la base de deux attributs (Age, Gender)
L’un des attributs de ce type d’attaque réside également dans la sensibilité accrue des individus présentant des caractéristiques peu communes. Il sera en effet plus aisé pour un attaquant, ne disposant que des informations sur le sexe et la taille, d’isoler une femme mesurant 2 mètres qu’un homme mesurant 1 mètre 75.
2. Corrélation : est-il toujours possible de relier entre eux les enregistrements relatifs à un individu ?
Les attaques par corrélation correspondent au scénario le plus fréquent. Aussi, pour considérer des données comme anonymes, il est primordial que celles-ci satisfassent le critère de corrélation. Entre la démocratisation de l’Open Data et les nombreux incidents liés à des fuites de données personnelles, la quantité de données disponibles n’a jamais été aussi conséquente. Ces bases regroupant des informations personnelles parfois directement identifiantes, sont autant d’opportunités pour les attaquants de réaliser des tentatives de ré-identification par croisement. En pratique, les attaques par corrélation utilisent des bases directement-identifiantes possédant des informations similaires à la base à attaquer comme illustré Figure 2.
Figure 2 : Illustration d’une attaque par corrélation. La base extérieure directement identifiante (en haut) est utilisée pour ré-identifier des individus dans la base attaquée (en bas). La corrélation se fait sur la base des variables communes.
Dans le cas de tableaux illustrées dans la Figure 2, l’attaquant aurait réussi à ré-identifier les 5 individus de la base pseudonymisée grâce aux deux attributs communs aux deux bases. De plus, la ré-identification lui aurait permis d’inférer une nouvelle information sensible à propos des patients, à savoir la pathologie qui les affecte. Dans ce contexte, plus les bases possèdent d’informations communes, plus la probabilité de ré-identifier un individu par corrélation augmente.
3. Inférence : peut-on déduire des informations concernant un individu ?
Enfin, troisième et dernier critère identifié par le CEPD est probablement le plus complexe à évaluer. Il s’agit du critère d’inférence. Pour considérer des données comme anonymes, il doit être impossible d’identifier par déduction, de façon quasi certaine, de nouvelles informations sur un individu. À titre d’exemple, si un jeu de données contient des informations sur l’état de santé d’individus ayant participé à une étude clinique et que tous les hommes de plus de 65 ans de cette cohorte sont atteints d’un cancer du poumon ; alors il sera possible de déduire l’état de santé de certains participants. En effet il suffit de connaitre un homme de plus de 65 ans ayant participé à cette étude pour affirmer que celui-ci est atteint d’un cancer du poumon.
L’attaque par inférence est particulièrement efficace sur les groupes d’individus partageant une modalité unique. En cas de réussite de l’inférence, la divulgation de l’attribut sensible concerne alors l’ensemble du groupe d’individus identifiés.
Ces trois critères identifiés par le CEPD réunissent la majorité des menaces d’attaques pesant sur les données après avoir subis un traitement visant à préserver leur sécurité. En cas de satisfaction de ces trois critères, le traitement peut alors être considéré comme une anonymisation au sens propre du terme.
Les techniques actuelles permettent-elles de satisfaire les trois critères ?
Les techniques de randomisation et de généralisation présentent chacune des avantages et des inconvénients vis-à-vis de chaque critère (voir article 2). L’évaluation de la performance du respect des critères pour plusieurs techniques d’anonymisation est représentée Figure 3. Elle est issue de l’Avis publié par l’ex G29 sur les techniques d’anonymisation.
Figure 3 : Forces et faiblesses des techniques considérées
Il apparait clairement qu’il n’existe parmi ces techniques, aucune permettant de respecter les 3 critères simultanément. Elles doivent donc être utilisées avec prudence dans leur contexte d’usage le plus propice. Au-delà des méthodes évaluées, les données synthétiques anonymes semblent être une alternative prometteuse permettant de satisfaire l’intégralité des 3 critères. Cependant, les méthodologies permettant de produire des données synthétiques doivent se confronter à la difficulté d’apporter la preuve de cette protection. À l’heure actuelle, toutes les solutions de génération de données de synthèse se reposent sur le principe de plausible deniability pour prouver la protection associée à une donnée. En d’autres termes si une donnée synthétique venait par hasard à ressembler à une donnée originale, la défense consiste à annoncer qu’en de telles circonstances, il est impossible d’apporter la preuve que cette donnée synthétique est liée à une donnée originale. Chez Octopize, nous avons développé une méthodologie unique permettant de produire des données synthétiques anonymes tout en quantifiant et apportant la preuve de la protection apportée. Cette évaluation est réalisée par le biais de métriques développées spécialement pour mesurer la satisfaction des critères, à savoir vous l’aurez compris, l’individualisation, la corrélation et l’inférence. Nous développerons le sujet des métriques d’évaluation de la qualité et de la sécurité des données synthétiques plus en détail dans un autre article.