Quelles techniques d'anonymisation pour protéger vos données personnelles ?

Après avoir différencié les concepts d’anonymisation et de pseudonymisation dans un précédent article, il est important pour l’équipe d'Octopize de faire un état des lieux des différentes techniques existantes d’anonymisation des données personnelles.

Quelles techniques d'anonymisation pour protéger vos données personnelles ?

Quelles sont les différentes techniques d’anonymisation ?

Après avoir différencié les concepts d’anonymisation et de pseudonymisation dans un précédent article, il est important pour l’équipe d'Octopize de faire un état des lieux des différentes techniques existantes d’anonymisation des données personnelles.

Les techniques d’anonymisation

Avant de parler anonymisation des données, notons qu’il est nécessaire en premier lieu de procéder à une pseudonymisation afin de retirer tout caractère directement identifiant du jeu de données : c’est une première étape de sécurité indispensable. Les techniques d’anonymisation permettent de prendre en charges les attributs quasi identifiants. En les combinant à une étape de pseudonymisation préalable, on s’assure de prendre en charge les identifiants directs et ainsi protéger l’intégralité des informations personnelles liées à un individu.

Ensuite, pour rappel, l’anonymisation consiste à utiliser des techniques de façon à rendre impossible, en pratique, la réidentification des individus à l’origine des données personnelles anonymisées. Cette technique a un caractère irréversible qui implique que les données anonymisées ne soient plus considérées comme des données personnelles, sortant ainsi du cadre d’application du RGPD.

Pour caractériser l’anonymisation, le CEPD (Comité Européen de la Protection des Données), anciennement le groupe de travail G29, a énoncé 3 critères à respecter, à savoir :

  • L’individualisation: est-il toujours possible d’isoler un individu ?
  • La corrélation: est-il toujours possible de relier entre eux les enregistrements relatifs à un individu ?
  • L’inférence: peut-on déduire des informations concernant un individu ?

Le CEPD défini ensuite deux grandes familles de techniques d’anonymisation à savoir la randomisation et la généralisation.

La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu'elles soient moins précises, tout en conservant la répartition globale.

Cette technique permet de protéger le jeu de données du risque dinférence. Dans les techniques de randomisation, on peut par exemple citer l’ajout de bruit, la permutation et la confidentialité différentielle.

Situation de randomisation : permuter des données relatives à la date de naissance des individus de manière à altérer la véracité des informations contenues dans une base de données.


La généralisation consiste à modifier l’échelle des attributs des jeux de données, ou leur ordre de grandeur, afin de s’assurer qu’ils soient communs à un ensemble de personnes.

Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres. Dans les techniques de généralisation, on peut par exemple citer l’agrégation, le k-anonymat, le l-diversité ou encore le t-proximité.

Situation de généralisation : dans un fichier contenant la date de naissance des personnes, le fait de remplacer cette information par la seule année de naissance.

Ces différentes techniques permettent de répondre à certains enjeux avec leur lot d’avantages et d’inconvénients. Nous détaillerons ainsi le principe de fonctionnement de ces différentes méthodes et exposeront par le biais d’exemples factuels, les limites auxquelles elles sont soumises.

Quelle technique utiliser et pourquoi ?

Chacune des techniques d’anonymisation peut être appropriée, selon les circonstances et le contexte, pour atteindre la finalité souhaitée sans compromettre le droit des personnes concernées au respect de leur vie privée.

La famille randomisation :

1- L’ajout de bruit :

Principe : Modification des attributs de l’ensemble des données pour les rendre moins précis. Exemple : à la suite d’une anonymisation par ajout de bruit, l’âge des patients est modifié de plus ou moins 5 ans.

Points forts :

  • Si l’ajout de bruit est appliqué efficacement, un tiers ne sera pas en mesure d’identifier un individu ni ne pourra restaurer les données ou discerner de quelque autre façon comment les données ont été modifiées.
  • Pertinent quand des attributs peuvent avoir un effet négatif important sur des individus.
  • Conserve la distribution générale.

Points faibles :

  • Le bruit introduit altère la qualité des données, ainsi les analyses réalisées sur le jeu de données sont moins pertinentes.
  • Le niveau de bruit dépend du niveau d’information requis et de l’impact que la divulgation des attributs aurait sur le respect de la vie privée des individus.

Erreurs courantes :

  • Ajout de bruit incohérent : Si le bruit n’est pas sémantiquement viable (c’est-à-dire s’il est disproportionné et ne respecte pas la logique entre les attributs d’un ensemble) ou si l’ensemble des données est trop clairsemé.
  • Supposer que l’ajout de bruit est suffisant : l’ajout de bruit est une mesure complémentaire qui rend plus difficile la récupération des données par un attaquant, il ne faut pas supposer qu’elle représente une solution d’anonymisation qui se suffit à elle-même.

Échec d’utilisation :

Cas Netflix :

Dans le cas Netflix, la base de données initiale avait été rendue publique « anonymisée » conformément à la politique interne de l’entreprise en matière de confidentialité (en supprimant toutes les informations d’identification des utilisateurs hormis les évaluations et les dates).

Dans ce cas, il a été possible de réidentifier 68% des utilisateurs Netflix grâce à une base de données externe à celle-ci, par croisement. Les utilisateurs ont été identifiés de manière unique dans l’ensemble de données en prenant comme critères de sélection 8 évaluations et des dates comportant une marge d’erreur de 14 jours.

2- La permutation:

Principe : Consiste à mélanger les valeurs des attributs dans un tableau de telle sorte que certaines d’entre elles sont artificiellement liées à des personnes concernées différentes. La permutation altère donc les valeurs au sein de l’ensemble de données en les échangeant simplement d’un enregistrement à un autre. Exemple : à la suite d’une anonymisation par permutation, l’âge du patient A a été remplacé par celui du patient J.

Points forts :

  • Utile quand il est important de conserver la distribution exacte de chaque attribut dans l’ensemble de données.
  • Garantie que la fourchette et la distribution des valeurs resteront les mêmes.

Point faible :

  • Ne permet pas de conserver les corrélations entre les valeurs et les individus, rend donc impossible la réalisation d’analyses statistiques poussées (régression, machine learning, etc.)

Erreurs courantes :

  • Sélection du mauvais attribut : permuter des attributs non sensibles ou ne comportant pas de risques n’apporte pas de gain significatif en termes de protection des données à caractère personnel. Par conséquent, si les attributs sensibles restent, eux, associés à la valeur originale, un attaquant aura toujours la possibilité de les extraire.
  • Permutation aléatoire des attributs : Si deux attributs sont fortement corrélés, le fait de permuter les attributs au hasard n’offrira pas de garanties solides.

Échec d’utilisation : la permutation d’attributs corrélés

Dans l’exemple suivant, nous pouvons voir qu’intuitivement, nous allons chercher à relier les salaires avec les métiers selon les corrélations qui nous semblent logiques (voir flèche).

Ainsi, la permutation aléatoire des attributs n’offre pas de garanties de confidentialité quand il existe des liens logiques entre différents attributs.

tableau1_article2

Tableau 1. Exemple d’anonymisation inefficace par permutation d’attributs corrélés

3- La confidentialité différentielle :

Principe : La confidentialité différentielle, ou Differential Privacy, consiste en la production d’aperçus anonymisés d’un ensemble de données tout en conservant une copie des données originales.

L’aperçu anonymisé est généré à la suite de la requête effectuée par un tiers sur la base de données et dont le résultat sera associé à un ajout de bruit. Pour être considéré « differencially private », la présence ou l’absence d’un individu particulier dans la requête ne doit pas pouvoir changer son résultat.

Point fort :

  • Adaptabilité : Contrairement à la pratique de partage des données dans leur ensemble, les résultats des requêtes issues de la Differential Privacy peuvent être donnés au cas par cas selon les demandes et les tiers autorisés favorisant les questions de gouvernance.

Points faibles :

  • Ne permet pas de partager le jeu de données dans sa structure initiale, limitant ainsi le panel d’analyse réalisables.
  • Le contrôle doit être permanent (au moins pour chaque nouvelle requête) pour repérer toute possibilité d’identifier un individu dans l’ensemble des résultats de la requête.
  • Ne modifie pas directement les données car il s’agit d’un ajout de bruit à posteriori et relatif à une requête. Les données originales sont donc toujours présentes. À ce titre, les résultats peuvent aussi être considérés comme des données à caractère personnel.
  • Pour limiter les attaques par inférence et par corrélation, il est nécessaire de garder une trace des requêtes soumises par une entité et de surveiller les informations obtenues à propos des personnes concernées. Des bases de données à « confidentialité différentielle » existent donc et sont une faiblesse de la méthode car elles ne doivent pas être déployées sur des moteurs de recherche ouverts qui ne permettent pas de maitriser l’identité du requêteur et la nature de ses requêtes.

Erreurs courantes :

  • Ne pas injecter suffisamment de bruit : Afin d’empêcher que des liens puissent être établis avec des connaissances tirées du contexte, il faut ajouter du bruit. Le plus difficile, du point de vue de la protection des données, est de parvenir à générer le niveau de bruit approprié à ajouter aux réponses réelles, de façon à protéger la vie privée des individus sans nuire à l’utilité des données.
  • Ne pas allouer de budget de sécurité : il est nécessaire de conserver l’information des requêtes réalisées et d’allouer un budget de sécurité qui augmentera la quantité de bruit ajouté si une requête est répétée.

Échecs d’utilisation :

  • Traitement indépendant de chaque requête : Sans conservation de l’historique des requêtes et adaptation du niveau de bruit, les résultats issus de la répétition d’une même requête ou d’une combinaison de celles-ci, pourrait conduire à la divulgation d’information personnelle. Un attaquant pourrait en effet réaliser plusieurs requêtes permettant au fur et à mesure d’isoler un individu et faire émerger une de ses caractéristiques. Il faut également prendre en compte que la Differencial Privacy ne permet de répondre qu’à une question à la fois. Ainsi, les données originales doivent être maintenues tout au long de l’usage défini.
  • Réidentification des individus: La confidentialité différentielle ne garantit pas la non-divulgation d’informations personnelles. Un attaquant peut en effet réidentifier les individus et faire émerger leurs caractéristiques à l’aide d’une autre source de données ou par inférence. Par exemple, dans cette article (source : https://arxiv.org/abs/1807.09173) des chercheurs de Institut de Technologie de Géorgie (Atlanta) ont mis au point un algorithme, appelé « membership inference attacks », qui réidentifie les données d'entrainement (donc sensibles) d'un modèle de confidentialité différentielle. Les chercheurs concluent qu'il est nécessaire de poursuivre les recherches afin de trouver un mécanisme de confidentialité différentiel stable et viable contre les membership inference attack. Ainsi, la confidentialité différentielle n’apparait pas comme une protection totalement sure.

La famille généralisation :

1- Agrégation et k-anonymat:

Principe : Généralisation des valeurs des attributs dans une mesure telle que tous les individus partagent la même valeur. Ces deux techniques visent à empêcher qu’une personne concernée puisse être isolée en la regroupant avec, au moins, k autres individus. Exemple : pour qu’il y ait au moins 20 individus partageant la même valeur, l’âge de tous patients entre 20 et 25 ans est ramené à 23 ans.

Point fort :

  • Individualisation : Dès lors que les mêmes attributs sont partagés par k utilisateurs, il ne devrait plus être possible d’isoler un individu au sein d’un groupe de k utilisateurs.

Points faibles :

  • Inférence : Le k-anonymat n’empêche pas un quelconque type d’attaque par inférence. En effet, si tous les individus font partie du même groupe, pour peu que l’on sache à quel groupe appartient un individu, il est facile d’obtenir la valeur de cette propriété.
  • Perte de granularité : Les données issues d’un traitement de généralisation perdent nécessairement en finesse et parfois en cohérence.

Erreurs courantes :

  • Négliger certains quasi-identifiants : Le choix du paramètre k constitue le paramètre clé de la technique du k-anonymat. Plus la valeur de k est élevée, plus la méthode apporte de garanties en termes de confidentialité. Cependant l’erreur courante consiste à augmenter ce paramètre sans considérer l’ensemble des variables. Or il suffit parfois d’une variable pour réidentifier un grand nombre d’individu et rendre inutile la généralisation appliquée aux autres quasi identifiants
  • Faible valeur de k : Si k est trop petit, le coefficient de pondération d’un individu au sein d’un groupe est trop important et les attaques par inférence ont de davantage de chances de succès. Par exemple, si k=2 la probabilité que les deux individus partagent la même propriété est plus grande que dans le cas où k >10.
  • Ne pas regrouper des individus dont le coefficient de pondération est similaire : Le paramètre k doit être adapté au cas de variables déséquilibrées dans la répartition de ses valeurs.

Échec d’utilisation :

Le principal problème lié au k-anonymat est qu’il n’empêche pas les attaques par inférence. Dans l’exemple qui suit, si l’attaquant sait qu’un individu figure dans l’ensemble de données et est né en 1964, il sait aussi que cet individu a fait une crise cardiaque. De plus, si l’on sait que cet ensemble de données a été obtenu auprès d’une organisation française, on peut en déduire que chacun des individus réside à Paris puisque les trois premiers chiffres des codes postaux sont 750*).

table2_article2

Tableau 2. Un exemple de k-anonymisation mal conçue

Pour combler les défauts du k-anonymat, d’autres techniques d’agrégation ont été développées, notamment la L-diversité et la T-proximité. Ces deux techniques affinent le k-anonymat en veillant à ce que chacune des classes ait L valeurs différentes (l-diversité) et que les classes créées ressemblent à la distribution initiale des données.

A noter que malgré ces améliorations, cela ne permet pas de s’advenir quant aux faiblesses principales du k-anonymat présentées ci-dessus.

Ainsi, ces différentes techniques de généralisation et de randomisation ont chacune des avantages de sécurité mais ne répondent pas toujours totalement aux 3 critères énoncés par le CEPD, ancien G29 comme le montre le tableau 3 « Forces et faiblesses des techniques considérées réalisé par la CNIL.

Tableau comparatif des méthodes d'anonymisation _ CNIL

Tableau 3. Forces et faiblesses des techniques considérées

Issues de techniques d’anonymisation plus récentes, les données synthétiques apparaissent aujourd’hui comme de meilleures solutions d’anonymisation.

Cas des données synthétiques

Les dernières années de recherche ont vu l’émergence de solutions permettant la génération d’enregistrements synthétiques assurant une forte rétention de la pertinence statistique et facilitant la reproductibilité des résultats scientifiques. Elles reposent sur la création des modèles permettant de comprendre et reproduire la structure globale des données d’origines. On distingue notamment les réseaux neuronaux adversaires (GAN) et des méthodes reposant sur des distributions conditionnelles.

Point fort :

  • Haut niveau de garantie en termes de conservation de la structure, finesse et pertinence statistique des données générées.

Point faible :

  • Les modèles peuvent conduire à la génération de données de synthèse très proches voire équivalentes aux enregistrements originaux. Face à une situation où une attaque relirait cette donnée de synthèse à un individu, la seule défense consiste à affirmer que l’attaquant n’est pas en mesure de prouver ce lien. Cette situation peut conduire à une perte de confiance des personnes à l’origines des données.

Le logiciel d’anonymisation avatar, développé par Octopize, utilise une approche conceptuelle unique, centrée sur le patient, permettant la création de données synthétiques anonymes, protégées et pertinentes tout en apportant la preuve de leur protection. Sa conformité a été démontrée par la CNIL sur les 3 critères du CEPD. Cliquez ici pour en savoir plus sur les données avatars.

Évolution rapide des techniques

Enfin, la CNIL (Commission Nationale de l'Informatique et des Libertés) rappelle qu’étant donné que les techniques d’anonymisation et de réidentification sont amenées à évoluer régulièrement, il est indispensable pour tout responsable de traitement concerné, d’effectuer une veille régulière pour préserver, dans le temps, le caractère anonyme des données produites. Cette veille doit prendre en compte les moyens techniques disponibles et les autres sources de données qui peuvent permettre de lever l’anonymat des informations.

La CNIL souligne que les recherches en matière de techniques d’anonymisation se poursuivent et font apparaître définitivement qu’aucune technique n’est, en soi, infaillible.

Sources :

https://www.cnil.fr/sites/default/files/atoms/files/wp216_fr.pdf

https://edpb.europa.eu/edpb_fr

Lien Membership Inference Attacks : https://arxiv.org/pdf/1807.09173.pdf

Lien Netflix : https://arxiv.org/PS_cache/cs/pdf/0610/0610105v2.pdf

Inscrivez-vous à notre newsletter tech !