Selon le contexte d’utilisation d’une donnée anonymisée, le risque de tentative de ré-identification par un attaquant, malveillant ou non, varie. On peut par exemple considérer qu’une donnée anonyme partagée dans le cadre d’un projet Open Data est nettement plus exposée qu’une donnée partagée en interne à un partenaire de confiance. Afin d’optimiser l’équilibre entre confidentialité et maintien des propriétés statistiques, il est nécessaire de pouvoir évaluer le niveau de privacy et d’utilité des données générées avant leur mise à disposition. Toutefois il s’agit d’une vérification réalisée à posteriori. Dans cet article nous allons nous intéresser au paramètre clé de la méthode avatar permettant d’influencer le résultat des métriques de privacy en amont, le paramètre k.
Fonctionnement
Le paramètre k intervient à l’étape b de la méthode avatar [cf Figure 1].
Suite à l’étape de projection de chaque individu dans un espace multidimensionnel (assimilée à l’ACP); le paramètre k permet de déterminer le nombre de plus proches voisins au sein de cette projection d’individus.
Cela permettra de déterminer l’espace de modélisation local de chaque avatar réalisé à l’étape c. Le paramètre est appelé k en référence à l’algorithme de KNN utilisé pour l’identification des voisins sur la base d’une distance euclidienne. Il s’agit d’une valeur numérique comprise entre 2 (minimum de voisins requis pour créer un espace de modélisation) et le nombre d’individus présents dans le jeu de données.
Plus on affecte une valeur élevée au paramètre k, plus l’espace de modélisation d’une donnée avatar est élargie [cf Figure 2]
Figure 2: Impact du choix de la valeur k sur l’espace de modélisation (en vert) de l’avatar de l’individu d’origine représenté en rouge.
Sachant que l’avatar d’un individu est généré de façon pseudo aléatoire au sein de l’espace défini par ses voisins (cf article "Comprendre le cœur de la méthode avatar"), plus le k utilisé est élevé, plus l’avatar d’un individu peut être différent de l’individu d’origine.
Impact sur l’équilibre privacy/utility
Le fait que l’augmentation du paramètre k se traduise par l’agrandissement de l’espace de modélisation d’un avatar peut être traduit de la façon suivante : plus la valeur k est élevée, plus la génération d’un avatar peut prendre modèle sur un individu différent de l’individu d’origine, et de la même manière, une valeur de k faible, va préserver des similarités avec l’individu d’origine.
Prenons l’exemple d’une cohorte de 50 individus gauchers et 50 droitiers.
Sur cette dimension, les données auront donc deux clusters clairement définis de 50 individus chacun. Avec un k inférieur à 50, l’avatar d’un droitier sera forcément droitier car les voisins de l’individu d’origine sont tous droitiers. En revanche avec un k supérieur à 50, il existe une probabilité qu’un individu droitier devienne gaucher car certains des voisins de cet individu sont gauchers.
Il existe donc une corrélation positive entre la valeur de k utilisée et le niveau de privacy d’un jeu de données avatar.
Cependant il ne s’agit pas de l’unique impact de ce paramètre puisqu’au delà de son influence sur la privacy, le paramètre k influence également l’utilité soit la conservation des propriétés statistiques d’un jeu de données.
En effet, nous venons de voir que l’augmentation du paramètre k conduit à produire des données avatar plus éloignées des individus d’origine. Cela implique également un recentrage plus important des individus situés en périphérie d’un jeu de données (outliers) et donc une diminution de la conservation de la variance d’origine du jeu de données.
Reprenons l’exemple des gauchers et droitiers, mais cette fois, il s’agit d’une cohorte de 95 droitiers et 5 gauchers. Avec un k inférieur à 5, un individu gaucher donnera nécessairement un avatar gaucher également. En revanche plus le k augmente, plus la probabilité qu’un individu gaucher génère un avatar gaucher diminue, diminuant par la même occasion la variance du jeu de données.
En résumé, plus k augmente : plus la privacy augmente. Et plus k diminue, plus l’utility est conservée.
Ces deux conséquences sont détaillées de manière plus exhaustive dans notre article scientifique dans la section “Impact of local model size on avatar generation” où l’on évalue l’influence de k sur les métriques de privacy ainsi que sur le maintien de l’outcome de l’essai clinique et l’étude observationnelle.
L’effet intéressant de ce paramètre k sur notre méthode, est la capacité à protéger les individus uniques. Le fait qu’un individu nécessite au moins deux voisins pour générer un avatar est une caractéristique fondamentale de la méthode. Aucun individu possédant une caractéristique unique ne peut conserver cette caractéristique une fois transformé en avatar.
Prenons l’exemple d’une cohorte constituée de 99 droitiers et 1 gaucher. L’avatar de l’individu gaucher sera nécessairement droitier car les voisins de cet individu sont droitiers. Cette caractéristique permet de protéger de façon systématique et agnostique les individus possédant des attributs uniques (outliers).
Conclusion
L’intérêt du paramètre k est sa capacité à protéger, de façon systématique et agnostique, les individus uniques.
Il permet d’ajuster la balance utility/privacy au contexte d’usage de l'anonymisation, tout en gardant le caractère explicable et prouvable de la méthode.
Plus la valeur k est élevée, plus la génération d’un avatar peut prendre modèle sur un individu différent de l’individu d’origine, et de la même manière, une valeur de k faible va préserver des similarités avec l’individu d’origine.