Voir autrement l'avatarisation

Cet article examine si la technique d'avatarisation peut servir d'outil de prétraitement pour éliminer les valeurs aberrantes. Il explore également l'analogie entre l'avatarisation des données et l'application d'un filtre gaussien à une image, offrant une perspective innovante sur la méthode.

Voir autrement l'avatarisation

La méthode avatar utilise une approche centrée sur l'individu. Chaque observation originale génère une simulation stochastique locale menant à son avatar.

L'objectif de cette méthode est de créer un avatar (nouvel individu anonyme) pour chaque individu original afin de protéger ses informations personnelles potentiellement identifiantes.

Considérons un jeu de données sensible de taille n, p, où n lignes représentent des individus, et  p colonnes sont des variables.

Les individus sont projetés dans un espace multidimensionnel numérique. On peut représenter chaque individu n par ses coordonnées :

Ces  X individus seront avatarisés et on obtiendra pour chaque X un nouveau point X’ tels que :

Où :

k : le nombre de voisins, paramètre de la méthode.

Xi : les coordonnées des voisins de X.

Wi : sont les poids des voisins de X.

X’ : sont les nouvelles coordonnées de l'avatar de l'individu. 

Chaque Wi peut être calculé suivant : 

Chaque Pi représente le poids attribué à chaque voisin du point calculé. En effet, chaque voisin contribue différemment à la nouvelle valeur du point en fonction de sa distance et d’autres paramètres par rapport à ce dernier. Par exemple, les points éloignés auront une contribution moindre comparée à celle des points proches. Pour plus d’information, voir la doc [1]

 

Transformation d’un jeu de données original en avatar.

                 

Suppression des valeurs aberrantes :

Les valeurs aberrantes, ou outliers, sont des observations qui diffèrent significativement des autres données. Elles peuvent biaiser les modèles d'apprentissage ou autre modèle statistique et réduire leur précision. De même, pour protéger les individus les plus particuliers, l’avatarisation a tendance à recentrer vers la masse des individus, on peut voir cette transformation comme une opération qui supprime les outliers. En éliminant les valeurs aberrantes, l’avatarisation pourrait améliorer les performances des modèles. Des données plus propres et plus cohérentes pourraient permettre aux modèles de mieux généraliser et d'obtenir de meilleures performances. 

Démonstration :

On modélise un jeu de donnée en tant que somme de donnée X avec un certain bruit N qui suit la loi normale. 

Effet de l'Ajout de Bruit sur les Données : Comparaison des Données Originales, du Bruit et des Données Bruitées

Un jeu de données bruité est un ensemble de données où un bruit aléatoire a été ajouté aux valeurs originales, pouvant provenir d'erreurs de mesure, de variations environnementales ou d'anomalies de collecte. Les données réelles peuvent être réparties selon une certaine distribution. Lorsque du bruit, avec un grand écart type, est ajouté à ces données, elles sont alors susceptibles de contenir des valeurs aberrantes.

Ainsi, chaque point de l'espace peut être exprimé sous la forme : 

Avec Ni une variable aléatoire qui suit une loi normale.  Ni ~ (0,𝜎2) . Plus 𝜎2 est grand, plus le jeu donne présente des données aberrantes. 

En appliquant l’avatarisation chaque Yi se transforme en Zi avec la transformation suivante :

: Le nouveau point, obtenu par la somme pondérée des Xj avec les poids wj , est le point avatarisé des données originales, c'est-à-dire le résultat de l'avatarisation des points originaux uniquement. 

Comme l’avatarisation est une transformation qui homogénéise l’information , la source de bruit ou de valeurs aberrantes est potentiellement du bruit avatarisé

d'où la nécessité d'étudier ce terme et son impact sur le nouvel avatar. 

Maintenant : 

La somme des carrés est toujours inférieure au carré de la somme d'où :

On aura alors :

Ainsi, en utilisant l'avatarisation, on peut dire que la variance du bruit des valeurs anonymisées est inférieure à celle du bruit des valeurs originales. Cela peut s’expliquer par un bruit réduit sur notre jeu de données, et par conséquent, les valeurs aberrantes seront efficacement éliminées. 

En éliminant les valeurs aberrantes, nous améliorons la précision des modèles d'apprentissage ou statistique. Cela permet d'éviter que des données extrêmes ne biaisent les résultats, garantissant ainsi des prédictions plus fiables et une meilleure généralisation aux nouvelles données. En conséquence, les modèles sont plus robustes et performants.

Cependant, dans les situations réelles, il est souvent difficile de savoir comment le bruit est réellement distribué ou comment le traiter. Le bruit peut ne pas suivre une loi normale, et il peut être complexe et imprévisible. Cette incertitude sur la nature du bruit en pratique rend plus difficile l'application parfaite de cette démonstration. C'est pourquoi une étude pratique de la méthode d'avatarisation est nécessaire pour évaluer son efficacité dans des contextes réels et diversifiés, permettant ainsi d'adapter et d'optimiser la technique pour mieux traiter le bruit et utiliser le modèle d’apprentissage adéquat.

Analogie avec le filtrage des images : 

Le filtrage d'image est une technique utilisée en traitement d'image pour améliorer ou modifier une image. Cela implique de manipuler les valeurs de pixels d'une image pour obtenir un effet souhaité, tel que le lissage, la netteté, la détection des contours, la réduction du bruit. 

Un filtre gaussien est un type de filtre spatial dans lequel la nouvelle valeur de chaque pixel est calculée comme une somme pondérée des valeurs de ses voisins. Les poids sont définis par un noyau, une petite matrice qui spécifie l'effet du filtre.[2]

Le mécanisme d’un Filtrage spatial.
  • I(x,y) : la valeur du pixel à la position (x, y) dans l'image originale.
  • I′(x,y) : la valeur du pixel à la position (x, y) dans l'image filtrée.
  • k(i,j) : la valeur du noyau à la position (i, j).

On a alors pour chaque pixel, une “moyenne pondérée” des pixels adjacentes :

I(x-i,y-j) peut-être considéré comme les k voisins d' un point aléatoire X situé dans mon espace.

K(i,j) est le poids de chaque voisin de X. 

Exemple :

On va appliquer un filtre pondéré sur une image et on va essayer de voir les effets sur celui-ci :

Filtre gaussien 3x3 appliquée sur une image.

Bien que le contenu de l'image semble identique, chaque pixel de l'image filtrée est désormais différent de ceux de l'image originale. Cela illustre parfaitement l'effet du filtre gaussien, qui modifie les valeurs des pixels en fonction de leurs voisins, accentuant ainsi certains détails et atténuant d'autres. 

De manière similaire, lorsque nous appliquons une avatarisation sur un jeu de données, chaque point X de l’espace ou chaque instance d’un jeu de données est devenu différent et complètement anonyme. Le nouveau jeu de données avatarisées a conservé sa forme générale (forme du nuage de point projeté) tout comme l’image de la chute qui est restée une image d’une chute après filtrage. Rien n'empêche d’utiliser les données avatars pour un modèle d’apprentissage pour la suite. Nos données sont devenues anonymes, sans bruit en conservant l'intégrité générale de ces données. 

L'analogie entre le filtrage d'image et l'avatarisation des données est claire. Dans les deux cas, il s'agit d'équilibrer la préservation de l'information et la suppression des éléments indésirables. Cela met en évidence le compromis entre la qualité de l'information et la réduction des bruits ou des risques associés.

Petit kernel et Petit k

Image : L'utilisation d'un petit noyau permet de conserver les détails fins de l'image tout en réduisant légèrement le bruit. Cela garantit que l'essence et la clarté de l'image restent intactes, bien que le bruit ne soit pas entièrement éliminé.

Données : De même, un petit k dans l'avatarisation conserve la granularité et l'unicité des données, mais offre une protection moindre en termes de confidentialité. Les informations spécifiques sont préservées, ce qui peut être crucial pour certaines analyses, mais le risque de réidentification reste plus élevé.

Grand kernel et Grand k

Image : Un grand noyau est plus efficace pour supprimer le bruit, mais peut également enlever des détails importants de l'image. Cela conduit à une perte d'information, altérant potentiellement la qualité et la représentativité de l'image.

Données : En augmentant k dans l'avatarisation, les données deviennent plus anonymes et moins réidentifiables. Cependant, cela se fait au détriment de la perte d'informations spécifiques et potentiellement utiles, ce qui peut diminuer la valeur analytique des données.

En suivant cette analogie, l'avatarisation devient ainsi un processus simple et accessible à tous, permettant de protéger la confidentialité tout en préservant l'intégrité et la valeur analytique des données. Pour quiconque souhaitant tester l'avatarisation, le processus est non seulement clair mais aussi facile à mettre en œuvre.


Ressources :

[1] https://www.nature.com/articles/s41746-023-00771-5

[2] Digital image processing (2nd edition) Rafael C . Gonzalez Richard E . Woods

Écrit par : Karl Saliba & Julien Petot

Inscrivez-vous à notre newsletter tech !