Comment traiter les données manquantes ?

Dans cet article, nous explorons un défi commun dans l’analyse des données : la gestion des données manquantes. Ces données incomplètes peuvent mettre en péril la fiabilité des analyses statistiques, compromettant ainsi la qualité des résultats. Notre solution avatar va au-delà du simple remplacement ou de la suppression des valeurs manquantes en utilisant une approche intelligente pour préserver la confidentialité tout en maintenant la qualité des analyses. Dans cet article, nous illustrons l’efficacité de notre méthode à travers un exemple concret. Avec avatar, nous offrons une solution fiable pour traiter les données manquantes.

Comment traiter les données manquantes ?

La gestion des données manquantes

Dans l’analyse des données, la présence de données manquantes représente souvent un défi de taille pour les analyses. Ces données incomplètes peuvent compromettre la fiabilité et la précision des résultats d’une analyse statistique. Chez Octopize, nous comprenons l'importance de gérer intelligemment ces valeurs manquantes lors de l’anonymisation des données. Plutôt que de simplement les supprimer ou les remplacer, ce qui entraînerait une réelle perte d'informations, nous avons intégré une méthode pour traiter les données manquantes de manière efficace et intelligente. 

Pourquoi les données sont manquantes et pourquoi il faut être vigilant ?

Les données manquantes peuvent survenir pour diverses raisons, telles que des erreurs de saisie, des questionnaires incomplets ou des défauts techniques. La présence de données manquantes peut réduire la précision des analyses. Il est nécessaire de comprendre d'où viennent les données manquantes et savoir réagir en fonction du type de valeur manquante.

On distingue trois principaux types de données manquantes :

  1. Données manquantes complètement aléatoires (MCAR) : Dans ce cas, la probabilité d'avoir une valeur manquante est indépendante du jeu de données. Autrement dit, il n'y a aucun motif apparent derrière les données manquantes. La probabilité d’absence est la même pour toutes les observations.

EXEMPLE : si chaque participant à un sondage décide de répondre à la question du revenu en lançant un dé et en refusant de répondre si la face 6 apparaît

  1. Données manquantes aléatoirement (MAR) : La probabilité d'avoir une valeur manquante est toujours aléatoire mais elle est liée à d'autres variables observées.

EXEMPLE : Par exemple, les personnes les plus âgées sont plus susceptibles de ne pas déclarer leur salaire. L’aspect manquant est donc important pour cette variable, l’anonymisation doit conserver le caractère manquant des variables MAR. Voir l’exemple ci-dessous pour plus de détails.

  1. Données manquantes non aléatoirement (MNAR) : Dans ce cas, la probabilité d'avoir une valeur manquante dans une variable dépend de cette variable. Les données manquantes ne peuvent pas être inférées à l’aide des autres informations du jeu de données. Mais l’information n’est pas non plus manquante au hasard. 

EXEMPLE : Le salaire d’un individu est manquant parce qu’il est élevé. Autrement dit, les personnes les plus aisé ont tendance à ne pas répondre à la question du salaire. Les données manquantes non aléatoires peuvent être les plus difficiles à traiter car elles sont liées à des facteurs non observés.

Traiter les données manquantes lors de l’anonymisation avec la méthode avatar

Une des approches pour anonymiser les données manquantes, avec la solution avatar, est de les imputer. Cette imputation peut être réalisée en amont de l'anonymisation. L'imputation consiste à estimer les valeurs manquantes en se basant sur les valeurs les plus similaires dans l'ensemble de données (imputation par les plus proches voisins). Cette imputation permet de conserver la structure et les relations entre les données, tout en garantissant un niveau de confidentialité suffisant. Cependant, il est important de noter que cette méthode entraîne une perte d’information surtout lorsque les données sont manquantes non aléatoirement (MNAR) ou aléatoirement (MAR). 

Pour pallier cela, nous avons développé une autre approche dans la méthode Avatar, permettant de traiter les données manquantes de manière plus efficace. Cette approche consiste à laisser le processus d'anonymisation générer un ensemble de données synthétiques incluant des données manquantes. Le processus se passe en 2 étapes. Dans un premier temps une nouvelle colonne est créée pour indiquer la présence de valeurs manquantes (True, False). Dans un second temps, les valeurs manquantes de la colonne de départ sont imputées. Cette méthode nous permet d’avoir un jeu de données complet lors de l'anonymisation et plus précisément lors de la projection des données dans un espace multidimensionnel.

Après anonymisation, nous retirons les données signalées comme manquantes (True) afin d’obtenir un jeu de données anonymisé contenant des données manquantes. Les avatars générés auront des données manquantes qui préservent la même structure et les mêmes liens que dans les données originales. Les informations relatives aux données manquantes seront conservées tout au long du processus d'anonymisation. 

Exemple d’anonymisation des données manquantes

Pour illustrer l’anonymisation des données manquantes, nous utilisons un jeu de données synthétiques où la variable salaire contient des données manquantes. 

Table 1 : Extrait du jeu de données, la variable salaire contient des valeurs manquantes

Pour comprendre les données nous avons réalisé quelques graphiques (graphique 1 et 2). Grâce à ces graphiques nous pouvons observer que les variables âge et nombre d’années d’étude sont liées à la variable salaire.  

Par ailleurs, nous remarquons que la distribution de l’âge des personnes ayant répondu à la question du salaire est différente de la distribution de l'âge des personnes n’ayant pas répondu à la question du salaire (graphiques 4).
Nous pouvons faire le même constat pour la distribution du nombre d’années d’étude (graphique 3).

Or les personnes n’ayant pas répondu à la question du salaire ont tendance à être plus âgées et à avoir fait plus d’études. On peut donc supposer que plus les personnes ont un salaire élevé, plus il y a de chance qu’ils ne répondent pas à la question sur leur salaire (MAR).

L’information portée par les données manquantes sera-t-elle conservée lors de l’anonymisation avec la solution avatar ? 

Voici un extrait du jeu de données après anonymisation

Table 2 : Extrait du jeu de données anonymisé

Nous pouvons réaliser les mêmes graphiques que précédemment sur les données Avatars (graphique 5 et 6). Nous observons les mêmes conclusions : l’âge et le nombre d’années d’études sont liés à la variable salaire. 

Est-ce que les distributions de l'âge et du nombre d’années d’étude varient si le salaire est manquant ou non ? 

Pour répondre à cette question nous avons réalisé les mêmes analyses que dans notre première partie et nous observons les distributions suivantes : 

Nous observons que les distributions de l’âge et du nombre d’années d’études varient selon la présence de la variable salaire. Les personnes âgées qui ont fait beaucoup d’études ont tendance à ne pas répondre à la question du salaire.

Nous pouvons donc dire que l’anonymisation des données conserve la structure des données manquantes du jeu de données.

Conclusion 

Il est important de comprendre et analyser la cause de l’absence de données (MCAR, MNAR, MAR) , afin de choisir la méthode d’anonymisation la plus adaptée à vos besoins. Dans cet exemple, nous avons montré que la méthode avatar conserve l’information portée par les données manquantes. La méthode avatar fournit des données anonymisées de haute qualité, préservant à la fois la précision des analyses et la confidentialité des données. Pour en savoir plus sur le fonctionnement de la méthode avatar nous vous invitons à consulter la documentation.

Inscrivez-vous à notre newsletter tech !