Health Data Hub

Health Data Hub

Co-créer un notebook pédagogique sur l'utilisation et l’évaluation de données synthétiques

Challenge

  • Créer un notebook pédagogique comparant diverses méthodes de génération de données synthétiques.
  • Permettre à l'écosystème de mieux les appréhender / approfondir en mettant l'accent sur la qualité, et en fournissant des outils statistiques.
  • Offrir des moyens d'évaluation de l'utilité et de la confidentialité des données générées.

Solution

"La méthode de la start-up Octopize permet à la fois de prouver l’anonymat et d’assurer la reproductibilité des analyses. De plus, elle s’applique à tous les cas d’usage avec une faible difficulté dans l’entraînement des données".

Mise en place

Prestation de service réalisé par Octopize.

Maintien de la qualité statistique & de l'utilité

source : https://gitlab.com/healthdatahub/tutoriel-generation-de-donnees-synthetiques-en-sante/-/blob/main/notebook/main.ipynb?ref_type=heads

En comparaison de deux autres méthodes de génération de données synthétiques (CT-GAN et schéma structurel), la méthode avatar permet une meilleure conservation de l’utilité des données d’origine tout en permettant de prouver la privacy qu’elle apporte.

Résultat

  • Ce notebook met à disposition des outils d’évaluation de l’anonymat et de la qualité des données synthétiques générées.
  • Retrouvez le communiqué de presse pour plus de détails sur le sujet ainsi que le notebook sur Gitlab.