Fer de lance de l’industrie 4.0, les jumeaux numériques essaiment aujourd’hui dans le secteur de la santé. Dopé par l’épidémie de Covid-19, leur marché explose, tout comme les risques pesant sur le respect de la vie privée des individus à l’origine des données. Comment débrider le potentiel des jumeaux numériques sans transiger sur l’éthique ? Nous avons la solution : avatar, un logiciel d’anonymisation des données unique et évalué avec succès par la CNIL. Impossibles, en pratique, à ré-identifier, les données avatar sortent du RGPD. Elles deviennent exploitables, partageables – même en dehors de l’Union européenne – et conservables sans limites, tout en garantissant la qualité du jeu de données initial. Notre différence vis-à-vis de la concurrence ? Nous prouvons tous ces points grâce à nos métriques. Une véritable révolution dans le contexte actuel du Health Data Hub. Et si demain, les données synthétiques et anonymes avatar devenaient la norme ?
« Houston, we’ve had a problem. » lance l’équipage d’Apollo 13, le 17 avril 1970.
A quelques encablures de la lune, une explosion vient de se produire à bord du vaisseau spatial. A des centaines de milliers de kilomètres de là, sur terre, les équipes de la NASA diagnostiquent et résolvent à distance le problème grâce à plusieurs simulateurs, sorte de « doubles numériques », synchronisés grâce au flux de données provenant de la navette. L’équipage rentre sain et sauf. Les ancêtres des jumeaux numériques sont nés. La NASA sera la première à les développer, mais il faudra attendre 30 ans pour que le concept de « digital twin » émerge.
Qu’est-ce qu’un « jumeau numérique » ?
En 2002, Michael Grieves est chercheur en PLM (Product Lifecycle Management) à l’Université du Michigan. Lors de la présentation d’un centre dédié à la gestion du cycle de vie des produits, il explique pour la première fois aux industriels présents la notion de « jumeau numérique » : une réplique digitale d’un objet ou d’un système physique. Il ne s’agit pas d’un modèle figé, mais d’un modèle dynamique, reproduisant ses besoins, son comportement et son évolution dans le temps. Comme pour Apollo 13, un lien viscéral rattache l’entité physique à son jumeau numérique : le flux de données circulant de l’un à l’autre.
Depuis, le concept de jumeau numérique a peu évolué. Il s’agit de répliquer un objet (un piston ou le moteur d’une voiture), un système (une centrale nucléaire ou une ville) ou un processus abstrait (un planning de production). Le concept s’applique aussi au vivant : une molécule, une cellule, un organe ou un patient, comme un médicament, un virus, une maladie ou une épidémie peuvent avoir leur jumeau numérique.
Les jumeaux numériques sont une évolution, plus qu’une révolution, combinant modélisation mathématique et simulation numérique.
Fruits de la croissance des nouvelles technologies (IoT, big data, IA, cloud, etc.) et de la puissance de calcul, les jumeaux numériques sont une évolution, plus qu’une révolution, combinant modélisation mathématique et simulation numérique. Les données entrantes, d’où qu’elles proviennent – réelles, synthétiques, collectées en temps réel à l’aide de capteurs ou via des bases de données préexistantes –, alimentent un modèle mathématique pour le paramétrer finement. Le modèle peut alors se transformer en cobaye numérique, sur lequel tester différents scénarios via des simulations, afin de prédire l’évolution du système réel.
Conception et cycle de vie des produits, automobile et aéronautique, production et distribution d’énergie, transports, smart building et urbanisme, les jumeaux numériques sont aujourd’hui l’un des piliers de l’industrie 4.0. Ils essaiment depuis peu dans d’autres secteurs, comme la logistique, et surtout, la santé. Selon une étude de MarketsandMarkets, le marché des jumeaux numériques pourrait passer de 3,1 milliards de dollars en 2020 à 48,2 milliards de dollars en 2026, soit une croissance spectaculaire de 58 %, due en partie à l’épidémie de Covid-19.
Les promesses des jumeaux numériques dans la santé, mythe ou réalité ?
En janvier dernier, au CES (Consumer electronics show) de Las Vegas, Dassault Systèmes a présenté sa dernière prouesse, le jumeau numérique d’un cœur humain, résultat de 7 années de développement. Alimenté par des données collectées auprès de centaines de médecins, chercheurs et industriels à travers le monde, il réplique non seulement l’anatomie du cœur, mais aussi son fonctionnement : circulation du courant électrique le long des nerfs, comportement des fibres musculaires, réaction à différents médicaments, etc. Progrès de l’imagerie médicale aidant, ce jumeau numérique est aisément personnalisable. Il faut moins d’une journée pour répliquer la morphologie et les pathologies du cœur d’un patient.
Dassault Systèmes et ses concurrents planchent déjà sur d’autres organes, dont les poumons, le foie et bien sûr le cerveau, mais dont la réplique exacte est à ce jour hors de portée. Et pour cause ! Les neurobiologistes n’ont pas encore percé tous ses mystères. Le clone parfait du corps humain – modélisant anatomie, génétique, métabolisme, fonctions corporelles et pathologies – n’est donc pas pour tout de suite. Nul besoin cependant d’attendre des jumeaux numériques exhaustifs pour avancer à pas de géant. Les jumeaux numériques, même partiels, de certains organes, maladies ou couples patient/médicament – comme ceux développés par la start-up ExactCure – suffisent déjà à répondre à des problèmes précis.
Si les jumeaux numériques tiennent toutes leurs promesses, ils signeront in fine l’avènement de la médecine personnalisée.
Simuler l’anatomie et le fonctionnement de notre corps aux échelles moléculaire, cellulaire, tissulaire et organique ; modéliser des implants sur-mesure ; simuler le vieillissement ou une maladie ; tester un médicament, un vaccin sur un malade ou une cohorte virtuels ; répéter et assister des interventions chirurgicales complexes ; monitorer les flux de patients dans les hôpitaux pour rationaliser les moyens humains et techniques : si les jumeaux numériques tiennent toutes leurs promesses, ils signeront in fine l’avènement de la médecine personnalisée.
Une étude publiée en juillet 2021 dans la revue Life Sciences, Society and Policy passe en revue les bénéfices socio-éthiques des jumeaux numériques dans les services de santé. Sur le podium, on retrouve la prévention et le traitement des maladies, puis la réduction des coûts pour certains établissements de santé, et enfin, un gain d’autonomie pour les patients – mieux informés, ils sont plus à même de prendre des décisions éclairées sur leur parcours de soin.
Des risques à la hauteur des espoirs suscités
Néanmoins, il reste de nombreux obstacles à franchir avant d’atteindre cet eldorado de la santé publique. Le problème fondamental tient au nerf de la guerre des jumeaux numériques : les données de santé. Ces données personnelles extrêmement sensibles contiennent en effet des informations génétiques, biologiques, physiques ou liées au mode de vie. La même étude alerte sur le risque socio-éthique numéro 1 des jumeaux numériques, évoqué par tous les participants : la violation de la vie privée.
Le problème fondamental tient au nerf de la guerre des jumeaux numériques : les données de santé. Ces données personnelles extrêmement sensibles contiennent en effet des informations génétiques, biologiques, physiques ou liées au mode de vie.
Si les jumeaux numériques sont détenus ou hébergés par des organismes privés, ces informations peuvent être utilisées à l’insu des patients, voire se retourner contre eux. L’exemple le plus simple : une banque ou une compagnie d’assurance y ayant accès pourrait refuser un prêt ou augmenter ses primes à une personne malade.
Ajoutons à cela les failles de sécurité. Si les jumeaux numériques se multiplient, les risques de perdre ou de se faire voler les données augmentent avec eux. Or, une fois que les données ont fuité, il est trop tard. Elles peuvent être utilisées par n’importe qui, n’importe comment. Un scénario catastrophe de plus en plus fréquent en France, où les cyberattaques contre les organismes de santé ont doublé en 2021. Le vol des données de l’Assurance-maladie, début 2022, concernant un demi-million de Français en est un exemple frappant.
Tous les bénéfices des jumeaux numériques se retrouvent donc conditionnés par la disponibilité et la qualité des données de santé.
Vient ensuite un autre risque : la faible qualité des données. En effet, les algorithmes d’IA s'entraînent sur les données biomédicales disponibles. Or, elles sont souvent hétérogènes, incomplètes et pas toujours fiables. Ceci pour plusieurs raisons : manque de standardisation, pression pour publier, biais, tradition de ne pas publier les échecs, etc. Qui dit mauvaises données, dit mauvais modèle et mauvaises simulations.
Tous les bénéfices des jumeaux numériques se retrouvent donc conditionnés par la disponibilité et la qualité des données de santé. Or, elles sont extrêmement difficiles à récupérer et exploiter par les chercheurs, notamment en France, où leur usage est strictement limité par le RGPD (Règlement Général sur la Protection des Données) et la Loi Informatique et Libertés. Leur transfert en dehors de l’Union européenne est notamment interdit, un sujet particulièrement sensible dans le débat public actuel. Les affaires se succèdent d’ailleurs à un rythme effréné, de Google Analytics à Meta. Le gouvernement a même préféré ajourner sa demande d’autorisation auprès de la CNIL pour le Health Data Hub, le temps d’opérer la mue de ce projet de centralisation des données de santé.
Les données avatar pour débrider le potentiel de croissance des jumeaux numériques
Pour débrider le potentiel de croissance des jumeaux numériques, il existe pourtant déjà une solution proposée par Octopize - Mimethik Data, notre start-up deeptech. Nous avons en effet développé un logiciel unique et breveté d’anonymisation des données : avatar. L’anonymisation des données n’est pas nouvelle et les méthodes ne cessent de se multiplier. Pourtant, la plupart ne fournissent pas la preuve de l’impossibilité de ré-identifier les patients, loin de là. Notre innovation de rupture, basée sur une nouvelle technique d’Intelligence Artificielle, permet, elle, d’exploiter et partager les données personnelles dans le respect absolu de la vie privée. A la différence de nos concurrents, nous pouvons prouver grâce à nos métriques l’efficacité de nos données synthétiques et anonymes avatar aussi bien sur le respect de la vie privée que sur la qualité des données. Notre secret ? Un algorithme d’IA centré sur chaque patient, et non sur l’ensemble du jeu de données.
Pour chaque patient (soit chaque ligne de la base de données), nous utilisons un algorithme de KNN – méthode des plus proches voisins – pour identifier un certain nombre de données voisines. C’est à partir de ces données voisines que nous construisons notre modèle. A ce stade, le patient réel et ses données ont « disparu » – impossible de savoir s’ils sont dans le modèle ou non, seuls ses plus proches voisins le sont. Nous générons ensuite un avatar en utilisant un modèle pseudo-stochastique local, c’est-à-dire que nous introduisons un bruit aléatoire, donc non réversible, pour chaque attribut (soit chaque colonne de la base de données). Impossible de faire machine arrière, à chaque fois que nous relançons le modèle pour un même patient, nous créons un avatar différent. Voilà qui assure l’anonymisation, tout en conservant la granularité du jeu de données, les corrélations entre les individus et les distributions sur chaque variable. Mêmes courbes de Gauss, mêmes moyennes et mêmes écarts-types, à epsilon près.
Les données, une fois avatarisées, deviennent des données de synthèse anonymes, sans risque de ré-identification pour les patients. Elles sortent alors du RGPD et leur exploitation devient illimitée.
Les données, une fois avatarisées, deviennent des données de synthèse, sans risque de ré- identification pour les patients. Elles sortent alors du RGPD et leur exploitation devient illimitée. Elles sont conservables, exploitables, partageables et réutilisables sans contraintes géographiques, ni temporelles. D’ailleurs, la CNIL de ne s’y est pas trompée et a évalué avec succès notre méthode en 2020, attestant sa conformité vis-à-vis des trois critères sur l’anonymisation décrits dans l’avis du G29. Grâce aux données avatar, exit le risque de violation de la vie privée inhérent aux jumeaux numériques.
Les données avatar sont de plus facilement déployables et évolutifs. Paramétrables, ils s’adaptent à tous les besoins, de l’usage interne à l’open data. Autre avantage, les données avatar résolvent aussi les problèmes de disponibilité et de biais des données de santé. A partir d’un jeu de données réelles, nous pouvons générer des jeux de données synthétiques plus larges que la base de données initiale, chaque individu pouvant donner lieu à plusieurs données avatar. Nous pouvons ainsi amplifier une cohorte. In fine, nous proposons des jeux de données de santé étiquetés et « propres », prêts à l’usage, prêts à tous les usages.
Au-delà des jumeaux numériques, les données avatar sont en eux-mêmes une révolution et pas seulement dans le domaine de la santé.
En réglant les problèmes de respect de la vie privée, de disponibilité et de qualité des données, l’avatarisation est donc une formidable opportunité de débrider le potentiel de croissance des jumeaux numériques. Mais au-delà, le esvolution et pas seulement dans le domaine de la santé. Banque, assurance, télécom, industrie, énergie, tous les secteurs manipulant des données sensibles disposent désormais d’une solution clé en main. Octopize défend avec ses données avatar un point de vue éthique au service de la création de valeur. Nous sommes intimement persuadés que l’avatarisation des données, innovation de rupture aujourd’hui, sera demain la nouvelle norme européenne.
15/05/2022© Octopize