Les limites de l’anonymisation des données

Bloqueur de pub détectée - Vous bloquez l'affichage des publicités.
Pour soutenir le site, merci de bien vouloir laisser les publicités s'afficher
Plus d'informations : Comment désactiver les bloqueurs de publicité sur un site internet

Lorsqu'une entité récupère des données personnelles, souvent elle indique qu'elle les anonyme.
Cette technique vise à limiter ou supprimer certaines informations sensibles qui permettent d'identifier un utilisateur unique.

Cet article montre les limites de l'anonymisation.
Comment il est possible au final même avec des données anonymisées d'identifier un utilisateur.
Enfin quelques parades et techniques pour contrer ces attaques.

La limite de l'anonymisation des données
La limite de l'anonymisation des données

La collecte de données et vie privée

Lorsque vous achetez un produit ou utilisez un produit gratuit, beaucoup de données fuites.
En effet, lors de l'inscription à un site internet, on vous demande de vous identifier : nom, prénom, âge, etc.
Elles comportent donc beaucoup de données personnelles.
D'ailleurs ces bases de données peuvent être revues ou même piratées : Le piratage massif des comptes internet.

Une donnée personnelle (ou donnée à caractère personnel) est une information qui concerne une personne physique, identifiée directement ou indirectement.
Il peut s’agir d’un nom, d’une photographie, d’une adresse IP, d’un numéro de téléphone, d’un identifiant de connexion informatique, d’une adresse postale, d’une empreinte, d’un enregistrement vocal, d’un numéro de sécurité sociale, d’un mail, etc.

De même lorsque vous surfez, on vous piste afin de constituer un profil consommateur.
Cela par votre navigateur WEB dans le cas de Google Chrome ou par les sites visités : Le pistage utilisateur ou Web Tracking sur internet
Même chose avec les cartes de fidélité et réduction : Carte de fidélité et réduction des magasins et pistage des clients

Enfin certaines applications gratuites peuvent aussi remonter des données.
Cela va de la télémétrie à des collectes plus larges par exemple avec les antivirus.

Quand vous lisez les conditions de confidentialité, souvent, on peut lire que les données personnelles sont supprimées.
Par exemple, le nom, code postal, adresse, etc.
On parle alors d'anonymisation des données.

Ainsi on rassure l'utilisateur final en expliquant que les données qui vous identifient ne sont pas collectées.

Toutefois, cette anonymisation présente des limites.

Ex : La collecte de données par Avast!

Voici un exemple concret.

Dernièrement, une polémique a lieu avec Avast! et ses extensions pour Chrome, Firefox, etc.
Ces dernières récupèrent pas mal de données, dont les sites visités.
Rien de vraiment nouveau, si vous lisez le site, puisque j'en parlais déjà sur l'article suivant :

En effet, Avast! utilisent ces données statistiques pour du profilage consommateur qu'il peut monétiser.
Par exemple pour vérifier l'impact de certaines campagnes marketings.
Comment les utilisateurs achètent des produits, etc.

Mozilla a suspendu ces extensions le temps de clarifier certaines choses.
De son côté Avast! se défend en indiquant que toutes les données qui permettent d'identifier un individu sont anonymisées.
En clair, il retire toutes les informations nominatives.

La limite des données anonymisées

Le premier problème avec l'anonymisation est que l'on ne sait pas exactement ce qui est fait.
Les données sensibles sont supprimées ou remplacées ?

En effet, on peut remplacer les données sensibles par des hashs ou des clés.
On parle plus alors de transformation.
Les données sensibles sont alors masquées.

Mais ces méthodes présentent toute la même limite :

S'ils existent une autre base de données qui vous identifie, on peut alors dé-anonymisées les données initiales.

En 1997, la Massachusetts Group Insurance Commission a publié des données «anonymisées» montrant les diagnostics de santé et les prescriptions des employés de l'État. Cela a motivé une étudiante à acheter une liste d'inscription des électeurs, ce qui lui a permis de anonymiser une grande partie des données, y compris les données du gouverneur du Massachusetts à l'époque. L'élève n'a pas pu résister à envoyer le dossier médical du gouverneur à son bureau.

Un autre exemple bien connues.

En 2006, Netflix a lancé un concours ouvert dans le but de trouver des algorithmes permettant de prédire les notes des utilisateurs pour les films. Comme base, Netflix a fourni un grand ensemble de données de notes d'utilisateurs en tant que données de formation, où les utilisateurs et les films ont été remplacés par des identifiants numériques. En corrélant ces données avec les évaluations de la base de données Internet Movie, deux chercheurs ont démontré qu'il était possible de anonymiser les utilisateurs.

ou encore cet actu : Mauvaise nouvelle : les données » anonymisées » ne sont pas anonymes

Les attaques possibles

Voici les attaques possibles contre des bases de données anonymisées :

La corrélation : C'est la capacité de relier deux individus provenant de deux bases différentes. Notez que cela peut aussi concerner un groupe d'individus.

Si l'on reprend l'exemple d'Avast!, ces derniers ont une base cliente des utilisateurs de l'antivirus.
En recoupant celle-ci il est possible de reconnaître un utilisateur.
Je ne dis pas qu'ils le font, je dis que cela est possible.

L'inférence : On déduit un attribut à partir de données statistiques d'autres attributs. Par exemple un total peut permettre de déduire un attribut par une soustraction.

En clair donc une société qui possède ou achète des données nominatives peut en achetant des données anonymisées, construire une nouvelle base de données avec des informations identifiables.

Il faut donc bien voir ce que veut dire anonymiser et les techniques utilisées car certaines possèdent des limites.

Protéger contre la dé-anonymisation

K-anonymisation

Cette méthode modifie les données de manière à ce que les données d'une personne spécifique ne puissent pas être distinguées d'au moins k-1 personnes dans le même ensemble de données.

Plusieurs technique existent :

  • La suppression : on remplace les attributs ou des parties d'entre eux par *)
  • La généralisation : On remplace les attributs par des catégories plus larges, par exemple remplacer 42 ans par 40-49 ans
  • Pseudonymisation : Les données nominatives sont remplacées par d'autres. Par exemple, on remplace le nom Vincent par Pierre. La pseudonymisation préserve la précision statistique et l'intégrité des données, permettant aux données modifiées d'être utilisées pour la formation, le développement, les tests et l'analyse tout en protégeant la confidentialité des données.
  • Échange de données : Il s'agit ici de permuter et mélanger les données entre les individus.

Cela permet de rendre les recoupements plus difficiles entre base de données.
Le but est donc de réduire les attaques par corrélation ou interférence.

Pour plus de détails sur cette méthode, lire : k-anonymity, the parent of all privacy definitions

Confidentialité différentielle

Cette méthode existe depuis une quinzaine d'années.
Voici sa promesse :

Vous ne serez pas affecté, défavorablement ou autrement, en permettant à vos données d'être utilisées dans toute étude ou analyse, quels que soient les autres études, ensembles de données ou sources d'information disponibles.

Cynthia Dwork

Elle permet d'évaluer le niveau de vie privée d'une base de données.
Cela permet alors d'évaluer les données qui peuvent être divulguées depuis cette dernière.

Pour protéger les utilisateurs, on ajoute alors du bruit à aux données.
Il s'agit de données aléatoires.
Cela peut se faire :

  • localement : on ajoute ces données à chaque données de l'individu.
  • globalement : le bruit est ajouté à la sortie de la requête de l'ensemble de données.

Il faut que le bruit soit assez important pour protéger les utilisateurs.
Mais pas trop pour ne pas perturber le signal, c'est à dire la "vraie" donnée que l'on souhaite extraire.
L'intelligence artificielle peut alors aider à travers des modèles d'apprentissage automatique.

Enfin cette méthode ne fonctionne que sur les grosses bases de données.
Sur les petites base de données, cela perturbe trop le signal que l'on perd.

Apple, Google et bien d'autres grandes entreprises IT ont recours à cette méthode.
Voici un extrait des conditions de confidentialité de Google qui dit utiliser le k-anonymisation et la confidentialité différentielles.

Les règles de confidentialités de Google avec k-anonymisation et la confidentialité différentielles

Conclusion et liens

Le GRPD permet aux entreprises de collecter des données anonymisées sans consentement, de les utiliser à n'importe quelle fin et de les stocker pour une durée indéterminée - tant que les entreprises suppriment tous les identifiants des données.

Mais la collecte de données reste un problème pour les utilisateurs.
D'autant qu'une fois les données recueillies, il ne les maitrise plus.

Ici le but de l'article est de vous sensibiliser sur l'anonymisation.
Il ne s'agit pas d'une opération facile et possède des limites.
Même si comme vous pouvez le constater de nouvelles techniques existent.

Sources :

Vous avez trouvé cet article utile et interressant, n'hésitez pas à le partager...