Vous pensiez que dans le « Big Data », les données étaient anonymisées, et vous avec ? Pas si sûr. 3 transactions bancaires « anonymes » suffisent à révéler votre identité, selon des chercheurs du MIT.
Il suffit de 3 « traces numériques », des métadonnées, pour vous identifier dans une masse de données « anonymisées ». C’est ce que révèle une étude effectuée par des chercheurs du MIT.
Il faut donc avoir en sa possession trois traces : les montants dépensés, le type de commerce (restaurant, bar, supermarché) et le code qui représente chaque personne. En clair, selon les chercheurs, qui ont publié leur étude dans la revue Science, les noms des clients, les numéros de carte de crédit, les adresses des magasins et l’heure des transactions sont « effacés », mais cela ne suffit pas à garantir un véritable anonymat.
À partir des 3 informations pré-citées, il est possible d’établir un « modèle de dépenses » (aussi unique qu’une empreinte digitale) et ensuite d’identifier quelqu’un, avec un taux de certitude de 90 %, dans une base de données de 1,1 million de personnes « anonymes ». La base de données utilisée par les scientifiques du MIT, obtenue auprès d’une banque, contenait 3 mois de transactions par cartes de crédit, effectuées dans 10 000 magasins.
Une « attaque de corrélation »
Selon l’étude, 4 renseignements sur une personne (facilement récupérables dans des reçus et des factures) suffisent pour mener une « attaque de corrélation » − en associant (via un algorithme) ces 4 renseignements extérieurs aux 3 données permettant d’établir le « modèle de dépenses » nécessaire à son identification. Par exemple, il suffit de savoir où monsieur X se trouvait (et effectuait des achats) à 4 moments différents, puis de croiser ces informations avec les données correspondantes (stockées dans la base de données), pour retrouver monsieur X et le « ré-identifier ».
Tout est une question de probabilités et de « corrélations statistiques » : un client se rendant dans un magasin de vêtements à un moment donné, puis dans un café l’heure suivante, avant de se rendre dans un restaurant, puis dans une salle de sports, sera presque « unique ». Pour obtenir ce genre de données, les chercheurs ont pour leur part utilisé les « fuites » d’une poignée de gros sites.
« Notre article pointe les limites de l’anonymisation des fichiers de données. Il doit ouvrir le débat technique et réglementaire pour limiter les risques de la diffusion de fichier », explique au Monde Yves-Alexandre de Montjoye, le doctorant du MIT à l’origine de cette étude.
Prudence face au « Big Data »
Pour préserver l’anonymat, rendre les données moins précises ne suffit pas, indiquent les chercheurs, car il suffit à une personne malintentionnée de récupérer des informations externes supplémentaires (pour cela, il suffit de se rendre sur le Web, où les « traces » numériques abondent, en particulier sur les réseaux sociaux, et de les « « aspirer ») pour ré-identifier quelqu’un.
Pour les chercheurs du MIT, la prudence est de mise, et pas question de partager publiquement des ensembles bruts de données de ce type, comme le voudraient les aficionados du « Big Data ». Ainsi, indiquent les scientifiques, ces ensembles de données ne doivent-ils être « libérés » pour analyse que si « l’accès aux enregistrements individuels et l’analyse de corrélation avec des données externes sont bloqués ».
« Le message est que nous devrions repenser et reformuler la façon dont nous pensons à la protection des données. L’ancien modèle d’anonymat ne semble pas être le bon quand on parle de métadonnées à grande échelle », indique Yves-Alexandre de Montjoye au New-York Times. Et de conclure : « l’absence de noms, d’adresses, de numéros de téléphone ou d’autres identifiants évidents dans les données, ne les rend pas anonymes et ne permet pas de les distribuer en toute sécurité au public et aux tiers ».
Par Fabien Soyez
Réagissez à cet article
Vous avez déjà un compte ? Connectez-vous et retrouvez plus tard tous vos commentaires dans votre espace personnel.
Inscrivez-vous !
Vous n'avez pas encore de compte ?
CRÉER UN COMPTE