Le nouveau règlement sur la protection des données (RGPD) apporte des changements profonds et inédits dans la gestion des données par les organisations. Il n’existe pour ainsi dire aucun texte de loi comparable, aussi bien en termes de portée, qu’en termes de sanctions. Le RGPD concerne toutes formes d’organismes (entreprises grandes ou petites, publiques ou privées, associations…), où qu’ils se trouvent dans le monde, du moment que ces organismes traitent des données à caractère personnel de résidents européens. Les sanctions en cas de non-respect peuvent aller jusqu’à 20 millions d’euros ou 4 % du chiffre d’affaires mondial de l’entreprise concernée (le plus élevé étant retenu).
Au-delà des sanctions pécuniaires, le RGPD présente d’autres enjeux considérables car il encadre très précisément les données personnelles, connues pour être le pétrole de notre ère. Il est évidemment difficile de nier la place centrale qu’occupent les données dans la création de valeur ; ceci, aussi bien pour le développement de nouveaux services, que pour l’amélioration de services existants. Le RGPD s’applique ainsi à tous traitements de données à caractère personnel (collecte, enregistrement, organisation, conservation…), et peut, dans certains cas, interdire leur mise en œuvre, et même imposer la suppression des données collectées. Par exemple, l’un des principes du RGPD est la limitation de durée de conservation, qui interdit de conserver les données au-delà d’une certaine durée ; elles devront alors être supprimées ou archivées avec un accès restreint.
Afin d’éviter les contraintes du RGPD sans pour autant se priver des bénéfices des données, la seule alternative prévue par le règlement est l’anonymisation des données. En effet, pour le RGPD, des données anonymes sont équivalentes à des données supprimées, et les principes du RGPD ne s’appliquent plus. Ceci est dû au fait que l’anonymisation transforme des données personnelles en données qui ne sont plus personnelles.
Cependant, la mise en œuvre de l’anonymisation demande de prendre des précautions particulières, dues aux risques importants qui en découlent. Malheureusement, l’anonymisation fait encore l’objet de multiples confusions et d’a priori de la part d’une grande partie des acteurs de la donnée. Parmi les confusions les plus notables, on note l’utilisation de la pseudonymisation (par exemple, le « Data Masking ») en lieu et place de l’anonymisation, ou encore des confusions entre anonymisation et chiffrement. En effet, l’histoire fait état de nombreux cas de mauvaises anonymisations, utilisant des données pseudonymisées en lieu et place de données anonymes, qui ont conduit à des atteintes graves à la vie privée des personnes concernées. On peut ainsi citer le cas des données pseudonymisées de taxis Newyorkais qui ont permis d’identifier les clients de bars à strip-tease ; ou encore le cas des données de santé publiées par une agence d’assurances aux États-Unis, qui ont permis en 1997, de réidentifier le gouverneur de l’État du Massachussetts, en retrouvant la maladie dont il souffrait. Ces risques ont conduit le G29 (Groupe des autorités de protection de données européennes) à publier en 2014, un avis sur les techniques d’anonymisation , qui sert de référence en matière d’anonymisation dans le cadre du RGPD. Cet avis définit trois principaux risques relatifs à l’anonymisation des données : l’individualisation, la corrélation et l’inférence. Ces risques forment le socle de l’évaluation des méthodes d’anonymisation. D’autre part, l’anonymisation n’a pas pour seul but de protéger les personnes, elle doit aussi garantir que les données anonymes restent utiles pour le(s) besoin(s) cible(s). En effet, les méthodes d’anonymisation altèrent les données, qui peuvent, lorsque les précautions appropriées ne sont pas prises, devenir inutiles une fois anonymisées.
Cet article présente les enjeux de l’anonymisation de données à l’ère du RGPD, ainsi que les méthodes appropriées pour la mise en œuvre d’une anonymisation conforme. Il présente les contraintes du RGPD qui rendent nécessaire l’anonymisation des données, de même que les confusions les plus fréquentes observées en matière d’anonymisation de données. Par ailleurs, les modèles d’anonymisation recommandés, tels que la randomisation et la généralisation, sont présentés ainsi que les techniques qui s’y rapportent. Finalement, une méthodologie, décrivant les différentes étapes à suivre pour mener un processus d’anonymisation, est décrite.