Le RGPD définit des contraintes qui limitent, et parfois empêchent, l’exploitation des données. L’anonymisation est la seule méthode permettant une exploitation sans risque de sanctions car elle enlève le caractère personnel aux données. Mais quelques précautions s’imposent !

Le nouveau règlement sur la protection des données (RGPD) apporte des changements profonds et inédits dans la gestion des données par les organisations. Il n’existe pour ainsi dire aucun texte de loi comparable, aussi bien en termes de portée, qu’en termes de sanctions. Les sanctions en cas de non-respect peuvent aller jusqu’à 20 millions d’euros ou 4 % du chiffre d’affaires mondial de l’entreprise concernée (le plus élevé étant retenu).

Au-delà des sanctions pécuniaires, le RGPD présente d’autres enjeux considérables car il encadre très précisément les données personnelles, connues pour être le pétrole de notre ère. Il est évidemment difficile de nier la place centrale qu’occupent les données dans la création de valeur ; ceci, aussi bien pour le développement de nouveaux services, que pour l’amélioration de services existants. Le RGPD s’applique ainsi à tous traitements de données à caractère personnel (collecte, enregistrement, organisation, conservation…), et peut, dans certains cas, interdire leur mise en œuvre, et même imposer la suppression des données collectées. Par exemple, l’un des principes du RGPD est la limitation de durée de conservation, qui interdit de conserver les données au-delà d’une certaine durée ; elles devront alors être supprimées ou archivées avec un accès restreint.

L’anonymisation des données, seule alternative prévue par le RGPD

Afin d’éviter les contraintes du RGPD sans pour autant se priver des bénéfices des données, la seule alternative prévue par le règlement est l’anonymisation des données. En effet, pour le RGPD, des données anonymes sont équivalentes à des données supprimées, et les principes du RGPD ne s’appliquent plus. Ceci est dû au fait que l’anonymisation transforme des données personnelles en données qui ne sont plus personnelles.

Cependant, la mise en œuvre de l’anonymisation demande de prendre des précautions particulières, dues aux risques importants qui en découlent : l’anonymisation fait encore l’objet de multiples confusions et d’a priori de la part d’une grande partie des acteurs de la donnée. L’histoire fait état de nombreux cas de mauvaises anonymisations qui ont conduit à des atteintes graves à la vie privée des personnes concernées. On peut ainsi citer le cas des données pseudonymisées de taxis Newyorkais qui ont permis d’identifier les clients de bars à strip-tease ; ou encore le cas des données de santé publiées par une agence d’assurances aux États-Unis, qui ont permis en 1997, de réidentifier le gouverneur de l’État du Massachussetts, en retrouvant la maladie dont il souffrait.

Confusion entre anonymisation, chiffrement et pseudonymisation

Il est fréquent de confondre chiffrement et pseudonymisation à l’anonymisation. Si le chiffrement peut être utilisé dans certains cas pour faire de la pseudonymisation, l’anonymisation se base sur des principes complètement différents. La figure ci-dessous illustre le chiffrement de données. Le message « RDV chez moi à 10 h » est chiffré par une clé de chiffrement/déchiffrement que seuls l’émetteur (Alice) et le destinataire (Bob) possèdent. Ce message est ensuite transmis par un canal non sécurisé, mais il est inintelligible à toute personne (Ève) ne possédant pas la clé de déchiffrement.

Ainsi, l’anonymisation est un procédé irréversible alors que le chiffrement et la pseudonymisation sont par définition réversibles, la pseudonymisation étant réversible à condition d’avoir des informations supplémentaires et le chiffrement à condition d’avoir la clé de déchiffrement. On ne saurait donc utiliser le chiffrement ou la pseudonymisation à la place de l’anonymisation car ils permettent de revenir aux données d’origine qui sont identifiables. Cependant, le chiffrement peut être utilisé pour faire de la pseudonymisation dans la mesure où les informations supplémentaires, nécessaires pour identifier les personnes concernées, font référence à la clé de déchiffrement.

Par ailleurs, bien que la pseudonymisation soit insuffisante pour faire sortir les données du champ d’application du RGPD, sa mise en œuvre est encadrée, et nécessite des précautions particulières (Avis du G29 ). Il est par exemple déconseillé d’utiliser des fonctions de hachage « nues » (sans mesure de protection supplémentaire) pour la pseudonymisation. En effet, si la fourchette des valeurs d’entrée de la fonction est connue, il est possible de rejouer ces valeurs afin d’obtenir les valeurs de sortie correspondantes et ainsi, de retrouver les valeurs d’origine à partir des valeurs hachées.

L’anonymisation possède donc des propriétés différentes de celles du chiffrement et de la pseudonymisation. Ces propriétés font de l’anonymisation, la seule méthode permettant de faire sortir les données du champ d’application du RGPD.

Rappel

L’anonymisation (ISO 29100) est définie comme : « le processus par lequel des informations personnellement identifiables sont altérées de façon irréversible de sorte que la personne à laquelle se rapporte l’information ne puisse plus être identifiée directement ou indirectement. »

Le chiffrement (ISO 29100) est « un procédé qui consiste à transformer un message intelligible (appelé clair) en un message inintelligible (appelé chiffré) et d’en assurer le déchiffrement uniquement aux personnes autorisées, détenant un secret (appelé clé de déchiffrement). »

La pseudonymisation (RGPD) est définie comme « le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable. »

La réidentification est définie comme le procédé par lequel une information d’intérêt, contenue dans un jeu de données anonymisées, est associée à une information pouvant identifier directement une personne (ex : nom, numéro de sécurité social, adresse, photo…).

