🔒 RGPD : L'anonymisation des données personnelles

Avant toute chose, revenons sur la notion de donnée personnelle. La Commission nationale de l'informatique et des libertés la définit comme :

Toute information relative à une personne physique susceptible d’être identifiée, directement ou indirectement.

Les législations ont progressivement mis en place un cadre juridique pour les protéger, comme le Règlement général sur la protection des données (RGPD) à l’échelle européenne.

Anonymisation et pseudonymisation des données personnelles

Pour la Commission nationale de l'informatique et des libertés (CNIL), l’anonymisation est :

Un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible.

La norme ISO/CEI 29100 fournissant un cadre pour la protection des informations personnelles identifiables la considère comme un :

Processus par lequel des informations personnellement identifiables (IPI) sont irréversiblement altérées de telle façon que le sujet des IPI ne puisse plus être identifié directement ou indirectement, que ce soit par le responsable du traitement des IPI seul ou en collaboration avec une quelconque autre partie.

L’anonymisation est marquée par l’irréversibilité de la perte du caractère identifiable. Elle permet de désensibiliser les données confidentielles en les transformant. Celles-ci restent tout de même exploitables.

L’article 4 du RGPD définit la pseudonymisation comme :

Le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable.

C’est un procédé réversible de remplacement des données. Elle n’efface pas le caractère nominatif des informations exploitées.

En l’absence d’irréversibilité, les techniques utilisées relèvent donc de la pseudonymisation et non de l’anonymisation. Contrairement à la pseudonymisation, l’anonymisation est une mesure de dénaturation et pas une simple mesure de sécurité.

Notez que la pseudonymisation est largement plus souple et plus évidente à mettre en place. C’est d’ailleurs pour cela qu’elle est beaucoup plus utilisée dans le cadre de projets où l’anonymat n’est pas un facteur bloquant.

L’anonymisation, méthode indispensable ?

Le RGPD ne comporte aucune obligation d’anonymisation. C’est simplement l’une des solutions existantes permettant d’exploiter des données personnelles tout en respectant les droits et libertés des personnes.

Grâce à elle, la réutilisation de données initialement interdites, en raison de leur caractère personnel, est permise et leur partage peut se faire sans porter atteinte à la vie privée de quiconque. Elle permet également de conserver des données au-delà de leur durée de conservation.

Pourquoi ? Car la législation relative à la protection des données ne va pas s’appliquer puisqu’une fois anonymisées, leur utilisation n’aura aucun impact sur ces individus.

L’anonymisation permet donc de se soustraire à la réglementation sur les données personnelles.

Ce processus peut être utile notamment concernant les publications de données ou dans le cadre de sondages.

En cas de publication de données qui ne seraient pas anonymisées, le responsable du traitement peut se rendre coupable d’un manquement à son obligation de confidentialité des données et donc à une violation des données qui sera notifiée à la CNIL si elle présente un risque pour les droits et libertés des personnes, et également aux personnes concernées si les risques sont élevés.

Techniques d’anonymisation des données

Il existe différentes techniques d’anonymisation permettant de réduire à néant la possibilité de réidentification d’un individu grâce aux données personnelles collectées. Ces techniques ont fait l’objet d’une étude en 2014 par le G29 (Groupe de travail Article 29 sur la protection des données), organe consultatif européen indépendant sur la protection des données et de la vie privée.

Le résultat de cette étude est que ces techniques peuvent être regroupées en deux groupes : la randomisation et la généralisation.

Il est essentiel de mettre en place un processus d’anonymisation réfléchi et pertinent. Pour cela, la CNIL recommande de se pencher avec attention sur les points suivants :

sélectionner les informations à conserver selon leur pertinence ;
effacer les éléments d’identification directe et ceux qui pourraient permettre une ré-identification de l’individu ;
distinguer les informations importantes des informations secondaires ou inutiles ;
définir la finesse idéale et acceptable pour chaque information conservée.

Grâce à ce processus, il sera ensuite possible de déterminer la technique d’anonymisation la plus adaptée à la situation.

La randomisation

La technique de randomisation a pour finalité de transformer les données afin qu’elles ne puissent plus être attribuées à une personne en particulier. Elles sont moins précises, mais la répartition globale est conservée. Elle permet de protéger le jeu de données du risque d’inférence.

Exemple :

Dans le cadre de cette technique, il est possible d’intervertir les dates de naissance des individus. La véracité des informations se voit donc altérée.

La généralisation

Cette technique consiste à généraliser les données pour les rendre communes à un ensemble de personnes et non à une personne en particulier. Cela se fait par exemple en modifiant l’échelle ou l’ordre de grandeur des attributs des jeux de données. Elle évite que les données soient individualisées.

Elle permet de protéger les jeux de données d’éventuelles corrélations avec d’autres.

Exemple :

Dans un fichier où sont indiquées les dates de naissance de différentes personnes, il est tout à fait possible de remplacer la date entière, par l’année de naissance uniquement.

La vérification de l’efficacité de l’anonymisation

De prime abord, rendre impossible l’identification d’une personne peut sembler facile. Toutefois, la seule suppression des éléments permettant de l’identifier ne suffit pas puisque aujourd’hui, de nombreux procédés existent pour exploiter des données et parvenir à identifier un individu.

C’est pourquoi, il est essentiel d’apprécier le degré d’efficacité de la technique d’anonymisation utilisée. Pour cela, les autorités de protection des données européennes ont défini trois critères complémentaires pour s’assurer que le jeu de données est devenu complètement anonyme. Bien qu’aucune technique ne soit efficace à 100 %, si une solution résiste à chacun de ces risques, elle offre une protection relativement solide contre les éventuelles tentatives de réidentification.

Les trois critères sont les suivants :

L’individualisation

Il ne doit pas être possible d’isoler une partie ou la totalité des enregistrements permettant d’identifier un individu dans un jeu de données.

Prenons l’exemple d’une base de données comprenant des CV. Dans le cas où les noms et prénoms d’un individu auraient été remplacés par un seul numéro, celui-ci permet malgré tout d’individualiser cette personne. En l’espèce, nous ne pouvons donc pas parler d’anonymisation, mais plutôt de pseudonymisation comme nous l’avons vu ci-dessus.
La corrélation

Il ne doit pas être possible de relier entre elles des ensembles de données se rapportant à la même personne ou à un même groupe de personnes.

Par exemple, s’il est possible d’établir, par n'importe quel moyen, que des enregistrements correspondent à un même groupe de personnes, sans pour autant permettre de les isoler au sein de ce groupe, alors le premier critère de "l’individualisation" est rempli puisque la personne ne peut pas être individualisée, mais la technique ne résiste pas à la corrélation.

Parallèlement, il n’est pas possible de considérer comme anonyme une base de données comprenant les adresses du domicile privé de différents particuliers si d’autres bases de données contiennent ces mêmes adresses avec d’autres données qui permettent d’identifier les individus.
L’inférence

Il ne doit pas être possible de déduire, avec une très haute probabilité, de nouvelles informations sur un individu.

Par exemple, si un jeu de données comprend des informations relatives au montant des impôts de différentes personnes recueillies via un questionnaire, et que toutes les femmes interrogées ayant entre 20 et 25 ans ne sont pas imposables, alors il sera facile de deviner que Madame Y âgée de 24 ans ayant répondu au questionnaire ne l’est pas non plus.

Anonymisation et pseudonymisation des données : délibérations de la CNIL et décisions du Conseil d’État

L’anonymisation des données peut se faire dans de très diverses situations. En voici quelques exemples.

En 2011, la CNIL a autorisé la mise en œuvre par la société CELTIPharm d’un traitement de données à caractère personnel afin de réaliser des études épidémiologiques grâce à des données provenant de feuilles de soins électroniques anonymisées (délibération n° 2011 -246 du 8 septembre 2011). L’anonymisation des données a été l’une des conditions nécessaires pour permettre la mise en œuvre des traitements de données dans le domaine de la santé.

Plus récemment, le Conseil d'État s’est prononcé sur deux arrêtés confiant la collecte et le traitement de données de santé à la plateforme "Health Data Hub". Il a affirmé que :

Le droit au respect de la vie privée n'implique pas que des données, même aussi sensibles que les données de santé, fassent dans tous les cas l'objet d'une anonymisation avant d'être traitées à des fins d'évaluation ou de recherche mais seulement "comme l’indique le RGPD" que des garanties appropriées soient prévues, qui peuvent comprendre la pseudonymisation, lorsque l'anonymisation ne permettrait pas de poursuivre les travaux de recherche nécessaires.

L’anonymisation est plus que jamais au cœur des discussions. Un arrêté du 28 avril 2021 relatif à la mise à disposition du public des décisions des juridictions administratives et judiciaires se heurte au caractère sensible de certaines données personnelles.

Cette mise à disposition ne pourrait donc avoir lieu que sous la condition d’anonymisation des décisions. Certains affirment qu'à travers ce processus, elles perdraient leur lisibilité et leur intérêt.

Est-ce que la liberté d’expression et le droit à l’information seront, dans ce cas, pleinement garantis ou au contraire menacés ? Telle est la question.

Juriste, titulaire d'un Master 2 Droit de la coopération économique et des affaires internationales à l'université de Hanoï, Vietnam et d'un Master 1 Droit privé international et comparé à l'université de Turin, Italie.

Anaïs ROBIN

Suivez-nous sur Linkedin