Avant toute chose, revenons sur la notion de donnée personnelle. La Commission nationale de l'informatique et des libertés la définit comme :
Toute information relative à une personne physique susceptible d’être identifiée, directement ou indirectement.
Les législations ont progressivement mis en place un cadre juridique pour les protéger, comme le Règlement général sur la protection des données (RGPD) à l’échelle européenne.
Anonymisation et pseudonymisation des données personnelles
Pour la Commission nationale de l'informatique et des libertés (CNIL), l’anonymisation est :
Un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible.
La norme ISO/CEI 29100 fournissant un cadre pour la protection des informations personnelles identifiables la considère comme un :
Processus par lequel des informations personnellement identifiables (IPI) sont irréversiblement altérées de telle façon que le sujet des IPI ne puisse plus être identifié directement ou indirectement, que ce soit par le responsable du traitement des IPI seul ou en collaboration avec une quelconque autre partie.
L’anonymisation est marquĂ©e par l’irrĂ©versibilitĂ© de la perte du caractère identifiable. Elle permet de dĂ©sensibiliser les donnĂ©es confidentielles en les transformant. Celles-ci restent tout de mĂŞme exploitables.Â
L’article 4 du RGPD définit la pseudonymisation comme :
Le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable.
C’est un procédé réversible de remplacement des données. Elle n’efface pas le caractère nominatif des informations exploitées.
En l’absence d’irrĂ©versibilitĂ©, les techniques utilisĂ©es relèvent donc de la pseudonymisation et non de l’anonymisation. Contrairement Ă la pseudonymisation, l’anonymisation est une mesure de dĂ©naturation et pas une simple mesure de sĂ©curitĂ©.Â
Notez que la pseudonymisation est largement plus souple et plus évidente à mettre en place. C’est d’ailleurs pour cela qu’elle est beaucoup plus utilisée dans le cadre de projets où l’anonymat n’est pas un facteur bloquant.
L’anonymisation, mĂ©thode indispensable ?Â
Le RGPD ne comporte aucune obligation d’anonymisation. C’est simplement l’une des solutions existantes permettant d’exploiter des données personnelles tout en respectant les droits et libertés des personnes.
Grâce à elle, la réutilisation de données initialement interdites, en raison de leur caractère personnel, est permise et leur partage peut se faire sans porter atteinte à la vie privée de quiconque. Elle permet également de conserver des données au-delà de leur durée de conservation.
Pourquoi ? Car la législation relative à la protection des données ne va pas s’appliquer puisqu’une fois anonymisées, leur utilisation n’aura aucun impact sur ces individus.
L’anonymisation permet donc de se soustraire à la réglementation sur les données personnelles.
Ce processus peut être utile notamment concernant les publications de données ou dans le cadre de sondages.
En cas de publication de données qui ne seraient pas anonymisées, le responsable du traitement peut se rendre coupable d’un manquement à son obligation de confidentialité des données et donc à une violation des données qui sera notifiée à la CNIL si elle présente un risque pour les droits et libertés des personnes, et également aux personnes concernées si les risques sont élevés.
Techniques d’anonymisation des données
Il existe différentes techniques d’anonymisation permettant de réduire à néant la possibilité de réidentification d’un individu grâce aux données personnelles collectées. Ces techniques ont fait l’objet d’une étude en 2014 par le G29 (Groupe de travail Article 29 sur la protection des données), organe consultatif européen indépendant sur la protection des données et de la vie privée.
Le résultat de cette étude est que ces techniques peuvent être regroupées en deux groupes : la randomisation et la généralisation.
Il est essentiel de mettre en place un processus d’anonymisation réfléchi et pertinent. Pour cela, la CNIL recommande de se pencher avec attention sur les points suivants :
- sélectionner les informations à conserver selon leur pertinence ;
- effacer les éléments d’identification directe et ceux qui pourraient permettre une ré-identification de l’individu ;
- distinguer les informations importantes des informations secondaires ou inutiles ;
- définir la finesse idéale et acceptable pour chaque information conservée.
Grâce à ce processus, il sera ensuite possible de déterminer la technique d’anonymisation la plus adaptée à la situation.
La randomisation
La technique de randomisation a pour finalité de transformer les données afin qu’elles ne puissent plus être attribuées à une personne en particulier. Elles sont moins précises, mais la répartition globale est conservée. Elle permet de protéger le jeu de données du risque d’inférence.
Dans le cadre de cette technique, il est possible d’intervertir les dates de naissance des individus. La véracité des informations se voit donc altérée.
La généralisation
Cette technique consiste à généraliser les données pour les rendre communes à un ensemble de personnes et non à une personne en particulier. Cela se fait par exemple en modifiant l’échelle ou l’ordre de grandeur des attributs des jeux de données. Elle évite que les données soient individualisées.
Elle permet de protéger les jeux de données d’éventuelles corrélations avec d’autres.
Dans un fichier oĂą sont indiquĂ©es les dates de naissance de diffĂ©rentes personnes, il est tout Ă fait possible de remplacer la date entière, par l’annĂ©e de naissance uniquement.Â
La vérification de l’efficacité de l’anonymisation
De prime abord, rendre impossible l’identification d’une personne peut sembler facile. Toutefois, la seule suppression des Ă©lĂ©ments permettant de l’identifier ne suffit pas puisque aujourd’hui, de nombreux procĂ©dĂ©s existent pour exploiter des donnĂ©es et parvenir Ă identifier un individu.Â
C’est pourquoi, il est essentiel d’apprécier le degré d’efficacité de la technique d’anonymisation utilisée. Pour cela, les autorités de protection des données européennes ont défini trois critères complémentaires pour s’assurer que le jeu de données est devenu complètement anonyme. Bien qu’aucune technique ne soit efficace à 100 %, si une solution résiste à chacun de ces risques, elle offre une protection relativement solide contre les éventuelles tentatives de réidentification.
Les trois critères sont les suivants :
-
L’individualisation
Il ne doit pas être possible d’isoler une partie ou la totalité des enregistrements permettant d’identifier un individu dans un jeu de données.
Prenons l’exemple d’une base de données comprenant des CV. Dans le cas où les noms et prénoms d’un individu auraient été remplacés par un seul numéro, celui-ci permet malgré tout d’individualiser cette personne. En l’espèce, nous ne pouvons donc pas parler d’anonymisation, mais plutôt de pseudonymisation comme nous l’avons vu ci-dessus.
-
La corrélation
Il ne doit pas être possible de relier entre elles des ensembles de données se rapportant à la même personne ou à un même groupe de personnes.
Par exemple, s’il est possible d’établir, par n'importe quel moyen, que des enregistrements correspondent à un même groupe de personnes, sans pour autant permettre de les isoler au sein de ce groupe, alors le premier critère de "l’individualisation" est rempli puisque la personne ne peut pas être individualisée, mais la technique ne résiste pas à la corrélation.
Parallèlement, il n’est pas possible de considérer comme anonyme une base de données comprenant les adresses du domicile privé de différents particuliers si d’autres bases de données contiennent ces mêmes adresses avec d’autres données qui permettent d’identifier les individus.
-
L’inférence
Il ne doit pas être possible de déduire, avec une très haute probabilité, de nouvelles informations sur un individu.
Par exemple, si un jeu de donnĂ©es comprend des informations relatives au montant des impĂ´ts de diffĂ©rentes personnes recueillies via un questionnaire, et que toutes les femmes interrogĂ©es ayant entre 20 et 25 ans ne sont pas imposables, alors il sera facile de deviner que Madame Y âgĂ©e de 24 ans ayant rĂ©pondu au questionnaire ne l’est pas non plus.Â
Anonymisation et pseudonymisation des données : délibérations de la CNIL et décisions du Conseil d’État
L’anonymisation des donnĂ©es peut se faire dans de très diverses situations. En voici quelques exemples.Â
En 2011, la CNIL a autorisé la mise en œuvre par la société CELTIPharm d’un traitement de données à caractère personnel afin de réaliser des études épidémiologiques grâce à des données provenant de feuilles de soins électroniques anonymisées (délibération n° 2011 -246 du 8 septembre 2011). L’anonymisation des données a été l’une des conditions nécessaires pour permettre la mise en œuvre des traitements de données dans le domaine de la santé.
Plus récemment, le Conseil d'État s’est prononcé sur deux arrêtés confiant la collecte et le traitement de données de santé à la plateforme "Health Data Hub". Il a affirmé que :
Le droit au respect de la vie privée n'implique pas que des données, même aussi sensibles que les données de santé, fassent dans tous les cas l'objet d'une anonymisation avant d'être traitées à des fins d'évaluation ou de recherche mais seulement "comme l’indique le RGPD" que des garanties appropriées soient prévues, qui peuvent comprendre la pseudonymisation, lorsque l'anonymisation ne permettrait pas de poursuivre les travaux de recherche nécessaires.
L’anonymisation est plus que jamais au cĹ“ur des discussions. Un arrĂŞtĂ© du 28 avril 2021 relatif Ă la mise Ă disposition du public des dĂ©cisions des juridictions adminiÂstratives et judiciaires se heurte au caractère sensible de certaines donnĂ©es personnelles.
Cette mise à disposition ne pourrait donc avoir lieu que sous la condition d’anonymisation des décisions. Certains affirment qu'à travers ce processus, elles perdraient leur lisibilité et leur intérêt.
Est-ce que la liberté d’expression et le droit à l’information seront, dans ce cas, pleinement garantis ou au contraire menacés ? Telle est la question.