Comment protéger la confidentialité lors de l’agrégation des données de localisation pour lutter contre COVID-19

Comment protéger la confidentialité lors de l'agrégation des données de localisation pour lutter contre COVID-19

Alors que les gouvernements, le secteur privé, les ONG et d'autres se mobilisent pour lutter contre la pandémie de COVID-19, nous avons vu des appels à utiliser des informations de localisation – généralement tirées du GPS et des données des tours cellulaires – pour éclairer les efforts de santé publique. Parmi les utilisations proposées des données de localisation, l'une des plus largement discutées est l'analyse de données agrégées sur les sites que les gens visitent, s'ils voyagent moins et d'autres mesures collectives des mouvements des individus. Cette analyse pourrait être utilisée pour éclairer les jugements sur l'efficacité des ordonnances de refuge sur place et d'autres mesures de distanciation sociale. Les projets utilisant des données de localisation agrégées ont évalué les résidents de chaque État sur leur éloignement social et visualisé les habitudes de déplacement des personnes au retour de la relâche scolaire. Plus récemment, Google a annoncé qu'il publierait des «COVID-19 Community Mobility Reports» en cours, qui s'appuient sur le magasin de données de localisation de l'entreprise pour signaler les changements au niveau communautaire dans les déplacements des personnes vers divers endroits tels que les épiceries, les parcs et stations de transport en commun.

Comparé à l'utilisation de données de localisation individualisées pour la recherche des contacts – comme le font déjà de nombreux gouvernements à travers le monde – tirer des informations de santé publique à partir de données de localisation agrégées pose beaucoup moins de risques pour la vie privée et d'autres libertés civiles telles que les restrictions à la liberté d'expression et d'association. Cependant, même les données de localisation «agrégées» comportent des pièges potentiels. Cet article discute de ces pièges et décrit certaines des meilleures pratiques de haut niveau pour ceux qui cherchent à utiliser des données de localisation agrégées dans la lutte contre COVID-19.

Que signifie «agrégé»?

Au niveau le plus élémentaire, il existe une différence entre les données de localisation «agrégées» et les données de localisation «anonymisées» ou «désidentifiées». En pratique, il n'y a aucun moyen de désidentifier les données de localisation individuelles. Des informations sur l'endroit où se trouve et a été une personne sont généralement suffisantes pour la réidentifier. Une personne qui voyage fréquemment entre un immeuble de bureaux donné et une maison unifamiliale est probablement unique dans ces habitudes et donc identifiable à partir d'autres sources facilement identifiables. Une étude largement citée de 2013 a même révélé que les chercheurs pouvaient caractériser de manière unique 50% des personnes en utilisant seulement deux points de données de temps et d'emplacement choisis au hasard .

En revanche, l'agrégation pour préserver la vie privée des individus peut être utile. L'agrégation des données de localisation implique la production de décomptes de comportements au lieu de chronologies détaillées de l'historique de chaque localisation. Par exemple, une agrégation peut vous indiquer combien de téléphones de personnes ont signalé que leur emplacement se trouvait dans une certaine ville au cours du dernier mois. Ou cela pourrait vous dire, pour une zone donnée d'une ville, combien de personnes ont voyagé dans cette zone au cours de chaque heure au cours du dernier mois. La question de savoir si un schéma donné d'agrégation des données de localisation améliore la confidentialité dépend en grande partie des détails: sur quelle échelle de temps les données sont-elles agrégées? Quelle est la superficie d'une zone couverte par chaque comptage? Quand un décompte est-il considéré comme trop faible et supprimé de l'ensemble de données?

Par exemple, Facebook utilise des techniques différentielles de confidentialité telles que l'injection de bruit statistique dans l'ensemble de données dans le cadre de la méthodologie de son projet « Data for Good ». Ce projet regroupe les données de localisation des utilisateurs de Facebook et les partage avec diverses ONG, universitaires et gouvernements engagés dans la réponse aux catastrophes naturelles et la lutte contre la propagation des maladies, y compris COVID-19 .

Il n'y a pas de formule magique unique pour agréger les données de localisation individuelles de telle sorte qu'elles fournissent des informations qui pourraient être utiles pour certaines décisions et qui ne peuvent toujours pas être réidentifiées. C'est plutôt une question de compromis. Pour des raisons de politique publique, il est essentiel que la confidentialité des utilisateurs ne soit pas sacrifiée lors de la création d'ensembles de données de localisation agrégées pour éclairer les décisions concernant COVID-19 ou toute autre chose.

Comment évaluons-nous l'utilisation des données de localisation agrégées pour lutter contre le COVID-19?

Parce que l'agrégation réduit le risque de révéler des informations intimes sur la vie des individus, nous sommes moins préoccupés par cette utilisation des données de localisation pour lutter contre COVID-19 par rapport au suivi individualisé. Bien entendu, le choix des paramètres d'agrégation doit généralement être fait par des experts du domaine. Comme dans les exemples Facebook et Google ci-dessus, ces experts travailleront souvent au sein d'entreprises privées disposant d'un accès propriétaire aux données. Même s'ils font tous les bons choix, le public doit pouvoir revoir ces choix car les entreprises partagent les données du public . Pour les experts qui effectuent l'agrégation, il y a souvent une pression pour réduire les propriétés de confidentialité afin de générer un ensemble de données agrégées qu'un décideur particulier doit affirmer être plus granulaire afin d'avoir du sens pour lui. Idéalement, les entreprises devraient également consulter des experts externes avant d'aller de l'avant avec des plans d'agrégation et de partage des données de localisation. Obtenir l'opinion du public sur la question de savoir si un système de partage de données donné préserve suffisamment la vie privée peut aider à réduire le biais que cette pression crée.

En conséquence, les entreprises comme Google qui produisent des rapports basés sur les données de localisation agrégées des utilisateurs doivent publier leur méthodologie complète ainsi que des informations sur qui ces rapports sont partagés et dans quel but. Dans la mesure où ils ne partagent que certaines données avec des «partenaires» sélectionnés, ces groupes devraient accepter de ne pas utiliser les données à d'autres fins ou de tenter de ré-identifier les personnes dont les données sont incluses dans l'agrégation. Et, comme Google l'a déjà fait, les entreprises devraient s'engager à mettre fin à l'utilisation de ces données lorsque le besoin de lutter contre le COVID-19 disparaîtra.

Pour tout plan de partage de données, le consentement est essentiel: chaque personne a-t-elle consenti à la méthode de collecte des données et a-t-elle consenti à son utilisation? Le consentement doit être spécifique, éclairé, facultatif et volontaire. Habituellement, les utilisateurs devraient avoir le choix de participer à chaque nouvelle utilisation de leurs données, mais nous reconnaissons que l'obtention du consentement pour agréger les données de localisation précédemment acquises pour lutter contre COVID-19 peut être difficile avec une vitesse suffisante pour répondre aux besoins de santé publique . C'est pourquoi il est particulièrement important que les utilisateurs puissent consulter et supprimer leurs données à tout moment . La même chose devrait être vraie pour toute personne qui consent vraiment à la collecte de ces informations. De nombreuses entités qui détiennent des informations de localisation, comme les courtiers de données qui collectent la localisation à partir des annonces et le suivi caché dans les applications, ne peuvent pas respecter ces normes de consentement. Pourtant, bon nombre des utilisations des données de localisation agrégées que nous avons vues en réponse à COVID-19 proviennent de ces sources viciées. À tout le moins, les courtiers en données ne devraient pas bénéficier des informations de santé publique issues de leurs magasins de données de localisation, y compris par le biais de la publicité gratuite. Ils ne devraient pas non plus être autorisés à «laver COVID» leurs pratiques commerciales: l'existence de ces magasins de données est contraire à l'éthique et devrait être abordée par de nouvelles lois sur la confidentialité des données des consommateurs .

Enfin, nous devons nous rappeler que les données de localisation collectées à partir des smartphones ont des limites et des biais. La possession d'un smartphone reste un indicateur de la richesse relative, même dans des régions comme les États-Unis où 80% des adultes ont un smartphone . Les personnes sans smartphone ont tendance à être déjà marginalisées, donc l'élaboration de politiques publiques basées sur des données de localisation agrégées peut ne pas tenir compte des besoins de ceux qui n'apparaissent tout simplement pas dans les données et qui ont le plus besoin de services. Même parmi les personnes disposant de smartphones, l'apparente autorité et l'exhaustivité des données à grande échelle peuvent amener les dirigeants à tirer des conclusions erronées qui négligent les besoins des personnes disposant de moins de ressources. Par exemple, les données montrant que les gens dans une région voyagent plus que les gens dans une autre région pourraient ne pas signifier, comme cela apparaît d'abord, que ces personnes ne prennent pas au sérieux la distance sociale. Cela pourrait signifier, au contraire, qu'ils vivent dans une zone mal desservie et doivent donc parcourir de plus longues distances pour des services essentiels comme les épiceries et les pharmacies.

En général, nos conseils aux organisations qui envisagent de partager des données de localisation agrégées: Obtenez le consentement des utilisateurs qui fournissent les données. Faites attention aux détails. Agréger au plus haut niveau de généralité qui sera utile. Partagez vos plans avec le public avant de publier les données. Et évitez de partager des données de localisation «désidentifiées» ou «anonymisées» qui ne sont pas agrégées – cela ne fonctionne pas.


Cet article est une traduction automatique d’un post publié sur le site d’Electronic Frontier Foundation à l’URL https://www.eff.org/deeplinks/2020/04/how-protect-privacy-when-aggregating-location-data-fight-covid-19 le Mon, 06 Apr 2020 22:02:13 +0000.