De mauvaises données « pour de bon » : comment les courtiers en données essaient de se cacher derrière la recherche universitaire

De mauvaises données « pour de bon » : comment les courtiers en données essaient de se cacher derrière la recherche universitaire

Lorsque le courtier de données SafeGraph s'est fait prendre à vendre des informations de localisation sur les visiteurs de Planned Parenthood , il avait un tour de relations publiques dans sa manche. Après que l'entreprise ait accepté de supprimer les données des centres de planification familiale de ses plates-formes en réponse au tollé général, le PDG Auren Hoffman a tenté de renverser l'histoire : il a affirmé que la collecte et le partage de données sensibles par son entreprise étaient, en fait, un moteur de recherche bénéfique sur accès à l'avortement. Il a même fait valoir que la suppression post-scandale des données de la clinique par SafeGraph était le vrai problème : « Une fois que nous avons décidé de les supprimer, des centaines de chercheurs se sont plaints de… leur avoir retiré ces données. Bien sûr, lorsqu'il a été pressé, Hoffman n'a pas pu nommer de chercheurs ou d'institutions individuels.

SafeGraph n'est pas le seul parmi les courtiers en données de localisation à essayer de "laver la recherche" de son modèle commercial et de ses données envahissant la vie privée par le biais de travaux universitaires. D'autres acteurs louches comme Veraset , Cuebiq , Spectus et X-Mode exploitent également des programmes dits de « données pour le bien » avec des universitaires, et ont profité de la pandémie pour les étendre. Ces courtiers de données fournissent des données de localisation aux chercheurs universitaires de toutes les disciplines, les publications résultantes apparaissant dans des lieux évalués par des pairs aussi prestigieux que Nature et les Actes de l'Académie nationale des sciences . Les données de ces entreprises sont si largement utilisées dans la recherche sur la mobilité humaine – de la prévision des épidémies et des interventions d'urgence à la planification urbaine et au développement des entreprises – que la littérature a évolué vers des méta-études comparant, par exemple, les ensembles de données Spectus, X-Mode et Veraset .

Les courtiers en données prétendent apporter de la "transparence" à la technologie ou " démocratiser l'accès aux données ". Mais ces programmes de partage de données ne sont rien de plus que des tentatives des courtiers en données pour contrôler le discours entourant leurs pratiques commerciales impopulaires et non consensuelles . La recherche universitaire critique ne doit pas dépendre de pipelines de données à but lucratif qui mettent en danger la sécurité, la confidentialité et les opportunités économiques de millions de personnes sans aucun consentement valable.

Les courtiers en données ne fournissent pas de données anonymes et opt-in

Les courtiers en données de localisation sont loin de répondre aux normes de recherche sur les sujets humains. Cela commence par le fait qu'un consentement opt-in significatif est systématiquement absent de leurs pratiques commerciales. En fait, Google a conclu que les pratiques de SafeGraph étaient tellement hors de propos qu'il a interdit toutes les applications utilisant le code de l'entreprise de son Play Store, et Apple et Google ont interdit X-Mode de leurs magasins d'applications respectifs.

Les courtiers en données affirment fréquemment que les données qu'ils collectent sont « opt-in » parce qu'un utilisateur a accepté de les partager avec une application, même si la grande majorité des utilisateurs n'ont aucune idée qu'elles sont vendues en parallèle à des courtiers en données qui, à leur tour, vendre aux entreprises, aux gouvernements et à d'autres. Techniquement, il est vrai que les utilisateurs doivent accepter de partager des données de localisation avec, par exemple, une application météo avant qu'elle ne leur fournisse des prévisions localisées. Mais aucune personne raisonnable ne croit que cela constitue un consentement général pour la longue liste de partage, de vente et d'analyse de données qu'un certain nombre de tiers obscurs mènent en arrière-plan.

Aucun protocole d'agrégation préservant la vie privée ne peut justifier la collecte de données de localisation auprès de personnes sans leur consentement.

En plus d'être collectées et partagées sans consentement, les données qui alimentent les produits des courtiers en données peuvent facilement être liées à des personnes identifiables. Les entreprises affirment que leurs données sont anonymisées, mais il n'existe tout simplement pas de données de localisation anonymes. L' information sur l'endroit où une personne a été est en soi suffisante pour la ré-identifier : une étude largement citée de 2013 a révélé que les chercheurs pouvaient caractériser de manière unique 50 % des personnes en utilisant seulement deux points de données de temps et de lieu choisis au hasard . Les courtiers en données collectent aujourd'hui des données utilisateur sensibles à partir d'une grande variété de sources, y compris le suivi caché en arrière-plan des applications mobiles. Alors que les techniques varient et sont souvent cachées derrière des couches d'accords de non-divulgation (ou NDA), les données brutes qu'elles collectent et traitent sont basées sur des traces de localisation individuelles sensibles.

L'agrégation des données de localisation peut parfois préserver la vie privée des individus, étant donné des paramètres appropriés qui prennent en compte le nombre de personnes représentées dans l'ensemble de données et sa granularité. Mais aucun protocole d'agrégation préservant la confidentialité ne peut justifier la collecte initiale de données de localisation auprès de personnes sans leur consentement volontaire et significatif, en particulier lorsque ces données de localisation sont ensuite exploitées à des fins lucratives et de relations publiques.

Les produits des courtiers en données sont notoirement faciles à réidentifier , en particulier lorsqu'ils sont combinés avec d'autres ensembles de données. Et combiner des ensembles de données est exactement ce que font certaines études universitaires. Des études publiées ont combiné des ensembles de données de localisation de courtiers de données avec des données de recensement , des estimations de trafic Google Maps en temps réel , des enquêtes auprès des ménages locaux et des données du ministère des Transports de l'État . Alors que les chercheurs semblent simplement créer les ensembles de données les plus fiables et les plus complets possibles pour leur travail, ce type de fusion est également la première étape que quelqu'un prendrait s'il voulait ré-identifier les données.

NDA, NDA, NDA

Les courtiers en données ne sont pas de bonnes sources d'informations sur les courtiers en données, et les chercheurs doivent se méfier de toute affirmation qu'ils font au sujet des données qu'ils fournissent. Comme le dit Wolfie Cristl , chercheur chez Cracked Labs , ce que les courtiers en données ont à offrir est "potentiellement défectueux, biaisé, indigne de confiance, voire frauduleux".

Certains chercheurs décrivent de manière incorrecte les données qu'ils reçoivent des courtiers en données. Par exemple, un article décrit les données de SafeGraph comme des « données de mobilité humaine anonymisées » ou des « données de trafic piétonnier issues du suivi GPS des smartphones opt-in ». Un autre décrit Spectus comme fournissant des "données de localisation anonymes et conformes à la confidentialité" avec un " cadre de confidentialité à toute épreuve". Encore une fois, ces données de localisation ne sont pas opt-in, non anonymisées et non conformes à la confidentialité.

D'autres chercheurs font des affirmations contradictoires sur les données de localisation. Un article de Nature caractérise les données de localisation de Veraset comme réalisant l'exploit impossible d'être à la fois « fines » et « anonymes ». Ce document indique en outre qu'il a utilisé des points de données spécifiques tels que "les identifiants d'appareils anonymisés" et "les horodatages et les coordonnées géographiques précises des points d'habitation" où un appareil passe plus de 5 minutes. Ces données fines ne peuvent pas être anonymes. 

Tout cela devrait être un signal d'alarme pour les comités d'examen institutionnels, qui ont besoin de savoir si les courtiers en données obtiennent réellement le consentement.

Un accord d'accès aux données Veraset obtenu par EFF comprend une clause de publicité, donnant à Veraset le contrôle sur la façon dont ses partenaires peuvent divulguer l'implication de Veraset dans les publications. Cela inclut la prérogative de Veraset d'approuver la langue ou de rester anonyme en tant que source de données. Alors que l'accord de Veraset que nous avons vu était avec un gouvernement municipal, sa formulation suggérée apparaît dans plusieurs publications universitaires , ce qui suggère qu'un accord similaire pourrait être en jeu avec des universitaires.

Un schéma similaire apparaît dans les articles utilisant des données X-Mode : certains utilisent un langage presque textuel pour décrire l'entreprise. Ils affirment même que sa NDA est une bonne chose pour la confidentialité et la sécurité, déclarant : "Tous les chercheurs ont traité et analysé les données dans le cadre d'un accord de non-divulgation et étaient obligés de ne plus partager les données et de ne pas tenter de ré-identifier les données". Mais ces mêmes NDA empêchent les universitaires, les journalistes et d'autres acteurs de la société civile de comprendre les pratiques commerciales des courtiers en données ou d'identifier le réseau d'agrégateurs de données, les échanges de technologies publicitaires et les applications mobiles sur lesquels reposent leurs magasins de données.

Tout cela devrait être un signal d'alarme pour les comités d'examen institutionnels, qui examinent les propositions de recherche sur des sujets humains et ont besoin de savoir si et comment les courtiers en données et leurs partenaires obtiennent réellement le consentement des utilisateurs. De même, les universitaires eux-mêmes doivent être en mesure de confirmer l'intégrité et la provenance des données sur lesquelles reposent leurs travaux.

De l'assurance contre la mauvaise presse à la transparence responsable

Les programmes de partage de données avec les universitaires ne sont que la pointe de l'iceberg. Pour dissimuler le rôle dangereux qu'ils jouent dans l'écosystème des données en ligne, les courtiers en données nouent des relations non seulement avec les institutions universitaires et les chercheurs, mais également avec les autorités gouvernementales , les journalistes et les journalistes et les organisations à but non lucratif . 

La question de savoir comment équilibrer la transparence des données avec la confidentialité des utilisateurs n'est pas nouvelle , et il ne peut être laissé aux Verasets et aux X-Modes du monde d'y répondre. Les programmes de partage de données académiques continueront de fonctionner comme des opérations de relations publiques fallacieuses jusqu'à ce que les entreprises soient soumises à des exigences de confidentialité et de transparence des données. Alors que SafeGraph affirme que ses données pourraient ouvrir la voie à des recherches percutantes sur l'accès à l'avortement, il n'en reste pas moins que ces mêmes données mettent en danger les demandeurs, les prestataires et les défenseurs de l'avortement, en particulier à la suite de Dobbs . Les données sensibles sur lesquelles les courtiers de données de localisation traitent ne doivent être collectées et utilisées qu'avec un consentement spécifique et éclairé, et les sujets doivent avoir le droit de retirer ce consentement à tout moment. Un tel consentement n'existe pas actuellement.

Nous avons besoin d'une législation fédérale complète sur la confidentialité des données des consommateurs pour faire respecter ces normes, avec un droit d'action privé permettant aux citoyens ordinaires d'intenter leurs propres poursuites contre les courtiers en données qui violent leurs droits à la vie privée. De plus, nous devons retirer les NDA pour permettre des recherches sur ces courtiers en données eux-mêmes : leurs pratiques commerciales, leurs partenaires, la manière dont leurs données peuvent être utilisées de manière abusive et comment protéger les personnes que les courtiers en données mettent en danger.


Cet article est une traduction automatique d’un post publié sur le site d’Electronic Frontier Foundation à l’URL https://www.eff.org/deeplinks/2022/08/bad-data-good-how-data-brokers-try-hide-academic-research le Tue, 16 Aug 2022 19:39:44 +0000.