Risques émergents pour la vie privée dans l’intelligence artificielle : le défi du stockage dans les modèles linguistiques

Une étude révolutionnaire impliquant des chercheurs de Google DeepMind, de l'Université de Washington, de l'UC Berkley et d'autres a révélé un aspect surprenant des grands modèles de langage comme ChatGPT : leur capacité à mémoriser et à reproduire des données spécifiques sur lesquelles ils ont été formés. Ce phénomène, connu sous le nom de « mémorisation », pose d’importants problèmes de confidentialité, d’autant plus que ces modèles s’entraînent souvent sur des données textuelles volumineuses et diverses, y compris des informations potentiellement sensibles.

Comprendre le stockage amovible

L'étude, axée sur le « stockage exploitable », cherchait à déterminer si des entités externes pouvaient extraire des données spécifiques tirées de ces modèles sans connaissance préalable de l'ensemble de formation. Cette mémorisation n’est pas seulement une préoccupation théorique ; a des implications réelles en matière de confidentialité.

Méthodologie et résultats de recherche

Les chercheurs ont utilisé une nouvelle méthodologie, générant des jetons étendus à partir de divers modèles et les comparant à des ensembles de données d'entraînement pour identifier les cas de mémorisation directe. Ils ont développé une méthode unique pour ChatGPT, connue sous le nom d'« attaque de divergence », dans laquelle le modèle est invité à prononcer un mot jusqu'à ce qu'il s'écarte de manière répétée des données stockées. Étonnamment, les modèles, y compris ChatGPT, ont montré une rétention significative, régurgitant des blocs de données de formation sur demande spécifique.

L'attaque par divergence et ChatGPT

Pour ChatGPT, l’attaque par divergence s’est révélée particulièrement révélatrice. Les chercheurs ont poussé le modèle à répéter un mot plusieurs fois, ce qui l’a amené à s’écarter des réponses standard et à produire des données mémorisées. Cette méthode était pratique et préoccupante en raison de ses implications en matière de confidentialité, car elle démontrait la capacité d'extraire des informations potentiellement sensibles.

Le résultat alarmant de l'étude était que les données stockées pouvaient inclure des informations personnelles telles que des adresses e-mail et des numéros de téléphone. En utilisant à la fois des expressions régulières et des invites de modèle de langage, les chercheurs ont évalué 15 000 générations de sous-chaînes ressemblant à des informations personnellement identifiables (PII). Environ 16,9 % des générations contenaient des informations personnelles stockées, dont 85,8 % étaient des informations personnelles réelles et non du contenu halluciné.

Implications pour la conception et l'utilisation de modèles de langage

Ces résultats sont significatifs pour la conception et l’application de modèles de langage. Les techniques actuelles, même celles utilisées dans ChatGPT, peuvent ne pas empêcher suffisamment les fuites de données. L'étude souligne la nécessité de méthodes de déduplication des données de formation plus robustes et d'une compréhension plus approfondie de la façon dont la capacité du modèle affecte la rétention.

La méthode principale impliquait de générer du texte à partir de divers modèles et de vérifier ces résultats par rapport aux ensembles de données de formation respectifs des modèles pour le stockage. Des tableaux de suffixes ont été utilisés pour une correspondance efficace, permettant des recherches rapides de sous-chaînes dans un vaste corpus de texte.

Des modèles plus étendus, des risques de stockage plus importants

Une corrélation notable est apparue entre la taille du modèle et sa propension à mémoriser. Des modèles plus grands tels que GPT-Neo, LLaMA et ChatGPT ont montré une probabilité plus élevée de générer des données de formation stockées, suggérant une relation directe entre la capacité du modèle et le stockage.

L’étude met en évidence un aspect crucial du développement de l’IA : garantir que les modèles puissants respectent la vie privée des utilisateurs. Il ouvre de nouvelles voies de recherche et de développement, en se concentrant sur l’amélioration de la protection de la vie privée dans les modèles d’IA, en particulier ceux utilisés dans les applications sensibles à la vie privée.

Alors que l’IA continue d’évoluer, cette étude met en lumière un aspect essentiel de son développement : la nécessité de renforcer les mesures de confidentialité dans les modèles linguistiques. La révélation de la capacité de l'IA à stocker et potentiellement divulguer des informations sensibles nécessite une action immédiate sur le terrain, exhortant les développeurs et les chercheurs à créer des modèles non seulement puissants, mais qui protègent également la vie privée des utilisateurs. Cette recherche marque une étape importante vers la compréhension et l’atténuation des risques pour la vie privée associés aux technologies d’intelligence artificielle et d’apprentissage automatique.