Pas de robots (.txt) : comment demander à ChatGPT et Google Bard de ne pas utiliser votre site Web pour la formation

Pas de robots (.txt) : comment demander à ChatGPT et Google Bard de ne pas utiliser votre site Web pour la formation

OpenAI et Google ont publié des conseils à l'intention des propriétaires de sites Web qui ne souhaitent pas que les deux sociétés utilisent le contenu de leurs sites pour former les grands modèles linguistiques (LLM) de l'entreprise. Nous sommes depuis longtemps partisans dudroit de scraper les sites Web – le processus consistant à utiliser un ordinateur pour charger et lire des pages d'un site Web en vue d'une analyse ultérieure – en tant qu'outil de recherche, de journalisme et d'archivage. Nous pensons que cette pratique est toujours légale lors de la collecte de données de formation pour l’IA générative, mais la question de savoir si quelque chose doit être illégal est différente de celle de savoir si cela peut être considéré comme impoli, gauche ou désagréable. Alors que les normes continuent d’évoluer concernant les types de grattage et les utilisations des données récupérées qui sont considérées comme acceptables, il est utile de disposer d’un outil permettant aux opérateurs de sites Web de signaler automatiquement leur préférence aux robots d’exploration. Demander à OpenAI et à Google (et à toute autre personne choisissant d'honorer cette préférence) de ne pas inclure des extraits de votre site dans leurs modèles est un processus simple tant que vous pouvez accéder à la structure de fichiers de votre site.

Nous avons déjà parlé de la façon dont ces modèles utilisent l'art pour la formation , et l'idée générale et le processus sont les mêmes pour le texte. Les chercheurs utilisent depuis longtemps des collections de données extraites d’Internet pour étudier la censure, les logiciels malveillants, la sociologie, le langage et d’autres applications, notamment l’IA générative. Aujourd’hui, les chercheurs universitaires et à but lucratif collectent des données de formation pour l’IA à l’aide de robots qui effectuent des recherches sur tout le Web et « récupèrent » ou stockent le contenu de chaque site qu’ils rencontrent. Cela pourrait être utilisé pour créer des outils purement basés sur du texte, ou un système pourrait collecter des images pouvant être associées à certains textes et tenter d'établir des liens entre les mots et les images pendant la formation. Le résultat final, du moins actuellement, sont les chatbots que nous avons vus sous la forme de Google Bard et ChatGPT.

Cela rassurerait de nombreuses entreprises proposant des produits d'IA similaires, comme Anthropic, Amazon et d'innombrables autres, d'annoncer qu'elles respecteraient des demandes similaires.

Si vous ne souhaitez pas que le contenu de votre site Web soit utilisé pour cette formation, vous pouvez demander aux robots déployés par Google et Open AI de sauter votre site. Gardez à l’esprit que cela ne s’applique qu’aux futurs scrapings. Si Google ou OpenAI disposent déjà de données de votre site, ils ne les supprimeront pas. Cela n'empêche pas non plus les innombrables autres entreprises de former leurs propres LLM et n'affecte pas tout ce que vous avez publié ailleurs, comme sur les réseaux sociaux ou les forums. Cela n’arrêterait pas non plus les modèles formés sur de grands ensembles de données de sites Web récupérés qui ne sont pas affiliés à une entreprise spécifique. Par exemple, GPT-3 d'OpenAI et LLaMa de Meta ont tous deux été formés à l'aide de données principalement collectées à partir de Common Crawl, une archive open source de grandes parties d'Internet qui est régulièrement utilisée pour des recherches importantes . Vous pouvez bloquer Common Crawl , mais cela empêche le robot d'exploration Web d'utiliser vos données dans tous ses ensembles de données, dont beaucoup n'ont rien à voir avec l'IA.

Il n'y a aucune exigence technique pour qu'un bot obéisse à vos demandes. Actuellement, seuls Google et OpenAI ont annoncé que c'était le moyen de se désinscrire, de sorte que d'autres sociétés d'IA peuvent ne pas s'en soucier du tout, ou peuvent ajouter leurs propres instructions pour se désinscrire. Mais cela ne bloque pas non plus les autres types de scraping utilisés à des fins de recherche ou à d'autres fins. Par conséquent, si vous êtes généralement favorable au scraping mais que vous n'êtes pas à l'aise avec l'utilisation du contenu de votre site Web dans le cadre de la formation en IA d'une entreprise, ceci est un pas que vous pouvez faire.

Avant d'aborder le comment, nous devons expliquer exactement ce que vous allez modifier pour ce faire.

Qu'est-ce qu'un fichier Robots.txt ?

Afin de demander à ces entreprises de ne pas supprimer votre site, vous devez modifier (ou créer) un fichier situé sur votre site Web appelé « robots.txt ». Un fichier robots.txt est un ensemble d'instructions destinées aux robots et aux robots d'exploration Web. Jusqu’à présent, il était principalement utilisé pour fournir des informations utiles aux moteurs de recherche lorsque leurs robots parcouraient le Web. Si les propriétaires de sites Web souhaitent demander à un moteur de recherche spécifique ou à un autre robot de ne pas analyser leur site, ils peuvent le saisir dans leur fichier robots.txt. Les robots peuvent toujours choisir de l'ignorer, mais de nombreux services d'exploration respectent la demande.

Tout cela peut sembler plutôt technique, mais ce n'est en réalité rien de plus qu'un petit fichier texte situé dans le dossier racine de votre site, comme "https://www.example.com/robots.txt". Tout le monde peut voir ce fichier sur n’importe quel site Web. Par exemple, voici le robots.txt du New York Times , qui bloque actuellement ChatGPT et Bard.

Si vous gérez votre propre site Web, vous devriez disposer d'un moyen d'accéder à la structure de fichiers de ce site, soit via le portail Web de votre fournisseur d'hébergement, soit via FTP. Vous devrez peut-être parcourir la documentation de votre fournisseur pour savoir comment accéder à ce dossier. Dans la plupart des cas, votre site aura déjà un fichier robots.txt créé, même s'il est vide, mais si vous devez créer un fichier, vous pouvez le faire avec n'importe quel éditeur de texte brut. Google propose des conseils pour le faire ici .

L'EFF n'utilisera pas ces indicateurs car nous pensons que le scraping est un outil puissant pour la recherche et l'accès à l'information.

Que faut-il inclure dans votre Robots.txt pour bloquer ChatGPT et Google Bard

Avec tout cela à l'écart, voici ce qu'il faut inclure dans le fichier robots.txt de votre site si vous ne souhaitez pas que ChatGPT et Google utilisent le contenu de votre site pour entraîner leurs modèles d'IA génératifs. Si vous souhaitez couvrir l'intégralité de votre site, ajoutez ces lignes à votre fichier robots.txt :

ChatGPT

 Agent utilisateur : GPTBot

Interdire : /

Google Barde

 Agent utilisateur : Google Extended

Interdire : /

Vous pouvez également affiner cela pour bloquer l'accès à certains dossiers uniquement de votre site. Par exemple, cela ne vous dérange peut-être pas si la plupart des données de votre site sont utilisées à des fins de formation, mais vous avez un blog que vous utilisez comme journal. Vous pouvez désactiver des dossiers spécifiques. Par exemple, si le blog se trouve sur votresite.com/blog, vous utiliserez ceci :

ChatGPT

 Agent utilisateur : GPTBot

Interdire : /blog

Google Barde

 Agent utilisateur : Google Extended

Interdire : /blog

Comme mentionné ci-dessus, chez EFF, nous n'utiliserons pas ces indicateurs car nous pensons que le scraping est un outil puissant pour la recherche et l'accès à l'information ; nous voulons que les informations que nous fournissons se propagent largement et soient représentées dans les résultats et les réponses fournies par les LLM. Bien entendu, les propriétaires de sites Web individuels ont des points de vue différents sur leurs blogs, leurs portefeuilles ou tout ce pour quoi vous utilisez votre site Web. Nous sommes favorables aux moyens permettant aux gens d'exprimer leurs préférences, et cela rassurerait de nombreux esprits si d'autres entreprises proposant des produits d'IA similaires, comme Anthropic, Amazon et d'innombrables autres, annoncent qu'elles respecteraient des demandes similaires.


Cet article est une traduction automatique d’un post publié sur le site d’Electronic Frontier Foundation à l’URL https://www.eff.org/deeplinks/2023/12/no-robotstxt-how-ask-chatgpt-and-google-bard-not-use-your-website-training le Tue, 12 Dec 2023 18:19:36 +0000.