Des poursuites judiciaires sont engagées contre les géants de l’IA pour violation du droit d’auteur

Le New York Times a intenté une action en justice mondiale pour violation du droit d'auteur contre OpenAI et Microsoft dans le cadre d'un récent développement juridique qui a provoqué une onde de choc dans la communauté de l'intelligence artificielle.

Le procès allègue que leurs grands modèles linguistiques (LLM), en particulier GPT-4 et les produits associés, ont un modèle commercial basé sur une violation massive du droit d'auteur. Ce procès a mis en évidence les préoccupations éthiques liées à l’approvisionnement en données de formation pour les modèles d’IA générative.

Allégations de violation du droit d'auteur

Le nœud du procès tourne autour de l’affirmation selon laquelle OpenAI et Microsoft ont utilisé des textes et d’autres contenus protégés par le droit d’auteur, y compris du contenu du New York Times, sans autorisation appropriée pour créer leur LLM. Le procès allègue que ces LLM ont reproduit fidèlement à plusieurs reprises le contenu du New York Times et de diverses autres sources.

Le procès met en évidence une préoccupation croissante au sein de la communauté de l’IA et au-delà concernant l’approvisionnement éthique des données de formation pour les LLM. Cela soulève des questions sur la source des données de formation, si elles incluent des droits de propriété intellectuelle volés et quel impact cela a sur les créateurs et les industries qui s'appuient sur du contenu original.

Impact sur le journalisme et la création de contenu

Le procès met en évidence les conséquences potentiellement dévastatrices de la violation des droits d’auteur sur l’IA pour les créateurs de contenu et le journalisme. Il fait valoir que lorsque des plateformes d'IA comme Google et Bing intègrent des idées et des expressions provenant de fournisseurs de contenu sans autorisation, cela compromet la capacité de ces fournisseurs à monétiser leur contenu. Ceci, à son tour, met en péril la viabilité financière des organes de presse et leur capacité à financer un journalisme de qualité.

Le procès déclare : « La protection de la propriété intellectuelle du Times est essentielle à sa capacité continue à financer un journalisme de classe mondiale dans l'intérêt public. Si le Times et ses pairs ne parviennent pas à contrôler l’utilisation de leur contenu, leur capacité à monétiser ce contenu sera compromise.

Avec moins de revenus, les agences de presse auront moins de journalistes capables de consacrer du temps et des ressources à des reportages importants et approfondis, ce qui crée le risque que ces reportages ne soient pas racontés. Il y aura moins de journalisme et le coût pour la société sera énorme. »

Réponse des modèles d'IA au contenu protégé par le droit d'auteur

Le procès souligne que les LLM répondent souvent de manière incohérente aux demandes et peuvent, dans certains cas, produire du texte textuel protégé par le droit d'auteur, tandis que dans d'autres, ils peuvent paraphraser le contenu. Cependant, cela soulève une question fondamentale : l’utilisation de matériels protégés par le droit d’auteur pour former des logiciels d’IA constitue-t-elle un acte de contrefaçon ?

Le New York Times affirme que le fait même de former des LLM constitue une violation du droit d'auteur, que les modèles répètent ou non des phrases du matériel source. Cette perspective a été reprise dans un recours collectif intenté par les auteurs Sarah Silverman, Christopher Golden et Richard Kadrey, qui soutiennent que les LLM portent atteinte aux œuvres dérivées parce qu'ils ne peuvent pas fonctionner sans informations expressives extraites d'œuvres protégées par le droit d'auteur.

Le débat en cours sur l’éthique de l’IA

L'action en justice intentée par le New York Times a déclenché un débat plus large sur les considérations éthiques entourant l'intelligence artificielle et la responsabilité des entreprises technologiques de garantir que leurs modèles d'IA sont basés sur des données provenant de sources éthiques.

À mesure que l’intelligence artificielle progresse et joue un rôle de plus en plus important dans diverses industries, les questions concernant l’utilisation des données, les droits de propriété intellectuelle et l’éthique dans la génération de contenu deviennent de plus en plus pressantes.