OpenAI et Microsoft font face à un nouveau procès du Center for Investigative Reporting (CIR). Le CIR indique qu'OpenAI a utilisé son contenu publié sur les sites Web Mother Jones et Reveal pour former des versions antérieures de ChatGPT.

A lire aussi : OpenAI supprime la voix ChatGPT après la controverse de Scarlett Johansson 

Au CIR, le plaignant affirme qu'OpenAI a utilisé son contenu sans autorisation ni promesse de compensation. CIR, fondée en 1977, exploite le magazine américain à but non lucratif Mother Jones et le podcast Reveal. 

Le CIR poursuit OpenAI et Microsoft pour violation du droit d'auteur 

Le Center for Investigative Reporting (CIR) a déposé jeudi une plainte devant le tribunal fédéral de New York. L'organisation à but non lucratif a accusé OpenAI et Microsoft d'utiliser leur contenu sans autorisation ni compensation. Le CIR affirme qu'OpenAI a violé les lois sur le droit d'auteur en utilisant son contenu pour entraîner ChatGPT.

La PDG du CIR, Monika Bauerlein, a déclaré : « Ce comportement de resquilleur n'est pas seulement injuste, c'est aussi une violation du droit d'auteur. Le travail des journalistes, au CIR et partout ailleurs, est précieux, et OpenAI et Microsoft le savent.

🚨[Poursuite en matière de droits d'auteur contre AI] Le Center for Investigative Reporting (derrière @MotherJones & @reveal) poursuit OpenAI et Microsoft pour violation du droit d'auteur. Citations:

"Les accusés ont copié, utilisé, abrégé et affiché le contenu précieux du CIR sans la permission ou l'autorisation du CIR, et… pic.twitter.com/SeZ0VtDOMY

– Luiza Jarovsky (@LuizaJarovsky) 29 juin 2024

Dans la plainte officielle, le plaignant a embauché un data scientist pour analyser la base de données OpenWebText. OpenWebText est une approximation de WebText, qui est un corpus de pages Web récupérées créées par OpenAI. Le data scientist a découvert que l’ensemble de données contient 17 434 URL de Mother Jones et 415 de Reveal. OpenWebText et WebText ont un nombre d'articles de Mother Jones légèrement différent car le processus de scraping s'est déroulé à des jours différents.

Le plaignant a déclaré dans la plainte officielle :

« Lorsqu'ils remplissaient leurs programmes de formation d'œuvres journalistiques, les accusés avaient le choix : respecter ou non les œuvres journalistiques. Les accusés ont choisi cette dernière solution »

A lire aussi : Le scientifique en chef d’OpenAI, Ilya Sutskever, fait ses adieux

OpenAI a utilisé deux algorithmes, Dragnet et Newspaper, pour créer la base de données WebText. Dragnet est conçu pour séparer le contenu principal de l'article des autres parties du site Web, telles que l'en-tête, le pied de page, le titre, le nom de l'auteur et les mentions de droit d'auteur. Lorsque OpenAI a supprimé le site Web de Mother Jones, il a supprimé tout ce qui se trouvait dans son pied de page et son en-tête. De plus, le créateur de ChatGPT a supprimé l'avis de droit d'auteur et les informations sur les conditions d'utilisation conformément à la plainte. 

En outre, le plaignant affirme que Microsoft savait que les URL récupérées contenaient du contenu journalistique sans noms d'auteur, titres et avis de droit d'auteur, facilitant ainsi la violation du droit d'auteur par Bing AI et ChatGPT.

Le CIR recherche des bénéfices auprès d'OpenAI et de Microsoft ainsi que des dommages et intérêts réels ou légaux. Le montant indiqué est d'un minimum de 750 $ par œuvre contrefaite et de 2 500 $ par violation du DMCA.

OpenAI fait face à des poursuites judiciaires de la part d'autres publications

Ce n'est pas le premier procès intenté contre OpenAI pour violation du droit d'auteur. Depuis la sortie de ChatGPT fin 2022, OpenAI et Microsoft ont fait face à de nombreuses poursuites judiciaires de la part de grands noms comme le New York Times, The Intercept, le New York Daily News et le Chicago Tribune.

A lire aussi : Les employés affirment qu'OpenAI et Google DeepMind cachent les risques liés à l'IA

Parallèlement, certains grands éditeurs et géants de l’Internet ont signé des accords de licence avec OpenAI, lui donnant accès à leurs archives. Il s'agit notamment de TIME Magazine, News Corp, du Financial Times, de Vox Media, d'Associated Press, de The Atlantic, de Stack Overflow et de Reddit.

Reportage cryptopolitain de Randa Moses