OpenAI and Microsoft Face a New Lawsuit From CIR

Cryptopolitan · 2024-06-30T13:13:06.000Z

OpenAI and Microsoft are facing a new lawsuit from the Center for Investigative Reporting (CIR). The CIR says that OpenAI has used its published content from Mother Jones and Reveal websites to train earlier versions of ChatGPT. Also read: OpenAI scraps ChatGPT voice after Scarlett Johansson controversy The CIR, the plaintiff says that OpenAI used its content without permission or a promise of compensation. CIR, founded in 1977, operates the nonprofit American magazine Mother Jones and Reveal podcast. CIR sues OpenAI and Microsoft over copyright infringement The Center for Investigative Reporting (CIR) filed the lawsuit in federal court in New York on Thursday. The nonprofit organization accused OpenAI and Microsoft of using their content without permission or compensation. The CIR says OpenAI has violated copyright laws by using its content to train ChatGPT. The CEO of CIR Monika Bauerlein said, “This free rider behavior is not only unfair, it is a violation of copyright. The work of journalists, at CIR and everywhere, is valuable, and OpenAI and Microsoft know it.” 🚨[AI copyright lawsuit] The Center for Investigative Reporting (behind @MotherJones & @reveal) sues OpenAI & Microsoft for copyright infringement. Quotes: "Defendants copied, used, abridged, and displayed CIR’s valuable content without CIR’s permission or authorization, and… pic.twitter.com/SeZ0VtDOMY — Luiza Jarovsky (@LuizaJarovsky) June 29, 2024 In the official complaint, the plaintiff hired a data scientist to analyze the OpenWebText database. OpenWebText is an approximation of WebText, which is a corpus of scraped web pages created by OpenAI. The data scientist found that the dataset contains 17,434 URLs from Mother Jones and 415 from Reveal. OpenWebText and WebText have slightly different numbers of Mother Jones articles because the scraping process happened on different days. The plaintiff said in the official complaint, “When they populated their training sets with works of journalism, Defendants had a choice: to respect works of journalism, or not. Defendants chose the latter” Also read: OpenAI’s chief scientist, Ilya Sutskever, bids farewell OpenAI used two algorithms, Dragnet and Newspaper, to build the WebText database. Dragnet is designed to separate the main article content from other parts of the website, such as the header, footer, title, author name, and copyright notices. When OpenAI scrapped Mother Jones’ website, it removed anything in its footer and header. Additionally, the ChatGPT maker removed the copyright notice and terms of use information as per the complaint. Furthermore, the plaintiff claims Microsoft knew that the scraped URLs had journalism content without author names, titles, and copyright notices, facilitating copyright infringement by Bing AI and ChatGPT. The CIR is seeking profits from OpenAI and Microsoft and actual or statutory damages. The amount stated is a minimum of $750 per infringed work and $2,500 per DMCA violation. OpenAI faces lawsuits from other publications This is not the first lawsuit filed against OpenAI for copyright infringement. Since the release of ChatGPT in late 2022, OpenAI and Microsoft have faced numerous lawsuits from big names like the New York Times, The Intercept, the New York Daily News, and the Chicago Tribune. Also read: Employees claim OpenAI and Google DeepMind hiding AI risks Meanwhile, some major publishers and internet giants have signed licensing agreements with OpenAI, giving it access to their archives. These include TIME Magazine, News Corp, the Financial Times, Vox Media, the Associated Press, The Atlantic, Stack Overflow, and Reddit. Cryptopolitan reporting by Randa Moses

OpenAI e Microsoft enfrentam um novo processo do Center for Investigative Reporting (CIR). O CIR afirma que a OpenAI usou seu conteúdo publicado nos sites Mother Jones e Reveal para treinar versões anteriores do ChatGPT.
Leia também: OpenAI elimina voz do ChatGPT após polêmica sobre Scarlett Johansson 
Ao CIR, o demandante afirma que a OpenAI utilizou seu conteúdo sem permissão ou promessa de compensação. O CIR, fundado em 1977, opera a revista americana sem fins lucrativos Mother Jones e o podcast Reveal. 
CIR processa OpenAI e Microsoft por violação de direitos autorais 
O Center for Investigative Reporting (CIR) abriu o processo no tribunal federal de Nova York na quinta-feira. A organização sem fins lucrativos acusou a OpenAI e a Microsoft de usarem seu conteúdo sem permissão ou compensação. O CIR afirma que a OpenAI violou as leis de direitos autorais ao usar seu conteúdo para treinar o ChatGPT.
A CEO do CIR Monika Bauerlein disse: “Este comportamento de carona não é apenas injusto, é uma violação de direitos autorais. O trabalho dos jornalistas, no CIR e em todos os lugares, é valioso, e a OpenAI e a Microsoft sabem disso.”
🚨[Processo de direitos autorais de IA] O Center for Investigative Reporting (por trás de @MotherJones e @reveal) processa a OpenAI e a Microsoft por violação de direitos autorais. Citações:
"Os réus copiaram, usaram, resumiram e exibiram conteúdo valioso do CIR sem a permissão ou autorização do CIR e… pic.twitter.com/SeZ0VtDOMY
—Luiza Jarovsky (@LuizaJarovsky) 29 de junho de 2024
Na denúncia oficial, o autor contratou um cientista de dados para analisar o banco de dados OpenWebText. OpenWebText é uma aproximação de WebText, que é um corpus de páginas da web copiadas criadas por OpenAI. O cientista de dados descobriu que o conjunto de dados contém 17.434 URLs do Mother Jones e 415 do Reveal. OpenWebText e WebText têm números ligeiramente diferentes de artigos do Mother Jones porque o processo de extração ocorreu em dias diferentes.
O autor disse na reclamação oficial:
“Quando preencheram os seus conjuntos de formação com trabalhos de jornalismo, os Réus tiveram uma escolha: respeitar ou não os trabalhos de jornalismo. Os réus escolheram o último”
Leia também: Cientista-chefe da OpenAI, Ilya Sutskever, se despede
OpenAI usou dois algoritmos, Dragnet e Newspaper, para construir o banco de dados WebText. Dragnet foi projetado para separar o conteúdo do artigo principal de outras partes do site, como cabeçalho, rodapé, título, nome do autor e avisos de direitos autorais. Quando a OpenAI descartou o site da Mother Jones, ela removeu tudo do rodapé e do cabeçalho. Além disso, o fabricante do ChatGPT removeu o aviso de direitos autorais e as informações sobre os termos de uso conforme a reclamação. 
Além disso, o autor alega que a Microsoft sabia que os URLs copiados continham conteúdo jornalístico sem nomes de autores, títulos e avisos de direitos autorais, facilitando a violação de direitos autorais por parte do Bing AI e ChatGPT.
O CIR busca lucros da OpenAI e da Microsoft e danos reais ou legais. O valor declarado é de no mínimo US$ 750 por trabalho violado e US$ 2.500 por violação do DMCA.
OpenAI enfrenta ações judiciais de outras publicações
Este não é o primeiro processo movido contra a OpenAI por violação de direitos autorais. Desde o lançamento do ChatGPT no final de 2022, a OpenAI e a Microsoft enfrentaram vários processos judiciais de grandes nomes como o New York Times, o The Intercept, o New York Daily News e o Chicago Tribune.
Leia também: Funcionários afirmam que OpenAI e Google DeepMind escondem riscos de IA
Entretanto, algumas grandes editoras e gigantes da Internet assinaram acordos de licenciamento com a OpenAI, dando-lhe acesso aos seus arquivos. Estes incluem TIME Magazine, News Corp, Financial Times, Vox Media, Associated Press, The Atlantic, Stack Overflow e Reddit.
Reportagem criptopolitana de Randa Moses

Explore mais do Criador

Últimas Notícias