OpenAI e Microsoft enfrentam um novo processo do Center for Investigative Reporting (CIR). O CIR afirma que a OpenAI usou seu conteúdo publicado nos sites Mother Jones e Reveal para treinar versões anteriores do ChatGPT.

Leia também: OpenAI elimina voz do ChatGPT após polêmica sobre Scarlett Johansson 

Ao CIR, o demandante afirma que a OpenAI utilizou seu conteúdo sem permissão ou promessa de compensação. O CIR, fundado em 1977, opera a revista americana sem fins lucrativos Mother Jones e o podcast Reveal. 

CIR processa OpenAI e Microsoft por violação de direitos autorais 

O Center for Investigative Reporting (CIR) abriu o processo no tribunal federal de Nova York na quinta-feira. A organização sem fins lucrativos acusou a OpenAI e a Microsoft de usarem seu conteúdo sem permissão ou compensação. O CIR afirma que a OpenAI violou as leis de direitos autorais ao usar seu conteúdo para treinar o ChatGPT.

A CEO do CIR Monika Bauerlein disse: “Este comportamento de carona não é apenas injusto, é uma violação de direitos autorais. O trabalho dos jornalistas, no CIR e em todos os lugares, é valioso, e a OpenAI e a Microsoft sabem disso.”

🚨[Processo de direitos autorais de IA] O Center for Investigative Reporting (por trás de @MotherJones e @reveal) processa a OpenAI e a Microsoft por violação de direitos autorais. Citações:

"Os réus copiaram, usaram, resumiram e exibiram conteúdo valioso do CIR sem a permissão ou autorização do CIR e… pic.twitter.com/SeZ0VtDOMY

—Luiza Jarovsky (@LuizaJarovsky) 29 de junho de 2024

Na denúncia oficial, o autor contratou um cientista de dados para analisar o banco de dados OpenWebText. OpenWebText é uma aproximação de WebText, que é um corpus de páginas da web copiadas criadas por OpenAI. O cientista de dados descobriu que o conjunto de dados contém 17.434 URLs do Mother Jones e 415 do Reveal. OpenWebText e WebText têm números ligeiramente diferentes de artigos do Mother Jones porque o processo de extração ocorreu em dias diferentes.

O autor disse na reclamação oficial:

“Quando preencheram os seus conjuntos de formação com trabalhos de jornalismo, os Réus tiveram uma escolha: respeitar ou não os trabalhos de jornalismo. Os réus escolheram o último”

Leia também: Cientista-chefe da OpenAI, Ilya Sutskever, se despede

OpenAI usou dois algoritmos, Dragnet e Newspaper, para construir o banco de dados WebText. Dragnet foi projetado para separar o conteúdo do artigo principal de outras partes do site, como cabeçalho, rodapé, título, nome do autor e avisos de direitos autorais. Quando a OpenAI descartou o site da Mother Jones, ela removeu tudo do rodapé e do cabeçalho. Além disso, o fabricante do ChatGPT removeu o aviso de direitos autorais e as informações sobre os termos de uso conforme a reclamação. 

Além disso, o autor alega que a Microsoft sabia que os URLs copiados continham conteúdo jornalístico sem nomes de autores, títulos e avisos de direitos autorais, facilitando a violação de direitos autorais por parte do Bing AI e ChatGPT.

O CIR busca lucros da OpenAI e da Microsoft e danos reais ou legais. O valor declarado é de no mínimo US$ 750 por trabalho violado e US$ 2.500 por violação do DMCA.

OpenAI enfrenta ações judiciais de outras publicações

Este não é o primeiro processo movido contra a OpenAI por violação de direitos autorais. Desde o lançamento do ChatGPT no final de 2022, a OpenAI e a Microsoft enfrentaram vários processos judiciais de grandes nomes como o New York Times, o The Intercept, o New York Daily News e o Chicago Tribune.

Leia também: Funcionários afirmam que OpenAI e Google DeepMind escondem riscos de IA

Entretanto, algumas grandes editoras e gigantes da Internet assinaram acordos de licenciamento com a OpenAI, dando-lhe acesso aos seus arquivos. Estes incluem TIME Magazine, News Corp, Financial Times, Vox Media, Associated Press, The Atlantic, Stack Overflow e Reddit.

Reportagem criptopolitana de Randa Moses