OpenAI e Microsoft enfrentam um novo processo do Center for Investigative Reporting (CIR). O CIR afirma que a OpenAI usou seu conteúdo publicado nos sites Mother Jones e Reveal para treinar versões anteriores do ChatGPT.
Leia também: OpenAI elimina voz do ChatGPT após polêmica sobre Scarlett Johansson
Ao CIR, o demandante afirma que a OpenAI utilizou seu conteúdo sem permissão ou promessa de compensação. O CIR, fundado em 1977, opera a revista americana sem fins lucrativos Mother Jones e o podcast Reveal.
CIR processa OpenAI e Microsoft por violação de direitos autorais
O Center for Investigative Reporting (CIR) abriu o processo no tribunal federal de Nova York na quinta-feira. A organização sem fins lucrativos acusou a OpenAI e a Microsoft de usarem seu conteúdo sem permissão ou compensação. O CIR afirma que a OpenAI violou as leis de direitos autorais ao usar seu conteúdo para treinar o ChatGPT.
A CEO do CIR Monika Bauerlein disse: “Este comportamento de carona não é apenas injusto, é uma violação de direitos autorais. O trabalho dos jornalistas, no CIR e em todos os lugares, é valioso, e a OpenAI e a Microsoft sabem disso.”
🚨[Processo de direitos autorais de IA] O Center for Investigative Reporting (por trás de @MotherJones e @reveal) processa a OpenAI e a Microsoft por violação de direitos autorais. Citações:
"Os réus copiaram, usaram, resumiram e exibiram conteúdo valioso do CIR sem a permissão ou autorização do CIR e… pic.twitter.com/SeZ0VtDOMY
—Luiza Jarovsky (@LuizaJarovsky) 29 de junho de 2024
Na denúncia oficial, o autor contratou um cientista de dados para analisar o banco de dados OpenWebText. OpenWebText é uma aproximação de WebText, que é um corpus de páginas da web copiadas criadas por OpenAI. O cientista de dados descobriu que o conjunto de dados contém 17.434 URLs do Mother Jones e 415 do Reveal. OpenWebText e WebText têm números ligeiramente diferentes de artigos do Mother Jones porque o processo de extração ocorreu em dias diferentes.
O autor disse na reclamação oficial:
“Quando preencheram os seus conjuntos de formação com trabalhos de jornalismo, os Réus tiveram uma escolha: respeitar ou não os trabalhos de jornalismo. Os réus escolheram o último”
Leia também: Cientista-chefe da OpenAI, Ilya Sutskever, se despede
OpenAI usou dois algoritmos, Dragnet e Newspaper, para construir o banco de dados WebText. Dragnet foi projetado para separar o conteúdo do artigo principal de outras partes do site, como cabeçalho, rodapé, título, nome do autor e avisos de direitos autorais. Quando a OpenAI descartou o site da Mother Jones, ela removeu tudo do rodapé e do cabeçalho. Além disso, o fabricante do ChatGPT removeu o aviso de direitos autorais e as informações sobre os termos de uso conforme a reclamação.
Além disso, o autor alega que a Microsoft sabia que os URLs copiados continham conteúdo jornalístico sem nomes de autores, títulos e avisos de direitos autorais, facilitando a violação de direitos autorais por parte do Bing AI e ChatGPT.
O CIR busca lucros da OpenAI e da Microsoft e danos reais ou legais. O valor declarado é de no mínimo US$ 750 por trabalho violado e US$ 2.500 por violação do DMCA.
OpenAI enfrenta ações judiciais de outras publicações
Este não é o primeiro processo movido contra a OpenAI por violação de direitos autorais. Desde o lançamento do ChatGPT no final de 2022, a OpenAI e a Microsoft enfrentaram vários processos judiciais de grandes nomes como o New York Times, o The Intercept, o New York Daily News e o Chicago Tribune.
Leia também: Funcionários afirmam que OpenAI e Google DeepMind escondem riscos de IA
Entretanto, algumas grandes editoras e gigantes da Internet assinaram acordos de licenciamento com a OpenAI, dando-lhe acesso aos seus arquivos. Estes incluem TIME Magazine, News Corp, Financial Times, Vox Media, Associated Press, The Atlantic, Stack Overflow e Reddit.
Reportagem criptopolitana de Randa Moses