OpenAI 和微软正面临调查报告中心 (CIR) 的新诉讼。 CIR 表示,OpenAI 使用了 Mother Jones 和 Reveal 网站发布的内容来训练早期版本的 ChatGPT。

另请阅读:斯嘉丽约翰逊争议后 OpenAI 废弃 ChatGPT 语音 

CIR,原告称 OpenAI 在未经许可或承诺赔偿的情况下使用了其内容。 CIR 成立于 1977 年,经营非营利美国杂志 Mother Jones 和 Reveal 播客。 

CIR 起诉 OpenAI 和微软侵犯版权

调查报道中心 (CIR) 于周四向纽约联邦法院提起诉讼。该非营利组织指控 OpenAI 和微软未经许可或未支付报酬使用其内容。CIR 表示,OpenAI 使用其内容训练 ChatGPT 违反了版权法。

CIR 首席执行官 Monika Bauerlein 表示:“这种搭便车行为不仅不公平,而且侵犯了版权。无论是在 CIR 还是在其他地方,记者的工作都是有价值的,OpenAI 和微软都知道这一点。”

🚨[AI 版权诉讼] 调查报道中心(@MotherJones 和 @reveal 幕后推手)起诉 OpenAI 和微软侵犯版权。引述:

“被告在未经 CIR 许可或授权的情况下复制、使用、删节和展示了 CIR 的宝贵内容,并且......pic.twitter.com/SeZ0VtDOMY

— Luiza Jarovsky (@LuizaJarovsky) 2024 年 6 月 29 日

在正式的起诉书中,原告聘请了一位数据科学家来分析 OpenWebText 数据库。OpenWebText 是 WebText 的近似版本,后者是 OpenAI 创建的抓取网页语料库。数据科学家发现,该数据集包含 17,434 个来自 Mother Jones 的 URL 和 415 个来自 Reveal 的 URL。OpenWebText 和 WebText 的 Mother Jones 文章数量略有不同,因为抓取过程发生在不同的日期。

原告在正式诉状中表示,

“当他们用新闻作品填充训练集时,被告可以选择:尊重新闻作品,或者不尊重。被告选择了后者”

另请阅读:OpenAI 首席科学家 Ilya Sutskever 告别

OpenAI 使用两种算法 Dragnet 和 Newspaper 来构建 WebText 数据库。Dragnet 旨在将文章主要内容与网站的其他部分(例如页眉、页脚、标题、作者姓名和版权声明)分开。当 OpenAI 废弃 Mother Jones 网站时,它删除了页脚和页眉中的所有内容。此外,ChatGPT 制造商还根据投诉删除了版权声明和使用条款信息。

此外,原告声称微软知道抓取的 URL 包含新闻内容,但没有作者姓名、标题和版权声明,从而为 Bing AI 和 ChatGPT 侵犯版权提供了便利。

CIR 要求 OpenAI 和微软赔偿其利润以及实际或法定的损失。赔偿金额为每件侵权作品至少 750 美元,每项 DMCA 违规行为至少 2,500 美元。

OpenAI 面临其他出版物的诉讼

这并不是第一起针对 OpenAI 侵犯版权的诉讼。自 2022 年底发布 ChatGPT 以来,OpenAI 和微软已经面临来自《纽约时报》、《The Intercept》、《纽约每日新闻》和《芝加哥论坛报》等大牌的无数诉讼。

另请阅读:员工声称 OpenAI 和 Google DeepMind 隐瞒了 AI 风险

与此同时,一些大型出版商和互联网巨头已与 OpenAI 签署许可协议,允许其访问其档案。其中包括《时代》杂志、新闻集团、《金融时报》、Vox Media、美联社、《大西洋月刊》、Stack Overflow 和 Reddit。

Randa Moses 的 Cryptopolitan 报道