OpenAI 和微软面临 CIR 的新诉讼

OpenAI 和微软正面临调查报告中心 (CIR) 的新诉讼。 CIR 表示，OpenAI 使用了 Mother Jones 和 Reveal 网站发布的内容来训练早期版本的 ChatGPT。
另请阅读：斯嘉丽约翰逊争议后 OpenAI 废弃 ChatGPT 语音 
CIR，原告称 OpenAI 在未经许可或承诺赔偿的情况下使用了其内容。 CIR 成立于 1977 年，经营非营利美国杂志 Mother Jones 和 Reveal 播客。 
CIR 起诉 OpenAI 和微软侵犯版权
调查报道中心 (CIR) 于周四向纽约联邦法院提起诉讼。该非营利组织指控 OpenAI 和微软未经许可或未支付报酬使用其内容。CIR 表示，OpenAI 使用其内容训练 ChatGPT 违反了版权法。
CIR 首席执行官 Monika Bauerlein 表示：“这种搭便车行为不仅不公平，而且侵犯了版权。无论是在 CIR 还是在其他地方，记者的工作都是有价值的，OpenAI 和微软都知道这一点。”
🚨[AI 版权诉讼] 调查报道中心（@MotherJones 和 @reveal 幕后推手）起诉 OpenAI 和微软侵犯版权。引述：
“被告在未经 CIR 许可或授权的情况下复制、使用、删节和展示了 CIR 的宝贵内容，并且......pic.twitter.com/SeZ0VtDOMY
— Luiza Jarovsky (@LuizaJarovsky) 2024 年 6 月 29 日
在正式的起诉书中，原告聘请了一位数据科学家来分析 OpenWebText 数据库。OpenWebText 是 WebText 的近似版本，后者是 OpenAI 创建的抓取网页语料库。数据科学家发现，该数据集包含 17,434 个来自 Mother Jones 的 URL 和 415 个来自 Reveal 的 URL。OpenWebText 和 WebText 的 Mother Jones 文章数量略有不同，因为抓取过程发生在不同的日期。
原告在正式诉状中表示，
“当他们用新闻作品填充训练集时，被告可以选择：尊重新闻作品，或者不尊重。被告选择了后者”
另请阅读：OpenAI 首席科学家 Ilya Sutskever 告别
OpenAI 使用两种算法 Dragnet 和 Newspaper 来构建 WebText 数据库。Dragnet 旨在将文章主要内容与网站的其他部分（例如页眉、页脚、标题、作者姓名和版权声明）分开。当 OpenAI 废弃 Mother Jones 网站时，它删除了页脚和页眉中的所有内容。此外，ChatGPT 制造商还根据投诉删除了版权声明和使用条款信息。
此外，原告声称微软知道抓取的 URL 包含新闻内容，但没有作者姓名、标题和版权声明，从而为 Bing AI 和 ChatGPT 侵犯版权提供了便利。
CIR 要求 OpenAI 和微软赔偿其利润以及实际或法定的损失。赔偿金额为每件侵权作品至少 750 美元，每项 DMCA 违规行为至少 2,500 美元。
OpenAI 面临其他出版物的诉讼
这并不是第一起针对 OpenAI 侵犯版权的诉讼。自 2022 年底发布 ChatGPT 以来，OpenAI 和微软已经面临来自《纽约时报》、《The Intercept》、《纽约每日新闻》和《芝加哥论坛报》等大牌的无数诉讼。
另请阅读：员工声称 OpenAI 和 Google DeepMind 隐瞒了 AI 风险
与此同时，一些大型出版商和互联网巨头已与 OpenAI 签署许可协议，允许其访问其档案。其中包括《时代》杂志、新闻集团、《金融时报》、Vox Media、美联社、《大西洋月刊》、Stack Overflow 和 Reddit。
Randa Moses 的 Cryptopolitan 报道
OpenAI 和微软面临 CIR 的新诉讼

创作者的更多内容

实时新闻

OpenAI 和微软面临 CIR 的新诉讼

创作者的更多内容

实时新闻

热门文章