据发现,Apple、Nvidia 和 Anthropic 正在使用 YouTube 字幕来训练 AI 模型,这违反了 YouTube 的政策。Proof News 和 Wired 的一份报告显示,这些公司在未获得适当许可的情况下使用了数千个 YouTube 视频的转录数据集。
另请阅读:英国监管机构对微软人工智能人才收购展开调查
研究显示,苹果、Nvidia 和 Anthropic 使用了 YouTube 字幕数据集。该数据集包含来自 48,000 个频道的 173,536 个 YouTube 视频的文字记录。这些视频包括可汗学院和麻省理工学院等教育频道、《华尔街日报》等新闻频道,以及 MrBeast 和 Marques Brownlee 等顶级创作者。
受欢迎的 YouTube 用户对数据利用的反应
YouTube 知名部落客马克斯布朗利 (Marques Brownlee) 在 X 上评论了这个问题。其中一个从 YouTube 影片中收集了大量数据/文字记录,包括我的。虽然苹果可能没有直接抓取数据,但布朗利指出这个问题将会持续存在。
「YouTube 字幕」资料集由 EleutherAI 开发,于 2020 年发布。
根据 YouTube 的条款和条件,禁止透过「自动方式」存取影片。被删除影片中的字幕的存在只会加剧这个问题,引发有关隐私和版权侵犯的问题。
同样参与调查的组织 Salesforce 也承认使用了上述资料集。
「研究论文中提到的 Pile 资料集于 2021 年进行了训练,用于学术和研究目的。该数据集是公开的,并在许可下发布。
销售人员发言人
然而,未经许可使用 YouTube 内容的行为仍有争议。今年 4 月,YouTube 执行长尼尔莫汉 (Neal Mohan) 表示,使用 YouTube 影片、文字记录或剪辑进行人工智慧训练「明显违反」了政策。然而,根据《纽约时报》报道,OpenAI 使用了 100 万小时的 YouTube 影片来训练其 GPT-4 模型。
人工智慧公司使用网路内容引发法律纠纷
ChatGPT 推出后,人工智慧公司未经授权使用网路内容的问题增加。此外,内容创作者也起诉 Stability AI 和 Midjourney 涉嫌未经许可抄袭受版权保护的作品。 YouTube 的所有者Google面临类似索赔的集体诉讼,称此类法律诉讼威胁到生成人工智慧的基础。
在接受《华尔街日报》采访时,OpenAI 的 CTO Mira Murati 并没有详细说明该公司是否使用社群媒体平台上的影片来训练这个新模式。微软 AI 执行长 Mustafa Suleyman 表示,自 20 世纪 90 年代以来,基于他所谓的“社会契约”,开放网路上的内容一直被认为是合理使用。