404 Media 获得的泄露文件表明,NVIDIA 从事未经许可的数据抓取,使用来自互联网的电影和游戏镜头来训练其人工智能产品。

泄露的文件显示,他们试图从 Netflix 等各个渠道下载整部电影,主要兴趣是 YouTube 视频。从 404 Media 获得的电子邮件来看,项目经理打算在 Amazon Web Services 上使用 20 到 30 台虚拟机,一天内获取 80 年的视频。

NVIDIA 为其行为辩护并援引合理使用条款

数据抓取是指在未经内容所有者许可的情况下从互联网上提取视频、文本和音频内容来训练人工智能模型的做法。这种做法可以看作是使用包含版权内容的社交媒体平台内容。

NVIDIA 表示,在数据抓取过程中,它没有违反任何版权法。该公司还表示,其活动符合合理使用原则,因为它利用受版权保护的材料来训练 AI。

404 Media 从内部通讯中获得的文件显示,部分 NVIDIA 员工对这些数据抓取活动表示担忧。不过,据称项目经理淡化了这些担忧,并表示法律问题(例如违反 YouTube 服务条款)将在稍后处理。

一名员工指出,NVIDIA的AI工程师会尽可能多地获取游戏片段,以丰富训练语料库,包括将游戏画面串流至NVIDIA的GeForceNow云端服务,录制高清的游戏画面。资深研究分析师Jim Fan在内部讯息中也强调,这类画面作为AI模型训练输入的重要性。

公司采取措施管理公众对数据实践的看法

这些文件还详细介绍了 NVIDIA 为控制此类做法的后果所做的努力。根据泄露的电子邮件,研究副总裁刘明宇建议该公司应避免发布任何与数据抓取技术相关的论文,以防止引起公众的强烈反对。该公司还创建了自己的一套 YouTube 数据抓取工具和 API 帐户,以帮助完成数据收集过程。

关于使用人工智能抓取数据的规则的法律地位仍然不太明确。根据麻省理工学院的罗伯特·马哈里 (Robert Mahari) 的说法,确定数据抓取确实发生了可能相当复杂。组织可能会从不透露其训练数据来源中获益,因为在没有确凿证据的情况下很难证明滥用行为。

另一个平台,AI 音乐生成平台 Suno,最近因承认使用数据抓取来训练人工智能模型而受到关注。正如 Cryptopolitan 之前报道的那样,Reddit 首席执行官史蒂夫·霍夫曼表示,该公司将继续禁止微软和其他 AI 公司使用数据抓取,直到付款并由平台获得对数据使用方式的控制权。他表示,如果没有适当的许可,Reddit 不会允许将数据抓取用于训练 AI 模型。