据 ProofNews 报道,包括苹果、英伟达和 Salesforce 在内的许多全球领先科技公司都被指控非法使用 Youtube 的数据来训练人工智能。

具体来说,非营利性人工智能研究小组 EleutherAI 从数十万个 Youtube 视频中收集了字幕,构建了一个名为 Pile 的“庞大”数据集。此行为被视为严重违反 YouTube 的服务条款。

据了解,Pile 包含来自 48,000 多个 Youtube 频道的 173,000 多个视频的字幕,其中包括已删除的视频。然后,许多大型科技公司使用该数据集来训练从聊天机器人到自然语言处理引擎的人工智能模型。

尽管Anthropic和Salesforce等一些公司承认使用了Pile,但他们辩称这是一个“公共”数据集,并否认任何侵犯版权的指控。不过,ProofNews 表示,使用 Pile 的公司名单可能会更长,因为许多单位并没有公开披露其 AI 训练数据的来源。

值得注意的是,Pile 不仅包含来自常规 Youtube 频道的内容,还包含来自 Coinbase、Cointelegraph 和 Bitcoin Magazine 等著名加密货币频道的视频。

此次事件再次引发人们对人工智能领域数据版权问题的担忧。法律专家认为,与将 YouTube 数据用于商业目的相关的争议将会增加,特别是在人工智能开发竞赛的背景下。 

ProofNews 表示,OpenAI 和谷歌过去也收集过 YouTube 文本。虽然拥有 YouTube 的公司谷歌确认其行为是在与用户协议的框架内,但 OpenAI 既没有证实也没有否认上述报道。

截至目前,Baker Hoestler 律师事务所列出了至少 15 起与科技公司相关的诉讼,例如:Anthropic、Meta、GitHub、Stability AI、Nvidia 和 Google。特别是,OpenAI正面临来自Mother Jones母公司和《纽约时报》的重大诉讼。总体而言,人工智能领域的数据版权法律形势日趋紧张,且事态发展复杂且难以预测。

关注24小时新闻,不错过区块链普及论坛上的任何最新区块链动态。