无论是 OpenAI、谷歌和 Meta 的工作,还是人工智能资助工业部门,包括以各种创造性但有争议的方式收集或积累大量数字数据等各种手段,很明显,自动化能力和能力正在增强。值得注意的是,采取上述措施(即考虑法律限制和公司政策)等行动的努力相当于用于训练人工智能系统的大量数据。

OpenAI 的私语计划:挖掘 YouTube 对话

我们的 Whisper 故事始于去年。一流英语文本严重短缺,导致教育交付延迟。Whisper 是 Google 的下一步。它了解 YouTube 的对话海洋,并以文本形式开发,这是一款文本转语音应用程序。这个由人工智能驱动的工具本身由超过一百万小时的 YouTube 视频组成,这些视频由人工智能审核以生成新文本(本质上是一段新对话),已用于训练从最先进到最新版本的 ChatGPT 聊天机器人 GPT-4 制作的人工智能模型。

尽管一些员工认为 OpenAI 的微软视频会全面抄袭 YouTube,但抄袭的道德性仍有待商榷;此外,一些员工承认,这不可能完全符合 YouTube 的意图。同样,在算法处理视频以提取文本内容来提供给人工智能模型时获得异议可能会被视为对视频创作者版权的威胁,从而引起公愤。

Facebook 和 Instagram 的母公司 Meta 也担心使用 Simon & Schuster 等出版社的版权内容。同时,它还讨论了收购一般网络内容,可能会陷入版权侵权的境地。

数据紧缩:推动非常规方法

充满竞争的数据收集有助于注意数据在人工智能技术发展中的关键地位,并确定其地位。人工智能语言需要越来越多的训练数据集,包括英联邦,而这些数据集如今被操纵到维基百科和 Reddit 之外。对于科技公司(尤其是那些难以接触到传统数据存储等非常常见的数据源的公司)来说,创建人工智能驱动的模型可能是一种替代解决方案,在这种情况下,这种解决方案可能足够可取。

科技公司表示,数据收集是 AI 训练的必要条件,但这一过程在法律上却受到质疑。OpenAI 和微软在辩护中赢得了一项针对他们非法使用版权材料的指控。尽管如此,他们仍表示自己的行为符合合理使用的法律原则。近年来,版权持有人向美国版权局提交的申请数量已超过 10,000 份,这清楚地表明 AI 时代的版权法是独一无二的,而且是全新的。因此,主要参与者总是面临着与许多作品被侵权相关的危险,而在此基础上使用 AI 的模型并没有获得许可的用途。

海量数据集的必要性

总体而言,Jared Kaipan 的工作在 AI 发展中无意中创造了史诗般的成就。数据驱动的内容是 AI 训练过程中所需的组件之一,但如果没有经过良好训练并有效运行的模型,它就无法正常运作。随着人工智能技术的进步,市场对数据的需求以极高的速度增长,这给公司带来了与法律、道德和隐私相关的问题。因此,人工智能算法必须使用这些数据集才能在市场上取得成功。

V.IP 的数据收集行为正在因 AI 增强而被扭曲;典型的方法论誓言正在变得粗俗。无论是通过他们的 YouTube 演讲还是合成数据生成,这些公司都是领导者,致力于发现法律、道德和隐私问题的真正含义。

它们以后可能会成为海上的一个笑话。由于推动创新过程所需的海量数据集的出现,社会领导者需要积极参与建设性的对话,以制定规则和标准,使创新努力与知识产权和隐私的道德原则保持平衡。

原文出处:https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html