《纽约时报》披露了 OpenAI 收集数百万小时 YouTube 视频记录以生成其强大 AI 模型 GPT-4 所需的大量数据的方法。虽然这些公司似乎走的是同一条路,形成了以谷歌和 Meta 为首的巨头队伍,但随着 AI 技术的升级,这条路线正在加速发展。所有这些都引出了“数字鸿沟”的问题,以及它对个人参与经济的能力有何影响,特别是在版权和数据伦理等问题上。

OpenAI 的大胆数据获取策略

OpenAI 发现并分析了这些 YouTube 内容。尽管这种策略具有自由使用的创新性质,但它触及了公平使用原则,而公平使用原则正是该公司得以实现的前提条件。录制 YouTube 视频是 Google 为 AI 学习过程所拥有的阶段之一,这引发了对版权侵权以及未经作者同意使用数据所涉及的道德问题的担忧。

有趣的是,在谷歌因拥有 YouTube 而受到抨击后,据称他们也对其 AI 模型采取了此类做法。这种共享监听过程显然是该报告的一个花哨部分,进一步揭示了科技公司在人工智能方面的道德和法律界限令人困惑。另一方面,谷歌提到,他们可以在用这些数据训练 AI 系统之前获得创作者的使用视频许可,这最终成为叙述中的争论点。

隐私政策修订

其中最主要的事件之一是谷歌,该公司计划在 2023 年 6 月底之前改变其隐私政策。该战略旨在深化公司利用可公开访问的数据源(从谷歌文档到谷歌地图评论)的能力,以加强人工智能主导的创新。这表明了一种更广泛的科技行业现象,这些大型科技公司在创新和用户隐私领域都发挥着领导作用,因为它们在努力解决两者之间的适当平衡。

现在,OpenAI 和谷歌披露了这些科技巨头在未经明确同意的情况下收集数据的做法,这引发了人们对人工智能发展进程和数据道德使用的质疑。彭博社就此话题援引了 YouTube 首席执行官 Neil Mohan 的话,他表示该平台不允许下载这些未经授权的来源。

行业和法律影响

由于存在模糊性,这些数据抓取行为的道德性和合法性问题随之而来。另一个需要改进的领域是抄袭问题,因为这些方法可能很有创意,但也会引发版权问题。隐私问题也是这个行业的一个问题。然而,这些漏洞的影响范围不仅限于法律和道德问题,还远远超出了这些范围。从大量漏洞来看,它们引起了人们对更重要的技术(AI 技术)竞赛的关注,该竞赛旨在利用数据来推动 AI 进步。

随着 OpenAI 和 Google 等人工智能技术的先驱者不断推进下一代人工智能范式的范围,围绕可以使用多少数据、版权保护的考虑因素以及人工智能应用的巨大社会影响的争论也日益激烈。创新与道德的结合将带来更复杂的局面,需要制定监管原则和明确的政策。

OpenAI 和 Google 拍摄 YouTube 视频用于训练的做法引发了由法律、道德和技术层面组成的多维度主观问题。因此,科技行业不断面临创新、隐私和道德等挑战,没有这些挑战就无法保证持续增长。关于这些问题的讨论将继续下去。不过,它还将扩展到社会中的每一个利益相关者,从法律专家到人工智能开发者本身,最终提出一个解决方案。

原文来自 https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/