在讨论最近关于开放和谷歌如何使其数据符合模型的争论时,你会注意到两个术语在争论中占据主导地位:开放和谷歌。《华尔街日报》和《纽约时报》最近发表的文章表明,与人工智能相关的公司收集数据的方式不达标,并让人头疼,哪些数据是真实的,以及在创建与人工智能相关的系统时使用了哪种道德角度。

OpenAI 的可疑策略

然而,纽约时报在其巅峰时期强调了 Open AI 通过 Whisper 提出的更大成果。这种音频到文本的转录模型是作为 Open AI 语言处理器 LP-4 技术的补充而开发的。事实上,OpenAI 的自动驾驶汽车不是由信息收集组成的,这是该公司面临的一个挑战性问题;相反,后者在这样的条件下发挥了作用。

虽然数据收集法案最初的流行与合理使用版权考虑有关,但后者也成为这些法案的法律基础。正如布罗克曼所说,OpenAI 的一位创始成员兼首席执行官提供了转录所需的一些信息。然而,他接着说,这位历史学家也为转录做出了贡献。

然而,谷歌公司甚至将这些小问题推到像这样的大企业的中心,也就是说,像 OpenAI 这样的数据收集功能是一个较小的组织,从事面向行业巨头的项目,而用户只是受到警告,并没有被告知 YouTube 应该责怪谁。

除了这种做法之外,Facebook 还在 TOS 中阐述了合规性基础,并禁止未经授权的行为,尤其是所谓的数据抓取。在 John Conly(YouTube 发言人)的案例中,他回答了有关模型是否在收集内容创建者的数据后用于基于内容的 AI 训练的问题。

恰恰相反。以及训练机器支持哪一方的 Meta 是当前的问题,导致其不可行。在 OpenAI 竞争中取得成功的公司的 AI 团队认为,两个团队都使用了所有可用的手段来为他们的公司争取更好的结果,包括原创思维,而不关注任何有利于被拒绝方的事情。

Meta 似乎已经准备好了各种问题,旨在回答哪些工作将由谁负责,谁将负责从哪些专门从事特定领域的出版商那里购买书籍。尽管该网络的用户体验非常棒,但既定的政府政策已经掌握了干涉个人隐私的主动权,2018 年剑桥分析事件凸显了这一点。

更广泛的人工智能训练领域面临着一个紧迫的困境:一方面,数据短缺的问题在过去几年变得更加尖锐。虽然两者之间的联系仍然存在,但研究人员始终坚持拥有足够的数据来提高准确性和性能。

此外,《华尔街日报》的预测也激发了人们的热情,它预测 2020 年的早期阶段将超越所有目标,并在年底达到市场最高点。这种方法基于两个因素:依靠模型,这些模型可以合成状态外部矩阵,以及决策过程课程,模型可以从决策中学习。不要指望它们产生结果,但要让它们可观察。

法律和道德影响

盗版规则的缺失可能会带来麻烦,因为没有任何东西可以允许用户访问受版权保护的项目,任务理解可能会围绕法律、道德等产生。数据是否成为无形财产,成为了解和说明什么是你的、什么不是你的基础,当数据的使用不合理时,数据和用户被视为业务的来源?这种风险将使研发团队的项目负责人专注于审查它们并找出答案。

集体诉讼活动的目的关系意味着隐私和数据使用是组织对使其运营合法化的答案了解不够多的问题。事实上,挑战(例如用于人工智能研究和开发的数据挖掘过程的道德问题)变得复杂,因为我们必须考虑数据的监管限制和隐私(因为数据的性质是在数据处理和使用方式的背景下)。

未来最激烈的人工智能竞争在于为人工智能系统的训练找到最好的数据,更重要的是这些数据是否符合共同的道德或法律监管框架。人工智能周围的一切,从本质上讲,都是通过企业的数据集过滤器来强调和拓宽创新和实施等概念。

作为一项技术,人工智能永远不会是静态的,因此主要问题始终是数据的使用,并且它将继续成为通过使用人工智能形成的社区成员的优先事项之一,即最好的。

原文来自:https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb