训练人工智能模型需要大量的数据集,而它们能否产生良好的结果直接取决于系统所输入的数据。信息不是免费的,我们这里谈论的是很多知识产权。
但人工智能公司却不这样想;他们认为一代又一代作家创造的所有知识都是理所当然的;他们的合理使用概念也与最初人们的看法不同;他们不喜欢向内容创造者付费,而这些内容创造了他们今天的能力的模型。
盗窃人类知识
我们在报纸、杂志、书籍、在线档案和研究论文中看到的内容的制作需要大量的辛勤工作和汗水,但如果没有作家、编辑、研究人员和出版商以不同的形式将这些内容呈现给公众,这一切都不可能实现。
这些来之不易的认可和知识不应该被任何公司随意利用,就像有人做的那样。
“互联网上公开的信息。”
来源:OpenAI。
是的,当被问及用于训练其人工智能系统的内容,以及从第三方获得许可的信息以及其用户和人类训练师提供的信息时,OpenAI 会这样回答。
说到授权内容,各家公司现在都在寻求授权内容,但我们并不清楚 OpenAI 在推出其初始 GPT 模型之前是否从供应商处获得了任何信息授权。该模型一定是使用受版权保护的材料进行训练的,而这些材料不能免费用于商业用途。
来源:Statista。原创者报酬
直到一年前,线上线下的大部分文本都是人工编写的。尽管有点击诱饵,也有低质量的内容混杂其中,但至少这些文本是由了解人类心理和思维过程的人类创作的,而生成式人工智能应用程序正是在这些信息的基础上构建的。
但如今,企业在训练 AI 模型时面临一个新问题,那就是整个互联网上充斥着机器生成的内容,这些内容无论如何都不算优质内容。这些内容正在困扰着可用于训练 AI 模型的资源,因为它们在用无用的冗长内容进行训练时无法产生高质量的输出,而这些模型通常就是通过这些内容来大量生产内容的。AI 对 AI 的大量生产通常被称为 AI 同类相食或克隆。
为了防止这种情况发生,人工智能公司必须将他们的资料来源限制在可靠的来源,这些来源就是报纸、杂志和公共论坛,它们承载着大量人类创造的知识。如上所述,还有一些其他来源也可以算在内,但这种必要性和报纸的诉讼迫使他们获得内容许可并为他们所做的利用付费。
Reddit 等大型网络公共论坛也在考虑将其内容授权给人工智能公司。该公司在一份声明中表示,他们更愿意做生意而不是诉讼,但如果商业对话失败,也不排除提起诉讼。如果你不被允许在你的 YouTube 视频上放受版权保护的配乐,那么为什么人工智能公司应该被允许使用它来训练他们用于商业用途的模型呢?
版权所有权是一个问题,因为人工智能公司一直在侵犯版权。另一方面,人工智能无法自行收集新新闻,需要人工首先收集新闻并从不同来源确认后才能发布,只有这样人工智能模型才能使用这些信息,在这种情况下不补偿人力资源就是一种剥削。