欧盟(EU)新的人工智慧法将迫使公司揭露训练数据,引发有关智慧财产权的重大争论。

ChatGPT的诞生标志著一个重要的里程碑,开启了生成式人工智慧(Gen AI)的爆炸性时代。短短18个月内,这项技术就吸引了巨额投资,并在多个领域中广泛应用。生成式人工智慧是一组可以快速产生文字、图像和音讯内容的应用程式。

然而,据路透社报道,除了巨大的好处之外,生成式人工智能还引发了许多法律问题,尤其是训练数据起源的故事。

认识到这些挑战,欧盟(EU)率先颁布了《人工智能法》,预计将在未来两年内生效。该法律最值得注意的一点是要求部署通用人工智能模型(通常是 ChatGPT)的组织必须透明地披露训练数据。具体来说,他们必须提供所使用数据源的“详细摘要”,包括文本、图像和音频。

当许多人工智能公司被指控未经作者同意非法使用书籍、电影和其他艺术品来训练人工智能时,这项规定有望部分解决版权侵权问题。

然而此举遭到了科技公司的强烈反对。他们认为,公开训练数据就像“泄露秘方”,使自己在激烈的竞争中处于劣势。

专门使用人工智能进行照片编辑的公司 Photoroom 的首席执行官 Matthieu Riouf 先生表示:“公开人工智能训练数据就像强迫一位著名厨师透露他的秘密食谱,那就是我。”这一观点也得到了谷歌、Meta等许多其他科技巨头的认同,他们将未来押注于人工智能。

这些透明度报告的详细程度将对小型人工智能初创公司和谷歌和 Meta 等大型科技公司产生重大影响,这些公司已将这项技术作为其未来运营的核心。

在过去的一年里,包括谷歌、OpenAI 和 Stability AI 在内的几家著名科技公司都面临着作者的诉讼,他们声称他们的内容被不当用于训练模型。尽管美国总统乔·拜登已发布多项针对人工智能安全风险的行政命令,但有关版权的问题尚未得到充分检验。迫使科技公司向权利持有人付款的要求得到了国会两党的支持。

迫于舆论压力,科技巨头们开始通过与媒体机构签订一系列内容授权协议来“安抚”。通常,OpenAI 已与《金融时报》和《大西洋月刊》签署协议,而谷歌则与新闻集团旗下社交网络 Reddit 联手。

不过,这些举措仍不足以安抚舆论。 OpenAI 继续受到批评,首席技术官 Mira Murati 拒绝回答有关该公司是否使用 YouTube 视频来训练 AI 视频创作工具 Sora 的问题。女星斯嘉丽·约翰逊在最新版ChatGPT中发声的事件,加剧了对OpenAI的反对浪潮。

在争议之中,Hugging Face联合创始人Thomas Wolf发声支持数据透明,但承认这一观点并未获得业界共识。

与此同时,欧洲立法者的看法也褒贬不一。 AI法起草人之一、国会议员Dragos Tudorache表示,公开训练数据对于确保内容创作者的权利是必要的。 “他们有权知道他们的工作是否被用来训练人工智能,”他强调。

人工智能领域的数据透明度和商业秘密之间的斗争比以往任何时候都更加激烈。专家预测,这将是政策制定者和企业在不久的将来面临的最大挑战之一。