一项新研究发现,使用人工智能生成的材料进行训练的大型语言模型 (LLM) 产生的输出缺乏实质内容和细微差别。这一发现给依赖有限的人工数据集来获取内容的人工智能开发人员带来了新的挑战。
另请阅读:报告称,人工智能深度伪造使美国当局难以保护儿童
英国剑桥大学和牛津大学的人工智能研究人员尝试依靠仅包含人工智能生成内容的数据集来编写提示。结果并不理想,因为它产生了难以理解的答案。
人工智能仍然需要人类的理解
这篇论文的作者之一、剑桥大学的 Zhakar Shumaylov 表示,需要对提供给 LLM 的数据进行质量控制,而数据是 ChatGPT 和谷歌 Gemini 等生成式 AI 聊天机器人背后的技术。Shumaylov 说:
“我们必须非常小心地对待训练数据。否则,事情总是会出错。”
Shumaylov 详细介绍了这种现象,称之为“模型崩溃”。事实证明,它会影响各种人工智能模型,包括那些专门使用文本提示生成图像的模型。
根据这项研究,在一个模型上使用人工智能生成的数据重复文本提示最终产生了乱码。例如,研究人员发现,一个使用有关英国中世纪教堂塔楼的文本进行测试的系统在仅仅九代之后就产生了一个重复的长耳大野兔列表。
加州大学计算机科学家 Hany Farid 在评论这些输出时,将数据崩溃比作动物近亲繁殖特有的挑战。
法里德说:“如果一个物种与自己的后代进行近亲繁殖,并且没有使其基因库多样化,那么就会导致物种的灭绝。”
当研究人员将人类生成的数据注入人工智能数据中时,崩溃的速度比纯人工智能生成的内容运行时要慢。
人工智能模型在接受人工智能生成的数据训练时会产生胡言乱语。研究人员:人工智能可能会加剧对少数群体的偏见
语言模型的工作原理是建立大量文本中的标记(单词或单词部分)之间的关联,这些文本通常来自互联网。它们根据这些学习到的模式,通过输出统计上最有可能的下一个单词来生成文本。
另请阅读:由 ChatGPT 提供支持的泰迪熊 Poe 为孩子们读睡前故事
这项研究于 7 月 24 日发表在《自然》杂志上,表明数据集中多次提到的信息很可能不会重复。研究人员担心这可能会对已经边缘化的少数群体产生负面影响。
为了避免模型在实际使用中崩溃,该研究建议对人工智能生成的内容和人类生成的内容进行水印处理。但研究表示,由于竞争对手人工智能公司之间缺乏协调,这也可能带来问题。
该项研究结果发布之际,人们正日益争论人工智能是否会导致人类完全被排除在内容创作之外,包括小说和报纸文章的写作。
该研究的标题为“人工智能模型在对递归生成的数据进行训练时崩溃”,其结果平息了这场争论——人类还没有被排除在外。