一項新研究發現,使用人工智能生成的材料進行訓練的大型語言模型 (LLM) 產生的輸出缺乏實質內容和細微差別。這一發現給依賴有限的人工數據集來獲取內容的人工智能開發人員帶來了新的挑戰。

另請閱讀:報告稱,人工智能深度僞造使美國當局難以保護兒童

英國劍橋大學和牛津大學的人工智能研究人員嘗試依靠僅包含人工智能生成內容的數據集來編寫提示。結果並不理想,因爲它產生了難以理解的答案。

人工智能仍然需要人類的理解

這篇論文的作者之一、劍橋大學的 Zhakar Shumaylov 表示,需要對提供給 LLM 的數據進行質量控制,而數據是 ChatGPT 和谷歌 Gemini 等生成式 AI 聊天機器人背後的技術。Shumaylov 說:

“我們必須非常小心地對待訓練數據。否則,事情總是會出錯。”

Shumaylov 詳細介紹了這種現象,稱之爲“模型崩潰”。事實證明,它會影響各種人工智能模型,包括那些專門使用文本提示生成圖像的模型。

根據這項研究,在一個模型上使用人工智能生成的數據重複文本提示最終產生了亂碼。例如,研究人員發現,一個使用有關英國中世紀教堂塔樓的文本進行測試的系統在僅僅九代之後就產生了一個重複的長耳大野兔列表。

加州大學計算機科學家 Hany Farid 在評論這些輸出時,將數據崩潰比作動物近親繁殖特有的挑戰。

法裏德說:“如果一個物種與自己的後代進行近親繁殖,並且沒有使其基因庫多樣化,那麼就會導致物種的滅絕。”

當研究人員將人類生成的數據注入人工智能數據中時,崩潰的速度比純人工智能生成的內容運行時要慢。

人工智能模型在接受人工智能生成的數據訓練時會產生胡言亂語。研究人員:人工智能可能會加劇對少數羣體的偏見

語言模型的工作原理是建立大量文本中的標記(單詞或單詞部分)之間的關聯,這些文本通常來自互聯網。它們根據這些學習到的模式,通過輸出統計上最有可能的下一個單詞來生成文本。

另請閱讀:由 ChatGPT 提供支持的泰迪熊 Poe 爲孩子們讀睡前故事

這項研究於 7 月 24 日發表在《自然》雜誌上,表明數據集中多次提到的信息很可能不會重複。研究人員擔心這可能會對已經邊緣化的少數羣體產生負面影響。

爲了避免模型在實際使用中崩潰,該研究建議對人工智能生成的內容和人類生成的內容進行水印處理。但研究表示,由於競爭對手人工智能公司之間缺乏協調,這也可能帶來問題。

該項研究結果發佈之際,人們正日益爭論人工智能是否會導致人類完全被排除在內容創作之外,包括小說和報紙文章的寫作。

該研究的標題爲“人工智能模型在對遞歸生成的數據進行訓練時崩潰”,其結果平息了這場爭論——人類還沒有被排除在外。