人工智能公司 Anthropic 最近發表了一項新研究,指出先進的人工智能模型對人類構成了一系列潛在的“破壞”威脅。

據該公司稱,他們的研究重點是惡意人工智能模型誘騙人類做出危險或有害決定的四種具體方式。

Anthropic 在 X.com 上公佈了新的威脅研究。來源:Anthropic

最終,這項新研究變成了一個好消息/壞消息的情況。根據該公司的研究,壞消息是,現代最先進的大型語言模型(例如 OpenAI 的 ChatGPT 和 Anthropic 的 Claude-3)表現出明顯的破壞能力。

根據論文:

“足夠強大的模型可能會在重要情況下顛覆人類的監督和決策。例如,在人工智能開發中,模型可能會暗中破壞評估自身危險能力、監控其行爲或做出部署決策的努力。”

然而,好消息是,人類學研究人員似乎有信心這些風險可以得到減輕——至少目前如此。

破壞

Anthropic 確定了人工智能模型破壞人類決策的四種方式,然後着手測試他們的模型,看看它們是否能夠在不知情的測試者面前取得成功。

圖表描繪了人工智能帶來的四種不同的“破壞”威脅載體。來源:Anthropic

首先,該團隊促使模型試圖通過引導人類獲取錯誤信息來破壞人類。這種威脅可能出現在人類依賴人工智能系統爲他們解析大量數據的情況下。

接下來,該團隊對模型進行了測試,以瞭解旨在幫助人類開發人員創建代碼的人工智能系統祕密插入錯誤或以其他方式破壞編碼員的努力有多容易。

最後兩種威脅涉及“沙袋”,這個術語描述了這樣一種情況:人工智能假裝無法做某事,以說服安全測試人員它並不危險,並且人工智能監控系統可能會故意允許有害內容作爲惡意計劃的一部分溜走。

雖然所有這些聽起來都具有潛在危險,但該公司向公衆保證,只需採取“最低限度的緩解措施”即可保護人類免受人工智能破壞的潛在威脅。

根據公司博客文章:

“總體而言,雖然我們的演示表明,目前的模型中可能存在低水平的破壞能力跡象,但我們認爲最低限度的緩解措施足以應對風險。然而,隨着人工智能能力的提高,更現實的評估和更強有力的緩解措施可能是必要的。”

雜誌:假冒 Rabby 錢包詐騙與迪拜加密貨幣首席執行官及衆多受害者有關