生成式人工智能基準測試領域出現了一位新的領頭羊,它的名字是 Gemini 1.5 Pro。

之前的冠軍 OpenAI 的 ChatGPT-4o 終於在 8 月 1 日被超越,當時谷歌悄然發佈了其最新模型的實驗版本。

Gemini 的最新更新沒有大張旗鼓,目前還處於實驗階段。但隨着越來越多的報道稱其在基準測試中超越了競爭對手,它很快引起了社交媒體上人工智能社區的關注。

人工智慧基準

自 GPT-3 推出以來,OpenAI 的 ChatGPT 一直是生成式 AI 的旗手。其最新型號 GPT-4o 及其最接近的競爭對手 Anthropic 的 Claude-3 在過去一年左右的最常見基準測試中均領先於大多數其他型號,幾乎沒有競爭。

最受歡迎的基準測試之一稱為 LMSYS Chatbot Arena。它測試各種任務的模型並分配整體能力分數。 GPT-4o 獲得了 1,286 分,而 Claude-3 獲得了可觀的 1,271 分。

先前版本的 Gemini 1.5 Pro 得分為 1,261。但8月1日發表的實驗版本(Gemini 1.5 Pro 0801)得分高達1300。

這表明它總體上比競爭對手更有能力,但基準測試不一定能準確表示人工智慧模型能做什麼和不能做什麼。

社區興奮

如果沒有更深入的比較,我們正在進入一個人工智慧聊天機器人市場已經足夠成熟、可以提供多種選擇的時代。最終由最終用戶決定哪種人工智慧模型最適合他們。

有趣的是,最新版本的 Gemini 引起了一陣興奮,社交媒體上的用戶稱其「非常好」。一位 Reddit 用戶甚至寫道,它「從水中吹出了 4o」。

目前尚不清楚 Gemini 1.5 Pro 的實驗版本是否最終會成為未來的預設版本。雖然截至本文發佈時它仍然普遍可用,但它處於早期發布或測試階段的事實表明,出於安全或調整原因,該模型可能會被撤銷或更改。

相關:Google宣佈人工智慧模型在安全性、透明度方面取得進展