原文標題:Which Platform Builds the Best AI Agents? We Test ChatGPT, Claude, Gemini and More   

原文作者:Jose Antonio Lanz   

原文來源:https://decrypt.co/   

編譯:Daisy, 火星財經

哪個平臺能打造最佳AI代理?我們測試了ChatGPT、Claude、Gemini及其他平臺

動手對比五大領先平臺,揭曉哪個最適合在日常場景中託管你的未來AI代理。

AI代理可以實現很多事情:從你的文檔庫中搜索信息、編寫代碼、抓取網頁數據,到對複雜數據進行洞察和深刻分析,甚至更多。你還能打造一個虛擬辦公室,由一羣專注於不同任務的AI代理組成,像一支專業的數字員工團隊一樣協同工作。

但這到底有多難?如果一個普通人想打造自己的AI金融顧問,比如,不依賴API、不需要奇怪的編碼、不用Github,哪個平臺能爲用戶提供最佳支持?我們只想看看這些頂尖AI公司在幫助普通用戶創建AI代理方面表現如何,而無需用戶具備高超的技術技能。

當然,你付出多少就得到多少。在這種情況下,我們還想看看普通人設置一個代理的難易程度與每個平臺交付結果的質量之間是否存在關聯。

我們的實驗將五大平臺進行了對比:ChatGPT、Claude、Huggingface、Mistral AI 和 Gemini。每個平臺都接受了相同的基本指令,要求創建一個財務顧問。

測試專注於平臺的開箱即用能力。重點考察代理能否處理一個常見的情景——在這種情況下,幫助某人平衡 25,000 美元的投資與 30,000 美元的債務。我們還想看看它們分析交易圖表的能力。我們避免使用額外的工具來提高代理的生產力,而是嘗試採取最簡單的方式。

簡而言之,以下是我們的發現和模型排名:

平臺排名

1)OpenAI 的 GPT(8.5/10)

  • 設置難易度:4/5

  • 結果質量:4.5/5

ChatGPT 是最均衡的平臺,提供複雜的代理創建選項,同時具有引導式和手動選項,能夠滿足完全新手和有一定經驗的用戶的需求。

儘管最近的界面更新將一些功能埋藏在菜單中,但該平臺在將複雜的用戶需求轉化爲功能性代理方面表現出色。我們通過構建一個財務顧問來測試該模型,結果顯示該代理具有出色的上下文意識和結構化問題解決能力,爲債務管理和投資分配提供了詳細且連貫的策略。

2) Google Gemini(7/10)

  • 設置難易度:4/5

  • 結果質量:3/5

Gemini 憑藉其精緻、直觀的界面和優秀的錯誤處理脫穎而出。雖然需要更詳細的提示才能獲得最佳結果,但它對指令的字面解釋創造了一致且可預測的結果。

該代理在提供財務建議時的諮詢方式強調了在推薦之前收集上下文,類似於專業實踐。然而,它在零樣本響應中可能過於保守。

3) HuggingChat(6.5/10)

  • 設置難易度:2/5

  • 結果質量:4.5/5

這個開源平臺提供了無與倫比的定製化和模型選擇選項。對於那些尋求對每個細節擁有粒度控制的人來說,這是一個極好的選擇,但對於那些尋求簡便的用戶來說,可能並不合適。(可以把它比作 Linux 系統與 macOS 系統的比較)。其複雜的時間框架和實用工具集成展示了其先進的能力。

我們構建了一個純粹的代理,沒有任何額外的功能。我們使用了 Nvidia 的 Nemomotron 作爲基礎大語言模型,其輸出質量足以與 ChatGPT 相媲美。對開源陣營來說,不錯。

4)Claude(5.5/10)

  • 設置難易度:2.5/5

  • 結果質量:3/5

Anthropic 的平臺在特定領域表現出色,尤其是在需要大量上下文處理和代碼解析的任務中。其簡約的界面掩蓋了其複雜的能力,但“可選”指令字段可能會讓用戶感到困惑。

我們的代理在提供建議時非常保守且模糊,但展示了良好的風險意識和戰略思維。它需要更小心的提示才能真正發揮其潛力,但如果測試採用了適應性提示,這將違背假設相似條件的前提,因此並不公平。

5) Mistral AI(5/10)

設置難易度:2.5/5

結果質量:2.5/5

這個法國平臺提供了獨特的基於示例的學習和深度定製選項。然而,其面向開發者的界面和偶爾的語言切換問題爲非技術用戶創造了障礙。它還需要修改代理的配置,以適應不同模型執行諸如分析圖像或處理代碼等不同任務。這並不理想。

財務顧問在交互設計方面表現出了潛力,但在基本的數學驗證上遇到了困難,輸出結果最差。並不是說輸出不好,但在零樣本測試中,這是最不令人滿意的。

深入分析

考慮到之前的排名,沒有一種通用的解決方案,所有平臺都有各自的優缺點。通過一些專注和細心的提示定製,某個平臺的結果可能會有所不同,甚至超越其他平臺。最終,所有的語言模型(LLM)都有各自不同的提示風格。

如果你想了解更多關於我們排名背後的理由,以下是我們對經驗和代理結果的更深入分析。我們將所有代理配置爲相同的系統提示,沒有額外的參數和功能,並問它們相同的基本問題:“我有 25K 美元投資,並且有 30K 美元債務。爲我制定一個財務計劃。”

OpenAI

ChatGPT的界面最近進行了更新,實際上使操作變得更加複雜。GPT創建選項現在隱藏在菜單中,但一旦找到,它提供了兩種路徑:一種是對話式設置,AI幫助構建你的代理;另一種是手動配置,適合那些確切知道自己想要什麼的人。

OpenAI的GPT平臺是一個功能齊全的“瑞士軍刀”——它能讀取代碼、搜索網頁、處理圖像生成和分析。AI引導的設置過程使其特別適合新手,儘管對於需要精細控制的高級用戶來說,可能會感覺有些限制。(例如,如果你要求模型更加具體或詳細,它可能會改變整個系統提示,從而導致結果變差。)

在實際使用代理時,ChatGPT非常直接,界面清晰且易於理解。

這些代理可以原生讀取文檔並理解圖像,這使它們在其他平臺中具有一定優勢。

現在,來談談你通過基本提示可以創建的代理質量。我們創建的金融顧問MoneyGPT給我們展示了一場結構化問題解決的碩士課程,表現相當令人印象深刻。

除了其精確的資金分配——“$20,000用於高利債務”以及詳細的投資組合拆分——該代理還展示了複雜的財務推理。它提供了一個五步走的路線圖,不僅僅是一個清單,而是一個連貫的策略,考慮到了短期需求和長期規劃。

該代理的優勢在於能夠平衡細節和上下文。雖然它推薦了具體的投資組合(40% 投資於 S&P 500,30% 投資於債券),但它還解釋了推薦背後的理由:“償還高利債務就像是獲得一個保證的投資回報。”這種上下文意識延伸到了長期規劃,建議定期審查週期,並根據變化的情況調整策略。

然而,這種信息的豐富性也暴露出一個潛在的弱點:可能會因一次性提供過多的細節而讓用戶感到不知所措。雖然從技術上講,它非常全面,但快速傳遞的具體分配、投資策略和監控計劃,可能對金融新手來說顯得有些令人生畏。

Google

總體來說,Google 的 Gemini 代理創建平臺在美學上脫穎而出,擁有一個精緻、直觀的界面,使得代理創建過程幾乎顯得過於簡單。系統對指令的字面解讀有助於避免混淆,其簡潔的用戶界面也消除了人工智能開發中的壓迫感。

然而,要從中獲得優質結果,它需要更詳細的提示。它不會理所當然地處理事物:簡短的提示會給出低質量的迴應。

在後臺,它擁有強大的功能——Google 支持的網頁搜索集成、代碼分析和圖像處理能力,堪比 ChatGPT 的功能,但大多數依賴於微軟的技術。

Gemini 的用戶界面感覺像是由真正理解用戶體驗的人設計的。界面通過清晰的標籤引導用戶,一切信息都能在一個屏幕上顯示。

這種精緻的方式使其特別吸引新手用戶,儘管有經驗的用戶可能會覺得它缺乏更細緻的控制。

我們將我們的代理命名爲 MoneyGem,並要求它提供一份財務計劃。它的諮詢式方法展示了 Google 獨特的問題解決方法。它沒有直接給出答案,而是先提問了諸如“這是什麼類型的債務?”和“你的利率是多少?”等問題——顯示出它理解財務建議並非千篇一律。

它在提供建議之前強調收集背景信息,這與專業的財務規劃實踐一致,儘管這可能會讓尋求快速答案的用戶感到沮喪。

A zero-shot回答並不有用。代理基本上表示它不瞭解用戶,無法提供好的財務建議。在要求它做出假設並迫使它提供適合大多數場景的計劃後,代理生成了一份非常保守的計劃草案,但沒有提供具體的投資建議。

然而,MoneyGem 最後給出了一個建議,即最大化稅收優惠賬戶,如 401(k) 或 Roth IRA,以減少稅收負擔。不錯。

你可以點擊這裏查看我們與 MoneyGem 的互動,並通過點擊這個鏈接親自試用該模型。

Mistral AI

Mistral 的代理配置過程有點複雜,遠離了簡易性。代理創建工具隱藏在其開發者控制檯中,具有深度自定義選項,可能會讓新手感到困惑,但卻會讓喜歡折騰的用戶感到高興。

其代理構建界面並不是 LeChat(聊天界面)的一部分,但一旦代理創建完成,它會出現在那裏。

我們非常喜歡的一點是,能夠通過示例輸入來塑造代理的行爲和響應風格,這是目前其他平臺沒有提供的功能。不過,這裏有一個奇怪的bug:在創建代理時,UI 突然切換到了法語,可能是因爲公司是法國的。無論如何,我們無法切換回英語或西班牙語。

一旦代理創建完成,用戶必須在正常的聊天界面中調用它才能使用。用戶需要退出 Le Plateforme,進入 Le Chat,這並不是最直觀的操作。不過,使用代理的 UI 相當直接,感覺就像其他 AI 聊天機器人一樣。

我們創建了我們的代理,並將其命名爲 Le Money,以致敬 Mistral 的法國根基。其表現清晰地展示了 Mistral 在問題解決上的通用方法。它建議“將 10,000 美元留作應急資金,15,000 美元用於償還債務,10,000 美元用於投資”,看似直白,但也表明該代理缺乏一些基本的數學驗證。

35,000 美元的總額超出了可用資金 10,000 美元,這是一個基本錯誤,某些語言模型在優先考慮概念正確性而非數值準確性時可能會出現這樣的錯誤。

然而,我們必須指出,表現最好的 LLM 已經有了很大改進,不會頻繁出現這樣的錯誤——至少沒有像 Mistral 那樣頻繁。

除此之外,Le Money 的計劃並不非常詳細,但它是唯一一個提供後續問題的代理,這些問題可以使互動更加流暢,並幫助它更好地理解用戶的需求。

LeMoney 的完整計劃可以在這裏查看,代理可以在這裏進行測試。

Anthropic

Claude 的項目感覺不像是一個代理創建平臺,更像是一個複雜的任務執行系統。界面簡約,幾乎過於簡約,且不太直觀。

這種極簡主義的界面可能會讓一些用戶感到困惑。平臺提供了一個基本的設置,並有一個“可選”的指令字段,感覺既不重要又至關重要:如果指令被標記爲可選,那麼 AI 代理如何知道它應該做什麼?

其極簡主義的界面感覺有些奇怪,但 Anthropic 一直以來並不以其 UI 設計聞名。配置模型的同一個窗口也是用來向其發出提示的。其功能主要集中在文本代碼解讀上,除此之外沒有其他功能。網絡搜索、圖像處理和生成是 Anthropic 留給競爭對手的高級功能。

我們的代理,命名爲 MoneyClaude,無法公開測試,因爲 Anthropic 不允許。它在提供財務建議時採取了非常保守的立場,雖然迴應在技術上是準確的,但內容卻非常模糊——例如,“在減少債務和必要儲蓄之間保持平衡”等。

它請求了更多的信息,但至少在沒有這些信息的情況下,提供了一個非常通用的策略,而無需進一步交互,這似乎比 Google 的方法更爲理想。

Hugging Face

這個開源平臺獨樹一幟,是高級用戶的天堂——也是初學者的潛在噩夢。它是唯一允許用戶選擇自己喜歡的語言模型的平臺,提供前所未有的控制權來定義代理的基礎。

此外,用戶可以集成數十種不同的工具到他們的代理中,但每次只能同時激活三個。這一限制迫使用戶仔細考慮每個特定用例最重要的功能,但這是其他任何模型無法提供的。

它是所有界面中最具可定製性的體驗,擁有許多可調節的設置。結果是,這個平臺可以創建比競爭對手更強大、更專業的代理,但只有在完全瞭解操作的人手中才會成功。

用戶可以在 HuggingChat 上嘗試他們的代理——無疑是高級用戶的夢想。一旦創建了代理,使用起來非常簡單。界面展示了一個包含代理名稱、描述和照片的大卡片。它還允許用戶分享代理的鏈接並調整其設置,所有這些都可以在卡片上直接完成。

將我們的 HuggingMoney 代理投入測試後,我們發現它處理時間框架的方式展現了對財務規劃心理學的更深入理解。它將規劃分爲“短期(0-24個月)、中期(24-60個月)和長期(超過60個月)”,這與專業的財務規劃實踐相符。

代理建議將“$0-$5,000 投資於流動性強、低風險的工具”,同時保持每月“$1,000-$1,500”的積極債務支付。這一建議乍一看,顯示了對現金流管理的細緻理解。

另一個有趣的特點是,它將實用工具與理論建議相結合。除了建議 50/30/20 法則外,還推薦了具體的預算應用程序,並強調了稅收優化——在高層戰略和日常執行之間架起了一座橋樑。主要缺點?它在沒有尋求確認的情況下對債務利率做出了假設。

爲了提供有用的建議,它過於輕率地假設了許多事情。這個問題,即無論如何都想提供迴應的衝動,可以通過更精準的提示來解決,但這是需要注意的。