人工智能剛剛迎來了一位新玩家——而且它是完全開源的。Aria 是由總部位於東京的 Rhymes AI 開發的多模式 LLM,能夠在單一架構內處理文本、代碼、圖像和視頻。


不過,吸引你注意的不僅僅是它的多功能性,還有它的效率。它不像多式聯運的同類產品那樣龐大,這意味着它更節能,也更節省硬件。


Rhymes AI 通過採用混合專家 (MoE) 框架實現了這一目標。這種架構類似於擁有一支由專業迷你專家組成的團隊,每個專家都經過培訓,能夠在特定領域或任務上表現出色。


當向模型輸入新數據時,只會激活相關專家(或部分專家),而不是使用整個模型。這樣,只運行模型的特定部分意味着它將比運行一個試圖處理所有事情的萬事通實體更輕鬆。


這使得 Aria 更加高效,因爲與爲每個任務激活所有參數的傳統模型不同,Aria 每個標記僅選擇性地使用 249 億個參數中的 35 億個,從而減少了計算負荷並提高了特定任務的性能。


它還具有更好的可擴展性,因爲可以添加新的專家來處理專門的任務而不會導致系統超載。


值得注意的是,Aria 是開源 Arena 中第一個多模態 MoE。目前已經有一些 MoE(如 Mixtral-8x7B)和一些多模態 LLM(如 Pixtral),但 Aria 是唯一能夠結合這兩種架構的模型。


Aria 在綜合基準測試中擊敗競爭對手

在基準測試中,Aria 擊敗了一些開源重量級產品,如 Pixtral 12B 和 Llama 3.2-11B。


更令人驚訝的是,它與 GPT-4o、Gemini-1 Pro 或 Claude 3.5 Sonnet 等專有模型展開了激烈競爭,展現出與 OpenAI 創意相當的多模式性能。







Rhymes AI 已根據 Apache 2.0 許可發佈了 Aria,允許開發人員和研究人員調整和構建該模型。


它也是對由 Meta 和 Mistral 領導的不斷擴大的開源 AI 模型池的一個非常強大的補充,這些模型的性能與更受歡迎和採用的閉源模型類似。


Aria 的多功能性在各種任務中也表現出色。


在研究論文中,該團隊解釋了他們如何將整個財務報告輸入模型,並使其能夠進行準確的分析,它可以從報告中提取數據,計算利潤率並提供詳細的分類。


當負責天氣數據可視化時,Aria 不僅提取了相關信息,還生成了 Python 代碼來創建圖形,並附帶格式細節。


該模型的視頻處理能力似乎也很有前景。在一次評估中,Aria 剖析了一段關於米開朗基羅的大衛的長達一小時的視頻,識別出 19 個不同的場景,並附有開始和結束時間、標題和描述。這不是簡單的關鍵字匹配,而是情境驅動理解的展示。


編碼是 Aria 擅長的另一個領域。它可以觀看視頻教程、提取代碼片段,甚至調試它們。在一個例子中,Aria 發現並糾正了涉及嵌套循環的代碼片段中的邏輯缺陷,展示了它對編程概念的深刻理解。


測試模型

Aria 是一個強大的 253 億參數模型,需要至少 A100 (80GB) GPU 才能以半精度運行推理,因此您無法在筆記本電腦上運行和微調它。不過,我們在 Rhyme AI 的演示頁面上對其進行了測試,該頁面提供了受限版本。


文本分析與處理

首先,我們測試它分析文檔的能力,給它提供一篇研究論文,並要求它簡單地解釋一下這到底是什麼。


模型非常簡潔但準確。它沒有產生幻覺並保持對話,顯示出良好的檢索能力。


它以連續的長段落顯示其答覆,這可能會讓喜歡較短段落的用戶感到疲勞。




與 ChatGPT 相比,OpenAI 的模型在提供的信息方面顯示出類似的答案,但格式更加結構化,因此更易於閱讀。




此外,Rhyme 的演示網站將上傳限制爲只有 5 頁的 PDF。ChatGPT 更有能力處理超過 200 頁的文檔。


相比之下,Claude 3.5 Sonnet 允許小於 30MB 的文檔,只要它們不超過其令牌限制。


編碼和圖像理解

然後,我們混合了兩條指令,要求模型分析來自 CoinMarketCap 的屏幕截圖,顯示前 10 種代幣的價格表現,然後使用代碼提供一些信息。



我們的提示是:


根據過去 24 小時內的最佳表現來組織列表。


編寫 Python 代碼繪製每種貨幣每日和每週表現的條形圖,並根據過去 24 小時和過去 ​​7 天內顯示的表現信息繪製比特幣價格的折線圖,顯示其當前價格以及昨天和上週的價格。


Aria 未能根據每日表現整理代幣,出於某種原因,它認爲 Tron 表現良好,但實際上價格卻在下跌。該圖表在每日條形圖旁邊添加了每週表現。其條形圖線也有缺陷:它沒有在 X 軸上正確排列時間。




ChatGPT 更善於理解如何正確繪製時間線,但並沒有真正根據代幣的表現對代幣進行排序。它也是 TRX 的推手,顯示出積極的日常表現。




視頻理解

Aria 還能夠充分理解視頻。我們上傳了一段女性移動的短視頻。視頻中,女性沒有說話。


我們要求模特描述當時的場景,並詢問女人說了什麼,試圖看看模特是否產生了答案的幻覺。




Aria 能夠理解這項任務、描述其中的要素,並正確地提到這位女士沒有改變外貌,也沒有對着鏡頭說話。


ChatGPT 無法理解視頻,因此無法處理此提示。


創意文字

這次測試可能是最令人驚喜的。Aria 的故事比 Grok-2 或 Claude 3.5 Sonnet 提供的輸出更富有想象力,而 Grok-2 和 Claude 3.5 Sonnet 一直是我們主觀分析中的佼佼者。


我們的提示是:寫一篇關於一個名叫 José Lanz 的人穿越時空的短篇故事,使用生動的描述性語言,並根據他的文化背景和表現類型(無論您能想到什麼)改編故事。他來自 2150 年,回到了 1000 年。故事應該強調時間旅行悖論,以及試圖解決過去的問題(或製造問題)以試圖改變他當前的時間線是毫無意義的。未來之所以如此存在,只是因爲他影響了 1000 年的事件,而這些事件必須發生才能塑造具有當前特徵的 2150 年——他直到回到他的時間線才意識到這一點。


Aria 的故事講述了來自 2150 年的穿越時空的歷史學家 Jose Lanz,故事將科幻陰謀與歷史和哲學元素融合在一起。故事的結局不像其他模型所講述的那樣突然,儘管它不像人類寫的東西那樣有創意,但它的結果類似於情節轉折,而不是倉促的結局。


總體而言,Aria 呈現的故事引人入勝、連貫性強,與更強大的競爭對手相比,它在不同主題上更加全面、更具影響力。它更具沉浸感,但由於代幣限制而顯得倉促。對於長篇故事,Longwriter 是目前最好的模型。


您可以點擊此鏈接閱讀所有故事。


總體而言,Aria 是一個強大的競爭對手,由於其架構、開放性和可擴展性,它看起來很有前途。如果您仍想嘗試或訓練該模型,可以在 Hugging Face 免費獲取。請記住,您至少需要 80GB 的 VRAM、強大的 GPU 或三個 RTX 4090 協同工作。它仍然是新的,因此沒有量化版本(精度較低但效率更高)。


儘管存在這些硬件限制,但開源領域的此類新發展對於實現擁有完全開放的 ChatGPT 競爭對手的夢想邁出了重要一步,人們可以在家運行它並根據自己的特定需求進行改進。讓我們看看他們下一步會怎麼做。


由 Sebastian Sinclair 和 Josh Quittner 編輯