卡羅琳·比肖普 2024年11月18日 17:02

Mistral AI推出Pixtral Large,這是一個124B的多模態模型,在圖像和文本理解方面具有先進能力,在各項基準測試中超過了競爭對手。

Mistral AI宣佈推出Pixtral Large,這是一個開創性的1240億參數開放權重多模態模型,基於Mistral Large 2的能力。該最新模型展示了先進的圖像理解能力,特別是在處理文檔、圖表和自然圖像時,同時保持出色的文本理解能力。

先進的性能指標

Pixtral Large已在一系列標準多模態基準上與領先模型進行了評估。在MathVista中,該測試在視覺數據上進行復雜數學推理,Pixtral Large取得了69.4%的顯著分數,超過了該類別中的所有其他模型。此外,在ChartQA和DocVQA中,評估複雜圖表和文檔的推理,Pixtral Large超越了像GPT-4o和Gemini-1.5 Pro這樣的知名模型。

該模型在MM-MT-Bench上也展示了競爭能力,超過了Claude-3.5 Sonnet(新),Gemini-1.5 Pro和GPT-4o(最新)。MM-MT-Bench作爲一個開源的、基於評審的評估,反映了多模態語言模型在現實世界中的應用。

模型規格與應用

Pixtral Large配備了一個1230億參數的多模態解碼器和一個10億參數的視覺編碼器。它設計有128K的上下文窗口,能夠容納至少30張高分辨率圖像,確保廣泛的數據處理能力。

根據Mistral研究許可協議,Pixtral Large可用於學術和研究目的,商業應用則需獲得商業許可,旨在徹底改變企業利用AI進行文檔分析、圖表解釋等方面的方式。

現實世界案例

在實際應用中,Pixtral Large在多語言光學字符識別(OCR)和推理任務中表現出色。例如,在分析一張德國收據時,該模型準確計算了總額幷包含了18%的小費,展示了其處理現實場景的能力。

除了文檔處理外,該模型的能力還擴展到圖表分析,識別訓練損失曲線中的關鍵不穩定點,突顯其在技術和商業環境中的實用性。

持續創新

與Pixtral Large一起,Mistral AI更新了其旗艦文本模型Mistral Large,現在可用作Mistral Large 24.11。此版本在長上下文理解、新系統提示和增強的功能調用方面進行了改進,專爲知識探索、語義文檔理解和任務自動化等企業用例而設計。

Mistral Large 24.11將通過谷歌雲和微軟Azure等雲服務提供商提供,增強了其對尋求先進AI解決方案的企業的可用性。

欲瞭解更多詳細信息,請訪問Mistral AI網站。

圖片來源:Shutterstock

源鏈接

<p&gt;Mistral AI首次推出Pixtral Large,這是一個尖端的多模態模型,最早出現在CoinBuzzFeed上。</p&gt;