Mistral AI推出Pixtral Large，這是一個尖端的多模態模型

卡羅琳·比肖普 2024年11月18日 17:02
Mistral AI推出Pixtral Large，這是一個124B的多模態模型，在圖像和文本理解方面具有先進能力，在各項基準測試中超過了競爭對手。
Mistral AI宣佈推出Pixtral Large，這是一個開創性的1240億參數開放權重多模態模型，基於Mistral Large 2的能力。該最新模型展示了先進的圖像理解能力，特別是在處理文檔、圖表和自然圖像時，同時保持出色的文本理解能力。
先進的性能指標
Pixtral Large已在一系列標準多模態基準上與領先模型進行了評估。在MathVista中，該測試在視覺數據上進行復雜數學推理，Pixtral Large取得了69.4%的顯著分數，超過了該類別中的所有其他模型。此外，在ChartQA和DocVQA中，評估複雜圖表和文檔的推理，Pixtral Large超越了像GPT-4o和Gemini-1.5 Pro這樣的知名模型。
該模型在MM-MT-Bench上也展示了競爭能力，超過了Claude-3.5 Sonnet（新），Gemini-1.5 Pro和GPT-4o（最新）。MM-MT-Bench作爲一個開源的、基於評審的評估，反映了多模態語言模型在現實世界中的應用。
模型規格與應用
Pixtral Large配備了一個1230億參數的多模態解碼器和一個10億參數的視覺編碼器。它設計有128K的上下文窗口，能夠容納至少30張高分辨率圖像，確保廣泛的數據處理能力。
根據Mistral研究許可協議，Pixtral Large可用於學術和研究目的，商業應用則需獲得商業許可，旨在徹底改變企業利用AI進行文檔分析、圖表解釋等方面的方式。
現實世界案例
在實際應用中，Pixtral Large在多語言光學字符識別（OCR）和推理任務中表現出色。例如，在分析一張德國收據時，該模型準確計算了總額幷包含了18%的小費，展示了其處理現實場景的能力。
除了文檔處理外，該模型的能力還擴展到圖表分析，識別訓練損失曲線中的關鍵不穩定點，突顯其在技術和商業環境中的實用性。
持續創新
與Pixtral Large一起，Mistral AI更新了其旗艦文本模型Mistral Large，現在可用作Mistral Large 24.11。此版本在長上下文理解、新系統提示和增強的功能調用方面進行了改進，專爲知識探索、語義文檔理解和任務自動化等企業用例而設計。
Mistral Large 24.11將通過谷歌雲和微軟Azure等雲服務提供商提供，增強了其對尋求先進AI解決方案的企業的可用性。
欲瞭解更多詳細信息，請訪問Mistral AI網站。
圖片來源：Shutterstock
源鏈接
<p&gt;Mistral AI首次推出Pixtral Large，這是一個尖端的多模態模型，最早出現在CoinBuzzFeed上。</p&gt;
Mistral AI推出Pixtral Large，這是一個尖端的多模態模型

創作者的更多內容

實時新聞

Mistral AI推出Pixtral Large，這是一個尖端的多模態模型

創作者的更多內容

實時新聞

熱門文章