卡罗琳·比肖普 2024年11月18日 17:02

Mistral AI推出Pixtral Large,这是一个124B的多模态模型,在图像和文本理解方面具有先进能力,在各项基准测试中超过了竞争对手。

Mistral AI宣布推出Pixtral Large,这是一个开创性的1240亿参数开放权重多模态模型,基于Mistral Large 2的能力。该最新模型展示了先进的图像理解能力,特别是在处理文档、图表和自然图像时,同时保持出色的文本理解能力。

先进的性能指标

Pixtral Large已在一系列标准多模态基准上与领先模型进行了评估。在MathVista中,该测试在视觉数据上进行复杂数学推理,Pixtral Large取得了69.4%的显著分数,超过了该类别中的所有其他模型。此外,在ChartQA和DocVQA中,评估复杂图表和文档的推理,Pixtral Large超越了像GPT-4o和Gemini-1.5 Pro这样的知名模型。

该模型在MM-MT-Bench上也展示了竞争能力,超过了Claude-3.5 Sonnet(新),Gemini-1.5 Pro和GPT-4o(最新)。MM-MT-Bench作为一个开源的、基于评审的评估,反映了多模态语言模型在现实世界中的应用。

模型规格与应用

Pixtral Large配备了一个1230亿参数的多模态解码器和一个10亿参数的视觉编码器。它设计有128K的上下文窗口,能够容纳至少30张高分辨率图像,确保广泛的数据处理能力。

根据Mistral研究许可协议,Pixtral Large可用于学术和研究目的,商业应用则需获得商业许可,旨在彻底改变企业利用AI进行文档分析、图表解释等方面的方式。

现实世界案例

在实际应用中,Pixtral Large在多语言光学字符识别(OCR)和推理任务中表现出色。例如,在分析一张德国收据时,该模型准确计算了总额并包含了18%的小费,展示了其处理现实场景的能力。

除了文档处理外,该模型的能力还扩展到图表分析,识别训练损失曲线中的关键不稳定点,突显其在技术和商业环境中的实用性。

持续创新

与Pixtral Large一起,Mistral AI更新了其旗舰文本模型Mistral Large,现在可用作Mistral Large 24.11。此版本在长上下文理解、新系统提示和增强的功能调用方面进行了改进,专为知识探索、语义文档理解和任务自动化等企业用例而设计。

Mistral Large 24.11将通过谷歌云和微软Azure等云服务提供商提供,增强了其对寻求先进AI解决方案的企业的可用性。

欲了解更多详细信息,请访问Mistral AI网站。

图片来源:Shutterstock

源链接

<p&gt;Mistral AI首次推出Pixtral Large,这是一个尖端的多模态模型,最早出现在CoinBuzzFeed上。</p&gt;