Mistral AI推出Pixtral Large，这是一个尖端的多模态模型

卡罗琳·比肖普 2024年11月18日 17:02
Mistral AI推出Pixtral Large，这是一个124B的多模态模型，在图像和文本理解方面具有先进能力，在各项基准测试中超过了竞争对手。
Mistral AI宣布推出Pixtral Large，这是一个开创性的1240亿参数开放权重多模态模型，基于Mistral Large 2的能力。该最新模型展示了先进的图像理解能力，特别是在处理文档、图表和自然图像时，同时保持出色的文本理解能力。
先进的性能指标
Pixtral Large已在一系列标准多模态基准上与领先模型进行了评估。在MathVista中，该测试在视觉数据上进行复杂数学推理，Pixtral Large取得了69.4%的显著分数，超过了该类别中的所有其他模型。此外，在ChartQA和DocVQA中，评估复杂图表和文档的推理，Pixtral Large超越了像GPT-4o和Gemini-1.5 Pro这样的知名模型。
该模型在MM-MT-Bench上也展示了竞争能力，超过了Claude-3.5 Sonnet（新），Gemini-1.5 Pro和GPT-4o（最新）。MM-MT-Bench作为一个开源的、基于评审的评估，反映了多模态语言模型在现实世界中的应用。
模型规格与应用
Pixtral Large配备了一个1230亿参数的多模态解码器和一个10亿参数的视觉编码器。它设计有128K的上下文窗口，能够容纳至少30张高分辨率图像，确保广泛的数据处理能力。
根据Mistral研究许可协议，Pixtral Large可用于学术和研究目的，商业应用则需获得商业许可，旨在彻底改变企业利用AI进行文档分析、图表解释等方面的方式。
现实世界案例
在实际应用中，Pixtral Large在多语言光学字符识别（OCR）和推理任务中表现出色。例如，在分析一张德国收据时，该模型准确计算了总额并包含了18%的小费，展示了其处理现实场景的能力。
除了文档处理外，该模型的能力还扩展到图表分析，识别训练损失曲线中的关键不稳定点，突显其在技术和商业环境中的实用性。
持续创新
与Pixtral Large一起，Mistral AI更新了其旗舰文本模型Mistral Large，现在可用作Mistral Large 24.11。此版本在长上下文理解、新系统提示和增强的功能调用方面进行了改进，专为知识探索、语义文档理解和任务自动化等企业用例而设计。
Mistral Large 24.11将通过谷歌云和微软Azure等云服务提供商提供，增强了其对寻求先进AI解决方案的企业的可用性。
欲了解更多详细信息，请访问Mistral AI网站。
图片来源：Shutterstock
源链接
<p&gt;Mistral AI首次推出Pixtral Large，这是一个尖端的多模态模型，最早出现在CoinBuzzFeed上。</p&gt;
Mistral AI推出Pixtral Large，这是一个尖端的多模态模型

创作者的更多内容

实时新闻

Mistral AI推出Pixtral Large，这是一个尖端的多模态模型

创作者的更多内容

实时新闻

热门文章