机器之心报告编辑:熊猫 刚刚,Mistral AI“欧洲的DeepSeek”推出了新一代开放模型——Mistral 3系列模型。该系列包括多个型号,其中包括“世界上最好的小型号”:Minitral 3(14B、8B、3B)。每个模型都发布了基础版本、优化命令版本和推理版本。下一代开源MoE:Mistral Large 3,总参数675B,启动参数41B。 “所有模型都是在 Apache 2.0 许可证下发布的。通过以多种压缩格式开放我们的模型,我们正在为开发人员社区提供支持,并通过分布式智能将 AI 带到人们的手中,”Mistral 说。该公司还声称“Ministral型号提供了同级产品中最好的性价比。同时,Mistral Large 3也加入了调整“更现代指令”的开源型号行列。该系列型号一经发布就吸引了无数目光,有人说,这标志着欧洲重返中国和美国主导的人工智能竞赛。然而,Mistral 在参考显示器上的表现也引起了一些开发人员的质疑。 Mistral Large 3:SOTA 开放模型。 Mistral 表示,Mistral Large 3 在 3000 个 NVIDIA H200 GPU 上从头开始训练。 Mistral Large 3是Mistral创新Mixtral系列中的第一个Mixtrail Expert模型,代表着预训练方面向前迈出了一大步,该模型在通用目标词方面的性能可与市场上最好的命令调整开放权重模型相媲美,同时在图像理解和多语言对话(即非英语/中文环境)方面表现出一流的性能,该模型于日前发布。值得注意的是,没有与正式版本3.2进行比较。这可能是因为 DeepSeek 不发布通用语言任务的基准测试结果,而仅提供推理任务和代理的基准测试结果。Mistral Large 3 在 LMArena 排名中的 OSS(开源软件)非推理模型类别中排名第 2(在所有开放模型中排名第 6),使其成为性能最佳的开放模型之一。 Mistral 表示,Mistral Large 3 还有 Reasoning 版本,即将发布。 Mistral、NVIDIA、vLLM 和 Red Hat 联手使 Mistral 更快、更易于使用 3Mistral 还宣布与 vLLM 和 Red Hat 达成协议 我们一直在共同努力,使 Mistral Large 3 更容易为开源社区提供。 “我们发布了使用 llm-compressor 创建的 NVFP4 格式的检查点。这个优化的检查点允许您使用 vLLM 在 Blackwell NVL72 系统和单个 8xH100 或 8xH100 节点上高效运行 Mistral Large。在 NVIDIA Hopper GPU 上进行训练,并利用高带宽 HBM3e 内存来处理尖端规模的工作负载。NVIDIA 的终极协同设计(co-design)方法将硬件、软件、 NVIDIA 工程师实现了 ef。对 Mistral 3 系列中的 TensorRT-LLM 和 SGLang 提供高效的推理支持,从而实现高效、低精度的执行。 NVIDIA 集成了 Blackwell Attention 和下一代 MoE 核心,增加了对预取/解码分离服务的支持,并与 Mistral 在推测性解码方面的合作集成,使开发人员能够在 GB200 NVL72 和更新的硬件上高效处理高性能、长上下文工作负载。在边缘,NVIDIA 为 DGX Spark、RTX PC 和笔记本电脑以及 Jetson 设备的 Ministral 模型提供了优化的部署选项,为开发人员提供了从数据中心到运行这些开放模型的机器人的一致、高性能路径。 “Ministral 3:边缘的最高智能 Mistral 还推出了适用于本地和边缘用例的 Ministral 3 系列,提供三种模型尺寸:3B、8B 和 14B 参数。此外,对于每种尺寸,我们向社区提供基础、指令和推理变体,每个变体都带有图像现有功能,全部在 Apache 2.0 许可证下。 Mistral 强调:“Ministral 3.在开源模型中实现了最佳的性价比。在实际用例中,生成的代币数量与模型的大小一样重要。Ministryal 指令模型在 t 的生成过程中与对应模型的工作原理类似。代币数量通常要小一个数量级。此外,Ministryal 推理变体可以更加努力地在其权重类别中产生最先进的精度。例如,其 14B 变体实现了AIME ’25(预训练基准)(指令基准)(推理基准)的准确率达到 85% Mistral AI Studio、Amazon Bedrock、Azure Foundry、Hugging Face (Large 3 Mistral)、Modal、IBM WatsonX、OpenRouter、Firewo 均支持 Mistral 3。目前,rks、Unsloth AI 和 Together AI 均支持 Mistral 3。可在 NVIDIA NIM 和 AWS SageMaker 服务中使用 Mistral AI 定制。对于寻求定制人工智能解决方案的组织,Mistral AI 还提供定制模型培训服务,以根据特定需求微调或完全调整模型。该公司表示:“无论是优化特定领域任务、提高您自己的数据集性能,还是在您自己的环境中部署模型,我们的团队都会与您合作构建满足您目标的人工智能系统。对于企业级部署,定制培训可确保您的人工智能解决方案安全、高效、大规模地实现最大影响。”结论 第一个 Mistral 模型拥有 Apache 2.0 开源许可证,是真正的开源。然而,随着该公司推出更大、功能更强的旗舰机型,例如 Mistral Large,它逐渐转向闭源和商业许可。 Mistral回归Apache 2.0协议,某种程度上是DeepSeek“被迫”的一次战略调整。过去一段时间,DeepSeek 迅速俘获了全球开发者社区的心y 由于其极端的推理成本和激进的开源策略。过去,主张“开放重量但限制商业用途”的中型制造商处于被动地位。 Mistral 3的推出可以看作是法国独角兽公司对DeepSeek的直接追击。该公司不仅继续在MoE(Hybrid Expert)架构上发力,还利用最终模型(Ministral)的差异化优势,走出中美巨头留下的差距。 https://mistral.ai/news/mistral-3https://x.com/MistralAI/status/1995872766177018340
特别提示:以上内容(包括图片和视频,如有)由lto自有媒体平台“网易账号”用户上传。还宣布该平台将仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由提供信息存储的社交媒体平台网易号用户上传并发布仅限服务。