罗福莉携小米MiMo-V2-Flash首次亮相:一次在推理与Agent上的下注|甲子光年
甲子光年,2025-12-17 12:19:45
![]()
![]()
“真正的护城河,是科学的研究文化与方法,是将未知问题结合模型优势转化为可用产品的能力。”
作者|王博
大模型正在进入一个新阶段。
过去两年,行业围绕着参数规模、预训练数据量与通用能力上限展开了激烈竞争。模型是否“更聪明”,是否能在标准基准上取得领先成绩,几乎构成了全部叙事核心。
在大模型进入第二个阶段之后,一个越来越清晰的事实正在浮出水面:在以Agent为目标的应用场景中,效率本身开始成为能力的一部分。
正是在这样的背景下,小米MiMo团队在12月16日晚上发布并开源了MiMo-V2-Flash。团队在官方博客中介绍,这是一款强大、高效且超快速的基座语言模型,在推理、编程和智能体场景中表现尤为出色,同时也是处理日常任务的优秀通用助手。
![]()
图片来源:小米MiMo
从技术报告和官方博客给出的信息来看,小米MiMo团队并没有一味卷模型参数,而是围绕“推理效率、长上下文与Agent能力”展开了系统性工程设计。
今天上午,小米MiMO大模型负责人罗福莉公开介绍了MiMo-V2-Flash并分享了其背后的研发故事。值得注意的是,这是DeepSeek前研究员罗福莉加入小米后,首次公开亮相。
![]()
罗福莉,图片来源:「甲子光年」拍摄
台上的罗福莉略显紧张,双手一直紧握翻页器,但这位四川姑娘用带有一点“川普”的口音坚定地说:“MiMo-V2-Flash是迈向Agent时代的全新语言基座。”
「甲子光年」认为,这不仅是一次重要的模型发布,也是一次观察小米MiMo团队技术取向的机会。将模型本身的技术选择,与背后的人员与组织变化结合起来看,MiMo-V2-Flash的意义,已经超出了单一模型版本迭代。
1.模型形态:推理效率成为核心
MiMo-V2-Flash采用混合专家(Mixture-of-Experts,MoE) 架构,总参数规模为309B,但在实际推理过程中,仅有约15B参数被激活。
在轻量化的模型架构之上,MiMo-V2-Flash仍然实现了更高水平的智能表现,在多项基准测试中获得了不错的成绩。
例如,在AIME 2025数学竞赛和GPQA-Diamond科学知识基准中,MiMo-V2-Flash跻身开源模型前二,展现出突出的推理能力。在衡量软件工程能力的SWE-bench Verified以及多语言基准上,MiMo-V2-Flash位列所有开源模型第一,并且整体表现已可与全球顶级闭源模型比肩。
![]()
图片来源:小米MiMo
其实在当前阶段,MoE已逐渐成为很多模型研发团队面向推理效率的现实选择。随着模型被频繁调用、持续运行,单位时间内的计算成本与显存占用,开始成为系统设计的硬约束。MiMo-V2-Flash的参数分布方式,明显是在为高并发、长时间运行场景预留空间。
从这一点看,小米MiMo-V2-Flash定位更像是一款可以被嵌入系统、长期服务的推理引擎。
MiMo-V2-Flash支持最高256k的上下文长度,使其能够完成跨数百轮Agent交互和工具调用的任务。与这一指标同样重要的,是它实现这一能力的方式。
罗福莉介绍,团队围绕极致推理效率设计模型结构,主要有两个方面创新:Hybrid SWA架构(混合滑动窗口注意力)和3层MTP推理。
![]()
罗福莉谈围绕极致推理效率设计模型结构,图片来源:「甲子光年」拍摄
在注意力机制上,MiMo-V2-Flash采用了滑动窗口注意力与全局注意力相结合的混合注意力(hybrid attention)架构。滑动窗口注意力让模型在大多数情况下只关注局部上下文,大幅降低长文本场景下的计算与显存开销;全局注意力则在关键层中保留对完整上下文的建模能力,用于校准整体语义与长程依赖。通过在效率与理解能力之间进行这种分工,模型得以在支持超长上下文的同时,仍保持可部署、可扩展的推理性能。
小米MiMo团队将滑动窗口注意力与全局注意力交错使用,采用128-token的激进滑动窗口设置,并以5:1的混合比例进行组合。
这一设计并不追求理论上的最优表达能力,而是针对KV Cache的显存与计算成本进行了现实取舍。全局注意力在长上下文下的成本增长过快,而纯滑动窗口又会削弱长程依赖。混合注意力的引入,使模型在长文本理解与工程可行性之间维持了相对平衡。
客观来说,这类设计细节往往不容易在榜单中体现,却直接决定了模型是否能在真实系统中被使用。
在推理效率层面,MiMo-V2-Flash引入了Multi-Token Prediction(MTP)模块。这一模块以轻量级结构嵌入模型体系,使模型在一次前向计算中并行预测多个token。
![]()
图片来源:小米MiMo
罗福莉介绍:“MTP一开始是被提出来用于做推理加速的,后面DeepSeek将它用于提升基座模型的能力,我们也在训练的时候去加入了MTP层进一步提升基座模型的潜能。微调的时候加入了更多层的MTP,用很少量的算力就提升了MTP层的接受率。”
根据技术报告,MTP在不显著影响生成质量的前提下,可将推理速度提升最高约3倍。
这一设计的意义,并不局限于让模型可以“更快输出”,而在于改变了模型在复杂任务中的推理节奏。
在Agent场景中,模型往往需要经历多轮规划、判断与执行。推理速度的提升,直接影响系统的响应能力,也影响Agent是否能够被用于实时或准实时决策任务。MTP的引入,明显可以服务于这一类使用情境。
2.训练方法:全新的后训练范式MOPD
在推理与Agent任务中,模型面临的挑战与传统问答任务存在明显差异。
错误不再只体现在“答错一道题”,而会通过多步推理、长时序决策被不断放大,最终影响系统整体行为。
传统的监督微调或Off-policy蒸馏,更多是在“标准答案环境”中训练模型。模型学到的,是在理想情况下该如何一步步走到正确结果,但在真实运行中,它更常面对的是中途走偏、信息不完整或需要反复试错的情况。这种训练环境与真实使用场景之间的差距,在复杂推理和频繁工具调用的任务中会被进一步放大。
小米MiMo团队在MiMo-V2-Flash的后训练阶段,创新提出了多教师在线策略蒸馏(Multi-Teacher Online Policy Distillation,MOPD)范式,正是针对这一问题提出的解决方案。
此前的蒸馏通常是给定输入,由更大、更强的教师模型生成完整输出,再由更小的学生模型去“模仿结果”。
但这在推理和Agent场景里会出现问题,比如学生模型只学“答案”,不学“过程”;学生模型在真实推理中走偏、犯错,不按教师模型的路径走。此外Agent场景中的工具调用、多轮决策、长时规划, 这些都不是“看一个标准答案”就能学会的。
而MOPD的核心思路,是让学生模型先按照当前策略生成推理或Agent行为轨迹,再由多个教师模型在这些on-policy 轨迹上进行token级指导。
这种方式使学生模型学习的对象从理想化的“标准答案”,转变成自身在真实状态空间中的行为分布。
多教师机制进一步增强了约束的多样性。不同教师模型在推理策略、工具使用、节奏控制等方面的差异,使学生模型获得更丰富的参考信号,从而降低在复杂任务中的单一偏置风险。
罗福莉还分享了一件让她意外的事情:“当学生模型很快超越教师模型的时候,能不能让这个学生替换成教师,继续自我迭代提升?”
根据官方博客,MOPD采用了解耦设计,支持灵活地集成新的教师模型和ORM,并自然而然地实现“教与学”的闭环迭代:通过蒸馏得到的学生模型可以演化为更强的教师模型,从而实现能力的持续自我提升。
值得一提的是,MOPD训练稳定且极其高效——要达到教师模型的最高性能,仅需传统SFT+RL流程不到1/50的计算资源。
![]()
图片来源:小米MiMo
那么MOPD取代强化学习(RL)了吗?
在MiMo-V2-Flash的训练体系中,MOPD并未取代强化学习,而是与Agentic RL形成了协同结构。
MOPD提供的是一种相对平滑、稳定的中间训练阶段,用于在进入高噪声的强化学习之前,对模型行为进行约束和塑形。这种设计降低了强化学习在长时序任务中可能出现的策略崩坏风险,也使模型在复杂环境中的探索更加可控。
这一组合,体现出小米MiMo团队明显的系统工程思维:将模型训练视为多阶段、不同目标函数逐步接管的过程,而不是一次性优化。
3.罗福莉与小米:一次面向Agent时代的下注
罗福莉身上有着太多的标签。
她毕业于北大,是国际顶会常客,此前曾在阿里巴巴达摩院和DeepSeek工作,这次是她作为小米MiMO大模型负责人首次公开亮相。
罗福莉的职业经历中,反复出现的主题是强化学习、复杂决策系统以及模型在真实环境中的稳定性问题。她关注的重点并不集中在模型的理论上限,而更多指向模型在错误空间中的表现,以及系统在长时间运行中的行为演化。
MiMo-V2-Flash在MOPD、Agentic RL、推理节奏与工程稳定性上的投入,或许会让人觉得这是一款“工程味很重”的模型,但是这与罗福莉的技术取向可以说是高度一致。而从模型设计逻辑来看,这种一致性更像是路线选择的自然结果,而非偶然叠加。
这既是她加入小米后发布的首个重要成果,也可能是小米大模型路线一次长期影响深远的转向。
对于小米这样一个拥有操作系统、设备生态与多样化应用场景的公司而言,这种以Agent能力为导向的模型设计,具有更高的战略价值。推理效率、稳定性与可控性,直接决定了模型是否能够被嵌入复杂系统。
而从行业视角看,MiMo-V2-Flash代表着大模型路线的一种分化趋势:在预训练Scaling逐渐逼近边际收益的背景下,围绕推理系统、Agent能力与工程可行性的探索,正在成为新的竞争维度。
这一方向并不依赖于极端的算力投入,而更强调系统设计、训练方法与工程能力的协同。这种路线,也更贴近大模型在产业环境中的真实需求。
近期OpenAI前首席科学家伊利亚·苏茨克维(Ilya Sutskever)接受采访时提到,过去5年,在“算力+海量数据+大模型”上不断扩张规模,确实推动了AI的快速发展。但这条“预训练+scale”路径正逼近极限——数据源有限,算力虽多,但再多 100 倍,也不一定带来实质性质变。“我们正从规模时代(age of scaling)转向研究时代(age of research)”伊利亚直言。
有趣的是,今天罗福莉表达了类似的观点:“算力和数据也并非最终的护城河,真正的护城河,是科学的研究文化与方法,是将未知问题结合模型优势转化为可用产品的能力。”
在罗福莉看来,小米MiMo团队是一个研究、产品、工程深度耦合的年轻团队,“我们团队里边每个人都极度好奇、追求真理,乘着自由的风,满怀着对这个世界极致的关怀,在一起去探索智能的边界。”
这一次,以罗福莉为代表的小米MiMo团队选择在推理与Agent上明确下注。
“下一代智能体系统,不是一个‘语言模拟器’,而是一个真正理解我们世界、并与之共存的‘智能体’。”罗福莉说。
她认为,大模型本质上是用了算力的暴力美学,直接去攻克了最顶层的语言,但是它跳过了中间的非常多的步骤,比如对世界的感知、模拟,以及作为实体与环境产生交互。
“单纯Scaling Up参数量不够,”罗福莉说,“要让大模型回到‘演化课堂’,补上它跳过的关键学习步骤。”
![]()
罗福莉谈通往AGI之路,图片来源:「甲子光年」拍摄
在MiMo-V2-Flash发布之前,罗福莉和MiMo有一次对话,她想让MiMo”深入阐述物理世界导向:强调多模态和真实世界交互才是通往真正智能(AGI)的关键,而非仅靠文本。
MiMo的回答是:“智能根植于存在,而非符号。”
这个回答让罗福莉有些意外,但也让她充满信心。
![]()
罗福莉与MiMo-V2-Flash对话,图片来源:「甲子光年」拍摄
*甲子光年作者苏霍伊对本文亦有贡献
(封面图来源:「甲子光年」拍摄)