MiMo-V2.5-Pro:拥有 1.02T 参数与 1M 上下文的开源 MoE 巨兽
MiMo-V2.5-Pro:重新定义超大规模开源模型
MiMo-V2.5-Pro 是一款顶级的开源混合专家(Mixture-of-Experts, MoE)语言模型。它拥有 1.02 万亿(1.02T) 总参数量,其中激活参数量为 420 亿(42B)。该模型旨在应对最苛刻的智能体任务、复杂的软件工程以及长程推理任务,并支持高达 100 万(1M) token 的上下文长度。
核心技术突破
MiMo-V2.5-Pro 的强大性能源于其在架构上的深层优化:
1. 混合注意力架构 (Hybrid Attention Architecture)
为了解决长文本处理中的计算开销问题,MiMo-V2.5-Pro 采用了滑动窗口注意力 (SWA) 与 全局注意力 (GA) 交替的策略(比例为 6:1)。
- KV 缓存优化:这种设计将 KV-cache 的存储需求降低了近 7 倍。
- 长文本保持:通过可学习的注意力汇聚偏差(attention sink bias),在极大幅度降低内存占用的同时,依然保持了卓越的长文本处理能力。
2. 多 Token 预测 (Multi-Token Prediction, MTP)
模型集成了一个由三层轻量级稠密 FFN 组成的 MTP 模块。
- 推理加速:在推理阶段,MTP 能够一次性预测多个 token,将输出速度提升了近 3 倍。
- 训练增益:该模块在 RL(强化学习)训练的 rollout 阶段也能显著加速。
3. 100 万 Token 超长上下文
在 OpenAI 的 GraphWalks 基准测试中,MiMo-V2.5-Pro 展现了惊人的长文本推理能力。相比于 V2 Pro 在 1M token 处性能崩溃,V2.5 Pro 在 512k 甚至 1M token 处依然能保持稳定的得分(BFS 0.37 / Parents 0.62),实现了长文本推理的重大跨越。
训练流程:三阶段进化
MiMo-V2.5-Pro 采用了一个严谨的后训练范式:
- 有监督微调 (SFT):使用精选的数据对构建基础的指令遵循能力。
- 领域专业化训练 (Domain-Specialized Training):针对数学、安全、复杂工具使用等领域,利用专项 RL 奖励进行优化。
- 多教师在策略蒸馏 (MOPD):通过动态在策略 RL,让学生模型在专家教师的 token 级引导下,将各项能力无缝融合。
性能表现
在多项权威榜单中,MiMo-V2.5-Pro 均处于领先地位:
- 通用能力:MMLU-Redux 达到 92.8,BBH 达到 88.4。
- 数学与代码:GSM8K 接近满分 (99.6),HumanEval+ 达到 75.6。
- 中文能力:C-Eval (91.5) 与 CMMLU (90.2) 表现极佳。
- 代码工程:在 SWE-Bench (AgentLess) 中取得 35.7 的成绩,证明了其在复杂软件工程中的潜力。
部署与使用
MiMo-V2.5-Pro 推荐使用 SGLang 或 vLLM 进行部署。得益于 FP8 (E4M3) 混合精度训练,模型在保持高精度的同时,大幅降低了显存占用。
对于本地部署用户,建议采样参数设置为:temperature=1.0, top_p=0.95。
资源链接: