MiMo-V2.5-Pro：重新定义超大规模开源模型

MiMo-V2.5-Pro 是一款顶级的开源混合专家（Mixture-of-Experts, MoE）语言模型。它拥有 1.02 万亿（1.02T） 总参数量，其中激活参数量为 420 亿（42B）。该模型旨在应对最苛刻的智能体任务、复杂的软件工程以及长程推理任务，并支持高达 100 万（1M） token 的上下文长度。

核心技术突破

MiMo-V2.5-Pro 的强大性能源于其在架构上的深层优化：

1. 混合注意力架构 (Hybrid Attention Architecture)

为了解决长文本处理中的计算开销问题，MiMo-V2.5-Pro 采用了滑动窗口注意力 (SWA) 与 全局注意力 (GA) 交替的策略（比例为 6:1）。

KV 缓存优化：这种设计将 KV-cache 的存储需求降低了近 7 倍。
长文本保持：通过可学习的注意力汇聚偏差（attention sink bias），在极大幅度降低内存占用的同时，依然保持了卓越的长文本处理能力。

2. 多 Token 预测 (Multi-Token Prediction, MTP)

模型集成了一个由三层轻量级稠密 FFN 组成的 MTP 模块。

推理加速：在推理阶段，MTP 能够一次性预测多个 token，将输出速度提升了近 3 倍。
训练增益：该模块在 RL（强化学习）训练的 rollout 阶段也能显著加速。

3. 100 万 Token 超长上下文

在 OpenAI 的 GraphWalks 基准测试中，MiMo-V2.5-Pro 展现了惊人的长文本推理能力。相比于 V2 Pro 在 1M token 处性能崩溃，V2.5 Pro 在 512k 甚至 1M token 处依然能保持稳定的得分（BFS 0.37 / Parents 0.62），实现了长文本推理的重大跨越。

训练流程：三阶段进化

MiMo-V2.5-Pro 采用了一个严谨的后训练范式：

有监督微调 (SFT)：使用精选的数据对构建基础的指令遵循能力。
领域专业化训练 (Domain-Specialized Training)：针对数学、安全、复杂工具使用等领域，利用专项 RL 奖励进行优化。
多教师在策略蒸馏 (MOPD)：通过动态在策略 RL，让学生模型在专家教师的 token 级引导下，将各项能力无缝融合。

性能表现

在多项权威榜单中，MiMo-V2.5-Pro 均处于领先地位：

通用能力：MMLU-Redux 达到 92.8，BBH 达到 88.4。
数学与代码：GSM8K 接近满分 (99.6)，HumanEval+ 达到 75.6。
中文能力：C-Eval (91.5) 与 CMMLU (90.2) 表现极佳。
代码工程：在 SWE-Bench (AgentLess) 中取得 35.7 的成绩，证明了其在复杂软件工程中的潜力。

部署与使用

MiMo-V2.5-Pro 推荐使用 SGLang 或 vLLM 进行部署。得益于 FP8 (E4M3) 混合精度训练，模型在保持高精度的同时，大幅降低了显存占用。

对于本地部署用户，建议采样参数设置为：temperature=1.0, top_p=0.95。

资源链接：

🤗 HuggingFace
🤖 ModelScope

MiMo-V2.5-Pro：拥有 1.02T 参数与 1M 上下文的开源 MoE 巨兽