MiniMax-M2系列：微小激活释放最大真实世界智能

发布时间： 2026-05-27 文章分类： AI前沿技术

阅读量： 0

智能体赛道终于等来了一个不为刷榜而生的模型。MiniMax扔出的M2系列没跟你玩参数军备竞赛——229.9B总参数里只激活9.8B，这本身就是一种宣言。剩下的力气，全花在怎么让模型在真实任务流里活得更久、搜得更深、代码写得像人。M2不是更聪明的答题机器，它是为Agent时代重新铸造的底层设施。当业内还在纠结下一个基座模型要不要堆到500B时，MiniMax选择把赌注押在智能体原生这四个字上。这很冒险，也很清醒。毕竟，再漂亮的 benchmark 分数，也换不来一个能独立完成三小时办公自动化的数字员工。

229.9B参数，为什么只点燃9.8B？

MoE不是偷工减料，是精准爆破

混合专家架构被说了太多次，但M2这次玩得格外狠。229.9B总参数，每个token只过9.8B，这意味着什么？推理成本被压缩到传统稠密模型的零头，而能力不跳水。Agent场景不是一问一答，是工具链的连环调用、多轮搜索、长上下文里的反复试探。每一次调用都烧着显卡和电费，低激活参数在这儿不是技术指标，是商业模式的生死线。MiniMax把MoE从“省显存的小花招”变成了支撑Agent高频操作的承重墙。那些还在用稠密模型跑Agent编排的团队，很快就会算清这笔账：成本结构不一样，打法完全不一样。更隐秘的优势在于延迟。9.8B的激活规模让单卡部署和高并发推理变得现实，Agent响应才能跟得上人类操作的节奏，否则每一次工具调用都等上三秒，再强的规划能力也会被用户抛弃。

稠密模型的黄昏，Agent场景的黎明

大模型前两年卷的是绝对智商，是GSM8K、MATH、HumanEval上的零点几个百分点。但Agent要的是持续在线的体力，是调用二十次API不崩溃、连续编码三小时不跑偏。稠密模型每次前向传播都唤醒全部参数，像极了每次查字典都要把整栋楼断电重启。M2的稀疏激活逻辑，天然适配这种碎片化、高并发的任务流。更关键的是，MiniMax没有为了压参数而削能力——在多项推理基准上，这9.8B的激活表现依然咬住了前沿水平。这说明架构设计和路由策略被重新打磨过，不是简单套了个MoE壳子。路由决策本身成了需要优化的核心能力，哪些专家该在代码任务里组队，哪些该在搜索场景里待命，这些细节决定了MoE是花瓶还是真刀。

Agent原生：把强化学习炼进模型骨髓

Forge系统，为智能体任务重新布线

M2最被低估的，可能是那个叫Forge的强化学习系统。市面上的RLHF大多服务于“更像人”的对话体验，比如语气、安全、拒绝策略。Forge不一样，它是可扩展的Agent原生强化学习框架，奖励信号直接来自任务完成度。代码跑通了没？搜索链路闭环了没？办公任务里的跨应用操作对不对？这些硬指标成了模型优化的北极星。MiniMax把强化学习的战场从“说什么”迁移到了“做成什么”，这才是Agent模型该有的训练伦理。换句话说，M2在Forge里学的不是修辞，是执行力。而且Forge的可扩展性意味着它能同时吞下大量多样化的Agent任务，不会因为奖励函数设计太窄而导致模型偏科。这种泛化能力，恰恰是Agent从演示走向量产的命门。

数据管道交给Agent自己“打猎”

传统数据 pipeline 是静态的：人类标注、清洗、过滤、喂进模型，循环往复。M2系列搞了一套智能体驱动的数据管道，让Agent自己去环境里面探路、犯错、收集反馈。这相当于模型在训练阶段就开始“实习”，而不是只看教科书。生成的数据质量当然参差不齐，但规模和环境多样性是人工标注无法企及的。更妙的是，这种自举式数据飞轮跟Forge的强化学习形成了闭环：Agent探索世界产生数据，数据训练出更强的Agent，更强的Agent再去更难的环境探索。MiniMax在这里埋了一条指数级增长的暗线。当然，自举训练有崩塌风险，模型可能在自己的幻觉里越陷越深，所以数据管道的质量控制机制——如何甄别有效探索与无效循环——才是这套系统真正的技术护城河。

M2.7那抹危险的“自我进化”苗头

论文里还藏着一个叫M2.7的检查点，它展示了早期自我进化能力。这四个字在AI圈向来敏感，容易让人联想到失控的科幻叙事。但回到技术层面，M2.7的表现更像是一种元能力的萌芽：模型开始对自己的推理链进行某种形式的监控和修正，在训练过程中涌现出比显式编程更优的策略。MiniMax对此表现得相当克制，只把它当作一个中间检查点放出，没大肆渲染。这种谨慎是对的。自我进化一旦坐实，意味着模型迭代的瓶颈从“人类能标注多少数据”变成了“模型自己能多快找到更好的自己”。这不仅是技术拐点，也是安全议题的引爆点。不过换个角度看，M2.7的存在证明了M2架构的 ceilings 远比表面参数高，它预留了进化接口，而不是把能力封死在当前版本。

代码、搜索、办公——M2的战场不在考卷上

Agent编码，从代码补全到端到端工程

M2在智能体编码上的表现，不能简单用HumanPass或SWE-bench去框定。那些 benchmark 测的是单次代码生成，Agent编码却是需求理解、文件检索、依赖分析、多轮修改、测试验证的完整工程流。M2被设计来在IDE里当一个能自主调用工具、读取代码库、甚至和开发者打持久战的助手。9.8B激活参数在这里反而成了优势：响应快，上下文切换成本低，适合高频的代码探针和试错。MiniMax显然明白，程序员要的不是一个会背LeetCode的学霸，而是一个能接需求、能查BUG、能重构代码的实习生。更深层的变化在于，Agent编码要求模型理解代码的“动态语义”，不只是静态文本的续写，而是在执行环境里观察报错、调整策略、回滚尝试。M2的Forge训练恰好强化了这种试错本能。

推理基准的含金量，正在被Agent重写

说到深度搜索和办公任务，M2选择了一条更务实的证明路径。传统推理模型爱卷数学竞赛题，但真实世界里的推理是信息不完备下的长链路决策。M2的测试场景包括复杂信息检索、多步骤网页浏览、跨文档整合，以及办公软件里的自动化流程编排。这些任务没有标准答案，只有结果好坏。能达到前沿性能，说明M2在规划能力、工具调用精度和长程记忆上下了真功夫。也侧面印证了一个行业趋势：下一代模型的分水岭，不再是GSM8K上的几分之差，而是谁能先把Agent的脏活累活干漂亮。办公自动化尤其考验模型的“耐心”和“细心”，填表格、发邮件、调格式，这些对人类枯燥、对模型极易出错的场景，恰恰是M2要啃下来的硬骨头。

一张送给行业的明白账

9.8B激活参数背后的商业狠劲

把所有技术选择翻译成商业语言，MiniMax的账算得极精。229.9B总参数，9.8B激活，这意味着部署侧可以用远低于同性能稠密模型的算力去支撑高并发Agent服务。对做Agent平台的公司来说，Token成本就是生命线。M2的出现，相当于在基座层就给Agent应用预留了毛利空间。这不是做慈善，这是生态卡位——谁能让Agent开发者赚到钱，谁就能定义下一层基础设施。MiniMax用M2在传达一个信号：中国大模型公司已经开始从“秀肌肉”转向“铺管道”。而且MoE架构的弹性让后续横向扩展更方便，加入新专家模块比重训整个模型便宜得多，这种可扩展性对快速迭代的Agent生态至关重要。

当自我进化从科幻变成训练日志

M2.7那若有若无的自我进化能力，给这张明白账添了一个变量。如果模型真的能在训练过程中自主发现更优路径，那么行业竞争的维度将被彻底改写。不再是比谁有钱买卡、谁有人力标数据，而是比谁的训练框架能让模型自己跑得更快、更远。MiniMax把这颗种子埋进了M2系列，没急着收割，说明他们对技术节奏有清醒判断。Agent时代的基础设施，要的不仅是当下的性能，更是未来的生长性。M2系列交出的，是一份关于智能体原生架构的完整提案——从参数效率到训练范式，从任务执行到潜在进化，每一块拼图都指向同一个问题：模型不再是工具，而是能独立干活的数字劳动力。这场转型，MiniMax显然不想只做旁观者。当竞争对手还在用通用基座模型硬套Agent场景时，M2已经证明了专为智能体重新设计架构，才是穿越泡沫、抵达商业落地的最短路径。

点赞 | 85

Lumevalley——全栈AI服务领航者，以“战略-应用-算力”三位一体服务框架，为企业提供从顶层战略规划、场景化AI智能体（AI Agent）开发/搭建/部署，到企业级AI应用开发、AI+行业场景解决方案的全链路服务，并配套AI大模型部署与高性能AI算力底座支撑，助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。