智能体赛道终于等来了一个不为刷榜而生的模型。MiniMax扔出的M2系列没跟你玩参数军备竞赛——229.9B总参数里只激活9.8B,这本身就是一种宣言。剩下的力气,全花在怎么让模型在真实任务流里活得更久、搜得更深、代码写得像人。M2不是更聪明的答题机器,它是为Agent时代重新铸造的底层设施。当业内还在纠结下一个基座模型要不要堆到500B时,MiniMax选择把赌注押在智能体原生这四个字上。这很冒险,也很清醒。毕竟,再漂亮的 benchmark 分数,也换不来一个能独立完成三小时办公自动化的数字员工。
229.9B参数,为什么只点燃9.8B?
MoE不是偷工减料,是精准爆破
混合专家架构被说了太多次,但M2这次玩得格外狠。229.9B总参数,每个token只过9.8B,这意味着什么?推理成本被压缩到传统稠密模型的零头,而能力不跳水。Agent场景不是一问一答,是工具链的连环调用、多轮搜索、长上下文里的反复试探。每一次调用都烧着显卡和电费,低激活参数在这儿不是技术指标,是商业模式的生死线。MiniMax把MoE从“省显存的小花招”变成了支撑Agent高频操作的承重墙。那些还在用稠密模型跑Agent编排的团队,很快就会算清这笔账:成本结构不一样,打法完全不一样。更隐秘的优势在于延迟。9.8B的激活规模让单卡部署和高并发推理变得现实,Agent响应才能跟得上人类操作的节奏,否则每一次工具调用都等上三秒,再强的规划能力也会被用户抛弃。
稠密模型的黄昏,Agent场景的黎明
大模型前两年卷的是绝对智商,是GSM8K、MATH、HumanEval上的零点几个百分点。但Agent要的是持续在线的体力,是调用二十次API不崩溃、连续编码三小时不跑偏。稠密模型每次前向传播都唤醒全部参数,像极了每次查字典都要把整栋楼断电重启。M2的稀疏激活逻辑,天然适配这种碎片化、高并发的任务流。更关键的是,MiniMax没有为了压参数而削能力——在多项推理基准上,这9.8B的激活表现依然咬住了前沿水平。这说明架构设计和路由策略被重新打磨过,不是简单套了个MoE壳子。路由决策本身成了需要优化的核心能力,哪些专家该在代码任务里组队,哪些该在搜索场景里待命,这些细节决定了MoE是花瓶还是真刀。
Agent原生:把强化学习炼进模型骨髓
Forge系统,为智能体任务重新布线
M2最被低估的,可能是那个叫Forge的强化学习系统。市面上的RLHF大多服务于“更像人”的对话体验,比如语气、安全、拒绝策略。Forge不一样,它是可扩展的Agent原生强化学习框架,奖励信号直接来自任务完成度。代码跑通了没?搜索链路闭环了没?办公任务里的跨应用操作对不对?这些硬指标成了模型优化的北极星。MiniMax把强化学习的战场从“说什么”迁移到了“做成什么”,这才是Agent模型该有的训练伦理。换句话说,M2在Forge里学的不是修辞,是执行力。而且Forge的可扩展性意味着它能同时吞下大量多样化的Agent任务,不会因为奖励函数设计太窄而导致模型偏科。这种泛化能力,恰恰是Agent从演示走向量产的命门。
数据管道交给Agent自己“打猎”
传统数据 pipeline 是静态的:人类标注、清洗、过滤、喂进模型,循环往复。M2系列搞了一套智能体驱动的数据管道,让Agent自己去环境里面探路、犯错、收集反馈。这相当于模型在训练阶段就开始“实习”,而不是只看教科书。生成的数据质量当然参差不齐,但规模和环境多样性是人工标注无法企及的。更妙的是,这种自举式数据飞轮跟Forge的强化学习形成了闭环:Agent探索世界产生数据,数据训练出更强的Agent,更强的Agent再去更难的环境探索。MiniMax在这里埋了一条指数级增长的暗线。当然,自举训练有崩塌风险,模型可能在自己的幻觉里越陷越深,所以数据管道的质量控制机制——如何甄别有效探索与无效循环——才是这套系统真正的技术护城河。
M2.7那抹危险的“自我进化”苗头
论文里还藏着一个叫M2.7的检查点,它展示了早期自我进化能力。这四个字在AI圈向来敏感,容易让人联想到失控的科幻叙事。但回到技术层面,M2.7的表现更像是一种元能力的萌芽:模型开始对自己的推理链进行某种形式的监控和修正,在训练过程中涌现出比显式编程更优的策略。MiniMax对此表现得相当克制,只把它当作一个中间检查点放出,没大肆渲染。这种谨慎是对的。自我进化一旦坐实,意味着模型迭代的瓶颈从“人类能标注多少数据”变成了“模型自己能多快找到更好的自己”。这不仅是技术拐点,也是安全议题的引爆点。不过换个角度看,M2.7的存在证明了M2架构的 ceilings 远比表面参数高,它预留了进化接口,而不是把能力封死在当前版本。
代码、搜索、办公——M2的战场不在考卷上
Agent编码,从代码补全到端到端工程
M2在智能体编码上的表现,不能简单用HumanPass或SWE-bench去框定。那些 benchmark 测的是单次代码生成,Agent编码却是需求理解、文件检索、依赖分析、多轮修改、测试验证的完整工程流。M2被设计来在IDE里当一个能自主调用工具、读取代码库、甚至和开发者打持久战的助手。9.8B激活参数在这里反而成了优势:响应快,上下文切换成本低,适合高频的代码探针和试错。MiniMax显然明白,程序员要的不是一个会背LeetCode的学霸,而是一个能接需求、能查BUG、能重构代码的实习生。更深层的变化在于,Agent编码要求模型理解代码的“动态语义”,不只是静态文本的续写,而是在执行环境里观察报错、调整策略、回滚尝试。M2的Forge训练恰好强化了这种试错本能。
推理基准的含金量,正在被Agent重写
说到深度搜索和办公任务,M2选择了一条更务实的证明路径。传统推理模型爱卷数学竞赛题,但真实世界里的推理是信息不完备下的长链路决策。M2的测试场景包括复杂信息检索、多步骤网页浏览、跨文档整合,以及办公软件里的自动化流程编排。这些任务没有标准答案,只有结果好坏。能达到前沿性能,说明M2在规划能力、工具调用精度和长程记忆上下了真功夫。也侧面印证了一个行业趋势:下一代模型的分水岭,不再是GSM8K上的几分之差,而是谁能先把Agent的脏活累活干漂亮。办公自动化尤其考验模型的“耐心”和“细心”,填表格、发邮件、调格式,这些对人类枯燥、对模型极易出错的场景,恰恰是M2要啃下来的硬骨头。
一张送给行业的明白账
9.8B激活参数背后的商业狠劲
把所有技术选择翻译成商业语言,MiniMax的账算得极精。229.9B总参数,9.8B激活,这意味着部署侧可以用远低于同性能稠密模型的算力去支撑高并发Agent服务。对做Agent平台的公司来说,Token成本就是生命线。M2的出现,相当于在基座层就给Agent应用预留了毛利空间。这不是做慈善,这是生态卡位——谁能让Agent开发者赚到钱,谁就能定义下一层基础设施。MiniMax用M2在传达一个信号:中国大模型公司已经开始从“秀肌肉”转向“铺管道”。而且MoE架构的弹性让后续横向扩展更方便,加入新专家模块比重训整个模型便宜得多,这种可扩展性对快速迭代的Agent生态至关重要。
当自我进化从科幻变成训练日志
M2.7那若有若无的自我进化能力,给这张明白账添了一个变量。如果模型真的能在训练过程中自主发现更优路径,那么行业竞争的维度将被彻底改写。不再是比谁有钱买卡、谁有人力标数据,而是比谁的训练框架能让模型自己跑得更快、更远。MiniMax把这颗种子埋进了M2系列,没急着收割,说明他们对技术节奏有清醒判断。Agent时代的基础设施,要的不仅是当下的性能,更是未来的生长性。M2系列交出的,是一份关于智能体原生架构的完整提案——从参数效率到训练范式,从任务执行到潜在进化,每一块拼图都指向同一个问题:模型不再是工具,而是能独立干活的数字劳动力。这场转型,MiniMax显然不想只做旁观者。当竞争对手还在用通用基座模型硬套Agent场景时,M2已经证明了专为智能体重新设计架构,才是穿越泡沫、抵达商业落地的最短路径。

