MiniMax-M2系列:微小激活释放最大真实世界智能

发布时间: 2026-05-27 文章分类: AI前沿技术
阅读量: 0

智能体赛道终于等来了一个不为刷榜而生的模型。MiniMax扔出的M2系列没跟你玩参数军备竞赛——229.9B总参数里只激活9.8B,这本身就是一种宣言。剩下的力气,全花在怎么让模型在真实任务流里活得更久、搜得更深、代码写得像人。M2不是更聪明的答题机器,它是为Agent时代重新铸造的底层设施。当业内还在纠结下一个基座模型要不要堆到500B时,MiniMax选择把赌注押在智能体原生这四个字上。这很冒险,也很清醒。毕竟,再漂亮的 benchmark 分数,也换不来一个能独立完成三小时办公自动化的数字员工。

229.9B参数,为什么只点燃9.8B?

MoE不是偷工减料,是精准爆破

混合专家架构被说了太多次,但M2这次玩得格外狠。229.9B总参数,每个token只过9.8B,这意味着什么?推理成本被压缩到传统稠密模型的零头,而能力不跳水。Agent场景不是一问一答,是工具链的连环调用、多轮搜索、长上下文里的反复试探。每一次调用都烧着显卡和电费,低激活参数在这儿不是技术指标,是商业模式的生死线。MiniMax把MoE从“省显存的小花招”变成了支撑Agent高频操作的承重墙。那些还在用稠密模型跑Agent编排的团队,很快就会算清这笔账:成本结构不一样,打法完全不一样。更隐秘的优势在于延迟。9.8B的激活规模让单卡部署和高并发推理变得现实,Agent响应才能跟得上人类操作的节奏,否则每一次工具调用都等上三秒,再强的规划能力也会被用户抛弃。

稠密模型的黄昏,Agent场景的黎明

大模型前两年卷的是绝对智商,是GSM8K、MATH、HumanEval上的零点几个百分点。但Agent要的是持续在线的体力,是调用二十次API不崩溃、连续编码三小时不跑偏。稠密模型每次前向传播都唤醒全部参数,像极了每次查字典都要把整栋楼断电重启。M2的稀疏激活逻辑,天然适配这种碎片化、高并发的任务流。更关键的是,MiniMax没有为了压参数而削能力——在多项推理基准上,这9.8B的激活表现依然咬住了前沿水平。这说明架构设计和路由策略被重新打磨过,不是简单套了个MoE壳子。路由决策本身成了需要优化的核心能力,哪些专家该在代码任务里组队,哪些该在搜索场景里待命,这些细节决定了MoE是花瓶还是真刀。

Agent原生:把强化学习炼进模型骨髓

Forge系统,为智能体任务重新布线

M2最被低估的,可能是那个叫Forge的强化学习系统。市面上的RLHF大多服务于“更像人”的对话体验,比如语气、安全、拒绝策略。Forge不一样,它是可扩展的Agent原生强化学习框架,奖励信号直接来自任务完成度。代码跑通了没?搜索链路闭环了没?办公任务里的跨应用操作对不对?这些硬指标成了模型优化的北极星。MiniMax把强化学习的战场从“说什么”迁移到了“做成什么”,这才是Agent模型该有的训练伦理。换句话说,M2在Forge里学的不是修辞,是执行力。而且Forge的可扩展性意味着它能同时吞下大量多样化的Agent任务,不会因为奖励函数设计太窄而导致模型偏科。这种泛化能力,恰恰是Agent从演示走向量产的命门。

数据管道交给Agent自己“打猎”

传统数据 pipeline 是静态的:人类标注、清洗、过滤、喂进模型,循环往复。M2系列搞了一套智能体驱动的数据管道,让Agent自己去环境里面探路、犯错、收集反馈。这相当于模型在训练阶段就开始“实习”,而不是只看教科书。生成的数据质量当然参差不齐,但规模和环境多样性是人工标注无法企及的。更妙的是,这种自举式数据飞轮跟Forge的强化学习形成了闭环:Agent探索世界产生数据,数据训练出更强的Agent,更强的Agent再去更难的环境探索。MiniMax在这里埋了一条指数级增长的暗线。当然,自举训练有崩塌风险,模型可能在自己的幻觉里越陷越深,所以数据管道的质量控制机制——如何甄别有效探索与无效循环——才是这套系统真正的技术护城河。

M2.7那抹危险的“自我进化”苗头

论文里还藏着一个叫M2.7的检查点,它展示了早期自我进化能力。这四个字在AI圈向来敏感,容易让人联想到失控的科幻叙事。但回到技术层面,M2.7的表现更像是一种元能力的萌芽:模型开始对自己的推理链进行某种形式的监控和修正,在训练过程中涌现出比显式编程更优的策略。MiniMax对此表现得相当克制,只把它当作一个中间检查点放出,没大肆渲染。这种谨慎是对的。自我进化一旦坐实,意味着模型迭代的瓶颈从“人类能标注多少数据”变成了“模型自己能多快找到更好的自己”。这不仅是技术拐点,也是安全议题的引爆点。不过换个角度看,M2.7的存在证明了M2架构的 ceilings 远比表面参数高,它预留了进化接口,而不是把能力封死在当前版本。

代码、搜索、办公——M2的战场不在考卷上

Agent编码,从代码补全到端到端工程

M2在智能体编码上的表现,不能简单用HumanPass或SWE-bench去框定。那些 benchmark 测的是单次代码生成,Agent编码却是需求理解、文件检索、依赖分析、多轮修改、测试验证的完整工程流。M2被设计来在IDE里当一个能自主调用工具、读取代码库、甚至和开发者打持久战的助手。9.8B激活参数在这里反而成了优势:响应快,上下文切换成本低,适合高频的代码探针和试错。MiniMax显然明白,程序员要的不是一个会背LeetCode的学霸,而是一个能接需求、能查BUG、能重构代码的实习生。更深层的变化在于,Agent编码要求模型理解代码的“动态语义”,不只是静态文本的续写,而是在执行环境里观察报错、调整策略、回滚尝试。M2的Forge训练恰好强化了这种试错本能。

推理基准的含金量,正在被Agent重写

说到深度搜索和办公任务,M2选择了一条更务实的证明路径。传统推理模型爱卷数学竞赛题,但真实世界里的推理是信息不完备下的长链路决策。M2的测试场景包括复杂信息检索、多步骤网页浏览、跨文档整合,以及办公软件里的自动化流程编排。这些任务没有标准答案,只有结果好坏。能达到前沿性能,说明M2在规划能力、工具调用精度和长程记忆上下了真功夫。也侧面印证了一个行业趋势:下一代模型的分水岭,不再是GSM8K上的几分之差,而是谁能先把Agent的脏活累活干漂亮。办公自动化尤其考验模型的“耐心”和“细心”,填表格、发邮件、调格式,这些对人类枯燥、对模型极易出错的场景,恰恰是M2要啃下来的硬骨头。

一张送给行业的明白账

9.8B激活参数背后的商业狠劲

把所有技术选择翻译成商业语言,MiniMax的账算得极精。229.9B总参数,9.8B激活,这意味着部署侧可以用远低于同性能稠密模型的算力去支撑高并发Agent服务。对做Agent平台的公司来说,Token成本就是生命线。M2的出现,相当于在基座层就给Agent应用预留了毛利空间。这不是做慈善,这是生态卡位——谁能让Agent开发者赚到钱,谁就能定义下一层基础设施。MiniMax用M2在传达一个信号:中国大模型公司已经开始从“秀肌肉”转向“铺管道”。而且MoE架构的弹性让后续横向扩展更方便,加入新专家模块比重训整个模型便宜得多,这种可扩展性对快速迭代的Agent生态至关重要。

当自我进化从科幻变成训练日志

M2.7那若有若无的自我进化能力,给这张明白账添了一个变量。如果模型真的能在训练过程中自主发现更优路径,那么行业竞争的维度将被彻底改写。不再是比谁有钱买卡、谁有人力标数据,而是比谁的训练框架能让模型自己跑得更快、更远。MiniMax把这颗种子埋进了M2系列,没急着收割,说明他们对技术节奏有清醒判断。Agent时代的基础设施,要的不仅是当下的性能,更是未来的生长性。M2系列交出的,是一份关于智能体原生架构的完整提案——从参数效率到训练范式,从任务执行到潜在进化,每一块拼图都指向同一个问题:模型不再是工具,而是能独立干活的数字劳动力。这场转型,MiniMax显然不想只做旁观者。当竞争对手还在用通用基座模型硬套Agent场景时,M2已经证明了专为智能体重新设计架构,才是穿越泡沫、抵达商业落地的最短路径。

点赞 | 85

Lumevalley——全栈AI服务领航者,以“战略-应用-算力”三位一体服务框架,为企业提供从顶层战略规划、场景化AI智能体(AI Agent)开发/搭建/部署,到企业级AI应用开发、AI+行业场景解决方案的全链路服务,并配套AI大模型部署与高性能AI算力底座支撑,助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。

马上扫码获取产品资料
相关文章

相关文章

填写以下信息, 免费获取方案报价
姓名
手机号码
企业名称
  • 建筑建材
  • 化工
  • 钢铁
  • 机械设备
  • 原材料
  • 工业
  • 环保
  • 生鲜
  • 医疗
  • 快消品
  • 农林牧渔
  • 汽车汽配
  • 橡胶
  • 工程
  • 加工
  • 仪器仪表
  • 纺织
  • 服装
  • 电子元器件
  • 物流
  • 化塑
  • 食品
  • 房地产
  • 交通运输
  • 能源
  • 印刷
  • 教育
  • 跨境电商
  • 旅游
  • 皮革
  • 3C数码
  • 金属制品
  • 批发
  • 研究和发展
  • 其他行业
需求描述
填写以下信息马上为您安排系统演示
姓名
手机号码
你的职位
企业名称

恭喜您的需求提交成功

尊敬的用户,您好!

您的需求我们已经收到,我们会为您安排专属电商商务顾问在24小时内(工作日时间)内与您取得联系,请您在此期间保持电话畅通,并且注意接听来自广州区域的来电。
感谢您的支持!

您好,我是您的专属产品顾问
扫码添加我的微信,免费体验系统
(工作日09:00 - 18:00)
电话咨询 (工作日09:00 - 18:00)
客服热线: 4008 868 127
售前热线: 189 2432 2993
扫码即可快速拨打热线