英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

发布时间: 2026-05-28 文章分类: AI前沿技术
阅读量: 0

代码智能体的竞争,从来不只是模型参数的游戏。英伟达研究团队扔出的Polar框架,一剑封喉——它没造新模型,而是直接把GRPO强化学习嫁接到现有Agent的执行管道上。Codex CLI、Claude Code、Qwen Code这些你正在用的工具,不用改一行执行逻辑,只需在API边界塞一个训练层,SWE-Bench Verified分数就能从3.8%暴力拉升到26.4%。这不是渐进式改良,是给整个行业示范了一种全新的训练范式:与其推倒重来,不如在数据流经的咽喉要道装个阀门。更让人意外的是,这一切建立在Qwen3.5-4B这样的轻量模型之上,意味着小团队也能玩得起Agent的自主进化。

不拆框架,只改接口:Polar的插桩哲学

GRPO训练为什么能绕开执行层

传统思路做Agent优化,免不了要侵入执行框架的内部逻辑。你改状态机,调工具链,重写错误处理,最后发现维护成本比收益还高,版本一迭代,之前的补丁全得重写。Polar彻底反着来。它把训练目标锁定在模型API边界,让智能体在调用大模型API的前后做决策,用GRPO直接优化这个决策过程。执行框架该干嘛干嘛,Codex CLI的Shell命令照样跑,Claude Code的文件操作照旧做,Polar只负责让输入给模型的Prompt更聪明,让模型返回的代码更靠谱。这种非侵入式设计,本质上是把强化学习的信用分配问题,从复杂的工具执行链路里抽离出来,压缩成一个纯粹的文本决策问题。你不需要理解Codex CLI内部怎么管理文件描述符,也不需要知道Claude Code如何解析XML工具调用,Polar只在HTTP请求和响应的交界处动手脚。

API边界:被忽视的干预黄金点

搞过Agent工程的人都知道,执行框架是高度异构的。有的用Docker沙箱,有的走本地进程,有的基于MCP协议,有的自己攒了一套文件系统抽象,接口千奇百怪。Polar的研发团队显然吃过这个苦,所以他们选择了一个最大公约数——API调用。无论你底层怎么折腾,最终都得把上下文拼成请求发给模型,再把模型的输出解析成动作。Polar就在这里设卡:请求出去之前,它可以做prefix合并、历史压缩、工具描述优化;响应回来之后,它可以评估代码质量、判断测试用例通过率、计算奖励信号。这个位置妙就妙在,它不依赖任何特定框架的实现细节,却又掌控了Agent行为的最高决策权。就像在城市交通里,你不关心每辆车是什么品牌,只要在红绿灯处设置智能调度,就能让整个路网效率翻倍。

主流工具链的零成本迁移

实验里点名了Codex CLI、Claude Code、Qwen Code、Pi,这几乎覆盖了当前主流的代码Agent生态。Polar的开源姿态很明确:你们不用迁移,我来适配。对于已经在使用这些工具的团队来说,这意味着智能体强化学习的门槛被直接砍到了地板以下。不需要重写执行引擎,不需要重构工具调用逻辑,不需要把稳定运行的Pipeline拆得七零八落,只需要在API层接入Polar的训练循环,就能让现有Agent开始自我进化。这种兼容性不是锦上添花,而是决定了这项技术能不能从论文里的分数,变成GitHub仓库里的Star数,变成产品里的实际功能。想想看,如果每接入一个新框架都要写几百行适配代码,Polar再好也推广不开。现在它直接对着模型API说话,天然跨平台。

594.74%跃升背后:小模型的暴力美学

Qwen3.5-4B的逆袭逻辑

用Qwen3.5-4B这种小模型把Codex在SWE-Bench Verified上从3.8%干到26.4%,听起来像天方夜谭,但Polar做到了。这594.74%的涨幅传递了一个危险信号:模型基座不再是Agent能力的唯一瓶颈。4B参数模型,在合理的强化学习框架下,通过优化与环境的交互策略,可以碾压未经训练的大模型调用。GRPO在这里扮演了什么角色?它让模型学会了在编码任务中做有效的探索——什么时候该读文件,什么时候该写测试,什么时候该承认错误并回退,什么时候该坚持原有方案。这些策略不是预训练能学会的,必须是Agent在真实的代码库上试错、拿奖励、更新策略,循环往复。SWE-Bench这类真实软件工程问题的难点在于,错误往往不是即时暴露的,你可能改了A文件,破坏了B模块,测试在十分钟之后才挂掉。GRPO通过组内相对奖励,让模型学会分辨哪些动作序列真正通向成功,哪些只是运气好蒙对了中间步骤。

Prefix Merging:把训练成本打下来

光有分数不够,训练得起才是正经事。Polar的prefix_merging技术把训练步骤从1185次压缩到218次,速度提升5.39倍。这个数字背后的工程智慧在于,它识别出了代码Agent训练中的大量冗余计算。多个并行的Rollout往往共享相同的前缀上下文——系统提示、仓库文件内容、历史对话的前半段。Polar把这些公共前缀的KV Cache合并复用,避免了重复的前向传播。GPU平均利用率从20.4%飙到87.7%,说明之前不是算力不够,是算力在空转。现在218步就能干完原来1185步的活,小团队用几张消费级显卡也能跑得起Agent强化学习。这项优化特别针对代码场景设计,因为代码任务的上下文通常很长,且多个尝试之间高度重叠,prefix merging的收益被放大到了极致。

利用率八成七:算力焦虑的解药

20.4%到87.7%,这不仅是数字游戏,而是从根本上改变了Agent训练的经济学。过去搞Agent RL,你得为低效的分布式收集和稀疏的奖励更新支付巨额的GPU小时,大部分时间花在等数据同步和重复计算上。Polar通过prefix merging和更紧凑的训练循环,让显存带宽和计算核心真正忙起来。对于开源社区和创业公司来说,这意味着Polar框架不仅是一个技术方案,更是一个成本方案。当训练成本下降一个数量级,探索的边界就会扩大一个数量级。更多团队可以负担得起在特定领域——比如金融代码、嵌入式开发、遗留系统维护——训练专属Agent的可能性。算力效率的飞跃,往往比算法创新更能加速技术民主化。

开源即战:英伟达这把牌怎么打

没留后手,直接亮底牌

英伟达搞AI基础设施,向来是软硬一体、生态闭环。但Polar的开源策略显得格外激进——没有专属芯片绑定,没有云服务捆绑,没有API密钥限制,就是纯粹的开源框架,代码拉下来,环境配好,拿过来就能训。这种打法其实很高明:当Agent的训练范式从监督微调转向强化学习,GRPO训练的基建层就成了新的兵家必争之地。Polar通过提前开源占领心智,让社区自发围绕它构建工具和案例。Codex CLI们成了Polar的天然用户,而英伟达不需要收购这些公司,只需要成为它们进化路径上的默认选项。这步棋下得比卖显卡更有长期价值,因为一旦某个框架成了Agent RL的事实标准,后续的优化、扩展、商业化都会水到渠成。英伟达在CUDA上赢过一次,现在它想在Agent训练栈上再赢一次。

代码Agent团队该行动了

如果你现在还在用固定的Prompt模板驱动代码Agent,Polar的出现等于告诉你:时代变了。26.4%的SWE-Bench分数证明,现有的开源和商业Agent都还有巨大的策略优化空间,你手里的工具远未触及性能天花板。Polar提供的不是理论可能性,而是可复现的Pipeline,是今晚就能跑起来的训练脚本。接入成本如此之低,效果提升如此之猛,任何做代码生成、自动化编程、软件维护的团队,都没有理由不试一试。更重要的是,它把智能体强化学习从OpenAI、Anthropic的实验室里解放出来,变成了每个开发者都能触及的常规武器。下一步的竞争,不是谁有更好的基座模型,而是谁更懂得用Polar这样的框架,把自己手头的Agent训成领域专家。行动慢的,可能就要在下一个版本迭代中被甩开身位了。

点赞 | 86

Lumevalley——全栈AI服务领航者,以“战略-应用-算力”三位一体服务框架,为企业提供从顶层战略规划、场景化AI智能体(AI Agent)开发/搭建/部署,到企业级AI应用开发、AI+行业场景解决方案的全链路服务,并配套AI大模型部署与高性能AI算力底座支撑,助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。

马上扫码获取产品资料
相关文章

相关文章

填写以下信息, 免费获取方案报价
姓名
手机号码
企业名称
  • 建筑建材
  • 化工
  • 钢铁
  • 机械设备
  • 原材料
  • 工业
  • 环保
  • 生鲜
  • 医疗
  • 快消品
  • 农林牧渔
  • 汽车汽配
  • 橡胶
  • 工程
  • 加工
  • 仪器仪表
  • 纺织
  • 服装
  • 电子元器件
  • 物流
  • 化塑
  • 食品
  • 房地产
  • 交通运输
  • 能源
  • 印刷
  • 教育
  • 跨境电商
  • 旅游
  • 皮革
  • 3C数码
  • 金属制品
  • 批发
  • 研究和发展
  • 其他行业
需求描述
填写以下信息马上为您安排系统演示
姓名
手机号码
你的职位
企业名称

恭喜您的需求提交成功

尊敬的用户,您好!

您的需求我们已经收到,我们会为您安排专属电商商务顾问在24小时内(工作日时间)内与您取得联系,请您在此期间保持电话畅通,并且注意接听来自广州区域的来电。
感谢您的支持!

您好,我是您的专属产品顾问
扫码添加我的微信,免费体验系统
(工作日09:00 - 18:00)
电话咨询 (工作日09:00 - 18:00)
客服热线: 4008 868 127
售前热线: 189 2432 2993
扫码即可快速拨打热线