阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率

发布时间: 2026-05-29 文章分类: AI前沿技术
阅读量: 0

谁都没想到,把AI Agent的效率推上新高度的,居然是一个能在Mac Studio上本地跑的开源模型。阶跃星辰刚放出的Step 3.7 Flash,用198B总参数、11B活跃参数的MoE架构,直接拿下ClawEval-1.1和SimpleVQA Search两项评测的第一,还顺手在工具调用可靠性上干到了98%以上。这波不卷参数,卷的是智能体工作流的落地能力。对做Agent的开发者来说,一个真正好用、能私有化部署、又跟现有工具链无缝咬合的模型,比那些参数大得吓人却离着云端遥远的巨无霸要实在得多。

Agent效率的新标尺,参数不是重点

ClawEval登顶背后的信号

ClawEval-1.1不是一个靠刷题就能冲分的评测。它模拟的是现实世界中Agent的多步推理、工具串联和长链任务执行,跑分61还是67,对后续能不能在真实生产环境里把流程真正跑通,有很强的指示意义。Step 3.7 Flash拿到了67.1分,不只是比同体量的开源模型高出一截,也把一些闭源专有模型甩在了后面。这不是运气——看它在SimpleVQA Search里同期拿下的79.2分就明白,模型在多模态信息检索上的基础能力同样扎实。两项榜首叠在一起,说明它在“看懂世界”和“动手干活”这两条线路上没有偏科,而这恰恰是Agent最需要的基本功。

198B里只激活11B的务实逻辑

很多人看到198B总参数,第一反应是又一个显卡杀手。但实际上Step 3.7 Flash走的是稀疏MoE路线,每次推理只激活约11B参数。这种设计不是新概念,但阶跃星辰把它用得相当务实:大容量确实带来了更广的知识储存和更细粒度的专家分工,而极小活跃参数又保证了推理速度与硬件门槛的平衡。结果就是,它不需要A100集群才能动起来,一台Mac Studio M4 Max就能得到可用的响应速度。在Agent场景里,工具调用链路的延迟往往会成倍放大,活跃参数少、推理快的结构天然吃香。这不是“小而美”的情怀,是工程上真能省下时间和算力。

256K上下文,给长链任务装上记忆引擎

Agent做事最怕失忆。一个复杂的业务流程可能牵扯十几轮工具调用、多份文档和几段代码生成,上下文不够,模型就会在走到一半时忘记自己最初的目标是什么。Step 3.7 Flash把上下文窗口拉到256K tokens,足够吞下一整部中篇小说,或者几十页的产品文档外加多步骤执行日志。更关键的是,它在长上下文末尾的信息召回表现没有出现断崖式下跌,这对Agent连续决策至关重要。有了这个长度的记忆,模型才能把“先查资料、再分析、接着生成脚本、最后执行并检查结果”这种串行工作流从头到尾稳稳走完。

多模态和工具调用,从“看得见”到“动得了”

把图像和文档直接变成行动

Step 3.7 Flash的多模态不是贴个图回答问题的浅层玩法。它能理解图表、扫描文档,还能根据视觉信息生成对应代码或者触发工具执行。举个例子,你给它一张产品页截图和一段自然语言指令,要求抓取所有商品的名称和价格并生成表格,它不会只告诉你截图上有什么,而是能直接调用搜索接口、解析HTML,甚至把结果写成可执行的Python脚本。这种从感知到行动的直通能力,让它在需要“看屏干活”的Agent场景里,比传统需要人工编规则或层层调度的方案灵活得多。

τ²-bench 98%,工具调用不是玄学

工具调用的稳定性一直是Agent落地的阿喀琉斯之踵。模型经常在格式正确的JSON里塞进一个不存在的参数名,或者完全搞错API的调用顺序,让整个流程直接崩掉。τ²-bench专门盯着这些问题,而Step 3.7 Flash把它推到了98.8%的可靠性分数上。这意味着在标准测试里,平均调用一百次工具,真正出错的不到两次。这个数字放到生产级流水线里,已经足够让团队认真考虑用它替代一部分硬编码的撮合逻辑。它不是零失误,但比起大半年前还在七八成徘徊的同类模型,这一步把工具调用从实验品拉到了准工业级。

无缝接入Claude Code与MCP,不建孤岛

开发者最烦换一个模型就要重新写一套适配层。Step 3.7 Flash在这方面做得非常清醒:它本身就是为融入现有工具链而训练的,兼容Claude Code这类辅助编写代码的工具,也直连MCP协议,可以很方便地接入各种外部数据源和工具集。你不需要专门去适配它的特殊格式或古怪的提示词习惯,现有的Agent pipeline多半能直接挂上。这种开放和克制,反而比那些非要在生态上划地盘的厂商更容易获得开发者好感。说到底,Agent比拼到最后,关键在能不能让模型像插件一样安静地跑在既有系统里。

开源,本地跑,把Agent拉下云端

Apache 2.0开源,权重才是硬通货

许可证决定了模型能不能进商业项目,而Apache 2.0无疑是当下对下游最友好的选择之一。阶跃星辰把Step 3.7 Flash的完整权重放出来,意味着企业可以在自己的服务器上做私有化部署、做指令微调、做领域适配,完全不用去担心数据外泄和许可限制。很多做合规敏感行业的团队,之前一直在用API调闭源模型,每次传输都提心吊胆,现在有了一个性能足够、还能在内部集群上跑的底座,切换的动力自然就来了。开源权重不是万能的,但没有它是万万不能的,尤其是在Agent这种需要深度定制推理链路的赛道上。

Mac Studio M4 Max上的Agent工厂

把198B参数的模型塞进一台Mac Studio,听起来像在开玩笑,但稀疏激活让它成了现实。M4 Max的融合内存架构和强单核性能,正好对上了MoE模型高带宽、低延迟推理的需求。已经有开发者在社区里晒出跑分截图,单台消费级设备就能以每秒几十个token的速度处理带多轮工具调用的复杂任务。对个人开发者和中小型团队来说,这意味着花几万块就能拥有自己的Agent实验场,不用按token计费,不必跟云服务的排队和配额较劲。这种自由度,会在接下来的几个月里催生出一批真正有创造力的Agent应用。

快速上手,把想法变成工作流

模型公布不到24小时,社区里就出现了适配ollama的教程和针对常见Agent框架的集成方案。你拉取一个镜像,配置好MCP服务,再挂上自己的工具集,几个命令就能跑起来一个完整的智能体。没有什么繁琐的申请流程,没有隐藏的合规门槛。阶跃星辰这一手,与其说是在发布一个模型,不如说是在向Agent开发者们递工具:一个能看、能搜、能写、能调用API的开源大脑,现在就躺在你的本地硬盘上。接下来的事,就看谁先把工作流跑得最漂亮了。

点赞 | 32

Lumevalley——全栈AI服务领航者,以“战略-应用-算力”三位一体服务框架,为企业提供从顶层战略规划、场景化AI智能体(AI Agent)开发/搭建/部署,到企业级AI应用开发、AI+行业场景解决方案的全链路服务,并配套AI大模型部署与高性能AI算力底座支撑,助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。

马上扫码获取产品资料
上一篇: Grok Build 0.1 on API
相关文章

相关文章

填写以下信息, 免费获取方案报价
姓名
手机号码
企业名称
  • 建筑建材
  • 化工
  • 钢铁
  • 机械设备
  • 原材料
  • 工业
  • 环保
  • 生鲜
  • 医疗
  • 快消品
  • 农林牧渔
  • 汽车汽配
  • 橡胶
  • 工程
  • 加工
  • 仪器仪表
  • 纺织
  • 服装
  • 电子元器件
  • 物流
  • 化塑
  • 食品
  • 房地产
  • 交通运输
  • 能源
  • 印刷
  • 教育
  • 跨境电商
  • 旅游
  • 皮革
  • 3C数码
  • 金属制品
  • 批发
  • 研究和发展
  • 其他行业
需求描述
填写以下信息马上为您安排系统演示
姓名
手机号码
你的职位
企业名称

恭喜您的需求提交成功

尊敬的用户,您好!

您的需求我们已经收到,我们会为您安排专属电商商务顾问在24小时内(工作日时间)内与您取得联系,请您在此期间保持电话畅通,并且注意接听来自广州区域的来电。
感谢您的支持!

您好,我是您的专属产品顾问
扫码添加我的微信,免费体验系统
(工作日09:00 - 18:00)
电话咨询 (工作日09:00 - 18:00)
客服热线: 4008 868 127
售前热线: 189 2432 2993
扫码即可快速拨打热线