OpenRouter 最近上线了一个叫 openrouter:subagent 的服务器工具,思路很直白:让那些动辄几十上百亿参数的前沿模型,别再亲自下场干"抄写员"的活。文档总结、结构化数据抽取、文本重格式化——这些任务规则明确、不需要什么"灵光一闪",但偏偏每次都要吃掉主模型一大把 token。现在,主模型可以在生成过程中自动识别这类琐碎委托,把它们丢给更小、更便宜、跑得更快的 worker 模型,自己则专心处理真正需要推理能力的部分。
对做多模型编排的开发者来说,这相当于白送了一级调度逻辑。不需要自己写路由、不需要判断"哪段 prompt 适合发给小模型",OpenRouter 直接在工具层面替你想好了。设想一个典型的 agent 工作流:主模型负责规划、决策、调用外部 API,而子任务——比如把一段会议记录压成要点、或者把 JSON 里某个字段重新归一化——全部走 subagent 通道。结果是什么?账单变薄了,响应变快了,前沿模型的算力总算花在了刀刃上。
当然,subagent 并不是万能解药。它适合的是那些对质量容错率较高的辅助环节,核心推理链路还是得交给主力模型。但作为一种"自动降本"的工程实践,它把"什么时候该用便宜模型"这个判断从开发者手里接了过去。对于正在被推理成本压得喘不过气的 AI 产品团队来说,这种"小事别来烦我"的工具,越早用上越好。

