Fast, faster, Qwen.

发布时间： 2026-05-28 文章分类： AI前沿技术

阅读量： 0

开源大模型推理的纪录又被刷新了。Qwen3.5在TokenSpeed引擎上跑到580 tokens per second，这不是实验室里的理想数字，而是面向智能体工作负载跑出来的实战成绩。通义千问推理团队拉上TokenSpeed团队、NVIDIA和Mooncake四方一起，用上了FlashAttention-4，把开源LLM的推理天花板往上顶了一大截。对做Agent部署的人来说，这消息比任何参数更新都实在——延迟不再是产品体验的挡路虎，580 tps意味着模型思考的速度开始追赶上人类等待的耐心阈值。当整个行业还在争论参数规模要不要继续膨胀时，这群工程师用硬核的工程优化证明：把现有模型的推理效率榨干，同样能改写游戏规则。

580 tps：Agent 推理的实战分水岭

对话场景与智能体负载，根本是两回事

很多人还没意识到，普通聊天机器人和Agent工作流对推理引擎的要求完全不同。前者是一次性生成几百个token的散文，后者是工具调用、代码执行、多轮反思的密集舞蹈。Agent每走一步都可能触发一次模型推理，上下文在工具返回和用户意图之间来回膨胀。传统的吞吐量优化在这里会失效——你不需要一次性吐出几千token，而是需要每一次思考都足够快，快到用户感觉不到卡顿。580 tps这个数字之所以扎眼，正因为它是在这种高频、碎片化、上下文快速切换的智能体工作负载下测出来的。它不是温室里的花朵，是野外生存的猛兽。更关键的是，这种负载下的延迟波动比平均延迟更致命。如果一次工具调用后的模型推理突然变慢，用户体验会断崖式下跌。TokenSpeed在这里做到的不仅是高均值，更是高稳定性。

当延迟低于人类感知阈值

产品层面有个残酷的公式：每一百毫秒的延迟，都会让用户的流失概率上升。Agent应用尤其如此。想象一下，当你问一个coding agent"帮我重构这段代码"，模型需要先理解需求，再生成修改方案，中间可能还要调用静态分析工具。如果每次模型响应都要让用户等上两三秒，这个产品基本就判了死刑。580 tps意味着在常见的中等长度输出场景下，模型能在亚秒级完成响应。这不是工程师的自嗨，是用户体验的生死线。一旦推理速度跨过这条线，Agent从"能用"到"好用"的质变就会发生。通义千问团队选择把测试场景锚定在Agent负载上，说明他们很清楚：下一阶段的战场不在榜单，在终端用户的耐心账户里。谁能让模型思考得比人类眨眼更快，谁就能定义下一代交互范式。

技术拆解：从内存墙到计算效率的突围

FlashAttention-4 打破注意力机制的内存诅咒

大模型推理的瓶颈从来不在算力，而在内存带宽。Transformer的注意力机制需要频繁读写巨大的KV Cache，像是一个永远在搬运家具的仓库，真正干活的时间被搬运消耗殆尽。Tri Dao团队的FlashAttention系列一直在解决这个问题，而FlashAttention-4把这推向了新的极端。它通过更激进的块稀疏策略和优化的CUDA核函数，把HBM和SRAM之间的数据搬运量砍到最低。具体到Qwen3.5这次优化，FA4让注意力计算不再是推理延迟的主犯。在长上下文场景下，这种优化的收益会被放大数倍——因为KV Cache的体积随序列长度线性增长，而FA4的IO感知设计正好对冲了这个噩梦。换句话说，模型可以更快地从"回忆上下文"切换到"生成新内容"。在工程上，这种级别的内核优化往往比换一块更贵的GPU回报更高——它是用软件重新定义硬件的效率边界，让A100或H100发挥出超越其标称算力的实战表现。

TokenSpeed 引擎做了什么不同的事

市面上的推理引擎大多在卷通用吞吐量，TokenSpeed却选择了一条更垂直的路。它专门为高频率、低延迟的推理请求做了调度层面的重构。传统引擎的batching策略喜欢把请求攒到一起处理，追求整体吞吐最大化，代价是单个请求的排队时间不可控。TokenSpeed的做法更像是为每个Agent请求开辟快速通道，减少排队惩罚，同时通过精细的显存管理让KV Cache的复用率最大化。一个Agent会话中，系统提示和工具描述往往是重复的，TokenSpeed能识别这些静态前缀并直接复用计算结果，避免重复做无用功。当Qwen3.5遇上TokenSpeed，模型的潜能才真正被释放出来。这不是简单的"好马配好鞍"，而是为特定赛道重新调校了发动机。在Agent应用爆发的当下，通用引擎的"大而全"反而成了负担，垂直优化的"快而准"才是刚需。

四方协作背后的工程真相

通义千问推理团队、lightseekorg Foundation旗下的TokenSpeed团队、NVIDIA，以及Mooncake——这个组合名单本身就说明了现代AI基础设施的复杂度。通义千问提供模型架构和训练后的权重优化，包括对分组查询注意力等结构的精细调整；TokenSpeed负责推理引擎的调度与执行层；NVIDIA的参与意味着在CUDA生态和硬件级优化上做了深度调优，可能涉及定制化的矩阵乘核函数和显存异步传输；Mooncake团队则带来了分布式KV Cache管理和前缀缓存的工程经验，解决了多卡环境下数据一致性和传输延迟的难题。四方各自解决不同层面的瓶颈：算法、系统、硬件、分布式存储。这种开源协作模式产生的效果是乘法而非加法。单独任何一方都无法把数字推到580 tps，但当模型、引擎、GPU和缓存层被当作一个整体来压榨时，奇迹就变成了工程。这也给行业提了个醒：推理优化已经进入协同时代，闭门造车玩不转了。未来的竞争不再是单一技术的炫技，而是生态位的咬合精度。

开源推理边界被重写之后

闭源模型的速度优势正在消融

过去两年，闭源模型厂商最喜欢讲的故事之一就是"我们不仅模型强，推理速度也更快，因为做了专属优化"。这个叙事建立在开源社区拿不到同等工程资源的前提下。Qwen3.5这次的成绩直接撕开了这个假象。当开源模型在TokenSpeed上跑到580 tps，它意味着任何一家创业公司、任何一个开发者，都可以在自己的服务器上复现接近顶级的推理延迟。不需要签商业API协议，不需要被供应商锁定，更不需要为了速度牺牲数据隐私。速度民主化带来的连锁反应会非常快——接下来半年，你会看到大量基于开源模型的实时Agent产品涌现，因为基础设施的缰绳被解开了。闭源厂商接下来要 defending 的不再是模型能力，而是他们日益萎缩的工程壁垒。

智能体应用落地的最后一道枷锁松动了

说了很多年Agent元年，但真正的杀手级应用始终没出现。原因有很多，推理延迟是其中最隐蔽也最关键的一个。如果模型思考比人类操作还慢，所谓的"自主智能体"就只能是演示视频里的花架子。580 tps是一个信号：开源LLM的推理性能已经摸到了大规模商业部署的门槛。当响应时间进入人类无感区间，Agent才能从"辅助工具"进化为"协作伙伴"。用户不会容忍一个"智能助手"在每次决策前都让他们盯着转圈图标。通义千问团队把这个数字放在PyTorch社区博客上，而不是发一条公关推文，也说明他们是认真的——这是给整个开源大模型社区递了一把新扳手，不是自我吹嘘。更重要的是，它确立了一个新基准：未来的开源模型发布，如果不附带同等级别的推理优化，将很难被视为完整的交付物。580 tps不仅是一个速度纪录，它是开源生态从"追赶"转向"定义标准"的分界线。

点赞 | 63

Lumevalley——全栈AI服务领航者，以“战略-应用-算力”三位一体服务框架，为企业提供从顶层战略规划、场景化AI智能体（AI Agent）开发/搭建/部署，到企业级AI应用开发、AI+行业场景解决方案的全链路服务，并配套AI大模型部署与高性能AI算力底座支撑，助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。