下一代投机解码:DFlash 与 Spec V2

发布时间: 2026-06-16 文章分类: AI前沿技术
阅读量: 0
AI智能体
企业级AI智能体开发与部署
LumeValley提供全栈式企业级AI智能体开发与部署服务,涵盖战略规划、场景化开发、企业级应用构建、行业解决方案及算力支撑。从需求分析到持续优化,确保智能体高效稳定运行,助力企业实现智能化转型,提升运营效率与竞争力。

投机解码不是新概念,但真正能在大模型上跑出 4.3 倍吞吐的方案凤毛麟角。Z Lab、Modal 和 SGLang 团队联合放出的 DFlash 模型配合全新的 Spec V2 引擎,把这件事从论文里拽了出来——基于 Qwen 3.5 397B-A17B(BF16)的实测数据显示,DFlash 在 HumanEval 数据集、并发 1 的条件下,吞吐量直接打到了基线的 4.3 倍。这不是某个研究机构关起门来的 toy demo,而是已经写进 SGLang 默认推理管线的工程级方案。

DFlash 到底快在哪

块扩散:把 draft token 一次性吐出来

传统投机解码走的是「自回归」路线——草稿模型老老实实一个 token 一个 token 地猜,再让目标模型并行验证。问题显而易见:草稿阶段本身就是串行的,模型小也救不回来。DFlash 换了一个完全不同的思路,用块扩散(block diffusion)来生成 draft token。所谓块扩散,就是一次性把整块候选 token 全部生成出来,块内的 token 之间相互依赖但并行解码。配合 KV 注入技术,前一块生成时缓存的 Key-Value 状态直接喂给下一块,省去了重复的前向计算。对推理引擎来说,这相当于把「猜一个、验一个」的循环变成了「猜一整块、验一整块」,草稿阶段的延迟被压到了接近单步前向的水平。

KV 注入:被低估的杠杆

很多人低估了 KV 注入在块扩散里的作用。直觉上,块内 token 互相 attention 时,每个位置都要看到块内其他 token 的信息——如果从头算,这部分开销会吃掉并行带来的所有收益。DFlash 的处理方式很聪明:在生成当前块时,把已经生成的前缀 KV 直接注入注意力上下文,块内只用算增量部分。这样一来,块大小可以拉到 8、16 甚至 32,吞吐量随块大小近似线性增长,而不会因为注意力计算量爆炸而崩盘。Modal 团队在工程化这块下了不少功夫,最终让 DFlash 在 397B-A17B 这种规模下依然能稳定跑出 4.3 倍的数字。

和传统方案的代差

把 DFlash 摆到 Medusa、EAGLE、Lookahead 这一票投机解码方案旁边看,差别非常明显。Medusa 依赖多个并行的解码头,本质还是逐 token 生成;EAGLE 用轻量级自回归模型做草稿,训练成本高、泛化差;Lookahead 的 Jacobi 迭代在长序列上不稳定。DFlash 的块扩散加 KV 注入组合,训练目标是直接优化块级似然,草稿阶段完全并行,验证阶段复用目标模型的完整注意力——这意味着同一个 DFlash 模型可以服务不同的目标模型,工程复用度高出不止一个量级。

SGLang Spec V2 引擎:把 4.3 倍变成默认体验

为什么需要专用引擎

块扩散生成长度不固定,draft 阶段的输出长度依赖置信度阈值和块大小——这跟传统投机解码的「固定 draft length」完全不同。SGLang 的 Spec V2 引擎专门为这种动态性重新设计了调度器:草稿模型和目标模型之间的握手协议从「等够 N 个 token 再验证」改成「块就绪即验证」,CUDA graph 重捕获的频率也跟着块大小自适应调整。换句话说,引擎不再假设草稿阶段的延迟是常数,整个推理图被重新画了一遍。

实测数据的含金量

4.3 倍这个数字看起来简单,背后有几个细节值得展开。第一,测试用的是 BF16 精度的 Qwen 3.5 397B-A17B,不是量化后的轻量模型,硬件门槛对得起真实生产环境。第二,HumanEval 是代码生成任务,token 分布偏长且结构化,对草稿质量要求极高——DFlash 能在这个数据集上跑出 4.3 倍,说明块扩散的草稿命中率没有被长序列拖垮。第三,并发 1 意味着单请求场景,这是推理服务里最敏感、也最难优化的工况,批处理优势在这里几乎用不上。

从默认引擎看工程信号

DFlash 已经被设为 SGLang 的默认 Spec V2 引擎,这件事的分量比吞吐量数字本身更重。开源推理框架的「默认」二字意味着维护团队认为它在通用性、稳定性和性能之间找到了平衡点——不是实验室里跑分漂亮、放到生产就崩的玩具。对部署工程师来说,这意味着不需要手动调参、不需要自己写验证逻辑,直接升级 SGLang 就能拿到加速。这种「开箱即用」在推理优化领域是稀缺品。

谁该立刻关注这个组合

自托管大模型的团队

如果你正在用 vLLM、TGI 或者 SGLang 自托管 Qwen 3.5 或者同架构 MoE 模型,DFlash + Spec V2 是一个几乎零成本的升级路径。推理成本直接砍到原来的四分之一左右,意味着同样的 GPU 预算可以多服务四倍的用户,或者把单请求延迟压到原来的四分之一。对于 To C 聊天产品、代码助手 API 以及企业内部知识库这类对延迟敏感的场景,这个数字足以改变商业模型。

推理服务供应商

对于 Modal、Anyscale、Fireworks 这类做推理服务的厂商,DFlash 的工程复用度才是真正的杀手锏。一个训练好的 DFlash 草稿模型可以服务多个不同规模的目标模型,不需要为每个目标模型单独训练草稿头。在过去,自研投机解码方案往往是头部云厂商的护城河,现在开源社区拿出了可比的方案,护城河正在被填平。

还在用 Medusa 的项目

如果你之前的项目基于 Medusa 或者 EAGLE 做投机解码加速,现在是认真评估迁移成本的时候了。块扩散的优势在长序列和结构化输出上尤其明显——代码生成、JSON 输出、工具调用这些场景正是当前 LLM 应用的主战场。4.3 倍的基线差距不是靠调参能追平的,更可能是架构层面的代差。

几个需要冷静看待的点

4.3 倍不是万能数字

DFlash 在 HumanEval、并发 1、BF16 精度下跑出 4.3 倍,但这个数字不能直接外推到所有场景。短文本对话、数学推理、纯英文闲聊——这些任务的 token 分布和结构化程度差异巨大,草稿命中率会有波动。在高并发批处理场景下,目标模型的计算会被摊薄,投机解码的边际收益也会下降。真实部署前,最好在自有业务数据上做一轮 benchmark。

草稿模型的训练门槛

DFlash 的训练目标是块级似然,需要在目标模型的语料上做大规模蒸馏。对于没有充足算力和数据的小团队来说,自己训练一个适配特定目标模型的 DFlash 并不轻松。好消息是 Z Lab 和 Modal 已经在 Hugging Face 上放出了 Qwen 3.5 397B-A17B 的预训练版本,直接下载就能用。如果未来能覆盖更多主流模型(Llama、Mistral、DeepSeek 系列),这个生态才算真正完整。

Spec V2 引擎的兼容性窗口

SGLang Spec V2 是为 DFlash 量身定制的,对其他投机解码方案的兼容性需要时间验证。社区里仍然有大量项目跑在 vLLM 或者 TGI 上,DFlash 要真正铺开,还需要这些框架的原生支持。目前看来,SGLang 的工程社区响应速度足够快,但跨框架适配仍需至少几个月的时间窗口。

把视角拉远一点

DFlash + Spec V2 的组合,本质上是把推理优化从「模型压缩」和「硬件加速」之外的第三条路——算法层面的并行化——推到了一个新的高度。块扩散不是 DFlash 独创,但把它和投机解码结合并工程化到生产可用的程度,是这次发布真正的价值所在。当推理成本从「卡脖子」变成「可优化」,整个 LLM 应用的经济模型都会被重新写一遍。部署工程师们,是时候把这个组合放进你的工具箱了。

AI智能体
企业级AI智能体开发与部署方案
LumeValley打造企业级AI智能体全流程方案,涵盖需求洞察、定制开发、多平台适配部署。凭借专业算法与丰富经验,确保智能体精准理解业务,高效执行任务,无缝融入企业生态,为企业数字化转型提供强劲智能引擎,提升核心竞争力。
点赞 | 38

Lumevalley——全栈AI服务领航者,以“战略-应用-算力”三位一体服务框架,为企业提供从顶层战略规划、场景化AI智能体(AI Agent)开发/搭建/部署,到企业级AI应用开发、AI+行业场景解决方案的全链路服务,并配套AI大模型部署与高性能AI算力底座支撑,助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。

马上扫码获取产品资料
相关文章

相关文章

填写以下信息, 免费获取方案报价
姓名
手机号码
企业名称
  • 建筑建材
  • 化工
  • 钢铁
  • 机械设备
  • 原材料
  • 工业
  • 环保
  • 生鲜
  • 医疗
  • 快消品
  • 农林牧渔
  • 汽车汽配
  • 橡胶
  • 工程
  • 加工
  • 仪器仪表
  • 纺织
  • 服装
  • 电子元器件
  • 物流
  • 化塑
  • 食品
  • 房地产
  • 交通运输
  • 能源
  • 印刷
  • 教育
  • 跨境电商
  • 旅游
  • 皮革
  • 3C数码
  • 金属制品
  • 批发
  • 研究和发展
  • 其他行业
需求描述
填写以下信息马上为您安排系统演示
姓名
手机号码
你的职位
企业名称

恭喜您的需求提交成功

尊敬的用户,您好!

您的需求我们已经收到,我们会为您安排专属电商商务顾问在24小时内(工作日时间)内与您取得联系,请您在此期间保持电话畅通,并且注意接听来自广州区域的来电。
感谢您的支持!

您好,我是您的专属产品顾问
扫码添加我的微信,免费体验系统
(工作日09:00 - 18:00)
电话咨询 (工作日09:00 - 18:00)
客服热线: 4008 868 127
售前热线: 189 2432 2993
扫码即可快速拨打热线