Google DeepMind 把赌注押在了一个大多数人都放弃的方向上:文本扩散。最新放出的实验模型 DiffusionGemma 没有走主流的自回归老路,而是像图像生成那样,一次性把 256 个 token 并行吐出来。结果?推理速度在 H100 上突破 1000 tokens/s,RTX 5090 上也有 700+ tokens/s,整整 4 倍的加速。这个 26B 的 MoE 模型实际推理时只激活 3.8B 参数,量化后塞进 18GB 显存的消费级显卡毫无压力。开源、Apache 2.0、双向注意力、还能自我纠错——这玩意儿瞄准的不是聊天机器人,而是你 IDE 里那个卡得要命的代码补全。
为什么是扩散?自回归的天花板到了
逐 token 生成的隐形成本
过去五年,整个大模型行业都活在 Transformer 自回归的阴影下。GPT 系、LLaMA 系、Gemma 系,一个接一个,本质上都在做同一件事:看一眼上文,预测下一个 token,然后把这个 token 塞回去,再预测下一个。简单、优雅、可扩展。但有个致命的工程问题——串行依赖。你没办法并行,因为第 N 个 token 依赖第 N-1 个。这意味着 1000 tokens 的输出,至少需要 1000 次前向推理。即便 KV cache 再怎么优化,内存带宽仍然是天花板。DiffusionGemma 的核心思路是:把这堵墙拆掉。
扩散范式的天然并行性
图像领域的扩散模型早就证明了——你可以在 50 步内生成一张 1024×1024 的图,每一步处理的是全图所有像素的联合分布。文本为什么不行?DeepMind 的赌注是:行。DiffusionGemma 每次前向传播并行生成 256 个 token,这意味着理论上输出长度对延迟的影响被大幅摊薄。对一个 500 token 的代码补全请求,传统自回归需要 500 次串行调用,而扩散模型可能只需要几轮迭代就能收敛到完整序列。
MoE 加持下的速度奇迹
26B 体量,3.8B 心脏
单看参数量,DiffusionGemma 是个 26B 级别的大家伙。但混合专家架构(MoE)的精妙之处在于:你可以让模型很大,却只跑其中一小部分。DiffusionGemma 每次推理只激活 3.8B 参数,这比很多 7B 密集模型还要轻。配合量化技术,18GB 显存就能完整装下——这正好覆盖了 RTX 4090、RTX 5090 以及苹果 M 系列高配芯片的甜点区间。DeepMind 的潜台词很明显:本地部署的时代真正开始了。
从内存瓶颈到计算瓶颈的迁移
传统自回归推理的瓶颈在内存带宽——你得把模型权重从显存搬到计算单元,每次生成一个 token 就得搬一遍。扩散模型的做法彻底改变了这个游戏:一次前向处理 256 个 token,分摊下来的带宽压力骤降。代价是单次前向的计算量上去了,H100 和 RTX 5090 的 FP8/BF16 算力在这里就成了真正的助推器。1000+ tokens/s 的数字意味着什么?意味着代码补全的响应延迟可以压到 200ms 以内,跟人类打字速度持平。
双向注意力:让模型学会"回头看"
超越自回归的因果限制
自回归模型有个根深蒂固的假设:只能看左边,不能看右边。Transformer 的因果掩码就是为了这个设计的。但人类写代码的时候不是这样工作的——你会在心里构思整个函数签名,会预先定义好变量名,会在写到一半时回头修改前面的逻辑。DiffusionGemma 的双向注意力让模型在生成过程中能"看见"完整的草稿,包括尚未填实的空白位置。这种全局视野对代码补全来说价值巨大:模型可以同时考虑函数的开始和结束、变量的声明和使用。
自我修正机制的实战价值
扩散模型还有一个被低估的特性:迭代去噪过程天然支持自我修正。在每一步去噪中,模型都可以对之前的预测进行重新评估和调整,而不是像自回归那样一旦生成就锁死。这对内联编辑场景尤其友好——你在 VS Code 里改了一行代码,IDE 需要重新理解上下文并补全后续内容,DiffusionGemma 可以在这过程中自我纠错,输出更连贯的代码块。传统的自回归模型在面对局部修改时往往会产生"上下文断裂",扩散架构则在这个问题上有结构性的优势。
本地工作流的重构时刻
从云端依赖到离线可用
过去两年,本地大模型的最大障碍不是模型质量,而是推理速度。你可以把 LLaMA 70B 量化到 4-bit 塞进 48GB 显存,但每次补全要等两三秒,这体验跟云端 API 没法比。DiffusionGemma 的出现打破了这个僵局——18GB 显存、700+ tokens/s 的速度,意味着中端消费级硬件就能跑出接近实时的代码补全。数据隐私、网络延迟、API 成本,这些曾经让企业用户犹豫的因素正在快速消解。
代码填充场景的精准打击
DeepMind 给 DiffusionGemma 定位的应用场景很清晰:内联编辑、代码填充、本地交互式工作流。这不是巧合。代码补全对延迟的容忍度极低——用户敲完一个函数名,期待 100ms 内看到建议列表;写完一行 if,期待下一行自动补全。这种场景下,速度就是一切,而质量只要"够用"就行。DiffusionGemma 的设计哲学是:牺牲一点点绝对质量,换取数量级的速度提升。这笔账对 IDE 插件、终端工具、嵌入式 AI 助手来说,划算得不能再划算了。
开源的真正含义:生态重构的信号弹
Apache 2.0 释放的想象空间
DeepMind 选择 Apache 2.0 而不是更严格的许可证,这本身就是一个信号。他们想要的是社区的广泛采用,而不是商业控制。Hugging Face、Ollama、LM Studio、llama.cpp——这些本地推理生态的核心节点都可以无缝集成。社区会在 DiffusionGemma 的基础上做微调、做剪枝、做特定编程语言的优化。这正是开源最擅长的事情:把一个好的起点变成整个生态的飞轮。
实验模型的定位与未来
DeepMind 把 DiffusionGemma 标注为"实验模型",这个措辞很微妙。它意味着这不是最终答案,而是一个探路者。文本扩散这条路能走多远?是会取代自回归成为主流,还是只在小众场景中找到立足点?这些问题现在都没有定论。但有一点是确定的:本地 AI 推理的瓶颈正在被改写,而改写它的不一定是更大的模型,更可能是更聪明的生成方式。DiffusionGemma 就是那个"更聪明"的第一次亮相。

