DiffusionGemma：文本生成速度提升4倍的开源扩散模型

发布时间： 2026-06-11 文章分类： AI前沿技术

阅读量： 0

企业级AI智能体开发与部署

LumeValley提供全栈式企业级AI智能体开发与部署服务，涵盖战略规划、场景化开发、企业级应用构建、行业解决方案及算力支撑。从需求分析到持续优化，确保智能体高效稳定运行，助力企业实现智能化转型，提升运营效率与竞争力。

Google DeepMind 把赌注押在了一个大多数人都放弃的方向上：文本扩散。最新放出的实验模型 DiffusionGemma 没有走主流的自回归老路，而是像图像生成那样，一次性把 256 个 token 并行吐出来。结果？推理速度在 H100 上突破 1000 tokens/s，RTX 5090 上也有 700+ tokens/s，整整 4 倍的加速。这个 26B 的 MoE 模型实际推理时只激活 3.8B 参数，量化后塞进 18GB 显存的消费级显卡毫无压力。开源、Apache 2.0、双向注意力、还能自我纠错——这玩意儿瞄准的不是聊天机器人，而是你 IDE 里那个卡得要命的代码补全。

为什么是扩散？自回归的天花板到了

逐 token 生成的隐形成本

过去五年，整个大模型行业都活在 Transformer 自回归的阴影下。GPT 系、LLaMA 系、Gemma 系，一个接一个，本质上都在做同一件事：看一眼上文，预测下一个 token，然后把这个 token 塞回去，再预测下一个。简单、优雅、可扩展。但有个致命的工程问题——串行依赖。你没办法并行，因为第 N 个 token 依赖第 N-1 个。这意味着 1000 tokens 的输出，至少需要 1000 次前向推理。即便 KV cache 再怎么优化，内存带宽仍然是天花板。DiffusionGemma 的核心思路是：把这堵墙拆掉。

扩散范式的天然并行性

图像领域的扩散模型早就证明了——你可以在 50 步内生成一张 1024×1024 的图，每一步处理的是全图所有像素的联合分布。文本为什么不行？DeepMind 的赌注是：行。DiffusionGemma 每次前向传播并行生成 256 个 token，这意味着理论上输出长度对延迟的影响被大幅摊薄。对一个 500 token 的代码补全请求，传统自回归需要 500 次串行调用，而扩散模型可能只需要几轮迭代就能收敛到完整序列。

MoE 加持下的速度奇迹

26B 体量，3.8B 心脏

单看参数量，DiffusionGemma 是个 26B 级别的大家伙。但混合专家架构（MoE）的精妙之处在于：你可以让模型很大，却只跑其中一小部分。DiffusionGemma 每次推理只激活 3.8B 参数，这比很多 7B 密集模型还要轻。配合量化技术，18GB 显存就能完整装下——这正好覆盖了 RTX 4090、RTX 5090 以及苹果 M 系列高配芯片的甜点区间。DeepMind 的潜台词很明显：本地部署的时代真正开始了。

从内存瓶颈到计算瓶颈的迁移

传统自回归推理的瓶颈在内存带宽——你得把模型权重从显存搬到计算单元，每次生成一个 token 就得搬一遍。扩散模型的做法彻底改变了这个游戏：一次前向处理 256 个 token，分摊下来的带宽压力骤降。代价是单次前向的计算量上去了，H100 和 RTX 5090 的 FP8/BF16 算力在这里就成了真正的助推器。1000+ tokens/s 的数字意味着什么？意味着代码补全的响应延迟可以压到 200ms 以内，跟人类打字速度持平。

双向注意力：让模型学会"回头看"

超越自回归的因果限制

自回归模型有个根深蒂固的假设：只能看左边，不能看右边。Transformer 的因果掩码就是为了这个设计的。但人类写代码的时候不是这样工作的——你会在心里构思整个函数签名，会预先定义好变量名，会在写到一半时回头修改前面的逻辑。DiffusionGemma 的双向注意力让模型在生成过程中能"看见"完整的草稿，包括尚未填实的空白位置。这种全局视野对代码补全来说价值巨大：模型可以同时考虑函数的开始和结束、变量的声明和使用。

自我修正机制的实战价值

扩散模型还有一个被低估的特性：迭代去噪过程天然支持自我修正。在每一步去噪中，模型都可以对之前的预测进行重新评估和调整，而不是像自回归那样一旦生成就锁死。这对内联编辑场景尤其友好——你在 VS Code 里改了一行代码，IDE 需要重新理解上下文并补全后续内容，DiffusionGemma 可以在这过程中自我纠错，输出更连贯的代码块。传统的自回归模型在面对局部修改时往往会产生"上下文断裂"，扩散架构则在这个问题上有结构性的优势。

本地工作流的重构时刻

从云端依赖到离线可用

过去两年，本地大模型的最大障碍不是模型质量，而是推理速度。你可以把 LLaMA 70B 量化到 4-bit 塞进 48GB 显存，但每次补全要等两三秒，这体验跟云端 API 没法比。DiffusionGemma 的出现打破了这个僵局——18GB 显存、700+ tokens/s 的速度，意味着中端消费级硬件就能跑出接近实时的代码补全。数据隐私、网络延迟、API 成本，这些曾经让企业用户犹豫的因素正在快速消解。

代码填充场景的精准打击

DeepMind 给 DiffusionGemma 定位的应用场景很清晰：内联编辑、代码填充、本地交互式工作流。这不是巧合。代码补全对延迟的容忍度极低——用户敲完一个函数名，期待 100ms 内看到建议列表；写完一行 if，期待下一行自动补全。这种场景下，速度就是一切，而质量只要"够用"就行。DiffusionGemma 的设计哲学是：牺牲一点点绝对质量，换取数量级的速度提升。这笔账对 IDE 插件、终端工具、嵌入式 AI 助手来说，划算得不能再划算了。

开源的真正含义：生态重构的信号弹

Apache 2.0 释放的想象空间

DeepMind 选择 Apache 2.0 而不是更严格的许可证，这本身就是一个信号。他们想要的是社区的广泛采用，而不是商业控制。Hugging Face、Ollama、LM Studio、llama.cpp——这些本地推理生态的核心节点都可以无缝集成。社区会在 DiffusionGemma 的基础上做微调、做剪枝、做特定编程语言的优化。这正是开源最擅长的事情：把一个好的起点变成整个生态的飞轮。

实验模型的定位与未来

DeepMind 把 DiffusionGemma 标注为"实验模型"，这个措辞很微妙。它意味着这不是最终答案，而是一个探路者。文本扩散这条路能走多远？是会取代自回归成为主流，还是只在小众场景中找到立足点？这些问题现在都没有定论。但有一点是确定的：本地 AI 推理的瓶颈正在被改写，而改写它的不一定是更大的模型，更可能是更聪明的生成方式。DiffusionGemma 就是那个"更聪明"的第一次亮相。

企业级AI智能体开发与部署方案

LumeValley打造企业级AI智能体全流程方案，涵盖需求洞察、定制开发、多平台适配部署。凭借专业算法与丰富经验，确保智能体精准理解业务，高效执行任务，无缝融入企业生态，为企业数字化转型提供强劲智能引擎，提升核心竞争力。

点赞 | 61

Lumevalley——全栈AI服务领航者，以“战略-应用-算力”三位一体服务框架，为企业提供从顶层战略规划、场景化AI智能体（AI Agent）开发/搭建/部署，到企业级AI应用开发、AI+行业场景解决方案的全链路服务，并配套AI大模型部署与高性能AI算力底座支撑，助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。