在LLM后训练阶段用上MTP(多token预测)做推理加速,这事听起来很美——但实际跑起来,瓶颈远比想象中顽固。Bebop系统团队的论文直接对准了这个痛点:MTP在接受率、模型熵波动和RL训练吞吐之间,挖出了一条清晰的因果链。他们没有停留在"发现现象"的层面,而是拿出了可落地的损失函数和采样策略,在Qwen3.5、Qwen3.6和Qwen3.7上跑出了端到端1.8倍加速。更关键的是,整个方案可以离线部署,RL训练全程保持一致的加速比,省去了动态更新MTP模型的额外开销。对正在搞RLHF的团队来说,这套组合拳的实战价值相当高。
MTP加速的隐性天花板在哪里
MTP并不是一个新概念。在预训练阶段,让模型一次预测多个token的方案早已被验证有效——它提升样本效率,也让推理阶段的投机解码有了用武之地。但问题在于,RL后训练的场景和预训练完全不同。模型在持续更新,策略分布不断漂移,这导致一个看似不起眼的变量开始发威:草稿模型(draft model)和目标模型之间的接受率,会随着训练进程剧烈波动。
熵波动是接受率的最大干扰项
Bebop团队跑了一组消融实验,把MTP的接受率拆解到训练步粒度。结果显示,接受率的崩溃和模型输出熵的突变高度吻合——两者之间存在显著的负线性关系。换句话说,当模型进入RL训练的某个高奖励策略区域,输出分布会突然变窄,熵值骤降;与此同时,MTP的草稿预测和目标模型预测之间的分歧迅速放大,接受率断崖式下跌。这种现象在PPO或GRPO的后期阶段尤其明显,因为模型正在"收窄"到一个锐利的高奖励分布。
贪婪采样的盲区
传统投机解码在推理阶段用贪婪采样做草稿生成,效率最高。但Bebop的实验证明,在RL训练场景下,贪婪采样会把上述熵波动的负面影响放大到极致。原因很直接:草稿模型的概率质量本来就低,贪婪采样又只取一个最高概率token,错过了目标分布中"次优但可接受"的那部分。目标模型的熵一变,这种采样方式立刻暴露出脆弱性,拒收率飙升,MTP从加速器变成拖油瓶。
拒绝采样策略才是真正的主角
意识到贪婪采样的局限之后,研究者把视线转向概率拒绝采样。直觉上,这是一种更保守、更忠实于目标分布的方案——在候选token中按真实概率分布采样,而不是直接选top-1。
概率拒绝采样如何稳定加速曲线
实验中,Bebop把草稿采样替换为概率拒绝采样后,MTP的接受率曲线明显平滑了。熵波动依然存在,但它对采样结果的影响被概率分布本身"稀释"了——即使目标分布变窄,采样出的token仍然落在高概率区域中,草稿和目标之间的KL散度更小。论文数据显示,仅这一项改动,就能让平均接受率从原来的基线水平拉高数个百分点,端到端推理吞吐提升接近15%。
异步RL训练中的真实收益
RL训练本身是异步的,Actor和Learner之间存在通信间隙。Bebop系统利用这个间隙,在Actor侧部署MTP草稿模型做投机解码,Learner侧负责更新目标模型。两者解耦后,MTP的加速效果不再被"必须实时同步"这个约束绑架。论文报告的1.8倍端到端加速,正是这种异步架构和优化后采样策略叠加的结果。
端到端TV损失:一把直接对症下药的扳手
采样策略解决的是"怎么用MTP"的问题,TV损失解决的是"MTP本身该怎么训练"的问题。两者配合,才是Bebop方案的完整闭环。
TV损失的设计逻辑
TV损失的全称是Total Variation loss,端到端变体(e2e TV)直接以多步拒绝采样的接受率为优化目标。常规的MTP损失是token级别的交叉熵,它优化的是单步预测精度;但在投机解码场景下,衡量加速效果的不是单步精度,而是"草稿token序列在多步之内被目标模型接受的比例"——这是一个序列级、累计的指标。Bebop把TV距离引入到损失函数中,让MTP训练的目标和推理时的实际收益对齐。这种对齐带来的收益很直接:接受率再提约10%,峰值能达到95%。
预RL阶段锁定加速效果
一个更精明的设计是,e2e TV损失配合拒绝采样可以完全在预RL阶段完成MTP训练。换句话说,在RL训练真正开始之前,MTP的草稿模型就已经"对准"了目标模型的接受率分布。RL阶段,模型分布再怎么变,MTP的加速比保持稳定。不需要在线更新MTP模型,也就避开了"更新MTP→延迟分布对齐→影响RL训练稳定性"这个鸡生蛋蛋生鸡的循环。对于工程团队来说,这省下的不仅是计算资源,更是心智负担。
实测数据:Qwen家族上的1.8倍提速
实验覆盖了Qwen3.5、Qwen3.6和Qwen3.7三个版本。三个规模下的端到端加速比都稳定在1.8倍左右,说明这套方案对模型规模不敏感,具备良好的可迁移性。
吞吐提升的拆分
25%的额外推理吞吐提升来自哪里?Bebop在论文里做了归因分析:约一半归功于概率拒绝采样替代贪婪采样,另一半归功于e2e TV损失对MTP预测精度的改善。两个变量单独都能跑出正向收益,叠加之后产生放大效应。这和"贪心搜索+标准MTP损失"的基线相比,差距相当明显——后者在RL训练的中后段经常出现吞吐暴跌的情况。
为什么这套方案对RLHF团队尤其友好
RLHF训练流程的一大痛点是推理开销巨大。每一次PPO或GRPO的采样都需要目标模型生成完整响应,token成本居高不下。MTP的投机解码能在不损失响应质量的前提下,把这部分开销砍掉将近一半。对于正在调大规模RLHF实验的团队来说,这1.8倍加速意味着同样硬件条件下可以跑更多实验,或者同样实验规模下硬件预算直接减半。而且方案完全离线,集成成本低,不需要复杂的动态调度逻辑。
论文之外的一些延伸思考
Bebop的工作本质上是把"投机解码"从纯推理优化范畴,扩展到了训练流程的优化范畴。这个视角的转换很有价值——很多推理加速技术之所以在训练侧用不起来,是因为训练侧的分布漂移问题被低估了。
分布漂移是所有训练时加速方案的共同敌人
不只MTP,任何试图在训练阶段做"模型协同"的方案,都要面对目标模型持续更新带来的对齐问题。Bebop给出的解法是"预RL阶段一次性对齐",但这只对MTP这种轻量级草稿模型可行。如果未来出现更复杂的训练时加速范式——比如模型级联、动态路由——分布漂移的挑战会更加突出。这篇论文的实验设计和数据,对于这些方向的研究者来说,是一份扎实的参照。
工程落地还需要注意什么
论文展示的1.8倍加速是"在论文条件下"的结果。实际工程落地时,有几个变量需要关注:一是MTP草稿模型和目标模型的部署位置(是否在同一个GPU节点上,通信开销如何),二是异步RL架构的具体实现(Actor和Learner之间的延迟容忍度),三是长上下文场景下MTP接受率是否会因为注意力模式的差异而下降。Bebop的方案在标准chat场景下表现稳健,但极端场景还需要团队自行验证。

