
DFlash:用扩散模型做推测解码,如何让 LLM 推理加速 6 倍?一句话总结:DFlash 是一种全新的推测解码框架,利用轻量级块扩散(block diffusion)模型在单次前向传播中并行生成整块草稿 token,再由大型自回归目标模型验证。通过从目标模型提取隐藏特征并注入草稿模型的每一层(KV 注入机制),DFlash 在 Qwen3-8B 的 MATH-500 基准上达到了6.08 倍加速(官方博客 Figure 1 显示为 6.17 倍),比现有最优方法 EAGLE-3 快近2.5 倍。论文:DFlash: Block Diffusion for Flash Speculative Decoding (arXiv:2602.06036)(ICML 2026)代码:https://github.com/z-lab/dflash项目页:https://z-lab.ai/projects/dflash