投机解码：让大语言模型推理快 4 倍的秘密武器

从草稿模型到并行验证，从数学保证到 DSpark 工程实践——一文读懂投机解码如何让 LLM 推理速度飙升 4 倍且不牺牲任何输出质量。

大语言模型（LLM）的推理速度，一直是制约其大规模部署的核心瓶颈。一个 1.6 万亿参数的 Mixture of Experts（MoE）模型，每生成一个 token 都需要跑一次完整的前向传播——这意味着生成 1000 个 token 就要跑 1000 次。有没有办法打破这个"逐 token 生成"的魔咒？

答案就是投机解码（speculative decoding）——一种让大模型推理速度飙升 51% 到 400% 的推理加速技术。2026 年 6 月 27 日，DeepSeek 开源了其投机解码框架 DSpark，将这一技术从论文带入了生产级开源工具的行列。

核心问题：为什么 LLM 推理这么慢？

LLM 采用autoregressive generation——每次只生成一个 token，然后把它拼到输入中再生成下一个。这就像一个人写文章时每写一个字都要从头读一遍全文。这种模式导致两个致命问题：

串行瓶颈：无法并行生成，GPU 大量算力被闲置
显存带宽限制：每一步都要从显存读取全部模型权重（weights），对于 1.6T 参数的模型，这是巨大的 I/O 开销

投机解码的核心思想：草稿 + 验证

投机解码的思路可以用一个比喻来理解：你让一个实习生（草稿模型，draft model）先快速写一段草稿，然后让资深编辑（目标模型，target model）一次性审阅整段——编辑只需要在草稿出错的地方修改即可。

具体流程：

草稿生成：一个小而快的模型（如 4B 参数的 Qwen3）连续生成 k 个候选 token
并行验证：大目标模型（如 1.6T 的 DeepSeek V4-Pro）一次性处理这 k 个 token，并行验证哪些是正确的
接受或拒绝：被接受的 token 直接输出，第一个被拒绝的位置之后的 token 全部丢弃，从该位置重新生成

关键在于：验证 k 个 token 的成本约等于生成 1 个 token 的成本——因为验证是并行的前向传播，不需要自回归的串行循环。如果草稿模型的接受率（acceptance rate）足够高，就能用一次前向传播的代价获得多个 token 的输出。

数学原理：为什么不会降低输出质量？

投机解码有一个重要的数学保证：输出分布与原始自回归解码完全一致。这是通过精心设计的接受/拒绝采样策略实现的：

如果草稿 token x 的概率 q(x) 小于目标模型概率 p(x)，则一定接受
如果 q(x) 大于 p(x)，则以 p(x)/q(x) 的概率接受，否则从 p(x) - q(x) 的残差分布中重新采样

这保证了最终输出的概率分布与直接用目标模型生成完全相同——投机解码是"免费"的加速，不牺牲任何质量。

DSpark 的关键创新

DSpark 的贡献不在于发明投机解码本身（这一思想 2022 年就已提出），而在于将其工程化为一个可训练、可复现、可部署的完整框架：

可训练的草稿模块：不是简单的蒸馏，而是针对 V4 架构优化的草稿训练流程
跨模型泛化：DSpark 草稿可以训练在 Qwen3、Gemma 等其他模型上，不限于 DeepSeek
开箱即用：支持 vLLM 和 SGLang 两大火推理引擎，一行命令即可启用
全栈开源：训练代码、评估脚本、配置文件全部开源在 DeepSpec 仓库中

实际加速效果

根据 DSpark 论文和社区测试，加速效果取决于任务类型和草稿质量：

代码生成（HumanEval）：加速约 2-3 倍，因为代码的语法结构高度可预测
数学推理（GSM8K）：加速约 1.5-2 倍
开放对话（MT-Bench）：加速约 1.5 倍，因为开放性文本更难预测
批处理推理：在高并发场景下可获得 51% 的吞吐量提升

谁应该关注投机解码？

如果你自托管 LLM并按 GPU 小时付费——投机解码直接降低你的推理成本。如果你运行批量评估或高并发聊天服务——吞吐量翻倍意味着硬件需求减半。如果你构建AI Agent——长工具调用链路的推理速度直接决定用户体验。

但投机解码并非万能药：它需要额外训练草稿模型、增加显存占用，且在草稿质量差时可能反而变慢（验证开销超过收益）。选择合适的草稿模型、优化接受率，才是真正考验工程能力的地方。