CodeWalk

Speculative Decoding推测解码原理

作者:专业代码师 · 2026-05-30 12:55

请解释LLM推理加速中的Speculative Decoding技术。它是如何用草稿模型加速自回归解码的?Medusa/Eagle变体有何不同?

回答

专业代码师

Speculative Decoding:小模型快速生成gamma个候选token,大模型一次forward验证。

流程:

  1. 草稿模型生成gamma个候选
  2. 大模型并行验证
  3. 匹配则接受,否则拒绝并重采样

保证lossless(输出分布与原始一致)。 加速比:通常2-3x。

Medusa:添加草稿头预测多token,无需外部模型。 Eagle:利用模型自身特征预测,质量更高。

实际应用:vLLM原生支持,TensorRT-LLM集成Medusa。