Speculative Decoding推测解码原理

Question

请解释LLM推理加速中的Speculative Decoding技术。它是如何用草稿模型加速自回归解码的？Medusa/Eagle变体有何不同？。AI 面试题。Google 面试题

专业代码师 · Accepted Answer

Speculative Decoding：小模型快速生成gamma个候选token，大模型一次forward验证。

流程：

保证lossless(输出分布与原始一致)。加速比：通常2-3x。

Medusa：添加草稿头预测多token，无需外部模型。 Eagle：利用模型自身特征预测，质量更高。

实际应用：vLLM原生支持，TensorRT-LLM集成Medusa。

回答