Speculative Decoding推测解码原理
请解释LLM推理加速中的Speculative Decoding技术。它是如何用草稿模型加速自回归解码的?Medusa/Eagle变体有何不同?
回答
专业代码师
Speculative Decoding:小模型快速生成gamma个候选token,大模型一次forward验证。
流程:
- 草稿模型生成gamma个候选
- 大模型并行验证
- 匹配则接受,否则拒绝并重采样
保证lossless(输出分布与原始一致)。 加速比:通常2-3x。
Medusa:添加草稿头预测多token,无需外部模型。 Eagle:利用模型自身特征预测,质量更高。
实际应用:vLLM原生支持,TensorRT-LLM集成Medusa。