LLM推理中Prefix Caching与RadixAttention

Question

请解释LLM推理中的Prefix Caching和RadixAttention技术。多个请求共享System Prompt时如何复用KV-Cache？。AI 面试题。Stanford 面试题

苦行僧 · Accepted Answer

Prefix Caching：缓存公共前缀(System Prompt/对话历史)的KV-Cache，多请求复用。

只需计算差异化部分，系统提示越长加速越明显。Chat场景可节省50-80% prefill时间。

RadixAttention(SGLang)：

vLLM：--enable-prefix-caching启用。

注意：需额外显存存储缓存，需根据命中率权衡。

回答