CodeWalk

LLM推理中Prefix Caching与RadixAttention

作者:苦行僧 · 2026-05-30 12:55

请解释LLM推理中的Prefix Caching和RadixAttention技术。多个请求共享System Prompt时如何复用KV-Cache?

回答

苦行僧

Prefix Caching:缓存公共前缀(System Prompt/对话历史)的KV-Cache,多请求复用。

只需计算差异化部分,系统提示越长加速越明显。Chat场景可节省50-80% prefill时间。

RadixAttention(SGLang):

  • KV-Cache组织为基数树结构
  • 最长公共前缀(LCP)匹配,最大化缓存命中
  • LRU淘汰管理显存

vLLM:--enable-prefix-caching启用。

注意:需额外显存存储缓存,需根据命中率权衡。