LLM推理中Prefix Caching与RadixAttention
请解释LLM推理中的Prefix Caching和RadixAttention技术。多个请求共享System Prompt时如何复用KV-Cache?
回答
苦行僧
Prefix Caching:缓存公共前缀(System Prompt/对话历史)的KV-Cache,多请求复用。
只需计算差异化部分,系统提示越长加速越明显。Chat场景可节省50-80% prefill时间。
RadixAttention(SGLang):
- KV-Cache组织为基数树结构
- 最长公共前缀(LCP)匹配,最大化缓存命中
- LRU淘汰管理显存
vLLM:--enable-prefix-caching启用。
注意:需额外显存存储缓存,需根据命中率权衡。