LLM Serving推理服务部署架构
请描述大模型推理服务的部署架构。从API网关到模型推理的全链路包括哪些组件?如何进行GPU资源管理和请求调度?如何实现优雅扩缩容和冷启动优化?
回答
Yahuda
LLM服务分层部署架构:
- API网关层:Nginx/Kong/APISIX (路由/限流/鉴权)
- 服务编排层:FastAPI/RAY Serve (请求路由/批处理/负载均衡)
- 推理引擎层:vLLM/TGI/TensorRT-LLM (模型推理)
- GPU资源层:NVIDIA GPU + CUDA
GPU管理:
- Kubernetes device plugin分配GPU
- 请求队列管理(请求排队/优先级/超时)
- 动态批处理(Continuous Batching)
冷启动优化:
- 模型预热(Warm-up requests)
- 模型常驻(pod不缩容到0)
- 模型分片加载(大模型分片并行加载)
- Model Zoo + 按需加载
扩缩容:
- HPA基于GPU利用率/请求QPS
- Custom Metrics:GPU内存/推理队列深度
- 预留buffer应对突发流量