CodeWalk

LLM Serving推理服务部署架构

作者:Yahuda · 2026-05-30 12:55

请描述大模型推理服务的部署架构。从API网关到模型推理的全链路包括哪些组件?如何进行GPU资源管理和请求调度?如何实现优雅扩缩容和冷启动优化?

回答

Yahuda

LLM服务分层部署架构:

  1. API网关层:Nginx/Kong/APISIX (路由/限流/鉴权)
  2. 服务编排层:FastAPI/RAY Serve (请求路由/批处理/负载均衡)
  3. 推理引擎层:vLLM/TGI/TensorRT-LLM (模型推理)
  4. GPU资源层:NVIDIA GPU + CUDA

GPU管理:

  • Kubernetes device plugin分配GPU
  • 请求队列管理(请求排队/优先级/超时)
  • 动态批处理(Continuous Batching)

冷启动优化:

  • 模型预热(Warm-up requests)
  • 模型常驻(pod不缩容到0)
  • 模型分片加载(大模型分片并行加载)
  • Model Zoo + 按需加载

扩缩容:

  • HPA基于GPU利用率/请求QPS
  • Custom Metrics:GPU内存/推理队列深度
  • 预留buffer应对突发流量