LLM Serving推理服务部署架构

Question

请描述大模型推理服务的部署架构。从API网关到模型推理的全链路包括哪些组件？如何进行GPU资源管理和请求调度？如何实现优雅扩缩容和冷启动优化？。AI 面试题。NVIDIA 面试题

Yahuda · Accepted Answer

LLM服务分层部署架构： API网关层：Nginx/Kong/APISIX (路由/限流/鉴权) 服务编排层：FastAPI/RAY Serve (请求路由/批处理/负载均衡) 推理引擎层：vLLM/TGI/TensorRT-LLM (模型推理) GPU资源层：NVIDIA GPU + CUDA GPU管理： Kubernetes device plugin分配GPU 请求队列管理(请求排队/优先级/超时) 动态批处理(Continuous Batching) 冷启动优化： 模型预热(Warm-up requests) 模型常驻(pod不缩容到0) 模型分片加载(大模型分片并行加载) Model Zoo + 按需加载 扩缩容： HPA基于GPU利用率/请求QPS Custom Metrics：GPU内存/推理队列深度 预留buffer应对突发流量

LLM Serving推理服务部署架构

回答

Yahuda