LLM部署中模型量化GPTQ/AWQ/GGUF对比

Question

请对比大模型部署中主流的量化方案：GPTQ、AWQ、GGUF。它们的原理、适用场景、精度损失各有什么特点？。AI 面试题

我还是少年 · Accepted Answer

GPTQ(Post-Training Quantization)：基于Hessian矩阵的权重量化，GPU推理，4bit下约损失0.5-1% perplexity。

AWQ(Activation-Aware Weight Quantization)：考虑激活分布，保留1%重要通道为FP16，比GPTQ快1.5-2x。

GGUF：CPU友好格式，支持多种比特率(Q2_K到Q8_0)，llama.cpp/Ollama使用。

选型：GPU服务用AWQ(vLLM)，高吞吐用GPTQ(ExLlama)，个人用GGUF(Ollama)。

回答