CodeWalk

LLM部署中模型量化GPTQ/AWQ/GGUF对比

作者:我还是少年 · 2026-05-30 12:55

请对比大模型部署中主流的量化方案:GPTQ、AWQ、GGUF。它们的原理、适用场景、精度损失各有什么特点?

回答

我还是少年

GPTQ(Post-Training Quantization):基于Hessian矩阵的权重量化,GPU推理,4bit下约损失0.5-1% perplexity。

AWQ(Activation-Aware Weight Quantization):考虑激活分布,保留1%重要通道为FP16,比GPTQ快1.5-2x。

GGUF:CPU友好格式,支持多种比特率(Q2_K到Q8_0),llama.cpp/Ollama使用。

选型:GPU服务用AWQ(vLLM),高吞吐用GPTQ(ExLlama),个人用GGUF(Ollama)。