LLM部署中模型量化GPTQ/AWQ/GGUF对比
请对比大模型部署中主流的量化方案:GPTQ、AWQ、GGUF。它们的原理、适用场景、精度损失各有什么特点?
回答
我还是少年
GPTQ(Post-Training Quantization):基于Hessian矩阵的权重量化,GPU推理,4bit下约损失0.5-1% perplexity。
AWQ(Activation-Aware Weight Quantization):考虑激活分布,保留1%重要通道为FP16,比GPTQ快1.5-2x。
GGUF:CPU友好格式,支持多种比特率(Q2_K到Q8_0),llama.cpp/Ollama使用。
选型:GPU服务用AWQ(vLLM),高吞吐用GPTQ(ExLlama),个人用GGUF(Ollama)。