家用显卡部署大模型全攻略：从 GGUF 到 EXL2 量化选择

面对繁多的量化格式（GGUF, EXL2, AWQ, GPTQ），该如何根据自己的显存容量选择最合适的版本？本文为您提供详尽的量化对比与选择指南。

对于想要在本地运行大语言模型（LLM）的用户来说，最核心的挑战往往不是 CPU 或内存，而是显存 (VRAM)。为了让巨大的模型能跑在消费级显卡（如 RTX 3090, 4090）上，量化技术（Quantization）成为了必然选择。

但面对 Hugging Face 上琳琅满目的量化版本（GGUF, EXL2, AWQ, GPTQ），很多初学者会感到困惑：我该下载哪一个？

为了方便选择，我们将目前主流的量化方案进行对比分析：

格式	全称	主要特点	适用场景	推荐硬件
GGUF	GPT-Generated Unified Format	极高兼容性。支持 CPU + GPU 混合推理，可将部分模型卸载到内存。	显存不足、Mac 用户、追求极致部署便捷	CPU / Apple Silicon / 低显存 PC
EXL2	ExLlamaV2	极致性能。在保持高质量的同时，拥有极快的推理速度，支持精细的量化位数控制（如 4.25bpw）。	追求最高 Token/s 速度、显存刚好卡在临界点	NVIDIA GPU (VRAM 充足)
AWQ	Activation-aware Weight Quantization	平衡之选。量化质量极高，推理速度快，且被 vLLM 等生产级框架广泛支持。	生产环境部署、追求量化后的模型精度	NVIDIA GPU
GPTQ	Generalized Post-Training Quantization	经典方案。早期的主流量化格式，兼容性好，但目前在速度和质量上逐渐被 AWQ/EXL2 超越。	旧版框架兼容、基础量化需求	NVIDIA GPU

量化位数的选择直接决定了：模型大小 $\leftrightarrow$ 推理速度 $\leftrightarrow$ 智能程度。

快速匹配表：

12GB 显存 $\rightarrow$ 7B-14B 模型 (4-bit) $\rightarrow$ 推荐 GGUF (可卸载到内存) 或 EXL2。
24GB 显存 $\rightarrow$ 30B-70B 模型 (3-bit/4-bit) $\rightarrow$ 推荐 EXL2 (速度最快) 或 AWQ (精度高)。
Mac M系列 (统一内存) $\rightarrow$ 任意规模模型 $\rightarrow$ 唯一选择 GGUF (llama.cpp)。

不要盲目追求高参数：一个量化到 2-bit 的 70B 模型，其表现往往不如一个量化到 6-bit 的 30B 模型。量化质量 $\ge$ 参数量。
关注推理引擎：
- 选 GGUF $\rightarrow$ 使用 Ollama 或 llama.cpp。
- 选 EXL2 $\rightarrow$ 使用 TabbyAPI 或 ExLlamaV2。
- 选 AWQ/GPTQ $\rightarrow$ 使用 vLLM 或 AutoGPTQ。
内存与显存的权衡：GGUF 支持 CPU 内存卸载，但速度会断崖式下降。尽量确保模型能全部装入显存。

选择量化格式的逻辑应该是：优先考虑硬件 $\rightarrow$ 确定推理引擎 $\rightarrow$ 匹配量化位数 $\rightarrow$ 最终选择格式。

如果你追求速度且有 NVIDIA 卡 $\rightarrow$ EXL2；如果你想要简单部署或使用 Mac $\rightarrow$ GGUF；如果你在部署生产级 API $\rightarrow$ AWQ。