从0到1：大模型量化

1. 核心痛点：为什么我们必须量化？

大模型的量化技术并非一蹴而就，而是一场在显存容量与带宽壁垒面前的工程进化史。本章将从历史演进、物理限制及核心优化手段三个维度剖析量化的必要性。

1.1 量化技术的演进脉络

量化技术并非一蹴而就，而是在硬件资源限制与模型规模爆炸的矛盾中，经历的一场从理论研究到工程普惠的范式迁移：

阶段一：早期理论奠基 (2015-2020) —— 从计算机视觉领域的“深度压缩”起步
- 核心内容：早在 LLM 出现前，以 MIT 韩松教授为代表的研究者通过《Deep Compression》等工作，提出了剪枝、量化与编码的组合框架。
- 局限性：该阶段多采用量化感知训练（QAT），对动辄数千亿参数、训练成本极高的 LLM 而言，其工程可行性较低。
阶段二：8-bit PTQ 的突破 (2022) —— 关键“异常值”的处理机制
- 技术里程碑：Tim Dettmers 团队提出的 LLM.int8() 算法。
- 工程意义：研究者发现激活值中存在极少数（<0.1%）但影响全局的**“异常值（Outliers）”**。通过对这些权重保留 FP16 精度、其余使用 INT8 计算，首次实现了大模型在推理侧的“无损”训练后量化（PTQ）。
阶段三：4-bit 范式的确立 (2022末-2023中) —— 精度与效率的平衡点
- 核心驱动：GPTQ（基于数学补偿）与 AWQ（基于激活感知权重保护）的出现，确立了 4-bit 作为大模型部署的“最佳平衡位”。
- 微调革新：QLoRA 的诞生引入了 NF4 数据类型，降低了在消费级显卡上对大模型进行指令微调的门槛。
阶段四：生态标准化与工程下沉 (2023初-至今) —— 格式大一统与跨平台普及
- 核心推动：llama.cpp 项目及其配套的 GGUF 格式。
- 成果：通过极致的 C++ 工程优化，量化模型脱离了对复杂 Python 栈和顶级 CUDA 框架的依赖，实现了在 Windows、Mac 甚至移动终端上的快速部署。

尾声与未来：迈向 1-bit 时代量化的故事到 4-bit 并没有结束。如今的 AI 巨头们正在研究极其疯狂的 1.58-bit 量化（如微软的 BitNet b1.58）。在这种模型里，所有的权重只有三个状态：-1、0、1。这意味着，大模型推理时将彻底消灭极其耗电的“浮点乘法”运算，全部变成最简单的“整数加减法”。如果这个技术在未来一两年内成熟并开源，你家里的显卡性能（在 AI 推理上）可能会瞬间暴涨 10 倍以上。

2. 量化的数学本质

量化（Quantization）是一种有损压缩技术，其核心思想是将高精度的浮点数（如 BF16）映射到低精度的离散整数（如 INT8, INT4 甚至 INT2）上。最基础的线性量化（Linear Quantization）公式可以表示为：

$q = \text{round}\left( \frac{f}{S} \right) + Z$

其中：

$f$ 是原始的浮点数权重。
$S$ 是缩放因子（Scale Factor），用于将浮点数的动态范围映射到整数的范围内。
$Z$ 是零点偏移（Zero Point），用于处理非对称分布。
$q$ 是量化后的低位宽整数。

在反量化（Dequantization，即推理时将整数还原为浮点数交给计算单元）时：

$f’ = S \times (q - Z)$

显然，$f’$ 并不完全等于最初的 $f$，两者之间的差值就是量化误差（Quantization Error）。量化算法的核心，就是在给定的位宽下，极力缩小这个误差。

3. GGUF 与 K-Quants：核心基石

在搜索 Qwen 3.5 时，你可能会看到大量带有后缀的模型文件（如 Qwen-3.5-7B-Instruct-Q4_K_M.gguf）。这套体系基于 llama.cpp 项目创立的 GGUF 格式。

为了解决早期粗暴的全局量化导致的“智商大幅衰减”问题，社区引入了分组量化（Block-wise Quantization）和混合精度量化（K-Quants）。

3.1 分组量化 (Block/Group)

不再为整个网络计算单一的缩放因子 $S$，而是将权重切分成大小为 32 或 256 的块（Block），每个块单独计算和存储自己的 $S$ 和 $Z$。这极大地保留了局部权重的数值分布特征。

3.2 K-Quants 混合精度策略

神经网络中不同层的参数对最终输出结果的“敏感度”是不同的。比如，注意力机制（Attention）中的某些投影层至关重要，而某些前馈神经网络（FFN）层的冗余度很高。K-Quants 算法会根据层的敏感度分配不同的量化位宽。

Q4_K_M (Medium)：目前公认的甜点级。对重要的张量（Tensors）使用 6-bit（Q6_K），对非重要张量使用 4-bit。它在体积只比纯 4-bit 略大的情况下，保留了近乎 Q5 的精度。
Q4_K_S (Small)：更为激进。所有张量基本都压进 4-bit，甚至部分使用 3-bit。体积最小，适合显存极度紧张的场景。
Q8_0：基础的 8-bit 分组量化。体积是原版的一半，精度几乎是 100% 无损。

4. 硬核指南：如何精确计算显存需求？

为了确保模型不爆显存（OOM），你需要计算两部分总和：静态模型权重显存 + 动态上下文交互显存（余量）。

4.1 静态模型权重估算公式

由于混合精度量化（K-Quants）对不同网络层使用了不同的 bit 位宽，我们不能简单地用 4-bit = 0.5 Bytes 来算。

估算公式： $VRAM_{静态} \approx 模型参数量 \text{ (B)} \times 每参数平均占用 \text{ (Bytes)}$

常用量化格式乘数对照表：

BF16 / FP16 (原版): $\times 2.00$ Bytes
Q8_0: $\times 1.05$ Bytes（约压缩 47%）
Q6_K: $\times 0.82$ Bytes（约压缩 59%）
Q5_K_M: $\times 0.68$ Bytes（约压缩 66%）
Q4_K_M: $\times \mathbf{0.60}$ Bytes（虽然叫 4-bit，但实际平均约 4.8-bit，最推荐）
IQ3_M: $\times 0.45$ Bytes（极致压缩，参数量极大时才用）

计算演示：一个 32B 的模型，如果选用 Q4_K_M 量化： $VRAM_{静态} \approx 32 \times 0.60 = 19.2 \text{ GB}$

4.2 动态上下文 (KV Cache) 应该留多少余量？

为方便计算，建议遵循以下预留经验法则（Rule of Thumb）：

框架基础开销：CUDA 运行库本身需要占据约 0.5GB - 1GB。
轻度日常对话（2K - 4K Tokens）：建议预留 1GB - 2GB。
中度阅读与长代码（8K - 16K Tokens）：建议预留 3GB - 5GB。
超长文本处理（32K+ Tokens）：建议预留 8GB 以上。

5. 如何科学验证量化模型的“智商”与性能？

“Talk is cheap, show me the data.” 我们宣称 Q8 比 Q4 聪明（精度高），而 Q4 比 Q8 快（性能好），在 AI 行业内，这是通过以下四大维度的标准测试来严谨验证的：

5.1 底层理论指标 —— 困惑度 (Perplexity, PPL)

PPL 衡量的是模型在看到前半句话时，猜中下一个词的“犹豫程度”。模型越聪明，猜得越准，犹豫越少，PPL 值就越低。这是学术界衡量语言模型本身质量的最绝对金标准。

验证方法：在 llama.cpp 中内置了 perplexity 工具。你向模型输入同一份维基百科的测试文本，分别用原版、Q8 和 Q4 跑一遍。
行业通用结论：以 7B 模型为例，BF16 原版与 Q8 的 PPL 差距仅在万分位；而 Q4 的 PPL 仅出现极其轻微的退化（在可接受范围内）。

5.2 静态考卷刷题 —— 自动化基准测试 (Benchmarks)

PPL 是底层指标，而在实际应用中，我们需要看模型做具体任务的能力。行业内通常使用 lm-evaluation-harness（由 EleutherAI 开发）这样的自动化工具，让模型去做大量的标准化考卷。

针对程序员，最看重的是 HumanEval（代码生成）和 MMLU（多学科常识）。当你让模型分别以 BF16、Q8 和 Q4 去做 HumanEval 时，数据往往证明：Q4 相比原版，通过率只下降了微小的绝对百分比。

5.3 性能绝对指标 —— 吞吐量 (Throughput, Tokens/s)

为了验证“越小越快”的定律，我们不看智商，只看速度。

指标定义：生成阶段每秒能吐出多少个单词（Tokens per second）。
验证现象：在同一张显卡（如 RTX 4090）上跑同一个 32B 模型。跑 Q8_0 时生成速度可能是 15 tokens/s；跑 Q4_K_M 时，速度会飙升到约 28 tokens/s。这证明了大模型推理的瓶颈在于显存带宽，而非算力。

5.4 学术界铁证 —— “1%-2%”定律与量化悬崖 (Quantization Cliff)

为什么我们敢说从 8-bit 降到 4-bit，智商损失只有大约 1%-2%？这并非凭空捏造，而是基于顶级量化算法论文（GPTQ 与 AWQ）的实测数据：

平缓下坡 (8-bit 到 4-bit)：在论文的标准数据集测试中，4-bit 权重量化相比 FP16 原版，得分平均只下降 1 到 2 个百分点。4-bit 因此被学术界公认为性价比最高的“最佳甜点位”。
断崖下跌 (低于 4-bit)：一旦越过 4-bit 红线，尝试降到 3-bit (Q3) 或 2-bit (Q2)，模型的准确率会突然出现 10%、20% 甚至 50% 的暴跌，出现严重的逻辑崩溃和幻觉。这在业界被称为**“量化悬崖（Quantization Cliff）”**。

⚠️ 规模前提：该定律仅适用于 7B 及以上的大模型。模型参数越大，内部“知识冗余度”越高，对量化的容忍度才越强。

参考文档

请我喝杯咖啡

如果本文对你有帮助，欢迎打赏支持作者。