June 3, 2026 中 #LLM Inference #KV Cache #Quantization

KVQuant：面向千万级上下文的 KV 缓存量化技术——阅读笔记

笔记日期： 2026-06-03 笔记作者： Zhongzhu Zhou 论文标题： KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization 作者： Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Michael W. Mahoney, Yakun Sophia Shao, Kurt Keutzer, Amir Gholami（加州大学伯克利分校 + ICSI + LBNL） arXiv： 2401.18079 状态： NeurIPS 2024 主会议论文

一句话总结

KVQuant 发现现有 KV 缓存量化方案在粒度上用错了维度：key 的异常值按通道分布、不按 token 分布，而 RoPE 旋转会破坏这一通道结构。论文通过逐通道键量化、预-RoPE 量化、Fisher 加权非均匀量化和稀疏异常值残差四项技术，将 LLaMA 系列模型压缩至 3-bit 时困惑度退化仅 0.07，实现 4.8× 显存节省，在单张 A100-80GB GPU 上支持 LLaMA-7B 处理 100 万上下文，8 卡系统可达 1000 万。

一、前置知识

在深入技术细节之前，先把需要的背景知识打好基础。KVQuant 涉及三个相对独立的知识体系：LLM 推理系统架构、神经网络量化理论、以及旋转位置编码的数学。下面逐一解释，不要求读者有相关预备知识。KVQuant 位于 LLM 推理系统与神经网络量化两个领域的交叉点，两块知识都需要。

1.1 KV 缓存：长上下文的显存瓶颈

Transformer 自回归生成是逐 token 的：生成第 $t+1$ 个 token 时，当前 query 需要与所有历史 token 的 key-value 做注意力计算。重新计算所有历史 key-value 代价极高，所以推理时将它们缓存下来，这就是 KV 缓存（Key-Value Cache）。

一个 $n$ 层、 $h$ 个注意力头、每头维度 $d$ 、batch 大小 $b$ 、序列长度 $l$ 的模型，其 KV 缓存大小为：

\text{KV 缓存大小} = 2 \times n \times h \times d \times e \times b \times l \text{ bytes}

其中因子 2 来自同时存储 key 和 value， $e$ 是每元素字节数（fp16 时 $e=2$ ）。对于 LLaMA-7B（ $n=32, h=32, d=128, e=2$ ），单条 128K 长度序列的 KV 缓存约 64 GB——已经耗尽一张 A100-80GB 的全部显存。

短序列时（512 token），KV 缓存只占总显存的 2%，model weight 是瓶颈；长序列时（128K token），KV 缓存膨胀到 84%——完全主导显存占用。此外，生成阶段每步都要从显存加载全部历史 key-value，这个过程是显存带宽受限的，不是算力受限——这意味着压缩 KV 缓存不仅节省显存，还能直接加速推理。

1.2 量化基础：均匀量化 vs. 非均匀量化

**量化（Quantization）**将高精度浮点数映射到更少位数可表示的离散值集合。 $b$ 位均匀量化：

Q(\mathbf{x}) = \text{round}\!\left(\frac{\mathbf{x} - z}{s}\right), \quad \hat{\mathbf{x}} = Q(\mathbf{x}) \cdot s + z

其中 $s$ 是缩放因子， $z$ 是零点，可表示的值均匀分布在 $[z, z+(2^b-1)s]$ 区间。

**非均匀量化（Non-Uniform Quantization, NUQ）**允许量化点不均匀分布。给定码本 $\mathcal{C}=\{c_1, \ldots, c_{2^b}\}$ ：

Q_{\text{NUQ}}(x) = \arg\min_{c \in \mathcal{C}} |x - c|

真实激活值的分布往往不均匀（如集中在零点附近的重尾分布），非均匀量化可以在密集区域分配更多的量化点，提升精度。

量化粒度决定哪些元素共享同一个缩放因子：

逐张量（per-tensor）：整个张量一个 scale（最粗）
逐 token（per-token / per-row）：KV 缓存矩阵每行一个 scale
逐通道（per-channel / per-column）：每列一个 scale
逐向量（per-vector）：每个被量化的”向量”一个 scale

1.3 旋转位置编码（RoPE）原理

现代 LLM（LLaMA、Mistral、Qwen 等）普遍采用**旋转位置编码（RoPE）**来注入位置信息。对于位置 $m$ 的 query $\mathbf{q}_m$ 和位置 $n$ 的 key $\mathbf{k}_n$ ，RoPE 施加位置相关的旋转：

\tilde{\mathbf{k}}_n = R_{\theta,n}^d \cdot \mathbf{k}_n

其中 $R_{\theta,n}^d$ 是分块对角旋转矩阵，对通道对 $(2i, 2i+1)$ 的旋转角为 $n\theta_i$ ， $\theta_i = 10000^{-2i/d}$ 。具体展开：

\begin{pmatrix} \tilde{k}_{n,2i} \\ \tilde{k}_{n,2i+1} \end{pmatrix} = \begin{pmatrix} \cos(n\theta_i) & -\sin(n\theta_i) \\ \sin(n\theta_i) & \cos(n\theta_i) \end{pmatrix} \begin{pmatrix} k_{n,2i} \\ k_{n,2i+1} \end{pmatrix}

对量化的关键影响： RoPE 将通道对 $(2i, 2i+1)$ 以随位置变化的比例混合。如果预-RoPE 的通道 $2i$ 是异常通道（均值幅度远大于 $2i+1$ ），那么后-RoPE 的通道 $2i$ 幅度会变成 $k_{2i}\cos(n\theta_i) - k_{2i+1}\sin(n\theta_i)$ ——跨不同位置 $n$ ，这个值随角度震荡，异常通道的幅度结构被”洗掉”了。

1.4 Fisher 信息与敏感性加权量化

Fisher 信息矩阵描述模型输出（损失）对参数或激活值扰动的敏感程度。对激活值 $a_i$ ，其对角 Fisher 信息为：

\mathcal{F}_{ii} = \mathbb{E}\!\left[\left(\frac{\partial \mathcal{L}}{\partial a_i}\right)^2\right]

$\mathcal{F}_{ii}$ 大意味着 $a_i$ 高度敏感——对它的微小扰动导致模型输出大幅变化。直觉：量化误差落在高 Fisher 信息的维度上，会引起成比例的更大输出误差。

敏感性加权量化目标：

Q^* \approx \arg\min_Q \sum_i \mathcal{F}_{ii} \cdot (a_i - Q(a_i))^2

优先保护高敏感度的激活值精度，允许低敏感度值承受更大量化误差。

1.5 注意力头和头维度：为什么要分头计算统计量？

多头注意力（MHA）将总维度 $d$ 分成 $h$ 个注意力头，每头独立计算 QKV。LLaMA-7B 有 $h=32$ 个头，每头维度 $d_h = d/h = 128$ 。

对量化的关键影响：不同头的激活分布差异很大——某些头专门捕捉位置信息（key 幅度大），某些头捕捉语义内容（key 幅度均匀）。KVQuant 对每个 (层, 头) 对独立推导统计量和 nuqX 码本，LLaMA-7B 共 $32 \times 32 = 1024$ 套独立标定结果。这是计算开销与量化精度的核心权衡，也是 KVQuant 比逐矩阵标定方法更精确的原因之一。

1.6 困惑度（Perplexity）

**困惑度（Perplexity, PPL）**衡量模型在测试集上的预测质量：

\text{PPL} = \exp\!\left(-\frac{1}{T}\sum_{t=1}^T \log p(x_t \mid x_{<t})\right)

PPL 越低越好。量化后 PPL 上升表示精度损失。实践中，PPL 退化 < 0.1 通常认为可接受。

二、这篇论文做了什么

KVQuant 的核心问题是：为什么现有 KV 缓存量化方法在 sub-4-bit 精度下失败？ 答案是：它们用了错误的量化粒度，没有利用 KV 激活值的内在结构。

论文的四项核心技术贡献：

逐通道键量化（Per-Channel Key Quantization）：key 的异常值按通道（列）维度分布，而非按 token（行）维度。逐通道量化给每个通道独立的缩放因子，让异常通道自成体系，不污染正常通道。
预-RoPE 键量化（Pre-RoPE Key Quantization）：在施加 RoPE 之前量化 key，保留更规整的预旋转通道结构；注意力计算时反量化后再应用 RoPE。
nuqX 非均匀量化（Sensitivity-Weighted Non-Uniform Quantization）：通过 Fisher 信息加权的 k-means，在标定数据上离线推导每层每头的非均匀量化码本，比均匀量化分配更合理的量化点。
逐向量稠密-稀疏量化（Per-Vector Dense-and-Sparse Quantization）：将约 1% 的极端异常值单独以 fp16 存入稀疏矩阵（CSR/CSC 格式），使稠密量化部分的动态范围更紧，精度更高。

flowchart LR
    A["输入 Key K_n\n预-RoPE fp16"] --> B["逐通道量化\nQ_ch(K_n)"]
    B --> C["nuqX 码本查表\n每层非均匀量化"]
    C --> D["稀疏异常值提取\nCSR 格式存储"]
    D --> E["压缩存储\n2/3/4-bit 整数\n+ 稀疏异常值"]
    E --> F["反量化 + 施加 RoPE\n融合 CUDA 核"]
    F --> G["注意力计算\nQ·K^T"]

    A2["输入 Value V_n\nfp16"] --> B2["逐 token 量化\nQ_tok(V_n)"]
    B2 --> C2["nuqX 码本查表"]
    C2 --> D2["在线异常值检测\n（卸载至 CPU）"]
    D2 --> E2["压缩存储\n2/3/4-bit + 稀疏"]
    E2 --> F2["反量化\nSoftmax(QK^T)·V"]

    style A fill:#4a90d9,color:#fff
    style A2 fill:#7bb662,color:#fff
    style E fill:#e8a838,color:#000
    style E2 fill:#e8a838,color:#000

图 1（系统总览）：KVQuant 的 key 和 value 量化流水线。 key 走逐通道/预-RoPE/nuqX/稀疏路径；value 走逐 token/nuqX/在线异常值路径。两条路径最终都写入低比特压缩存储。

三、方法详解

3.1 为什么逐 token 量化在 KV 缓存上失败

来看一个具体例子。LLaMA-7B 某注意力层 key 矩阵 $K \in \mathbb{R}^{2048 \times 128}$ ：每行是一个 token 的 key 向量，每列是一个通道维度。实测发现，某些通道的幅度持续是其他通道的 10-15 倍（论文 Figure 2 的 3D 可视化清晰展示了这一点）。

**逐 token 量化（现有方法）**的问题：每行（每个 token）共享一个缩放因子：

s_t = \frac{\max_c K_{t,c} - \min_c K_{t,c}}{2^b - 1}

若 token $t$ 某通道 $c'$ 有 $|K_{t,c'}| \approx 15$ ，其他通道 $|K_{t,c}| \leq 1$ ，则 3-bit 时 $s_t \approx 30/7 \approx 4.3$ 。幅度仅为 $[-1,1]$ 的通道被量化到同一个 bin——精度完全丢失。

逐通道量化（KVQuant）：每列共享一个缩放因子：

s_c = \frac{\max_t K_{t,c} - \min_t K_{t,c}}{2^b - 1}

异常通道 $c'$ 获得大 $s_{c'}$ （如 $s_{c'} \approx 4.3$ ），正常通道获得小 $s_c$ （如 $s_c \approx 0.29$ ）。每个通道在自己的动态范围内量化，保留精度。

flowchart TD
    subgraph "逐 token 量化 ❌"
        T1["Token 1 向量: [0.3, 12.4, -0.1, 11.8, ...]"]
        T2["一个 scale 覆盖所有通道"]
        T3["小幅通道精度完全丢失"]
        T1 --> T2 --> T3
    end
    subgraph "逐通道量化 ✅"
        C1["通道 0: [0.3, 0.2, 0.4, ...] → s=0.04 精度高"]
        C2["通道 7: [12.4, 11.8, 13.1, ...] → s=1.2 自成体系"]
        C3["各通道独立量化，精度均保留"]
        C1 --> C3
        C2 --> C3
    end

图 2（粒度对比）：逐 token 量化 vs. 逐通道量化。 逐 token 迫使一个 scale 覆盖差异悬殊的通道幅度；逐通道让每个通道有独立 scale，精度均匀保留。

论文数据：仅逐通道量化一项，就让 3-bit LLaMA-7B 的困惑度从 10.87 降到 7.05，改善幅度 3.82——是四个组件中贡献最大的单项。

3.2 预-RoPE 键量化：在旋转破坏结构之前量化

RoPE 旋转通道对 $(2i, 2i+1)$ 时，不同位置 $n$ 的混合比例不同，导致后-RoPE 的每个通道幅度随位置振荡，失去统一的”异常通道”结构。

以具体数字说明：若预-RoPE 通道 0 的幅度为 12，通道 1 的幅度为 1，则后-RoPE 通道 0 的方差：

\text{Var}(\tilde{k}_0) \approx \text{Var}(k_0) \cdot \overline{\cos^2} + \text{Var}(k_1) \cdot \overline{\sin^2} = 144 \times 0.5 + 1 \times 0.5 = 72.5

后-RoPE 通道 0 和通道 1 的标准差都变成约 8.5——两个通道变得相似，之前通道 0 是”异常通道”的结构消失了。逐通道量化后-RoPE 版本时，两通道用相近的 scale，没有精度优势。

解决方案：预-RoPE 量化——在 RoPE 施加之前量化和缓存 key。注意力计算时的步骤：

从缓存读取低比特 key
反量化（恢复预-RoPE fp16 key）
融合核施加 RoPE
与当前 query 计算注意力分数

工程上的关键：需要开发一个融合的”反量化 + RoPE”CUDA 核，使这个过程不引入额外延迟。论文证明，这一融合核相比直接加载 fp16 后-RoPE key 反而更快（因显存带宽节省主导，见第 3.5 节）。

论文数据：在逐通道量化基础上加入预-RoPE 量化，困惑度从 7.05 进一步降至 6.23，再改善 0.82。

3.3 nuqX：Fisher 加权非均匀量化

均匀量化将量化点等间隔分布。但 KV 缓存激活值的分布极不均匀（通常集中在零附近，存在重尾）——非均匀码本能在密集区域分配更多量化点。

KVQuant 的 NUQ 目标函数（论文公式 1）：

Q(A)^* \approx \arg\min_{Q} \sum_{i=1}^{N} \mathcal{F}_{ii}\!\left(A_i - Q(A_i)\right)^2

其中：

$A$ 是标定集上的激活值向量（展平后共 $N$ 个元素）
$\mathcal{F}_{ii}$ 是激活值 $A_i$ 对应的 Fisher 信息
优化目标：找到最小化 Fisher 加权均方量化误差的码本 $Q$

为什么要 Fisher 加权而不是幅度加权？ 幅度加权优先保护幅度大的元素（即异常通道），但这些元素恰恰因为幅度大、动态范围宽，量化误差相对比例反而不大。模型输出最敏感的往往是处于注意力 softmax 边界附近的中等幅度值——Fisher 信息能捕捉这种非线性敏感性，幅度加权不能。

码本离线推导流程：

算法 2：敏感性加权 NUQ 码本构建

输入：
  标定集激活值 A = {a_1,...,a_N}（归一化至 [-1,1]）
  Fisher 权重 F = {F_1,...,F_N}
  量化比特数 b（需要 k=2^b 个码本中心）

初始化：均匀分布 k 个初始中心 c_1,...,c_k

循环直到收敛：
  # 分配步骤：每个激活值归属最近中心
  对每个 i：cluster[i] = argmin_j |a_i - c_j|

  # 更新步骤：Fisher 加权平均更新中心
  对每个 j：
    members = {i : cluster[i] == j}
    c_j = (Σ_{i∈members} F_i · a_i) / (Σ_{i∈members} F_i)

输出：码本 C = {c_1,...,c_k}，即该层的 nuqX 数据类型

关键点：更新步骤使用 Fisher 加权平均而非普通平均，将中心拉向高敏感度区域。

推理时的码本查找：存储量化后的 index，反量化是一次表查找，非常高效。由于 KV 缓存加载是带宽受限的，表查找不引入额外延迟。

论文数据：nuqX 在逐通道+预-RoPE 基础上再降困惑度 0.29（6.23 → 5.94）。

3.4 逐向量稠密-稀疏量化：隔离极端异常值

即便逐通道量化，仍有少量极端值（约 1%）大幅压缩动态范围，影响整体精度。解决方案：稠密-稀疏分解——稠密部分用低比特量化，约 1% 的异常值用 fp16 单独存储在稀疏矩阵中。

对 key 向量（逐通道粒度），分解为：

\mathbf{k} = \mathbf{k}_{\text{稠密}} + \mathbf{k}_{\text{稀疏}}

\mathbf{k}_{\text{稀疏}}[c] = \begin{cases} \mathbf{k}[c] & \text{if } |\mathbf{k}[c]| > \tau_c \\ 0 & \text{otherwise} \end{cases}

其中 $\tau_c$ 是逐通道异常值阈值，离线在标定集上确定。去除异常值后， $\mathbf{k}_{\text{稠密}}$ 的动态范围更紧，量化分辨率更高。

存储格式：

key 的稀疏矩阵：CSR（Compressed Sparse Row）格式，方便追加新 token（新行）
value 的稀疏矩阵：CSC（Compressed Sparse Column）格式，方便按列访问

等效比特宽度分析（以 3-bit、1% 异常值为例）：

\text{平均比特宽度} = 0.99 \times 3 + 0.01 \times 16 = 2.97 + 0.16 = 3.13 \text{ bits}

加上稀疏索引开销，实际平均约 3.33 bits（论文 Table 1 中 nuq3-1% 对应的平均比特数）。

3.5 注意力汇聚（Attention Sink）感知量化

Transformer 存在”注意力汇聚（Attention Sink）“现象：模型在许多层和注意力头中，将大量注意力权重集中在第一个 token 上，即使该 token 在语义上不重要。第一个 token 的 key-value 激活因此具有不成比例的高量化敏感性。

KVQuant 的处理方式：将第一个 token 保持 fp16 精度。这几乎不增加显存（序列长 $l$ 个 token，仅 1 个用 fp16），但在低比特（尤其 2-bit）时显著改善困惑度。标定时，第一个 token 被排除在外，避免其异常分布影响码本推导。

3.6 离线标定 vs. 在线计算的设计抉择

激活值量化的核心矛盾：统计量（scale、zero-point、异常值阈值）需要在推理前（离线）还是推理时（在线）计算？

	Key	Value
量化粒度	逐通道	逐 token
统计量稳定性	通道统计量跨样本稳定 ✅	token 统计量随输入变化 ❌
标定方式	离线（仅需标定集）	在线（每新增 token 计算）
挑战	标定数据需与部署域匹配	在线计算引入 GPU 开销
KVQuant 解法	验证离线标定可泛化	异常值检测卸载到 CPU

这种非对称设计——key 离线、value 在线——是方法实用性的关键保障。

3.7 自定义 CUDA 核实现

KVQuant 为两个性能关键操作开发了自定义 CUDA 核：

Key 矩阵-向量乘法核——每步生成时，当前 query 与所有历史 key 做点积：

加载 $b$ -bit 压缩整数
nuqX 码本查表得 fp16 值
乘以逐通道 scale，加零点
加稀疏异常值贡献
应用 RoPE 旋转（融合）
与当前 query 计算点积

Value 矩阵-向量乘法核——计算加权和 $\sum_n \alpha_n \mathbf{v}_n$ ，步骤类似但无 RoPE。

A6000 GPU 上的基准延迟（Table 6）：

xychart-beta
    title "Key/Value 矩阵向量乘延迟 (μs, A6000)"
    x-axis ["l=2K", "l=4K", "l=16K"]
    y-axis "延迟 (μs)" 0 --> 230
    line [33.3, 59.1, 219.4]
    line [25.6, 39.9, 126.3]

激活	操作	l=2K	l=4K	l=16K
Key	fp16 Matvec	33.3 μs	59.1 μs	219.4 μs
Key	nuq4-1%	25.6 μs	39.9 μs	126.3 μs
Value	fp16 Matvec	26.0 μs	50.2 μs	203.7 μs
Value	nuq4-1%	22.1 μs	37.9 μs	124.5 μs

KVQuant 核比 fp16 基线快 1.2-1.7×。在带宽受限的推理场景中，传输 4-bit 数据仅需 fp16 传输时间的 1/4，节省的带宽直接转化为延迟优化——量化不仅节省显存，还加速了推理。

3.8 完整算法伪代码

算法 1：KVQuant Key 缓存（完整流程）

【离线标定阶段（一次性，推理前）】
输入：模型参数，Wikitext-2 训练集样本 16 条（各 2K tokens）

对每层 l、每头 h：
  1. 前向传播，收集所有 key 激活值 K_l^h ∈ R^{N × d_h}
  2. 计算 Fisher 信息：F_{ii} = E[(∂L/∂K_i)^2]（反向传播）
  3. 逐通道计算统计量：
       scale[c] = (max_t K[t,c] - min_t K[t,c]) / (2^b - 1)
       zp[c] = min_t K[t,c]
       τ[c] = 分位数阈值（保留 99% 元素）
  4. 将 K 归一化到 [-1,1]，排除第一 token 和异常值
  5. 运行 Fisher 加权 k-means，输出 2^b 个码本中心 C[l][h][c]

【推理阶段（实时，每个新 token n）】
输入：原始 key K_n = W_k · x_n（fp16）

Step 1：逐通道检测异常值
  mask[c] = (|K_n[c]| > τ[c])
  outlier_vals = K_n[mask]
  K_dense = K_n; K_dense[mask] = 0

Step 2：逐通道归一化
  K_norm[c] = (K_dense[c] - zp[c]) / scale[c]

Step 3：nuqX 码本量化
  q[c] = argmin_{j} |K_norm[c] - C[l][h][c][j]|

Step 4：压缩存储
  cache.quant[n] = pack_b_bit(q)       # 压缩至 b bit
  cache.sparse[n] = CSR(outlier_vals)  # fp16 稀疏异常值

【注意力计算时的反量化（融合核）】
对每个历史 token n：
  K_hat[c] = C[l][h][c][q[c]] · scale[c] + zp[c]  # 反量化
  K_hat[mask] += outlier_vals                        # 加回异常值
  K_rot = RoPE(K_hat, position=n)                    # 融合应用 RoPE
  attn_score[n] = dot(Q_current, K_rot) / sqrt(d_h)

四、实验结果

4.1 主要困惑度评估（Table 1 复现）

论文在 LLaMA-7B/13B/30B/65B 和 Llama-2/3 及 Mistral-7B 上评估 Wikitext-2 困惑度。

图 5（Table 1 关键数据复现）：不同方法 3-bit 时 LLaMA-7B Wikitext-2 困惑度

方法	平均比特	LLaMA-7B PPL	KV显存(GB,128K)
fp16 基线	16	5.68	64.0
int3（逐 token 均匀）	3	10.87	12.0
nf3（NormalFloat3）	3	7.33	12.0
ATOM-3bit	~3.1	6.17	12.6
FlexGen-3bit	~3.2	5.93	13.2
KVQuant-3bit-1%	3.33	5.75	13.3
fp16 退化	—	+0.07	4.8× 节省

在 2-bit 时，现有方法几乎全部崩溃（int2 PPL = 11779，ATOM-2bit PPL = 37.37），而 KVQuant-2bit-1% 仅达 6.01——这是一个质的差距。

图 6（消融分析）：各组件对 3-bit LLaMA-7B 困惑度的贡献

配置	PPL	改善
基线（int3，逐 token）	10.87	—
+ 逐通道键量化	7.05	-3.82
+ 预-RoPE 量化	6.23	-0.82
+ 非均匀量化（nuqX）	5.94	-0.29
+ 1% 异常值处理	5.75	-0.19
fp16 基线	5.68	—

每个组件都有独立且可量化的贡献，消融实验设计清晰，是一篇系统论文的标准做法。

4.2 长上下文评估：Passkey 检索（Table 2）

模型	方法	2K	16K	32K	平均比特
LLaMA-2-7B-32K	fp16	1.00	1.00	1.00	16
	KIVI-2-gs32-r128	0.76	0.68	0.70	3.05
	nuq3-1%	1.00	1.00	1.00	3.33
	nuq2-1%	1.00	1.00	1.00	2.33

KVQuant 在 2-bit 时仍保持完美的 Passkey 检索精度（1.00），而 KIVI 的滑动窗口方法在 16K 时已下降至 0.68。原因：KIVI 保持最近 128 个 token 的 fp16 残差，远距离 token 的精度较低；KVQuant 对所有位置均匀压缩，远距离精度无损。

4.3 大模型上的扩展性（LLaMA-65B 数据）

对于 LLaMA-65B（现实生产规模的代表）：

方法	PPL	KV 缓存（GB，128K 上下文）
fp16 基线	3.53	320.0
int4	3.73	80.1
KVQuant-4bit-1%	3.54	80.0
nf3	4.44	60.1
ATOM-3bit	3.78	63.0
KVQuant-3bit-1%	3.57	66.5
ATOM-2bit	13.63	42.8
KVQuant-2bit-1%	3.70	46.5

对于 65B 模型，fp16 的 320 GB KV 缓存需要至少 4 张 A100-80GB 仅用于 KV 存储（不含权重）。KVQuant-3bit 压缩至 66.5 GB，使单张 A100 即可容纳，PPL 仅退化 0.04——甚至比 7B 模型的退化（0.07）更小，表明大模型对量化噪声的冗余容忍度更高。

4.4 显存节省与上下文扩展

量化配置	压缩比	LLaMA-7B 单 A100-80GB 最大上下文
fp16	1×	~128K
nuq4-1%（4.33 bit）	~3.7×	~475K
nuq3-1%（3.33 bit）	~4.8×	~615K
nuq2-1%（2.33 bit）	~6.9×	~883K
nuq2-1% + 8 GPU	~6.9×	~10M

这些数字说明 KVQuant 不只是”量化方法”，而是一个使能技术：它让以前只能在集群上运行的长上下文任务，变成单机可以处理的任务。

4.5 联合权重量化实验（Table 5）

KVQuant 与权重量化方法的兼容性验证非常重要——实际部署中往往需要同时量化权重和 KV 缓存：

权重	KV 缓存	LLaMA-7B PPL	LLaMA-13B PPL
fp16	fp16	5.68	5.09
w4-s45	fp16	5.77	5.17
w4-s45	nuq4-1%	5.79	5.18
w3-s45	fp16	6.13	5.45
w3-s45	nuq3-1%	6.23	5.52

在 4-bit 权重量化基础上加入 nuq4-1% KV 量化，额外 PPL 退化仅 0.02——说明两者之间几乎无干扰，KV 缓存量化可作为权重量化的”即插即用”补充。

4.6 LongBench 和 RULER 综合任务评估

图 9（方法对比总览）：

xychart-beta
    title "3-bit 量化方法困惑度对比（LLaMA-7B，Wikitext-2）"
    x-axis ["int3", "nf3", "ATOM-3bit", "FlexGen-3bit", "KVQuant-3bit-1%", "fp16"]
    y-axis "Perplexity (PPL)" 5 --> 12
    bar [10.87, 7.33, 6.17, 5.93, 5.75, 5.68]

LongBench（Table 3，LLaMA-2-7B-32K，平均上下文 12.2K）：

fp16 基线：平均分 31.96
KVQuant-3bit-1%：平均分 31.21（仅降 0.75，相对下降 2.4%）
KIVI-2-gs32-r128：平均分 30.04（降 1.92）

在涵盖 QA、摘要、检索的综合任务上，KVQuant 的精度损失极小，显著优于 KIVI（且 KIVI 还使用了更低的平均比特数 3.05 vs 3.33）。

RULER（Table 4，32K 上下文）：KVQuant-3bit-1% 平均分 53.65 vs fp16 的 56.40（降 2.75），而 KIVI-2-gs32-r128 平均分 39.78（降 16.62）。差距极大，再次证明均匀压缩 vs. 局部窗口的方法论优势。

五、局限性与边界条件

标定数据域依赖。 nuqX 码本和逐通道统计量使用 Wikitext-2（英文维基百科）的 16 条样本推导。在代码生成、数学推理或非英语任务上，激活值分布可能显著不同，标定泛化能力未经充分测试。

硬件专用性。 自定义 CUDA 核在 A6000 和 A100 上测试；H100、B200 等新一代 GPU 的 HBM 带宽特性和片上缓存架构不同，核性能不能直接推论。

码本构建计算开销。 LLaMA-65B 每层 Fisher 信息计算需数分钟，80 层串行约数小时。虽然是一次性开销，对频繁更新的模型（如持续微调的生产模型）是实际障碍。

CSR/CSC 稀疏矩阵的工程复杂性。 推理服务通常预分配固定显存；动态增长的稀疏异常值矩阵与常规推理框架的内存管理机制不兼容，需要额外工程集成。

2-bit 模式的任务适用性。 Passkey 检索精度 1.00 看起来完美，但 PPL 退化 0.33 在开放式生成任务上可能显而易见。2-bit 模式更适合检索类任务，对生成质量要求高的场景需谨慎。

六、大模型量化与权重量化的关联

KVQuant 的许多技术思路来自权重量化领域，但针对激活值量化做了重要适配。理解这一关系有助于把握方法的来龙去脉：

方面	权重量化（如 SqueezeLLM）	KV 缓存量化（KVQuant）
量化对象	模型权重矩阵（静态，编译期已知）	KV 激活值（动态，推理时产生）
异常值结构	按权重输出通道分布	Key：按通道分布；Value：按 token 分布
量化粒度	逐组（128 元素组）	逐通道或逐 token
标定时机	离线，灵活选择任意数据	Key 离线，Value 在线
非均匀量化	NormalFloat4（NF4，固定）	nuqX（每层每头推导，自适应）
异常值处理	逐矩阵稠密-稀疏分解	逐向量稠密-稀疏分解

KVQuant 相对 SqueezeLLM（同作者的权重量化工作）的关键创新：

量化粒度从”逐权重列”改为”逐 KV 通道”——匹配激活值的实际结构
异常值检测粒度细化到每个向量——避免单一阈值污染正常通道
码本从固定 NF4 改为每层推导的 nuqX——更灵活地适应不同层的激活分布
Fisher 信息的估计对象从权重改为激活值——需要前向传播梯度而非二阶权重敏感性

这种”将权重量化思路迁移到激活值量化”的思维模式，是 KVQuant 设计的根本出发点，也是其在量化领域的方法论贡献所在。

七、批判性分析：不足与可改进之处

7.1 不好的地方（Weaknesses）

(a) 基线对比不完整。 论文对比了 ATOM、FlexGen、KIVI 和标准均匀量化（int/nf），但截至 NeurIPS 2024，已有多个相关方法未被纳入对比：H2O（基于注意力的 KV 驱逐）、SnapKV（观测驱动的 key 选择）、ScissorHands 和 PyramidKV。论文虽声明量化与驱逐”正交”，但一个结合量化和驱逐的联合实验（如”KVQuant + SnapKV”）会大幅增强实际部署价值，缺少此类实验是显著空白。

(b) LongBench 对比不公平。 Table 3 只对比 KVQuant-3bit-1%（3.33 bit）vs. KIVI-2-gs32-r128（3.05 bit）——两者比特宽度本就不同，无法分离”方法优势”和”比特宽度优势”。论文未提供同比特宽度（如 nuq2-1% vs. KIVI-2）的直接对比，使结论的说服力有所下降。

(c) 缺少端到端 tokens/s 指标。 Table 6 展示的是孤立核的微秒级延迟，而非完整推理服务的端到端吞吐量。实际推理还包括线性投影层、MLP 层、多 GPU 通信等，整体加速比不能从单核微秒推论。缺少 tokens/s 数据使工程师无法直接评估部署价值。

(d) 标定集大小未消融。 论文使用 16 条 2K tokens 的 Wikitext-2 样本，但这一选择完全未消融。若使用 4 条或 64 条会怎样？若使用不同领域数据（代码、数学）又会怎样？实践中，这是最影响部署成本的超参数之一。

(e) 稀疏矩阵的实际延迟影响未分析。 论文将稀疏异常值的存储和访问视为已解决问题，但 CSR/CSC 格式的随机内存访问模式（特别是在长序列下）在 GPU 上开销不可忽视。缺少对稀疏矩阵开销的实测分析，使”1% 异常值几乎免费”的隐含假设存疑。

7.2 作者淡化或回避的局限

(b-1) 跨域泛化能力未测试。 所有实验的标定和评测都在英文文本（Wikitext-2、C4）上进行。代码、数学公式、多语言文本的 KV 激活分布可能与英文维基百科显著不同。论文对”离线标定可泛化”的论断（Appendix L）仅在同域上验证，未验证跨域。

(b-2) 对 GQA 的适配未讨论。 LLaMA-3、Mistral-v0.3、Qwen2 等主流现代模型使用分组查询注意力（GQA）——多个 query head 共享一个 KV head。共享 KV head 在逐通道统计量上的处理方式（是否需要对所有 query head 联合标定？）论文完全未涉及，直接影响方法对当前生产模型的适用性。

(b-3) 动态序列长度下的稀疏矩阵显存管理。 推理服务在动态 batching 场景下，不同请求的序列长度差异很大。CSR/CSC 稀疏矩阵的动态增长与常见的预分配显存管理策略（如 vLLM 的 PagedAttention）存在兼容性问题，论文未讨论如何集成到现有推理框架。

7.3 可以改进的地方（Improvement Suggestions）

(c-1) 联合驱逐-量化实验。 先用 SnapKV/H2O 驱逐低重要性 token（如保留 50%），再对保留的 token 施加 KVQuant 2-bit 量化。理论上可以叠加约 10× 的总压缩比。这一实验成本低但价值高，是显而易见的下一步。

(c-2) 跨域标定鲁棒性评估。 用 Wikitext-2 标定，在代码（HumanEval）、数学（MATH）、多语言（mC4）上分别测试 PPL 退化。若跨域退化明显，提出域自适应标定策略（如混合少量目标域样本进入标定集）。这一分析直接关系到方法的实用部署范围。

(c-3) 端到端服务吞吐量测试。 使用 vLLM 或 TensorRT-LLM 作为集成框架，在标准请求分布（如 ShareGPT）下报告不同序列长度的 tokens/s。这是工程师做选型时最关注的指标，其缺失是论文向工业界转化的最大障碍。

(c-4) GQA 感知的逐通道标定。 针对 GQA 模型，研究共享 KV head 被多个 query head 使用时的统计量估计方法——是对每个 query head 分别计算统计量后取平均，还是对 query head 联合计算？这个问题的答案会影响 KVQuant 在 LLaMA-3-8B/70B 等主流模型上的实际效果。

(c-5) 学习型码本替代方案。 将 k-means 码本构建替换为梯度优化方法（如 QuaRot 或 QuIP# 的做法），直接最小化下游任务损失。此类”端到端学习型码本”可能在 2-bit 时进一步缩小与 fp16 的精度差距，代价是更高的标定计算开销。

七、未来研究方向

KVQuant 开启了若干清晰的后续研究方向，笔者认为以下方向最有价值：

1. 量化 + 驱逐联合框架 先用 SnapKV/H2O 等方法驱逐低重要性 token（保留 50%），再对留存 token 施加 KVQuant 2-bit 量化。理论上叠加效果：2× 驱逐 × 4.8× 量化 ≈ 9.6× 总压缩。这是目前最直接的扩展方向，对单卡长上下文场景价值巨大。

2. GQA 感知的标定方法 LLaMA-3、Qwen2 等主流模型使用分组查询注意力（GQA），一个 KV head 被多个 query head 共享。需要研究共享 KV head 的逐通道统计量如何在多个 query head 使用下保持准确。这是 KVQuant 向当前生产模型推广的必要步骤。

3. 在线域自适应标定 对于领域特定的长文档推理（如科学论文、代码库），在 prefill 阶段利用前几千 token 的激活值在线更新码本，使量化自适应当前文档的分布特征。这类似于”per-request calibration”，额外开销仅为 prefill 时间的 5-10%。

4. 新架构适配 DeepSeek-V3 的 MLA（Multi-head Latent Attention）将 KV 投影到低维潜空间，改变了 KV 激活值的结构；Mamba 等状态空间模型完全没有 KV cache 概念。KVQuant 的哪些组件可以迁移到这些新架构？这是一个开放的系统设计问题。

5. 与 PagedAttention 的集成 vLLM 的 PagedAttention 以 page（块）为单位管理 KV 缓存。KVQuant 的逐通道统计量和稀疏异常值矩阵需要重新设计存储格式，使其与 paged 内存管理兼容。解决这个集成问题是 KVQuant 进入主流推理框架的关键工程任务。

flowchart LR
    KVQ["KVQuant\n(NeurIPS 2024)"]
    KVQ --> D1["量化 + 驱逐\n联合框架\n目标 9-10× 压缩"]
    KVQ --> D2["GQA 感知标定\nLLaMA-3/Qwen2 适配"]
    KVQ --> D3["在线域自适应\n请求级码本更新"]
    KVQ --> D4["新架构适配\nMLA / 状态空间模型"]
    KVQ --> D5["PagedAttention 集成\n生产推理框架"]
    style KVQ fill:#4a90d9,color:#fff

图 8（研究路线图）：KVQuant 之后的五个关键研究方向。 其中”量化+驱逐联合”和”GQA 感知标定”是最紧迫的，因为它们直接决定方法在当前生产环境中的适用范围。

十、可复现性说明

代码： https://github.com/SqueezeAILab/KVQuant
标定： Wikitext-2 训练集 16 条样本，各 2K tokens（约 30 分钟，7B 模型，单 A100）
硬件要求： A6000 或 A100 GPU，CUDA ≥ 11.8；H100 理论兼容但未官方测试
测试模型： LLaMA-7B/13B/30B/65B、Llama-2-7B/13B/70B、Llama-3-8B/70B、Mistral-7B
支持比特宽度： 2-bit、3-bit、4-bit，异常值比例 1% 或 5%
Fisher 信息计算时间： LLaMA-65B 每层数分钟（可并行化，80 层约 2-4 小时）
标定迁移性： 离线缩放因子和码本可直接用于推理，无需重新标定

实践建议：

场景	推荐配置	说明
精度优先（正式部署）	nuq4-1%	PPL 退化 < 0.02，几乎透明
平衡配置（大多数场景）	nuq3-1%	PPL 退化 0.07，4.8× 压缩
内存极限（纯检索任务）	nuq2-1%	PPL 退化 0.33，6.9× 压缩
联合权重量化	w4-s45 + nuq4-1%	PPL 退化仅 0.02，适合双量化需求

八、KV 缓存压缩方法全景对比

KVQuant 是长上下文 KV 缓存压缩众多方案之一。理解它的定位，有助于实践中选择合适工具。

graph TD
    KV["KV 缓存压缩方法"]
    KV --> Eviction["Token 驱逐\nH2O / SnapKV / PyramidKV"]
    KV --> Quant["量化压缩\nKVQuant / KIVI / KVSharer"]
    KV --> Sharing["跨层 KV 共享\nCLA / DeepSeek MLA"]
    KV --> Offload["SSD/CPU 卸载\nTutti / FlexGen"]

    Eviction -- "永久丢失历史 token" --> Ev_c["❌ 无法访问被驱逐位置\n✅ 极低显存开销"]
    Quant -- "保留所有 token，压缩精度" --> Qu_c["✅ 全位置均等访问\n✅ 与驱逐正交可叠加"]
    Sharing -- "需重新训练" --> Sh_c["❌ 架构层面改动\n✅ 推理时零额外开销"]
    Offload -- "溢出到 CPU/NVMe" --> Of_c["✅ 容量更大\n❌ 传输延迟高"]

    style Quant fill:#2d8a4e,color:#fff
    style Qu_c fill:#2d8a4e,color:#fff

图 7（方法全景）：KV 缓存压缩技术谱系。 量化方法的独特优势：（1）所有历史 token 均等可访问；（2）与驱逐方法正交，可叠加实现更大压缩比；（3）不需要架构改动或重新训练。主要局限：不减少注意力计算的 token 数量，只减少每个 token 的显存/带宽开销。

KVQuant vs. KIVI 的核心差异：

维度	KVQuant	KIVI
核心思路	全历史 token 均匀 low-bit 量化	旧 token 2-bit + 最近 128 个 token fp16 残差
长程精度	均等（全位置 2/3/4-bit）	随距离衰减（远处精度低）
Passkey 检索（32K）	1.00	0.70（KIVI-2）
实现复杂度	高（4 个组件，自定义核）	较低（固定窗口 fp16 残差）
GQA 适配	未明确支持	有部分支持

九、深入理解：量化误差的数学分析

9.1 量化误差的分解视角

从均方误差视角严格分析三种量化粒度的误差。设 key 矩阵 $K \in \mathbb{R}^{l \times d}$ ， $l$ 为序列长， $d$ 为每头维度。

逐 token 量化（现有方法）的误差：

设 token $t$ 的最大幅度通道为 $c^*(t) = \arg\max_c |K_{t,c}|$ ，则：

s_t \approx \frac{2|K_{t,c^*(t)}|}{2^b - 1}

对”正常”通道 $c \neq c^*(t)$ ，量化分辨率由 $s_t$ 决定，但 $|K_{t,c}| \ll |K_{t,c^*(t)}|$ ，导致这些通道实际被量化到少数几个 bin 中，信息大量丢失。

逐通道量化（KVQuant）的误差：

每通道 scale $s_c$ 由该通道在所有 token 上的动态范围决定：

s_c = \frac{\max_t K_{t,c} - \min_t K_{t,c}}{2^b - 1}

因为每通道的值分布一致（不同 token 的同一通道数值相对稳定）， $s_c$ 对所有 token 都合适，每通道的量化误差在该通道的”自然”精度范围内。

均方误差比较（三种方案，3-bit，LLaMA-7B layer 10）：

量化方案	Key MSE	PPL 退化
逐 token 均匀（int3）	基准 × 100	5.19（10.87-5.68）
逐通道均匀	基准 × 8	1.37（7.05-5.68）
逐通道 + 预-RoPE + nuqX + 1% 异常值	基准 × 1.2	0.07（5.75-5.68）

这张对比表（论文数据推算）揭示了方法改进的数量级：从基线 MSE 降低到约 1.2 倍基线，困惑度退化从 5.19 缩减到 0.07。

9.2 Fisher 信息的直觉：为什么不能只看幅度？

一个常见误解是：幅度大的激活值更重要，应该优先保护。但这在 softmax 注意力中并不成立。

考虑注意力分数 $a_{mn} = \mathbf{q}_m^\top \tilde{\mathbf{k}}_n / \sqrt{d}$ 。经 softmax 后：

\alpha_{mn} = \frac{\exp(a_{mn})}{\sum_j \exp(a_{mj})}

softmax 对分数的梯度为 $\partial \alpha_{mn} / \partial a_{mn} = \alpha_{mn}(1 - \alpha_{mn})$ ，在 $\alpha_{mn} \approx 0.5$ 时最大。这意味着处于”竞争边界”的注意力分数对量化误差最敏感，而这些分数不一定对应幅度最大的 key 通道。Fisher 信息正确捕捉了这种非线性敏感性——它本质上是对 softmax 输出的敏感性分析，而非幅度的简单排序。

9.3 工程实现：3-bit 压缩的内存布局

理解 3-bit 压缩的实际内存布局对实现至关重要：

3-bit 压缩示例（32-bit 整数存储 10 个量化值）：

比特位 [2:0]   → 通道 0 的量化 index（0-7）
比特位 [5:3]   → 通道 1 的量化 index
比特位 [8:6]   → 通道 2 的量化 index
...
比特位 [29:27] → 通道 9 的量化 index
比特位 [31:30] → 未使用

对于 d=128 维 key 向量（一个 head 一个 token）：
- 量化 index：128 × 3 bits = 384 bits = 48 bytes
- fp16 版本：128 × 16 bits = 2048 bits = 256 bytes
- 压缩比：256 / 48 ≈ 5.3×（不含异常值开销）

加上 1% 异常值（约 1.28 个元素 × 2 bytes fp16 + index 开销）：
实际约 48 + 4 = 52 bytes，压缩比约 256 / 52 ≈ 4.9×

码本（nuqX datatype）存储在 L1 缓存或纹理缓存中，每次反量化只需一次 32-bit 表查找（对 2^b=8 个入口），无额外 DRAM 访问。这是在带宽受限场景下保持量化 kernel 比 fp16 kernel 更快的关键。

附录：逐步工作示例——一个 3-bit key 向量的量化全流程

以 LLaMA-7B 第 10 层第 0 个注意力头的 token $n=500$ 的 key 向量 $\mathbf{k} \in \mathbb{R}^{128}$ 为例，演示完整量化流程。

已知（离线标定结果）：

逐通道缩放因子 $s_c$ ， $c=0,\ldots,127$ （例： $s_0 = 0.31$ ， $s_7 = 2.14$ ， $s_{15} = 0.08$ ）
逐通道零点 $z_c$
逐通道异常值阈值 $\tau_c$ （例： $\tau_0 = 0.93$ ， $\tau_7 = 6.42$ ）
nuq3 码本 $\mathcal{C}[c] \in \mathbb{R}^8$ ，每通道 8 个非均匀量化点

Step 1：检测异常值（逐通道）

对每个通道 c：
  if |k[c]| > τ_c：
    outlier_val[c] = k[c]   # 存入稀疏矩阵（fp16）
    k_dense[c] = 0           # 稠密部分置零
  else：
    k_dense[c] = k[c]

假设：通道 7 的 k[7] = 9.3 > τ_7 = 6.42 → 异常值

Step 2：逐通道归一化至 [-1,1]

k_norm[c] = (k_dense[c] - z_c) / s_c

对通道 0：k_norm[0] = (0.45 - 0.0) / 0.31 = 1.45 → 截断至 1.0
对通道 15：k_norm[15] = (-0.03 - 0.0) / 0.08 = -0.375

Step 3：nuqX 码本量化

对每个通道 c：
  q[c] = argmin_{j in 0..7} |k_norm[c] - C[c][j]|

假设通道 15 的码本（3-bit，8 个非均匀点）：
  C[15] = [-1.0, -0.71, -0.43, -0.14, 0.14, 0.43, 0.71, 1.0]
  k_norm[15] = -0.375
  最近码本点：-0.43（index=2）
  q[15] = 2

Step 4：压缩存储

cache.quant[500] = pack_3bit(q)            # 128 × 3-bit = 48 bytes
cache.sparse[500] = CSR(outlier_val, [7])  # channel 7 的异常值 9.3

Step 5：注意力时反量化（融合 RoPE）

# 对每个历史 token n，CUDA 核执行：
for n in cached_positions：
  q_vec = load_3bit(cache.quant[n])
  k_hat[c] = C[c][q_vec[c]] · s_c + z_c   # nuqX 反量化
  k_hat[7] += cache.sparse[n][7]            # 加回异常值
  k_rot = RoPE(k_hat, position=n)           # 融合旋转
  score[n] = dot(q_current, k_rot) / sqrt(128)

这个完整示例展示了 KVQuant 每一步的具体操作，帮助读者理解论文图表背后的工程实现。

十一、总结与个人评价

KVQuant 是一篇在技术深度和实际影响力上都出色的论文。核心洞见——“KV 缓存量化失败的根本原因是量化粒度错误，而非信息理论下限”——在概念上简洁，在实证上充分验证。四组件系统（逐通道 key、预-RoPE 量化、Fisher 加权 NUQ、逐向量稀疏异常值）的设计有层次感：每项技术都独立可辩护，合在一起解锁了此前无法实现的 2-bit 和 3-bit 精度。

10M 上下文的演示是真实的工程成果。对从业者而言，最重要的三个结论是：（1）KVQuant-3bit-1% 对 LLaMA 系列模型几乎无损；（2）与权重量化方法完全兼容，可叠加；（3）自定义 CUDA 核比 fp16 基线还快——这在显存节省的同时也是延迟的 Pareto 改进。

方法的核心贡献不只是具体技术，而是提供了一套诊断-修复框架：从分析 KV 激活值的分布结构出发，定位现有方法的失败模式，为每个失败模式提供针对性解决方案，并通过消融实验量化每项修复的贡献。这种工作方式——结构性诊断，而非经验性堆砌技巧——是系统 ML 论文的高水准范式。

个人评价： 这是我近期读到的在”问题诊断清晰度”上做得最好的推理系统论文之一。每个技术组件都能在论文中找到清晰的动机（为什么需要）、设计选择（为什么是这样而不是另一种）和实证验证（贡献了多少）。对于从事 LLM 推理系统工作的读者，这篇论文提供了一个完整的分析框架：当你遇到”量化 X 失败”的问题时，先问”X 的分布结构是什么，现有方案用了哪种粒度假设，这两者匹配吗？“——这正是 KVQuant 的思维模式，也是它最值得学习的地方。

推荐阅读顺序：Abstract → Figure 1（左右两图，快速抓住核心发现和消融结果）→ Section 3.1-3.4（核心方法）→ Table 1（主要结果）→ Table 2（长上下文验证）→ Section 5（结论）→ 根据兴趣选读附录（Fisher 信息推导 Appendix D，核实现细节 Appendix R）。

实践重点速查：

问题	KVQuant 的回答
为什么逐 token 量化失败？	key 的异常值按通道分布，逐 token 粒度与实际结构不匹配
为什么需要预-RoPE 量化？	RoPE 将通道对混合，破坏了逐通道量化所需的结构规律性
为什么用 Fisher 加权而非幅度加权？	模型敏感性取决于 softmax 边界，不是激活值幅度
为什么需要稀疏异常值处理？	1% 极端异常值压缩整体动态范围，稀疏隔离后其余 99% 精度大幅提升

一句最终评价（给时间紧的读者）： KVQuant 把 KV 缓存量化的”为什么难”分析得非常透彻，每一项技术都有清晰的动机和可量化的贡献，是那种读完之后会觉得”原来如此，这个思路我以后也用得上”的好论文——不只是”它做了什么”，而是”它是怎么想到这么做的”。推荐给所有关注 LLM 推理效率的朋友。