Quantization

大模型量化

简单来说量化就是用更低精度低数值格式(如 INT8 INT4)来表示原本的高精度(如FP32,FP16)的权重和激活值。

三大主流算法

  • GPTQ: 基于二阶导数信息(Hessian 矩阵)进行权重补偿,逐层优化。

  • AWQ (Activation-aware Weight Quantization): 发现权重中只有 1% 是重要的(由激活值决定),保护这些重要权重不被过度量化,从而保持精度。

  • SmoothQuant: 通过一个数学上的等价变换,将激活值的量化难度转移到权重上,解决激活值量化难的问题。