无标题
Quantization
大模型量化
简单来说量化就是用更低精度低数值格式(如 INT8 INT4)来表示原本的高精度(如FP32,FP16)的权重和激活值。
三大主流算法
GPTQ: 基于二阶导数信息(Hessian 矩阵)进行权重补偿,逐层优化。
AWQ (Activation-aware Weight Quantization): 发现权重中只有 1% 是重要的(由激活值决定),保护这些重要权重不被过度量化,从而保持精度。
SmoothQuant: 通过一个数学上的等价变换,将激活值的量化难度转移到权重上,解决激活值量化难的问题。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 廾匸!




