无标题

发表于2025-12-23|更新于2025-12-23

|浏览量:

Quantization

大模型量化

简单来说量化就是用更低精度低数值格式(如 INT8 INT4)来表示原本的高精度(如FP32，FP16)的权重和激活值。

三大主流算法

GPTQ: 基于二阶导数信息（Hessian 矩阵）进行权重补偿，逐层优化。
AWQ (Activation-aware Weight Quantization): 发现权重中只有 1% 是重要的（由激活值决定），保护这些重要权重不被过度量化，从而保持精度。
SmoothQuant: 通过一个数学上的等价变换，将激活值的量化难度转移到权重上，解决激活值量化难的问题。

文章作者: Dummy

文章链接: https://dummyv07.github.io/2025/12/23/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E9%87%8F%E5%8C%96/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源廾匸！