
模型训好了,FP32权重8GB,部署时显存不够——训练后量化(PTQ)是"不重新训练就把模型压到1/4"的核心技术。但量化不只是scale和zero_point,关键是"在哪量化"和"怎么校准"前言训练后量化(Post-Training Quantization, PTQ)是模型部署的"第一道压缩线"——不需要重新训练,只需要几百张校准图片,就能把FP32模型量化到INT8甚至INT4,显存和延迟双双减半。但PTQ不是银弹:精度损失:某些敏感层量化后可能掉3-5%准确率校准数据敏感:校准数据分布不匹配 → 量化误差放大硬件差异:不同GPU架构对INT8/INT4的支持不同这一节,我们从量化的数学原理出发,覆盖TensorRT中PTQ的完整流程、校准器选择和逐层精度恢复策略。一、量化数学基础1.1 线性量化的核心公式# 量化:FP32 → INT8# q = round(x / scale) + zero_point