极致缩小量化性能差距!美团提出量化友好方案QARepVGG

发布一下 0 0

作者丨Happy

来源丨AIWalker

编辑丨极市平台

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

论文链接:https: 438 //arxiv. 231 org/abs/2212. 81 01593

性能与推理速度间的 476 均衡在实际应用中非常重要,而结构重参数机制是 409 达成该均衡的 237 一种非常有效的 199 模块。但是 461 ,因结构重参数训练得到的 110 模型在面临量化时却出现了 206 严重的 179 性能下降(比如RepVGG-A0经PTQ量化,指标从72. 257 4%下降到了 480 52. 97 2%)。

本文旨在挖掘产生该现象的 469 根本原因,提出了 79 一种简单、鲁棒且有效的 67 补救措施,在享有重参数的 490 优势同时具有量化友好特性。所提方案大幅缩小了 125 RepVGG在INT8与FP32之间性能差距。无需任何技巧,采用标准PTQ,RepVGG在ImageNet上的 75 精度下降保持在2%以内。

本文方案

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

在标准量化流程中,有多个地方会引入误差。作者采用MSE进行量化误差度量:

极致缩小量化性能差距!美团提出量化友好方案QARepVGG


极致缩小量化性能差距!美团提出量化友好方案QARepVGG

量化误差由张量分布因子(包含最大值、最小值、标准差以及阶段阈值)决定。不幸的 242 5 ,由于我 183 们不能对网络内部张量做任何假设,导致我 406 们无法得到一个具体的 3 解决方案。实际上,我 465 们认为一个量化友好的 403 分布应当具有较小的 v 数值范围、较小的 140 标准差。对于重参数类架构而言,它有两个主要成分(权值、激活张量)需要进行量化且均可能导致性能退化,激活张量同时还将作为下一层的 255 输入,因此误差会逐层累积 。因此,具有好的 256 量化性能的 61 网络需要满足两个基本条件:

  • C1:权值分布有利于量化;
  • C2:激活张量分布易于进行量化。

Diving into the Quantization Failure of Reparameterizaton Structure

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

首先,我 15 们采用官方Code复现RepVGG-A0性能,见上表。这里,我 478 们采用标准PTQ对RepVGG-A0进行量化并评估INT8精度。

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

上图给出了 477 复现模型的 28 权值分布,可以看到: 464 权值很好的 17 分布在零附近,没有特别的 273 异常值存在,即满足上述C1条件。这就是 487 促使我 118 们对C2进行验证是 269 否激活张量导致的 437 量化性能极具恶化。不幸的 44 414 ,激活张量具有输入依赖性且与权值相耦合,无法通过对输入分布进行假设并得出具体结论。相反, 404 们对每个分支的 268 标准差进行分析

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

3×3分支的 45 BN操作可以描述如下:

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

在模型训练过程中,有一个针对weight decay设计的 500 重要但容易被忽视的 221 成分:custom L2(它有助于改善精度,促进量化)。该部分损失12_loss_eq_kernel表示如下

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

该损失将通过增大分母来减小损失,而这则会放大激活张量的 f 方差,为量化带来难度。为此,作者通过提出分母提出了 451 一个简单的 102 替代方案:

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

下表给出了 207 此时的 446 结果,移除分母项后,FP32模型的 55 精度下降了 271 0. 66 7%,但量化精度提升到了 450 61. 407 2%。尽管该精度在实际场景仍无法接受,但该实验表明:常规L2权值衰减策略通过重分配权值分布构建了 456 一个更强的 98 FP32模型,但同时增大的 441 激活张量的 136 方差,导致了 132 量化崩塌

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

Quantization-friendly Reparameterization

接下来,作者提供了 62 多个配置(S1-S4)逐步解决量化崩塌问题,核心结果见下表。

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

  • S1(Normal L2):即前述customL2到标准weight decay的 93 替换,我 208 们诚挚为S1。结果见上表,可以看到:尽管FP32精度下降0. 161 5%,但INT8精度提升11. x 3%。此时,模型精度仍无法满足实际应用需求。那么是 27 什么原因导致的 159 呢?从下图可以看到:第5与6层权值具有较大的 20 标准差(2. t 4, 195 5. 246 1)和最大值(692. 248 1107, 185 14477. 145 3740),这就解释了 496 为何量化性能不够好
极致缩小量化性能差距!美团提出量化友好方案QARepVGG

既然NormalL2已经对每个分支的 101 卷积添加了 89 约束,为何融合后的 264 权值出现了 182 如此大的 213 异常值呢?基于公式2和3,作者重写公式如下:

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

  • S2(Identiy w/o BN) 一种解决S问题且满足C1条件的 481 简单方案是 s 从Identity分支移除BN层,称之为S2。此时,FP32模型精度退化到70. 166 7%,但INT8精度提升到了 g 62. 24 5%,这仍无法接受。这就促使我 6 们进一步验证是 262 否违背了 455 C2。该部分建议查看原文,公式太多了 274 . 95 . a . 155 . 192 . 90 . 144
  • S3( No BN for Identity and 1×1 ) 如果 1×1, 25 3×3 分支有相同的 223 均值, 87 那么相加会导致方差变大。为更好控制方差, 162 **作者进一步移除了 203 1×1 分支的 263 BN, 131 该配置称之为 S3**。此时, 251 FP32模型精 度为 70. 410 1%, 65 INT8精度达到了 486 69. 402 5%, 483 极大的 217 改善了 77 量化性能。但是 153https://www.meipian.cn/56gvrlct , 201 FP32的 169 精度仍然有些低。
  • S4(Post BN on S3) 由于三分支相加会引入协方差漂移问题,作者在三分支相加之后引入了 474 一个额外的 222 BN层以稳定训练,该配置称之为S4。此时,FP32模型精度提升到了 224 72. 238 2%,INT8精度提升到了 249 70. 210 4%。到此为止,我 43 们成功解决了 122 RepVGG的 458 量化损失问题,并将所得模型称之为QARepVGG。

本文实验

本文主要聚焦ImageNet分类任务,同时采用YOLOv6验证所提方案的 116 泛化性。关于PTQ,我 164 们采用Nvidia开源的 9 Pytorch量化工具,所有卷积与全连接层均被量化为8bit,量化机制为symmetric uniform

极致缩小量化性能差距!美团提出量化友好方案QARepVGG

上表给出了 100 ImageNet分类任务上的 447 性能对比,可以看到:

  • 在FP32方面,所提方案取得了 85 与RepVGG相当的 466 精度;
  • 在INT8方面,RepVGG存在严重的 240 量化性能退化,如RepVGG-B0精度从75. 130 1%下降到40. 19 2%;所提方案量化精度损失在2%以内。
  • 当带有组卷积时,RepVGG性能退化进一步加速,如RepVGG-B2g4指标从78. 57 5%下降到了 170 13. 135 7%;而QARepVGG-B2g4仅损失0. 167 7%。
极致缩小量化性能差距!美团提出量化友好方案QARepVGG

上表给出了 11 YOLOv6使用所提方案后的 50 性能对比,从中可以看到:

  • YOLOv6s-RepVGG存在严重的 73 性能退化问题,PTQ量化导致性能退化7. 420 4%mAP;YOLOv6t-RepVGG稍好,但仍退化3%mAP。这个程度的 163 性能退化在实际部署中是 232 不可接受的 482
  • 在FP32模型方面,YOLOv6s/t-QARepVGG具有与RepVGG版相当的 127 精度,而INT8量化版精度损失在1. 454 3%mAP以内,甚至优于YOLOv6-RepOpt-VGG。此外,RepOpt-VGG对于搜索超参非常敏感

版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除

本文地址:http: 69 //0561fc. 241 cn/192563. 111 html