121、SPPF 的核大小与级联次数消融:3/5/7 核与 2/3/4 次级联的 12 组实验

发布时间:2026/7/5 15:40:06
121、SPPF 的核大小与级联次数消融:3/5/7 核与 2/3/4 次级联的 12 组实验 121、SPPF 的核大小与级联次数消融:3/5/7 核与 2/3/4 次级联的 12 组实验从一次线上事故说起去年秋天,我在给一个工业质检项目调优YOLOv11时,遇到了一个诡异的精度抖动问题。模型在验证集上mAP@0.5:0.95从0.723跳到0.738又跳回0.719,每次训练结果都不一样,但训练曲线看起来完全正常。排查了三天,最后发现是SPPF模块的默认配置——5x5核、2次级联——在特定分辨率下对特征图的感受野覆盖存在盲区。当时我就在想,这个从YOLOv5继承下来的SPPF,到底有多少人真正调过它的核大小和级联次数?SPPF 的底层逻辑:别被“空间金字塔”唬住SPPF(Spatial Pyramid Pooling Fast)本质上是一个多尺度特征提取器,通过不同大小的池化核来捕获不同感受野的信息。YOLOv11沿用了v5的设计:一个5x5的MaxPool2d,然后级联两次,每次的输出都拼接到一起。但这里有个关键点——级联操作不是简单的重复,而是每次池化都在前一次的输出上再做池化,相当于感受野逐级放大。举个例子,5x5核、2次级联,实际产生的感受野是:5x5(第一次)、9x9(第二次,因为5+5-1=9)。如果改成3次级联,第三个感受野就是13x13。这个叠加效应很多人会忽略,以为级联只是重复同样的操作。实验设计:12组配置的暴力测试我选了三个核大小(3、5、7)和四个级联次数(2、3、4),总共12组实验。数据集用的是COCO 2017的5