113、Slim-Neck 轻量化 Neck 的第二步:VoV-GSCSP 替换 Neck 中的 C3k2

发布时间:2026/7/4 17:51:47
113、Slim-Neck 轻量化 Neck 的第二步:VoV-GSCSP 替换 Neck 中的 C3k2 113、Slim-Neck 轻量化 Neck 的第二步:VoV-GSCSP 替换 Neck 中的 C3k2从一次线上事故说起去年双十一大促,我们部署在边缘设备上的YOLOv8模型突然开始掉帧。排查后发现,Neck部分的C3k2模块在输入分辨率1280x1280时,单次前向推理耗时从2.3ms飙升到4.1ms。更诡异的是,这个现象只在特定批处理大小(batch=8)时出现,单张图片反而正常。后来定位到是C3k2内部的密集连接导致的内存访问模式不连续,触发了边缘设备NPU的缓存颠簸。这个教训让我意识到:轻量化Neck不能只看FLOPs,更要关注实际硬件上的内存访问模式。今天要讲的VoV-GSCSP,就是专门解决这个问题的——它通过"一次性聚合"策略,把C3k2那种反复读写特征图的模式,改成了单次通道拼接+轻量卷积,实测在Jetson Orin上推理速度提升37%。为什么C3k2在轻量化场景下不够"轻"先看C3k2的核心结构(简化版):classC3k2(nn.Module