YOLO骨干网络改进- 第19篇:ViT纯Transformer骨干网络在YOLOv8中的可行性分析

发布时间:2026/6/26 17:03:26
YOLO骨干网络改进- 第19篇:ViT纯Transformer骨干网络在YOLOv8中的可行性分析 一、引言1.1 研究背景视觉Transformer(Vision Transformer, ViT)自2020年提出以来,在图像分类任务上取得了与CNN相当甚至超越的性能。ViT将Transformer的自注意力机制引入视觉领域,通过将图像分割为固定大小的patch序列,然后利用自注意力建模patch之间的全局依赖关系。ViT在图像分类上的成功激发了研究者将其应用于目标检测的热情。早期的尝试(如ViT-FRCNN、DETR等)证明了Transformer在检测任务上的潜力,但纯ViT骨干网络在目标检测中仍然面临诸多挑战:计算复杂度高:自注意力的计算复杂度是token数量的平方,高分辨率检测图导致计算量剧增缺乏局部归纳偏置:CNN固有的局部性和平移等变性是视觉任务的重要先验,ViT需要大量数据才能学到多尺度特征提取困难:ViT通常输出单一尺度的特征图,而检测任务需要多尺度特征金字塔小目标检测性能差:patch分割可能导致小目标信息丢失尽管如此,研究者们仍在不断探索纯Transformer骨干网络在目标检测中的应用。Swin Transformer通过引入窗口注意力和层级结构,在检测任务上取得了优异成绩。但Swin Transformer在一定程度上借鉴了CNN的层级设计思想,并非"纯"ViT架构。1.2 本文研究问题