
摘要多目标跟踪(MOT)是计算机视觉领域的基础任务要求在视频帧中准确检测并持续追踪多个目标。然而现有方法在处理外观相似或被遮挡的目标时存在局限性。鸟瞰视角(BEV)能够减少透视畸变并提供空间一致性但传统实现方案通常依赖复杂的三维感知或多摄像头系统。为解决这些问题我们提出了一种新型在线跟踪器EBEVTrack可基于单目二维图像估算BEV视角。具体而言我们设计了两大核心策略:基于BEV的数据关联(BDA)利用目标在BEV坐标系中的空间关系建立关联;以及遮挡目标搜索(OTS)通过处理被遮挡目标来减少错误轨迹和身份切换。在MOT17和MOT20数据集上的大量实验表明EBEVTrack具有卓越的鲁棒性和准确性。1、数据集和代码1.1 论文代码https://github.com/zhengp-angzi/EBEVTrack1.2 数据集我们在MOT17数据集[17]和MOT20数据集[18] 上进行了实验。2、要解决的问题在复杂环境中相似的目标外观、严重的遮挡、多样的运动模式等挑战往往会导致身份切换和跟踪失败使得MOT极具挑战性。许多最先进的跟踪器采用基于检测的跟踪( TBD )范式其中检测首先获得然后通过数据关联进行时间链接。虽然全局优化和多级关联提高了鲁棒性但这些方法面临两个关键的限制( 1 )缺乏BEV表示自然提供的显式空间一致性建模往往导致外观歧义或退化视觉线索下的不匹配( 2 )对遮挡的处理不充分导致错误的轨迹和频繁的身份切换。2.1 基于检测的跟踪存在的问题常见的实现方式是结合卡尔曼滤波器与匈牙利算法进行数据关联。然而,卡尔曼滤波器受其对噪声的敏感性和线性预测特性限制,因此部分研究采用了更复杂的运动模型。尽管存在这些改进,此类方法仍主要依赖二维图像平面上的轨迹预测,这导致其在遮挡场景下鲁棒性较差,且容易出现轨迹丢失或身份切换的情况。2.2 鸟瞰视角在MOT中的应用然而现有的基于BEV的方法往往依赖复杂的三维感知模型或多摄像头配置 ,导致高昂的计算成本和部署成本,从而限制其在二维多目标跟踪中的应用。3、提出的创新点为了克服这些问题我们提出了一种在线跟踪器EBEVTrack它集成了基于BEV的数据关联( BDA )和遮挡目标搜索( OTS )。BDA将检测投影到地平面上并通过几何距离约束关联减少了外观相似性下的误差。OTS抑制虚假航迹初始化主动恢复被遮挡目标从而减轻身份识别。切换和提高轨迹连续性。本节详细介绍了EBEVTrack系统,其包含BEV估计、遮挡目标搜索 (OTS)以及基 于BEV的数据关联 (BDA)。整体架构如图2所示。3.1 BEV估算值为整合单目跟踪与预测任务,我们首先将图像平面检测结果及轨迹转换为BEV坐标系。给定二维边界框后,我们计算一个双射变换H,将其底部中心位置映射至BEV坐标系:此处,和分别表示图像坐标系与BEV坐标系中的齐次坐标。随后,我们利用图像像素[u,v]以及通过单目深度估 计器估算得到的深度值d,生成一个三维点云:其中表示相机坐标系中的一个三维点。语义分割网络可生成地面掩模M,从而提取出地面点集S|M (u,v) ground。最后,应用 RANSAC方法通过最大化阈值 T 内的内点数量,来拟合由法向量n[A,B,C]和偏移量D定义的最优地平面:其中 I(·)为指示函数。3.2 被遮挡的目标搜索在密集场景中,目标遮挡是导致跟踪失败和身份切换的主要挑战。为解决这一问题,我们提出了一种遮挡目标搜索(OTS)策略。该策略的核心包含两个步骤: 轨迹预测与目标搜索。轨迹预测。当物体i的轨迹暂时丢失时,我们将当前活动轨迹移入记忆池 , 并利用Social GAN 模 型在BEV空间中预测长度为的 k 条轨迹(如图3所示)。 预测的有效期最长为。模型输入为固定长度的观测轨迹:式中L 为输入序列长度表示卡尔曼滤波平滑后的状态。该模型在给定观测轨迹和周围行人的交互信息的情况下学习未来轨迹的条件分布。式中模型预测目标i的k条可能轨迹集合对于每条轨迹式中表示目标 i 在第 j 条轨迹第 t s 帧的预测位置。目标搜索。在预测轨迹的分布范围内执行搜索策略以恢复重现的目标。对于每一个新出现的未匹配的检测我们计算它与所有被遮挡目标的预测轨迹 i 的相似度。首先我们评估检测是否位于预测轨迹的置信椭圆内。对于一个预测的轨迹点协方差矩阵为如果一个新的检测满足以下条件则认为它是一个候选匹配。其中χ 2dof (α)表示显著性水平α下的卡方分布值。所 有满足此条件的检测结果均被纳入候选集。随后,我们定义一个联合相似度评分S(i,j)以识别最佳匹配目标:其中α∈ 为用于平衡位置与方向重要性的权重参数,为位置相似度的缩放参数。最终,所得的S(i,j)被用作 BDA 中的关联成本。3.3 基于BEV的数据关联技术在完成BEV估计和OTS处理后,我们的 BDA 将基于BEV的关联成本引入匈牙利算法中。对于每一对(轨迹i、检测 j),其中表示BEV空间中轨迹 i 与检测结果 j 之间 的关联成本;表示轨迹i是否已被OTS恢复(1)或仍 处于活跃状态(0);S(i,j)为联合相似度评分;,为BEV坐标位置。其中表示交并比损失函数,而则 是基于外观特征的重识别损失函数。权重参数α,β,γ 用于平衡各项的贡献度。本研究中,与均按照基线算法进行计算。4、结论与不足本研究中,我们提出EBEVTrack——一种新型在线 多目标跟踪系统,该系统在数据关联过程中明确整合了 估计得到的BEV信息。我们的方法无需依赖复杂的三维 感知或多摄像头系统,即可从单目二维图像中估算 BEV。此外,提出的基于BEV的数据关联(BDA)与遮 挡目标搜索(OTS)策略有效降低了遮挡条件下的错误 轨迹和身份切换现象。多项公开基准测试实验表明, EBEVTrack具有出色的鲁棒性和准确性。