机器人顶刊T-RO收录!同济大学:扔掉标定板,实现全自动在线对齐

发布时间:2026/6/30 22:23:09
机器人顶刊T-RO收录!同济大学:扔掉标定板,实现全自动在线对齐 端到端在线标定并非天然缺乏泛化能力真正的瓶颈在于训练数据构造与网络设计——自监督、在线、免目标目录01 无需依赖标定板、自监督的激光雷达–相机在线外参标定框架02 深入剖析端到端 LiDAR-Camera 在线标定网络的泛化瓶颈双分支网络架构单边数据增强训练数据的不平衡性与分支退化03 DST-Calib是如何提升泛化性的基于深度估计的双边数据增强基于差异图的单分支标定框架04 双通道在线标定框架融合全监督与自监督学习05 构建面向固态激光雷达的在线标定数据集LCScenes06 实验验证双边数据增强与单分支架构验证大规模跨领域零样本泛化多数据集可视化验证极端条件下的鲁棒性分析07 无需标定靶标的在线自适应标定近日同济大学电子与信息工程学院范睿教授团队在多模态传感器在线标定研究方面取得新进展。相关研究以“DST-Calib: DST-Calib: A Dual-Path, Self-Supervised, Target-Free LiDAR-Camera Extrinsic Calibration Network”为题已被《IEEE Transactions on Robotics》T-RO收录。01 无需依赖标定板、自监督的激光雷达–相机在线外参标定框架多模态融合感知是自动驾驶与智能机器人突破复杂环境感知瓶颈的关键技术也是实现高等级自主决策与智能交互的重要基础。然而多源异构传感器的协同感知高度依赖准确的外参参数。现有标定方法通常需要借助专用标定板、离线采集数据或特定场景条件难以满足实际应用中长期、稳定运行的需求。在车辆或机器人运行过程中机械振动、温度变化以及环境因素等均可能导致传感器之间的相对位置关系发生变化从而引起外参参数偏差降低多模态信息融合的准确性并进一步影响感知系统的整体性能与可靠性。针对上述挑战本文提出了一种无需依赖标定板、自监督的激光雷达–相机在线外参标定框架 DST-Calib可在系统运行过程中持续完成外参估计与动态校准。02 深入剖析端到端 LiDAR-Camera 在线标定网络的泛化瓶颈我们系统分析了现有端到端在线标定方法的泛化能力并发现其普遍难以适应新的传感器配置。大量实验表明在 KITTI 数据集上训练得到的模型甚至无法从左相机标定任务顺利迁移到右相机。这意味着模型高度依赖训练阶段的传感器布局一旦外参发生变化往往需要重新训练难以满足实际部署需求。那么导致这一现象的根本原因是什么主要有以下三点双分支网络架构▲图| 现有方法普遍采用的双分支网络架构现有方法大多采用双分支架构分别提取 LiDAR 点云和相机图像特征通过特征关联模块进行融合最终回归传感器间的相对位姿。训练过程中利用外参真值进行监督学习。单边数据增强现有方法通常仅对 LiDAR 点云进行随机位姿扰动而相机保持固定。由此形成一种 “多对一”的数据映射关系多个点云输入对应同一个相机输入。在这种设置下每个点云形态实际上隐含着唯一的外参标签。模型无需学习跨模态对应关系仅通过点云自身的几何特征即可建立从 LiDAR 输入到外参的直接映射从而产生典型的捷径学习Shortcut Learning现象。即使引入多个相机联合训练只要数据增强仍然是单边的这种“多对一”映射关系依然存在模型仍可依赖单模态信息完成位姿回归只不过是在不同的位置猜测到不同的相机而非真正利用跨模态关联问题的本质并没有改变。▲图 | 单边数据增强训练数据的不平衡性与分支退化单边数据增强进一步造成了训练数据的信息不均衡LiDAR 输入包含丰富的位姿变化而相机输入几乎保持不变。在训练过程中网络逐渐倾向于依赖信息量更大的LiDAR分支而忽略相机分支。最终相机特征提取模块发生退化仅产生缺乏判别能力的特征表示却仍然消耗额外计算资源。▲图 | 训练数据不均衡导致的分支退化为了验证这一现象我们对中间特征进行了可视化分析相机分支输出会随着训练逐渐退化为缺乏语义结构的特征图如上图。更进一步地当我们将相机输入替换为全零图像时模型仍能预测出高精度外参。这一结果表明模型实际上已经放弃利用图像信息而是仅依赖 LiDAR 输入完成位姿估计。由此获得的标定能力本质上建立在训练数据分布之上因此只能适用于见过的场景和固定的传感器配置。一旦传感器位置发生变化其标定精度便会显著下降。03 DST-Calib是如何提升泛化性的针对现有方法因单边数据增强导致的泛化瓶颈DST-Calib从训练数据构建和网络架构两个层面进行了重新设计。基于深度估计的双边数据增强前文分析表明单边数据增强会形成“多对一”的映射关系使模型倾向于依赖单模态信息完成位姿回归而非学习真实的跨模态对应关系。为此我们提出双边数据增强策略同时对LiDAR和Camera输入进行位姿变换构建“多对多”的训练样本从而迫使模型利用两种模态之间的关联信息完成标定。然而直接采集多视角相机数据并不现实。公开数据集通常采用固定传感器配置而在真实采集中每增加一个相机视角都需要重新获取标定真值成本极高。此外真实采集也难以覆盖连续且密集的观察视角。为解决这一问题我们利用深度估计模型将单张RGB图像转换为深度图并进一步构建对应的虚拟点云。类似于LiDAR点云的多视角投影过程虚拟点云能够生成任意视角下的相机观测从而在相机侧实现高效的数据增强为“多对多”映射关系提供支撑。基于差异图的单分支标定框架前文还发现在单边数据增强下双分支网络容易出现分支退化现象模型逐渐忽略图像分支仅依赖 LiDAR 特征完成位姿估计。这一现象表明传统双分支架构中的模态独立特征提取并非必要真正关键的是如何有效建立跨模态关联。基于这一观察我们提出了一种全新的单分支标定框架如下图所示。▲图 | 设计单分支网络结构使用差异图关联不同模态与传统方法分别提取LiDAR和图像特征后再进行融合不同首先构建LiDAR点云与相机深度图之间的差异图通过显式建模两种模态的几何误差来完成特征关联。随后仅利用单一特征提取通路对差异图进行编码并直接回归外参。由于跨模态关联已经在输入层完成该框架无需维护独立的LiDAR和Camera分支从根本上避免了分支退化问题。实验结果表明该单分支架构不仅显著减少了模型参数量而且在保持甚至超越传统双分支方法精度的同时结合双边数据增强能够获得更强的跨传感器泛化能力。DST-Calib的核心思想并不是设计更复杂的网络而是消除训练数据中的“捷径学习”路径通过双边数据增强建立有效的跨模态关联再利用差异图显式建模几何误差从而实现跨传感器配置的可靠泛化。04 双通道在线标定框架融合全监督与自监督学习在双边数据增强和单分支架构的基础上DST-Calib进一步提出了一种融合全监督与自监督学习的双通道在线标定框架以降低对高质量标定真值的依赖并提升模型在真实场景中的适应能力。该框架由全监督通道和自监督通道组成两条通路既可独立运行也可协同工作从而在不同应用场景下兼顾标定精度、泛化能力和数据获取成本。▲图| 双通道在线标定框架根据通道配置方式DST-Calib支持以下三种运行模式全监督模式仅启用全监督通道利用训练数据中的外参真值构建监督信号进行训练。受益于双边数据增强策略该模式在初始外参误差较小的情况下能够实现高精度在线标定并表现出优于现有方法的跨传感器泛化能力。自监督模式仅启用自监督通道无需任何外参真值。该模式直接利用实际运行过程中采集的LiDAR点云和由相机图像估计得到的深度点云构建自监督约束实现在线学习与标定。因此即使缺乏标定数据也能够持续适应新的传感器配置和环境变化。实验表明该模式能够稳定估计旋转误差对于平移误差则仍需要较为准确的初始外参作为先验。双通道协同模式同时启用全监督与自监督通道。在该模式下全监督通道提供稳定的先验能力自监督通道则持续利用在线数据进行自适应优化。两条通路既可联合训练也可级联执行从而兼顾监督学习的精度优势与自监督学习的场景适应能力。实验结果表明双通道协同模式在泛化能力、鲁棒性以及可校正的外参扰动范围方面均取得最佳表现能够同时应对较大的旋转与平移偏差。因此在具备监督训练条件的情况下我们推荐采用该模式作为默认配置。DST-Calib不仅解决了端到端在线标定的泛化问题还进一步摆脱了对大规模预标定真值的依赖为真实场景下持续在线标定提供了新的技术路径。05 构建面向固态激光雷达的在线标定数据集LCScenes随着机器人和自动驾驶系统的发展诸如Livox Mid-360和Livox Avia等固态激光雷达正被越来越广泛地部署。相比传统机械式激光雷达固态激光雷达能够利用非重复扫描和静态积分机制获取更加稠密的点云观测为LiDAR-Camera标定提供更丰富的几何约束。然而现有在线标定研究主要依赖KITTI、nuScenes和Argoverse等公开数据集。这些数据集大多面向自动驾驶场景并主要采用机械式激光雷达采集数据难以反映固态激光雷达稠密点云的特性。因此当前在线标定方法在固态雷达场景下的性能和泛化能力仍缺乏系统评估。为填补这一空白我们构建了全新的LCScenes数据集。该数据集基于固态激光雷达采集包含10个不同场景序列覆盖丰富的环境结构与观测条件并提供高质量的稠密点云数据。LCScenes不仅为DST-Calib提供了训练与测试平台也为后续研究提供了面向固态激光雷达的统一评测基准有助于推动在线标定方法在更多机器人应用场景中的泛化与落地。06 实验验证为了全面评估DST-Calib的性能我们在KITTI、KITTI-360、Argoverse2、nuScenes、MIAS-LCEC以及自建数据集LCScenes上开展了系统实验。结果表明DST-Calib在标定精度、泛化能力和鲁棒性方面均拥有出色表现。双边数据增强与单分支架构验证首先利用KITTI左右相机实验验证所提出的数据增强策略和网络结构。仅使用 KITTI左目相机数据进行训练DST-Calib即可直接迁移至从未见过的右目相机并保持与训练配置接近的标定精度。这一结果表明模型已经摆脱了对固定传感器布局的依赖真正学习到了跨模态关联。同时随着双边数据增强范围的逐步扩大模型的泛化性能持续提升进一步验证了“多对多”训练策略的有效性。▲表| DST-Calib在KITTI左右相机数据上的标定结果逐渐增大双边数据增强中相机一侧的数据增强范围大规模跨领域零样本泛化为了进一步评估跨设备泛化能力我们构建了涵盖23种LiDAR-Camera组合的测试基准覆盖多种数据采集平台、激光雷达类型以及相机配置。在训练阶段DST-Calib仅使用3种传感器配置KITTI左目相机以及Argoverse2两个前向环视相机进行学习测试阶段则直接迁移至其余20种从未见过的配置。▲图| 实验使用的传感器配置包含多种数据采集平台和多种传感器类型实验结果表明无论是机械式激光雷达还是固态激光雷达无论是双目相机、环视相机还是不同安装位置的相机系统DST-Calib均能够实现稳定且相对可靠的零样本标定展现出优异的跨传感器和跨场景泛化能力。▲表 | DST-Calib在不同数据集的多种传感器器下的零样本泛化结果多数据集可视化验证下图展示了在各个数据集上的标定可视化结果通过观察纹理边界的对齐效果可以看到使用DST-Calib标定的外参能够进行很好的数据融合。▲图 | DST-Calib在不同数据集上的标定效果▲图 | 在Argoverse2数据集上不同相机的泛化结果包含前后左右不同方位的彩色环视相机和灰度双目相机极端条件下的鲁棒性分析除了泛化能力之外我们还系统评估了DST-Calib在大扰动和低质量感知条件下的鲁棒性。首先我们逐步增大初始外参误差将旋转扰动范围从1°提升至30°。实验表明自监督通道能够有效校正大范围旋转误差当双通道协同工作时模型在较大初始偏差下仍能恢复较为准确的外参展现出较强的在线自适应能力。▲图| DST-Calib对于初始旋转扰动的适应性其次我们对深度估计结果持续注入系统性噪声包括深度缺失和错误估计等情况以模拟真实场景中的感知退化问题。结果显示即使深度图质量显著下降DST-Calib仍能保持稳定的标定性能说明其对深度估计误差具有较强的容忍能力。▲图 | 逐步增大深度估计图的噪声记录DST-Calib在不同深度估计误差下的标定精度最后我们进一步评估了DST-Calib在动态场景和时序同步误差下的鲁棒性。在真实环境中运动中的车辆和行人会在点云采集过程中产生动态噪声对标定过程造成干扰。实验结果表明DST-Calib能够有效抑制适度动态噪声的影响对场景中的运动目标具有良好的适应能力其标定精度不会因动态物体的存在而出现明显下降。此外我们通过人为引入点云-图像时序偏移系统评估了模型对传感器同步误差的容忍能力。结果表明得益于多帧联合优化机制DST-Calib能够有效缓解时序错位带来的观测不一致问题在存在显著同步误差的情况下仍能保持稳定的标定性能。▲表| DST-Calib在不同时序错位程度下的标定精度综合六个公开及真实场景数据集、23种传感器配置以及多项鲁棒性测试结果可以看到DST-Calib不仅能够实现高精度在线标定更重要的是首次在大规模跨设备、跨场景设置下验证了端到端LiDAR-Camera在线标定网络的泛化能力。07 无需标定靶标的在线自适应标定DST-Calib证明端到端在线标定并非天然缺乏泛化能力真正的瓶颈在于训练数据构造与网络设计。通过双边数据增强、显式跨模态关联和全监督-自监督协同学习在线标定模型终于具备了跨传感器配置迁移的能力。Ref论文题目DST-Calib: DST-Calib: A Dual-Path, Self-Supervised, Target-Free LiDAR-Camera Extrinsic Calibration Network论文地址https://arxiv.org/abs/2601.01188研究作者Zhiwei Huang, Yanwei Fu, Yi Zhou, Xieyuanli Chen, Qijun Chen, and Rui Fan代码将于近期开源