人工智能顶会AAAI 2026论文分享|如何打造灵活自适应的4D自动驾驶世界模型?请看此文

发布时间:2026/7/3 5:15:54
人工智能顶会AAAI 2026论文分享|如何打造灵活自适应的4D自动驾驶世界模型?请看此文 本推文介绍了人工智能领域顶级会议AAAI 2026的一篇论文《SparseWorld: A Flexible, Adaptive, and Efficient 4D Occupancy World Model Powered by Sparse and Dynamic Queries》。该论文提出了一种基于稀疏动态查询的4D占用世界模型SparseWorld旨在解决现有自动驾驶世界模型依赖静态网格表示、感知范围固定、与动态连续场景不匹配且计算效率低下的核心问题。SparseWorld通过范围自适应感知模块根据自车状态动态调整感知范围采用回归引导的状态条件预测范式替代传统的逐体素分类实现了连续连贯的4D场景演化建模。为解决多阶段模型训练收敛困难的问题论文还提出了时间感知自调度训练策略大幅提升了训练效率与稳定性。实验验证表明SparseWorld在Occ3d-nuScenes基准数据集上的4D占用预测与轨迹规划性能均显著领先预测mIoU较前沿方法提升20%-40%推理速度提升约7倍同时将规划碰撞率降低一半展现出在真实自动驾驶场景中强大的实用性与部署潜力。该研究不仅开创了稀疏动态查询在4D世界模型中的应用范式也为构建高效、灵活、可扩展的自动驾驶感知决策系统提供了全新的技术路径。原文链接https://arxiv.org/abs/2510.17482代码链接https://github.com/MSunDYY/SparseWorld本推文由龚裕涛撰写审核为王一鸣和黄忠祥会议介绍AAAI会议AAAI Conference on Artificial Intelligence是由国际人工智能促进协会主办的国际顶级学术会议是人工智能领域中历史最悠久、涵盖内容最广泛的会议之一每年举办一届被中国计算机学会CCF评为A类会议。AAAI会议汇集了全球最顶尖的人工智能领域专家学者一直是人工智能界的研究风向标在学术界久负盛名。AAAI会议系列的宗旨是促进人工智能领域的研究促进研究人员、从业者、科学家、学生和工程师之间跨越整个人工智能及其相关学科的科学交流。一、研究背景和主要贡献随着视觉端到端自动驾驶技术的快速发展基于语义占用的世界模型因其能捕捉丰富的空间语义信息已成为自动驾驶感知决策系统的核心组件。然而如图1现有占用世界模型存在三大根本性局限一是早期解耦设计将感知与预测分离导致梯度流断裂和细粒度信息丢失二是主流网格特征方法采用静态“就地分类”操作与真实场景的动态连续本质不匹配引发时间不一致性和累积误差三是所有方法均依赖手动预设的固定感知范围无法根据自车速度自适应调整且稠密网格计算带来巨大的内存与算力开销难以满足实时部署需求。因此亟需一种能够突破静态网格限制、实现自适应感知与连续动态建模的高效4D世界模型框架。图1(a)感知-预测解耦方法(b)基于网格特征的方法(c)本文采用动态查询表征可实现连续且连贯的四维场景预测与规划。论文主要贡献(1)提出基于稀疏动态查询的4D占用世界模型统一框架论文创新性地提出了一个名为SparseWorld的全稀疏4D占用世界模型首次将稀疏动态查询作为4D场景的核心表示形式替代传统的静态稠密网格。该框架实现了感知-预测-规划的端到端统一通过“感知-预测”范式自适应构建扩展范围的占用查询从根本上解决了静态网格与动态场景不匹配的问题同时大幅降低了计算与存储成本。(2)设计范围自适应感知模块实现动态感知范围调整提出了一种由自车状态引导的范围自适应感知Range-Adaptive Perception,RAP模块。该模块通过自适应缩放子模块编码自车历史轨迹动态调整查询的初始空间分布实现了“速度越快、感知范围越远”的自适应感知能力。同时构建了包含时空多头自注意力的堆叠解码器分层融合多帧多视图图像特征输出扩展范围的场景查询与位置信息。(3)提出状态条件连续预测范式实现精准动态建模设计了状态条件预测State-Conditioned Forecasting,SCF模块首次将4D占用预测任务从传统的逐体素分类重构为回归任务。该模块通过自车查询与场景查询的空间交叉注意力机制建模自车运动与场景动态的交互关系实现了连续连贯的4D场景演化预测有效避免了网格方法常见的特征畸变与累积误差。(4)提出时间感知自调度训练策略保障高效稳定训练针对多阶段多输出模型训练收敛困难的问题提出了一种新颖的时间感知自调度Temporal-Aware Self-Scheduling训练策略。该策略通过预训练阶段学习查询的3D位置再基于统计矩阵自动分配查询时间戳实现了模型的自主学习与高效收敛相比手动分配时间戳的方法训练时间缩短近一半。二、研究方法2.1框架概览如图2所示SparseWorld是一个专为自动驾驶动态场景设计的全稀疏4D占用世界模型其核心创新在于采用稀疏动态查询作为场景的统一表示实现了灵活自适应的感知与连续精准的预测。该框架采用端到端结构主要由四个核心组件组成首先通用图像骨干网络提取多帧多视图的多尺度视觉特征随后范围自适应感知模块根据自车历史轨迹动态调整查询分布通过堆叠解码器融合时空特征输出扩展范围的当前场景查询接着状态条件预测模块以自车状态为条件通过回归引导的方式预测未来时刻的场景查询演化最后并行解码头分别输出4D占用预测结果与自车轨迹规划结果。整个框架通过统一的稀疏查询表示在提升模型性能的同时实现了极高的计算效率与部署灵活性。图2 SparseWorld框架概览2.2范围自适应感知模块如图3该模块旨在解决传统模型感知范围固定、无法适应自车动态变化的问题。模块的输入为可学习的查询嵌入与对应的4D坐标。首先自适应缩放子模块编码自车历史轨迹生成三个维度的缩放因子动态调整查询的初始空间分布实现“速度越快、感知范围越远”的自适应感知能力。随后查询通过堆叠的解码器层进行特征提取与更新每个查询首先从多视图多尺度特征图中采样语义信息并进行自适应混合然后通过时空多头自注意力建模查询间的语义相似性、空间邻近性与时间因果关系。解码器层采用由粗到精的设计逐层增加输出点数量并更新查询位置最终输出当前时刻扩展范围的场景查询与3D位置。图3自适应感知模块示意图2.3状态条件连续预测模块如图4该模块是实现连续动态场景建模的核心。与传统网格方法采用逐体素分类预测不同SparseWorld将预测任务重构为查询位置的回归任务。首先将扩展范围的场景查询按时间戳划分为当前与未来多个时刻的查询集合。在每个时间步自车查询通过空间交叉注意力与当前时刻的场景查询进行交互生成下一时刻的自车状态查询。同时场景查询通过动态偏移回归与空间精修预测下一时刻的场景演化。该设计充分利用了查询的连续性与动态性使模型能够准确捕捉自车运动与场景动态的相互影响实现了平滑连贯的4D场景预测有效避免了网格方法的累积误差问题。图4状态条件连续预测模块示意图2.4时间感知自调度训练策略针对多阶段多输出模型训练收敛困难、手动分配时间戳效率低下的问题论文提出了时间感知自调度训练策略。该策略分为两个阶段第一阶段为预训练阶段暂时移除时间掩码不明确分配查询时间戳通过Chamfer距离与焦点损失监督查询学习3D位置与语义信息第二阶段基于预训练过程中统计得到的查询-时间戳对应矩阵采用最大比例优先分配算法自动为每个查询分配时间戳随后进行端到端训练。在训练过程中统计矩阵与查询时间戳会动态更新确保模型能够自主学习最优的时间分布。该策略不仅解决了训练收敛冲突的问题还将训练时间从22小时缩短至12小时大幅提升了训练效率。三、实验结果3.1实验设置(1)数据集该论文采用广泛使用的Occ3d-nuScenes基准数据集进行综合性能评估。该数据集基于nuScenes数据集构建包含700个训练场景和150个验证场景每个场景持续20秒每0.5秒提供一次标注。数据集提供了分辨率为200×200×16的稠密3D占用标注覆盖17个语义类别与1个自由类别每个体素大小为0.4m×0.4m×0.4m包含丰富的城市交通场景与动态交通参与者是评估4D占用世界模型性能的权威基准。实验设计上论文以当前及过去2秒的视频帧为输入预测未来3秒的4D语义占用与自车轨迹全面评估模型的感知、预测与规划能力。(2)评价指标该论文的任务分为4D占用预测与轨迹规划两类分别采用不同的核心评价指标。(a)4D占用预测指标mIoU计算所有17个语义类别的交并比均值反映模型对不同类别物体的整体预测精度。IoU仅计算前景与背景的交并比反映模型对整体场景的分割能力。FPS每秒处理帧数衡量模型的推理速度与实时性。(b)轨迹规划指标L2误差计算预测轨迹与真实轨迹的平均点对点欧氏距离反映轨迹的整体精度。碰撞率预测轨迹与障碍物发生碰撞的比例衡量规划轨迹的安全性。3.2对比实验如表1所示在Occ3d-nuScenes数据集的4D占用预测任务中SparseWorld取得了全面领先的性能。在未来3秒的平均mIoU上达到13.20%较前沿方法PreWorld提升了45.7%在1秒、2秒、3秒的mIoU上分别达到14.93%、13.15%、11.51%展现出最小的预测性能衰减。同时SparseWorld的推理速度达到8.0 FPS是PreWorld的8倍充分体现了稀疏表示的计算效率优势。表1在Occ3D-nuScenes数据集上的四维占据预测性能如表2所示在轨迹规划任务中SparseWorld同样表现出色。在使用自车状态的情况下未来3秒的平均L2误差仅为0.27米平均碰撞率低至0.29%碰撞率仅为PreWorld的一半左右。即使不使用自车状态SparseWorld的性能仍优于多数对比方法证明了其强大的场景建模能力。表2在Occ3D-nuScenes数据集上的运动规划性能如图5通过可视化对比可以直观看到依赖静态网格的PreWorld在长时预测中出现严重的特征畸变与物体消失问题而SparseWorld生成的预测结果与真实场景高度一致能够准确保留前景物体的形状与位置有效避免了累积误差。图5当前时刻及未来3秒的真实值与预测结果可视化图3.3消融实验如表3针对SparseWorld的核心模块开展消融实验评估各模块对平均mIoU与平均IoU的影响。结果显示移除状态条件模块时性能损失最为显著mIoU下降0.51凸显了自车运动状态对场景预测的关键作用移除自适应缩放模块导致mIoU下降0.37验证了动态感知范围的重要性移除时间掩码与4D位置编码也分别导致0.3与0.24的mIoU下降证明了时空建模的必要性。表3模型核心模块的消融实验如表4进一步的消融实验表明引入空间调制的交叉注意力相比普通交叉注意力能够显著提升规划性能尤其是在没有自车状态输入的情况下L2误差从1.25米降低至1.01米碰撞率从0.77%降低至0.65%。表4自车状态与空间交叉注意力的消融实验如表5对比不同训练策略的效果时间感知自调度策略在取得最高性能mIoU 11.82的同时训练时间仅为12小时远少于手动分配时间戳的22小时且避免了无时间区分训练导致的性能大幅下降mIoU仅10.95充分证明了该训练策略的高效性与有效性。表5不同训练策略的消融实验结果四、总结该论文针对现有自动驾驶4D占用世界模型依赖静态网格表示、感知范围固定、与动态场景不匹配且计算效率低下的核心挑战提出了一种新颖的基于稀疏动态查询的全稀疏4D世界模型SparseWorld。论文的核心创新在于将稀疏动态查询作为4D场景的统一表示通过范围自适应感知实现了与自车速度匹配的动态感知范围通过回归引导的状态条件预测实现了连续连贯的场景演化建模并通过时间感知自调度训练策略保障了模型的高效稳定训练。大量实验表明SparseWorld在Occ3d-nuScenes数据集上的预测与规划性能均显著领先同时实现了约7倍的推理速度提升与一半的碰撞率降低。该框架不仅开创了稀疏动态查询在4D世界模型中的应用范式也为构建高效、灵活、可信赖的自动驾驶系统提供了坚实的技术基础。