
论文Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics完全开源arxiv 预印 2025651 stars会议arxiv 预印 2025链接https://arxiv.org/abs/2501.10100GitHubleggedrobotics/robotic_world_model | 651 stars作者Chenhao Li, Andreas Krause, Marco HutterETH AI Center、Learning Adaptive Systems Group、Robotic Systems LabETH Zurich目录一、这篇论文解决了什么问题二、关键方法三、实验结果四、本地部署全流程五、为什么重要六、适用场景与生态七、局限一、这篇论文解决了什么问题模型预测控制MPC和 model-free RL 是机器人控制的两大路线各有硬伤。MPC 需要精确的解析动力学模型换一个机器人就得重新推导接触丰富的场景足式 locomotion根本写不准。Model-free RL 依赖高保真仿真器无限采样ANYmal D 的 PPO 策略要 250M 步 state transitions 才训出来一旦仿真器和真实物理有 gap策略还得再调。Model-based RLMBRL想折中学一个神经网络当 dynamics model在这个想象的环境里训策略。但这条路在机器人上一直走不顺核心瓶颈是 error accumulation——自回归预测 N 步以后小误差滚雪球模型开始 hallucinate策略在垃圾轨迹上学出一堆乱动作。Dreamer 系列用 latent space 压缩表示来缓解但在足式机器人这种 contact-rich、部分可观测的场景下短 horizon planning 撑不住长程依赖。RWM 要解决的就是怎么训出一个能在 50Hz 控制频率下自回归预测几百步还不崩的世界模型并且让策略在这个想象环境里稳定收敛、zero-shot 部署到真机。二、关键方法RWM 的 pipeline 是三段式用 PPO 在 Isaac Lab 里收集数据 → 用这些数据训练 world model → 在 world model 的想象 rollout 里用 MBPO-PPO 训策略。前两步可以 joint training边训 PPO 边训 dynamics也可以先 pretrain world model 再 finetune。数据流环境观测 o_t (50Hz) → 滑动窗口截取 M 步历史 [o_{t-M1:t}, a_{t-M1:t}] → GRU encoder 编码 hidden state h_t → 双自回归预测 N 步未来 [o_{t1}, ..., o_{tN}] → 从预测观测计算 reward r R(o, a) → PPO 在想象轨迹上更新策略 π_θ → 真实环境用 π_θ 采集新数据 → 回流更新 world model双自回归机制Dual-Autoregressive这是 RWM 区别于 Dreamer / RSSM 的核心设计。两层自回归iInner autoregression在 context horizon M 内GRU 逐步处理历史观测-动作对每步更新 hidden state。这一层让模型编码长期历史上下文处理部分可观测性——关节扭矩、接触状态这些不可直接观测的量藏在 hidden state 里。iiOuter autoregression在 forecast horizon N 内把模型自己预测的o t k ′ o_{tk}otk′喂回去当下一步输入逐步生成未来轨迹。这一层让模型在训练时就见到推理时的 distribution自己的预测缩小 train-test gap。对比 teacher-forcingN1每步都用 ground truth observationautoregressive training 牺牲了并行度但模型学会了在自己的预测误差下继续推演这是长 horizon rollout 不崩的前提。World Model 训练目标模型参数ϕ \phiϕ预测高斯分布的均值和标准差。给定 M 步历史和 N 步 forecast多步预测 lossL 1 N ∑ k 1 N α k [ L o ( o t k ′ , o t k ) L c ( c t k ′ , c t k ) ] \mathcal{L} \frac{1}{N}\sum_{k1}^{N}\alpha^{k}\left[L_{o}\left(o_{tk}, o_{tk}\right) L_{c}\left(c_{tk}, c_{tk}\right)\right]LN1k1∑Nαk[Lo(otk′,otk)Lc(ctk′,ctk)]其中L o L_oLo是观测预测误差L c L_cLc是 privileged information接触状态、reward、termination 等的预测误差α \alphaα是衰减因子给更远的预测步更小权重。k 步预测的观测从模型自己的前序预测推出o t k ′ ∼ p ϕ ( ⋅ ∣ o t − M k : t , o t 1 : t k − 1 ′ , a t − M k : t k − 1 ) o_{tk} \sim p_{\phi}\left(\cdot \mid o_{t-Mk:t}, o_{t1:tk-1}, a_{t-Mk:tk-1}\right)otk′∼pϕ(⋅∣ot−Mk:t,ot1:tk−1′,at−Mk:tk−1)训练数据用滑动窗口大小 MN从采集轨迹上截取。reparameterization trick 保证梯度能穿过自回归预测链端到端传播。MBPO-PPO 策略优化策略π θ \pi_\thetaπθ在 world model 的想象 rollout 里训练受 MBPO 和 Dyna 启发。想象 rollout 中动作由策略基于预测观测生成a t k ′ ∼ π θ ( ⋅ ∣ o t k ′ ) a_{tk} \sim \pi_\theta\left(\cdot \mid o_{tk}\right)atk′∼πθ(⋅∣otk′)reward 从 world model 预测的观测和 privileged info 计算r t k R ( o t k ′ , a t k ′ ) r_{tk} R(o_{tk}, a_{tk})rtkR(otk′,atk′)。PPO 的标准 clipped objective 在这些想象轨迹上更新策略。online 模式下新采集的真实数据持续回流更新 world modeloffline 模式下RWM-U 扩展world model 冻结策略纯靠静态模型训。奖励函数ANYmal D velocity tracking 任务的 reward 包含以下项权重在论文 Appendix A.1.2奖励项说明线速度跟踪 (x,y)跟踪指令速度的指数误差角速度跟踪跟踪指令偏航速度线速度 z惩罚竖直方向速度角速度 (x,y)惩罚 roll/pitch 角速度关节扭矩惩罚过大扭矩关节加速度惩罚剧烈加速度动作变化率惩罚相邻动作差摆动相足部离地时间鼓励合理步态不期望接触惩罚异常接触平直朝向保持 body 水平足部离地高度约束抬腿幅度关节偏差惩罚偏离默认关节角关键设计选择的 ablation 依据为什么选 GRU 而不是 Transformer论文在 4.3 节实验里给了直接数据RSSM 和 Transformer 都做了对比Transformer 在 autoregressive training 下 multi-step 梯度传播导致 GPU 显存爆炸没法 scaleGRU 结构简单、计算高效GRU-AR 在所有环境上预测误差最低。RSSM 加上 autoregressive training 后能接近 GRU-AR 的精度但作者选 GRU 是为了 simplicity。为什么 forecast horizon N8 而不是更大Appendix A.4.1 的 ablation heatmap 显示增大 N 确实降低长程预测误差但训练时间随 N 线性增长sequential computation 无法并行。N1teacher-forcing训练最快但 autoregressive rollout 直接崩。M32, N8 是 accuracy 和训练效率的 sweet spot。为什么用 PPOon-policy而不是 SACoff-policy论文选 MBPO-PPO 而非 MBPO-SAC 的理由在工程层面足式机器人 contact-rich 动学不连续off-policy 的 replay buffer 里混入大量旧 distribution 数据model-based 场景下 world model 对 distribution shift 很敏感。on-policy 的 PPO 每轮用当前策略的新数据和 world model 同步更新更稳定。论文 Appendix A.4.2 给了 SHACfirst-order gradient method的失败案例SHAC 在不连续动力学上梯度不准策略崩了产生垃圾数据垃圾数据又恶化 world model恶性循环。关键超参数超参数论文设定值说明History horizon M32历史观测窗口长度Forecast horizon N8自回归预测步数衰减因子 α见 Appendix A.3.1多步 loss 的指数衰减控制频率50 HzANYmal D 和 G1 的控制频率Ensemble size可配置RWM-U 用于 epistemic uncertainty 估计PPO clip ratio见 rsl_rl config标准 PPO 超参World model 架构GRU-based预测高斯分布 μ, σ训练数据量6M state transitionsRWM pretraining三、实验结果自回归预测精度ANYmal D 真机数据50HzM32N8。RWM 自回归预测的轨迹和 ground truth 高度对齐且这种对齐持续到训练 forecast horizon 之外的长程 rollout。MLP baseline同样 autoregressive 训练在 forecast step 增加时误差快速发散。噪声鲁棒性测试对观测和动作加高斯噪声RWM 在各噪声水平下预测误差保持低位MLP baseline 误差随 forecast step 爆炸式增长。跨环境泛化4.3 节对比四种架构在 manipulation、quadruped locomotion、humanoid locomotion 上的自回归预测误差架构训练方式ANYmal D velocity trackingUnitree G1ManipulationRWM (GRU)Autoregressive (AR)最低误差最低误差最低误差RWM (GRU)Teacher-forcing (TF)显著高于 AR显著高于 AR显著高于 ARMLPTeacher-forcing高误差快速发散高误差高误差RSSMTeacher-forcing中等误差中等误差中等误差TransformerTeacher-forcing中等误差中等误差中等误差RWM-AR 在所有环境上一致最优。RSSM 加上 autoregressive training 后接近 GRU-AR但 Transformer 在 AR 训练下因显存限制无法 scale。策略学习与真机部署4.4 节MBPO-PPO vs SHAC vs DreamerV3ANYmal D 和 Unitree G1 velocity tracking 任务MBPO-PPOmodel error 持续下降predicted reward 早期略高于 ground truth策略利用模型乐观估计随训练对齐收敛到稳定策略zero-shot 部署到真机成功SHACmodel error 全程高位震荡first-order gradient 在 contact-rich 动力学上不准策略产生 chaos behavior训练崩溃无法部署DreamerV3部分收敛reward 高于 SHAC 但远低于 MBPO-PPO短 horizon planning 导致长程 compounding error无法部署真机部署MBPO-PPO 策略 zero-shot 部署到 ANYmal D 和 Unitree G1能跟踪目标速度指令、在外部冲击和地形扰动下保持稳定。SHAC 和 DreamerV3 因训练崩溃无法产出可部署策略。与 model-free PPO 的效率对比论文 Table 1ANYmal D velocity tracking方法数据量 (state transitions)总训练时间推理延迟真机 tracking rewardRWM pretraining MBPO-PPO6M50 min 5 min1 ms0.90 ± 0.04PPO (model-free)250M10 min1 ms0.90 ± 0.03MBPO-PPO 用 6M 步数据PPO 的 1/42达到和 model-free PPO 相当的真机 reward。训练总时间 55 min含 world model pretraining 50 min policy 5 minPPO 是 10 min。MBRL 的优势不在绝对速度而在数据效率——当高保真仿真不可用时6M 步真实交互数据是可行的250M 步不现实。Ablation StudyHistory horizon M 和 forecast horizon N 的 ablationAppendix A.4.1M \ NN1 (TF)N4N8N16M8高误差中等中等低误差训练慢M16中等中低低低训练很慢M32中低低最低选定值最低训练极慢M64低低低训练时间不可接受N1teacher-forcing训练最快但 autoregressive rollout 崩溃。增大 M 和 N 都降误差但 N 的训练时间成本远高于 MN 是 sequentialM 可部分并行。M32, N8 是效率-精度最优解。四、本地部署全流程环境要求OS: Linux 64-bit 或 Windows 64-bitPython 3.10GPU: NVIDIA GPUIsaac Lab 依赖建议 RTX 3090 / 4090 或更好Isaac Sim 4.5.0 Isaac Lab 2.1.0online 训练需要offline 模式不需要Conda 环境官方推荐简化终端调用 Python 脚本Step 1: 安装 Isaac Lab按官方安装指南安装 Isaac Lab 4.5.0推荐用 Conda 安装参考官方安装指南 https://isaac-sim.github.io/IsaacLab/main/source/setup/installation/index.htmlStep 2: 安装 model-based RSL RL用官方 model-based RSL RL 替换 Isaac Lab 自带的 rsl_rl_libpipinstallrsl-rl-lib或从源码安装gitclone https://github.com/leggedrobotics/rsl_rl_rwm.gitcdrsl_rl_rwm pipinstall-e.Step 3: 克隆本仓库在 Isaac Lab 目录之外克隆gitclone https://github.com/leggedrobotics/robotic_world_model.gitStep 4: 安装扩展在 Isaac Lab 所在的 Python 环境中安装python-mpipinstall-esource/mbrlStep 5: 验证安装online 训练需要验证offline 不需要python scripts/reinforcement_learning/rsl_rl/train.py--taskTemplate-Isaac-Velocity-Flat-Anymal-D-Init-v0--headlessStep 6: World Model 预训练联合训练 PPO 策略和 dynamics model策略从零训训练过程产生的 experience 用于训 dynamicspython scripts/reinforcement_learning/rsl_rl/train.py\--taskTemplate-Isaac-Velocity-Flat-Anymal-D-Pretrain-v0\--headless模型输入输出在ObservationsCfg_PRETRAINsource/mbrl/mbrl/tasks/manager_based/locomotion/velocity/config/anymal_d/flat_env_cfg.py中配置。可用组件SystemStateCfg状态输入输出、SystemActionCfg动作输入、SystemExtensionCfg连续 privileged 输出如 reward、SystemContactCfg二值 privileged 输出如接触、SystemTerminationCfg二值终止信号。架构和超参在RslRlSystemDynamicsCfg和RslRlMbrlPpoAlgorithmCfgsource/mbrl/mbrl/tasks/manager_based/locomotion/velocity/config/anymal_d/agents/rsl_rl_ppo_cfg.py中配置。可调ensemble_size、history_horizon、architecture_config、system_dynamics_forecast_horizon。Step 7: 可视化自回归预测python scripts/reinforcement_learning/rsl_rl/visualize.py\--taskTemplate-Isaac-Velocity-Flat-Anymal-D-Visualize-v0\--checkpointcheckpoint_path\--system_dynamics_load_pathdynamics_model_pathdynamics_model_path 指向预训练 checkpoint如model_iteration.pt。Step 8: Model-Based 策略训练Option 1: Online持续采集新数据更新 dynamics modelpython scripts/reinforcement_learning/rsl_rl/train.py\--taskTemplate-Isaac-Velocity-Flat-Anymal-D-Finetune-v0\--headless\--checkpointcheckpoint_path\--system_dynamics_load_pathdynamics_model_path不加--checkpoint则从零训策略。Option 2: Offline冻结 dynamics model纯想象训练配置模型架构和 load path 在ModelArchitectureConfigscripts/reinforcement_learning/model_based/configs/anymal_d_flat_cfg.py。初始状态数据路径在DataConfig。仓库自带预训练 RWM-U checkpointassets/models/pretrain_rnn_ens.pt和初始状态assets/data/state_action_data_0.csv。python scripts/reinforcement_learning/model_based/train.py--taskanymal_d_flatStep 9: 部署策略用 Isaac Lab 原生 task registry 回放python scripts/reinforcement_learning/rsl_rl/play.py\--taskIsaac-Velocity-Flat-Anymal-D-Play-v0\--checkpointcheckpoint_path硬件建议训练 world model单卡 RTX 3090/4090 可跑 ANYmal D低维观测无图像50 min 完成 6M 步 pretraining如果加图像观测需要更大显存A100 80GB 更稳offline 模式不需要 Isaac Lab普通 GPU 即可跑策略训练五、为什么重要RWM 的价值不在刷榜而在打通了一条少数据 → 世界模型 → 策略 → 真机的闭环。6M 步数据训练 50 分钟得到的策略 zero-shot 上真机tracking reward 0.90 和 model-free PPO 打平——而 PPO 要 250M 步。对机器人社区来说这意味着当你没有高保真仿真器时比如新机器人构型、非标地形、接触丰富的操作任务不用从头搭仿真环境采集一批真实数据训个 world model 就能在想象里训策略。ETH Hutter 组的主攻方向就是四足和人形真机RWM 是他们 MBRL 路线的核心基础设施。双自回归机制是对 Dreamer / RSSM 路线的实质性改进。Dreamer 在 latent space 里做短 horizon rolloutRWM 直接在 observation space 里做长 horizon 自回归预测靠 inner/outer 双层 autoregression 解决 error accumulation。这个设计选择被 ablation 证实teacher-forcingN1在 autoregressive rollout 上直接崩N8 的 AR training 是关键。RWM-U 扩展进一步把 offline MBRL 做通了ensemble 估计 epistemic uncertaintyMOPO-PPO 把 uncertainty penalty 加进 PPO reward让策略自动避开模型不确定的区域。这意味着已有的真机历史数据集可以直接用来训策略不用再回仿真器采新数据。六、适用场景与生态直接适用足式机器人 locomotion四足、人形ANYmal D 和 Unitree G1 有官方配置机器人操作任务manipulation论文 4.3 节验证了泛化性没有高保真仿真器但能采集少量真机数据的场景有历史离线数据集想直接训策略的场景RWM-U offline 模式生态对接基于 Isaac LabNVIDIA 官方仿真框架直接用 Isaac Lab 的环境配置和 task registryrsl_rl 库的 model-based 扩展leggedrobotics 维护和 ETH 的 legged gym 生态一脉相承仓库提供 ANYmal D 完整配置和预训练 checkpoint可直接复现支持 Tensorboard / WB / Neptune 日志RWM-U 的 uncertainty estimation 可以和任何 ensemble-based MBRL 方法组合迁移到其他机器人需要在source/mbrl/mbrl/tasks/manager_based/locomotion/velocity/config/下新建机器人配置定义 observation/action space 和 reward function。world model 架构本身是 robot-agnostic 的。七、局限论文自己在 Section 5 坦白RWM MBPO-PPO 的策略性能还没超过精心调过的 model-free RL高保真仿真器 250M 步。MBRL 的优势在数据效率不在绝对性能上限。如果你有高保真仿真器且能无限采样model-free PPO 仍然是更好的选择。Autoregressive training 的计算成本随 forecast horizon N 线性增长sequential无法并行N8 已经是 sweet spot想进一步增大 N 需要更多显存。Transformer 架构在 AR training 下因 multi-step 梯度传播导致 OOM无法 scale 到大模型。论文的实验集中在 velocity tracking 任务没有测更复杂的任务如 navigation、agile locomotion、whole-body manipulation。reward function 是手工设计的12 项 reward shaping换任务要重新设计 reward。World model 的泛化性只在同构型机器人上验证过。跨构型比如从四足迁移到人形需要重新训 world model不存在 zero-shot 构型迁移。RWM-U 的 offline 模式依赖 ensemble uncertainty 估计的质量ensemble size 和多样性直接影响策略保守程度。论文没给 ensemble size 的 sensitivity analysis。关注我每日更新论文深度解读 本地部署指南。有什么论文想看解读评论区告诉我。整理了「具身智能开源项目选型表」含主流 VLA/RL 框架的硬件需求、数据集、成功率对比。私信我获取。