真机 RL 正在迎来拐点：机器人如何从「会模仿」走向「会进化」？

发布时间：2026/7/1 17:59:12

过去一年VLA、Diffusion Policy和大规模遥操作数据把机器人的初始操作能力推到了一个相当高的水平。但这些策略一旦走进工厂产线和非结构化场景行业很快发现能不能模仿已经不是最难的事失败之后能不能继续变好才是真正卡住落地的环节。这篇文章想讲清楚一个判断具身智能的下一场竞争重点不在模型规模而在真实世界里那条学习闭环转得快不快、稳不稳。原文链接真机 RL 正在迎来拐点机器人如何从「会模仿」走向「会进化」01 从会模仿到会自我变好模仿学习能让机器人做对很多事。VLA 把语言、视觉和动作放进同一个模型Diffusion Policy 让多模态动作分布变得可学大规模遥操作提供了海量专家轨迹。麻烦在于离线数据只能覆盖过去出现过的状态。拿插内存条这种活儿来说演示里全是对得整整齐齐的样片真到了线上金手指偏了一点、卡扣多出一点阻力这些细节演示里没出现过策略就僵在那儿既插不进去也不知道退回来重试。真实世界里的连续接触、装配偏差、动态遮挡还有长时序任务里一点点累积的失败大多落在演示分布之外。这种做错之后把自己救回来的能力离线数据给不了只能靠真机交互和在线学习补上。NVIDIA最近的ENPIRE是一个很有代表性的信号。它真正的价值不在于又刷新了哪个任务的成功率而在于把真实机器人学习整理成一个可以被 agent 驱动、不断自我改进的闭环场景自动复位机器人执行策略系统自动验证结果coding agent 再根据日志、视频和失败案例去改训练代码、调算法、提假设回到真机上验证哪条改动真正有效。reset、execute、verify、refine 反复跑真实世界里的策略改进就有了一套能自己转起来的范式。ENPIRE 让人看到的是一个更大的趋势**真实世界里的机器人学习正在变成一个由 agent 驱动、能自我改进的闭环。**把同样的视角挪到 **human-in-the-loop RLHiL-RL**上会发现一个还没怎么被这股力量触及的环节就是人本身仍然坐在回路里。在 HiL-RL 中一个人要不停判断机器人这一下值不值得学以及它卡住的时候该怎么把它拽回来这两件事至今主要靠人。于是一个自然的问题是HiL 这个回路本身能不能也朝更自驱、更 agentic 的方向走一步自己挑该学的数据自己决定何时出手。拆开来就是两个问题。**第一哪些真实交互的数据值得学。**机器人真去试、真去失败拿到的数据并不天然有价值。重复的、走捷径的、信息量极低的样本可能拖慢学习甚至让策略提前塌缩。**第二策略在线上跑偏的时候系统怎么自己把它拉回来。**真机 RL 不能永远靠人接管它得能自己看出正在做无用功并主动回到更有希望的状态。近日南洋理工大学 PINE Lab围绕真实机器人强化学习这条主线连续公开了两项工作E2HiL (RA-L 26)回答的是**“哪些真实交互数据值得学”UniIntervene**回答的是“策略跑偏时系统如何自己判断、自己恢复”。这两项工作本质上都在推动同一件事把 HiL-RL 从“人一直盯着训练”往“系统自己挑数据、自己纠偏”的方向推一步。02 E2HiL (RA-L 26)哪些真实数据值得学论文链接https://ieeexplore.ieee.org/abstract/document/11520247项目主页https://e2hil.github.io/代码https://github.com/E2HiL/E2HiL-project-a1x在 human-in-the-loop RLHiL-RL里人类介入的数据通常被当成最金贵的资源。像 HIL-SERL 这类方法会把人接管时的纠正动作一股脑塞进 replay buffer因为它们是专家手把手喂出来的质量看着就比策略自己瞎试的高。E2HiL 想说的是另一件事一个介入样本值不值得学关键不在它对不对而在它对策略探索结构的影响有多大。这里的探索结构用 policy entropy 来刻画可以理解成策略还保留了多少继续尝试别的动作的余地。熵掉得太快就是 entropy collapse策略过早认定某条局部路径是答案再也不去试别的看着像收敛其实是把自己锁死在次优解里。问题是怎么提前知道哪个样本会把熵压垮。E2HiL 给了一个能逐样本计算的答案。它推导出一个影响函数把单个样本对策略熵的改变量近似成一个协方差读法是这样一个样本对熵的拉力等于它的对数动作概率和它那个概率加权过的软优势A s o f t A_{soft}Asoft之间的协方差。直觉上一个动作如果本来概率就高、软优势又大用它更新就会把熵狠狠往下压这正是最容易诱发早熟收敛的那类样本反过来低概率却高优势的动作会把熵推高鼓励探索。这个量c ( s t , a t ) c(s_t,a_t)c(st,at)在训练里以 stop-gradient 的方式算出来只当一个打分用不回传梯度。真正有意思的发现在这一步之后。E2HiL 统计了不同来源样本的协方差幅度结果是人类介入样本几乎全部落在高协方差那一头它们的平均影响幅度比机器人自探索样本高出一个数量级还多。也就是说让人类介入显得宝贵的那份果断和确定恰恰也是让它最容易把熵压垮的东西。被当成救命稻草的样本往往同时是最危险的样本。这一层是只盯着对不对永远看不到的。顺着这个发现E2HiL 不再对所有样本一视同仁而是按影响幅度做一道带上下界的筛选。它每个 batch 自适应地取影响幅度的分位区间当上下界论文里用第 5 到第 90 百分位只保留落在区间内、对熵影响适中的样本幅度过大、会让熵骤降的捷径样本和幅度过小、几乎不动熵的噪声样本都被指示函数置零梯度直接抹掉。最后参与更新的是这样一个只算熵一致样本的 actor 目标这套筛选带来的差别在一个把方块随机摆在两个位置的任务里看得很清楚。HIL-SERL 学会第一个位置之后熵很快塌掉策略认定这就是全部答案再没去碰第二个位置。E2HiL 把那些会引发熵骤降的捷径样本剪掉熵降得更平缓学会第一个位置之后还留着足够的探索余地于是在两万步左右发现了第二个位置三万多步把它也学会。同一个任务区别只在于有没有让熵在错误的时机塌掉。跨 10 个真实操作任务、多种本体和学习框架E2HiL 把成功率提升了 24.9%同时把人工介入减少了 9.3%。介入更少、效果反而更好说明瓶颈从来不在用了多少人类数据而在有没有把那批真正推动策略、又不至于压垮探索的样本挑出来。相比随机均匀采样E2HiL 用影响函数识别每个样本对策略熵的作用剪掉会引发早熟收敛的捷径样本和几乎没价值的噪声样本换来更稳的熵下降和更少的人力。人类介入样本的协方差幅度显著高于自探索样本集中在影响分布的高尾正是它们最容易把策略熵压垮。03 UniIntervene让系统自己判断何时该出手论文链接https://arxiv.org/abs/2606.12372项目主页https://denghaoyuan123.github.io/UniIntervene-project/E2HiL 把输入端的数据质量提了上来但 online RL 回路里还有一段绕不过去策略真的开始失败、停滞、反复做无效动作的时候谁来踩刹车。现有的 HiL-RL 里这个决定是外生的由站在旁边的人来下人决定什么时候介入也由人给出纠正动作。UniIntervene 的核心想法是把这个决定变成内生的交给策略栈内部一个学出来的模块。形式上它引入一个介入模块I ψ I_\psiIψ输入当前的观测、指令和动作一次性输出三样东西分别是继续当前动作的价值估计q ^ t \hat{q}_tq^t、一个介入分数s t int s_t^{\text{int}}stint、以及一段纠正动作A t rec A_t^{\text{rec}}Atrec。也就是说要不要打断和打断之后怎么办从一件人来拍板的事变成了系统自己能算出来的事。这就是它 agentic 的地方介入不再是外部事件而是策略自己的一个内部决策。这里有一个容易被忽略、却很关键的判断。过去想减少人力的工作大体分两路一路盯着安全避免不可逆的失败一路盯着可复位保证出事了能 reset 回去。但真机 RL 里最耗人的其实既不是危险动作也不是不能复位的状态而是那些既安全、又能复位、却就是不往前走的回合。机器人没坏场景也没乱它只是卡在那儿空转。该问的不是这一步安不安全而是这个回合还在不在涨价值。UniIntervene 整个设计都是绕着这个问题转的。要回答还在不在涨价值先得有个靠谱的价值信号。真机操作里奖励稀疏单看当前这一帧几乎说明不了一个动作的好坏。UniIntervene 换了个做法不直接对当前观测估值而是先预测当前动作会带来的未来后果。它把观测、指令、动作编码到一起预测下一步的隐状态并用一个冻结的 V-JEPA2 编码器给的真实未来表征来监督它再由一个 twin value head 在这个预测出来的未来表征上估值。这样拿到的是一个前瞻的进展信号在稀疏奖励下比盯着当前帧稳得多。有了价值信号还不能一看到价值低就介入。真机操作里接触、对齐、重抓这些环节本来就会短暂经过低价值状态那不该触发介入。该看的不是某一时刻的高低而是一段时间里的走势。UniIntervene 把它写成一个时序的价值-风险量拆开看后半截是窗口内每一步的进展亏空也就是价值的实际增量没达到期望速率 ε 的那部分按时间折扣累加前半截( 1 − V t ) (1-V_t)(1−Vt)是还差多少到终点。只有当价值在一段窗口里持续涨不动、亏空不断累积,R t R_tRt才会变大越接近完成前面的系数越小风险被自然压下去。所以它响应的是持续的停滞而不是偶然一帧的下跌。论文里的可视化能看到触发恰好发生在价值曲线的谷底比如插内存条任务的第 13 步而不是第一帧掉下去的地方说明这个时序聚合确实分得清真停滞和路过的低点。决定出手之后下一个问题是恢复到哪里。从一个低价值状态直接生成纠正动作其实是欠定的critic 只告诉你这个回合不行了没告诉你该回到哪个好状态。UniIntervene 把恢复拆成去哪和怎么去两步并把去哪接到经验上。它维护一份记忆 M存的是过去的介入时刻、和它们在同一段轨迹里后来真正到达的高价值状态的配对而且只收那些未来状态价值确实够高的条目。触发后它在一个共享嵌入空间里拿当前情境去匹配记忆中语义相近的失败情境检索出对应的高价值目标然后把这个目标交给一个 goal-conditioned recovery policy由它生成一串可执行动作把机器人带到目标附近再把控制权还给主策略。记忆负责去哪恢复策略负责怎么去一个欠定的纠错问题就被转成了一个明确的够目标问题。还回到插内存条那个例子。一开始价值低而平策略一直对不准UniIntervene 不急着动手等停滞确实持续了才在谷底触发从记忆里调出一个验证过的高价值目标价值随后一路平滑爬升到成功全程没有人接管也没有第二次触发。把这套机制放到五个真实操作任务上取放茄子、插管、插内存条、擦白板、叠毛巾UniIntervene 在每个任务上都拿到最高成功率平均成功率比最强的 HiL-SERL 基线高 8.6%人工介入率从 34.3% 压到 14.6%砍掉了 57%。介入的主体正在从人换成系统自己。UniIntervene 用一个内生的介入模块统一了触发与恢复价值-风险 critic 判断何时出手记忆引导的目标条件策略决定恢复到哪里、并生成纠正动作。在持续低价值停滞处触发、检索高价值目标后价值单调回升至成功整体上在提升成功率的同时把人工介入砍掉过半。04 两条原则一条路线E2HiL 和 UniIntervene 落在 online RL 回路的两端。E2HiL 管输入端用影响函数把每个样本对探索的作用算出来只留下真正推动策略、又不压垮熵的那批UniIntervene 管运行端用一个内生的价值-风险模块在策略空转时自己判断、自己恢复。**一个让数据更值钱一个让回路在跑偏时自己回正。**两者合起来真机 RL 就不只是一个优化器而是一套带数据筛选、价值评估、风险判断、记忆检索和恢复策略的闭环系统。把这条线放回 ENPIRE 指向的趋势会更清楚。ENPIRE 让真实机器人学习变成一个由 agent 驱动、能自我改进的闭环E2HiL 和 UniIntervene 则是同一种思路在 human-in-the-loop 场景里的延伸分别从样本效率和介入自主性两个角度让回路自己挑数据、自己纠偏。它们着力的层面不同却指向同一件事真实世界里的学习正在从靠人维护慢慢走向自己驱动自己。这里可以下一个判断。具身智能能不能落地恐怕不会只取决于 VLA 模型做得多大。真正决定上限的是机器人能不能在真实世界里以可控的成本和风险安全地一直变好下去。05 结语真机 RL 正在从一种训练算法慢慢长成具身智能落地的底层引擎。当机器人能从真实失败里筛出有用的样本能在空转时自己回正并在物理世界里一轮一轮迭代策略它对人的依赖就会一直往下走。从 E2HiL 到 UniIntervene变的不是某个方法的指标而是真机 RL 的范式从人在旁边帮着训挪到系统自己改自己。模仿能让机器人上场但能不能在真实世界里长期待下去要看它会不会自己变好。本文工作来自南洋理工大学 PINE Lab。PINE Lab全称为 Perception and Embodied Intelligence Lab由王子为助理教授领导长期关注具身智能、机器人学习、世界模型、VLA 模型、触觉感知与真实机器人强化学习等方向致力于构建能够在真实物理世界中感知、理解、交互并持续学习的智能机器人系统。王子为博士现任南洋理工大学电子与电气工程学院助理教授曾在卡内基梅隆大学机器人研究所从事博士后研究并于清华大学获得博士与学士学位其研究聚焦于面向机器人操作的基础模型与真实世界具身智能系统。参考文献Xiao W, Xie J, Zhang T, et al. ENPIRE: Agentic Robot PolicySelf-Improvement in the Real World[J]. arXiv preprint arXiv:2606.19980, 2026.Deng H, Lin Y, Xue Y, et al. E2HiL: Entropy-Guided Sample Selectionfor Efficient Real-World Human-in-the-Loop Reinforcement Learning[J]. IEEE Robotics and Automation Letters, 2026.Deng H, Gao Y, Lin Y, et al. UniIntervene: Agentic Intervention forEfficient Real-World Reinforcement Learning[J]. arXiv preprint arXiv:2606.12372, 2026.重磅全网首个具身智能开源知识库来啦技术/产业/投融资/上下游推荐阅读真机强化入门的一套完整教程pi*0.6复现方案我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等

资讯详情

真机 RL 正在迎来拐点：机器人如何从「会模仿」走向「会进化」？

相关新闻

山东云弈创峰：跨境电商AI动态定价的底层算法与工程架构

专治电力高清显示与开发难题

鸿蒙物理 108 篇 第五十五篇 四象互相生克转化

AI建站工具从0到1全流程保姆级攻略：说人话就能搭建专业网站

3300 多家欧洲 ISP 呼吁：版权方应为过度封锁担责，欧盟审查走向成谜？

Web安全核心漏洞深度解析：从SQL注入到XSS的攻防实战与防御体系构建

如何精准识别区域校地潜在合作机会？

从工具到思维：实战渗透测试全流程深度解析与靶场进阶指南

如何构建完整的个人音乐库：网易云音乐下载器全解析

基于Dify与DeepSeek构建私有知识库问答系统实战指南

FAE放射组学分析工具：医学影像特征探索的完整解决方案

DesktopNaotu：你的终极离线思维导图解决方案，告别网络依赖！

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

棋牌室茶楼收银别只看价格：京东收银K6收银机为什么值得小店老板优先了解

基于Dify与DeepSeek构建私有知识库问答系统实战指南

FAE放射组学分析工具：医学影像特征探索的完整解决方案

DesktopNaotu：你的终极离线思维导图解决方案，告别网络依赖！

鸿蒙物理 108 篇第五十五篇四象互相生克转化