顶刊T-RO新成果!中国海洋大学:LLM反馈助力机器人从低质量示范中学习

发布时间:2026/7/4 19:41:19
顶刊T-RO新成果!中国海洋大学:LLM反馈助力机器人从低质量示范中学习 仅凭失败轨迹就能训练高性能运动控制策略——生成式对抗自模仿学习目录01 低质量示范制约模仿学习性能提升02 构建LLM反馈驱动的自模仿学习框架03 经典控制任务验证方法学习效率04 仿真导航实验验证方法泛化性能05 LLM反馈的可靠性与跨模型鲁棒性验证06 仿真策略迁移验证应用潜力近日中国海洋大学电子工程学院李光亮副教授团队在机器人学习领域取得新进展。团队联合西安交通大学人机混合智能全国重点实验室薛建儒教授团队、Honda Research Institute Japan等研究团队联合提出了一种面向机器人控制与导航的生成式对抗自模仿学习方法GASL3MF。相关论文已被国际机器人领域顶尖期刊《IEEE Transactions on Robotics》T-RO接收。01 低质量示范制约模仿学习性能提升在复杂机器人控制与自主导航任务中强化学习虽然展现出较强的决策与控制能力但其训练过程通常依赖人工设计奖励函数。对于长时序、高维度、开放环境中的机器人任务而言如何将“安全避障、稳定运动、高效到达目标”等要求转化为准确、稠密且可泛化的奖励信号往往需要大量任务经验与反复调试成为制约强化学习实际应用的重要因素。相比之下模仿学习通过学习人类专家提供的示范轨迹为机器人提供了一条更直观的学习路径。其中生成式对抗模仿学习能够在较大规模、高维度环境中直接从示范数据中学习策略因此在机器人控制、导航等任务中具有广泛应用前景。然而现有方法大多中机器人学习的行为分布往往受限于已有示范当示范本身存在操作失误、环境扰动或任务失败时机器人不仅难以获得有效提升还可能继承其中的低效甚至错误行为。现实场景中高质量专家示范并不易得。以移动机器人导航为例示范者需要同时处理路径规划、动态避障、速度控制和目标到达等多重要求在陌生或复杂环境下采集到的轨迹可能仅包含部分合理动作甚至无法完成任务。若持续依赖人工专家筛选优质轨迹、逐步评价机器人行为又将显著增加数据采集和训练成本。因此如何在缺少高质量示范、甚至只有低质量或失败轨迹的条件下让机器人识别其中有价值的局部行为并在训练过程中不断形成和利用更优经验成为机器人模仿学习迈向复杂真实环境亟待解决的问题。02 构建LLM反馈驱动的自模仿学习框架在方法设计上研究人员首先将示范轨迹中的状态、动作及其执行后的下一状态输入大语言模型并结合具体任务目标、状态与动作定义以及评价规则对每一步行为进行评价。与传统模仿学习只关注“是否像专家一样行动”不同该评价过程更关注动作是否符合任务目标、是否有利于完成任务。即使原始示范整体表现较差其中局部合理的动作仍可被识别并赋予较高评价。考虑到在训练过程中频繁调用大语言模型会带来较高的时间与计算成本团队进一步利用大语言模型生成的评价结果训练轻量化反馈模型。该模型能够根据机器人当前状态、执行动作及其后续状态快速预测动作质量在后续训练中承担持续评价任务从而将大语言模型的高层语义判断能力转化为可高效调用的奖励信号。在此基础上GASL3MF将反馈模型与生成式对抗模仿学习相结合一方面机器人通过对抗学习不断逼近优质行为分布另一方面系统利用反馈模型对机器人自主生成的轨迹进行评分。当新轨迹整体表现优于已有示范时系统便将其加入示范池并逐步替换初始的低质量轨迹。通过这一动态更新机制机器人学习的目标不再固定于原始示范而是会随着训练过程不断向更优轨迹演化。由此机器人能够在低质量甚至失败示范条件下从局部有效行为中提取经验并通过持续自模仿逐步实现策略提升。03 经典控制任务验证方法学习效率为系统评估所提方法在不同动力学条件下的学习能力研究团队首先在Cart Pole、Mountain Car、Inverted Double Pendulum和Hopper四类经典控制任务中开展实验。这些任务分别涵盖平衡控制、欠驱动摆动、连续动作稳定控制以及具有复杂接触动力学的单足跳跃控制能够从不同角度检验学习方法对离散动作、连续动作及复杂动态过程的适应能力。实验中研究团队为各方法提供的均为性能约为最优策略50%的低质量示范轨迹并分别与传统模仿学习方法GAIL、仅采用自模仿机制的方法GASIL以及结合大语言模型反馈但不进行自模仿的GAL3MF进行对比。需要指出的是任务原有奖励函数仅用于测试学习效果并未直接用于训练过程从而更真实地考察机器人在缺少人工设计奖励指导时的学习能力。实验结果表明在四类经典控制任务中GASL3MF均能够突破初始低质量示范的性能限制并在训练速度或最终表现上展现出优势。相较于传统GAIL方法所提方法能够更快形成有效策略相较于只依赖自模仿或仅引入大语言模型反馈的对比方法GASL3MF通过二者协同使机器人既能够利用动作质量评价获得更明确的优化方向又能够持续将自身生成的优质轨迹纳入学习过程。其中在相对简单的Cart Pole和Mountain Car任务中较高权重的大语言模型反馈有助于机器人快速学习任务目标而在倒立双摆和Hopper等动力学更复杂的任务中适当平衡对抗模仿信号与大语言模型反馈可获得更优的最终性能。这表明大语言模型反馈并非简单替代传统学习信号而是能够与自模仿机制协同作用为不同复杂度任务提供具有适应性的策略优化方向。04 仿真导航实验验证方法泛化性能在完成经典控制任务验证后研究团队进一步将所提方法应用于更接近真实应用场景的移动机器人导航任务。实验基于Gazebo仿真平台构建机器人需要在长20米、宽10米的环境中从起点自主到达目标区域。环境中不仅包含随机分布的静态障碍物还设置了固定障碍物和按预定路线移动的行人对机器人的路径规划、动态避障和速度控制能力提出了更高要求。实验结果显示传统GAIL和仅依赖自模仿的GASIL方法难以有效突破低质量示范的限制其性能整体仍低于原始示范水平。引入大语言模型反馈后GAL3MF已能够在一定程度上超越初始示范而融合大语言模型反馈与自模仿机制的GASL3MF则能够以更快速度获得更稳定的导航策略并达到接近最优示范策略的性能水平。为进一步检验策略的环境适应能力研究团队还在四类未参与训练的新环境中进行了泛化测试。这些环境分别包含家庭室内布局、密集障碍物与动态行人、密集人流以及不同形状和尺度的固定障碍物等复杂条件。实验中每种环境均进行了50次测试并从任务成功率、碰撞率、超时率、行驶距离及与障碍物的最小安全距离等指标进行综合评估。结果表明基于GASL3MF训练的移动机器人在原始训练环境中的任务成功率达到0.90高于GAL3MF的0.72在四类新环境中GASL3MF的成功率整体也高于其他对比方法在多数场景中超过0.5。研究表明大语言模型反馈不仅能够帮助机器人从失败示范中获得更明确的学习方向自模仿机制还能够推动机器人持续积累优质轨迹从而提升其面对陌生障碍物布局和动态行人环境时的导航泛化能力。05 LLM反馈的可靠性与跨模型鲁棒性验证研究表明基于低质量甚至失败示范训练得到的反馈模型仍能够学习机器人状态、动作与任务目标之间的关联关系并对示范中未出现的状态—动作组合进行有效评价。在移动机器人导航任务中当机器人能够安全避开障碍物并持续朝目标方向移动时大语言模型反馈、人工评价和环境真实奖励通常均给出较高评分而当机器人出现碰撞风险、无效绕行或明显偏离目标的行为时三类评价信号也会相应降低。进一步分析发现大语言模型反馈的整体分布与人工评价较为接近均呈现出较明显的双峰特征与此同时其分布又比人工评价更接近环境真实奖励。这说明大语言模型反馈在一定程度上兼具人工评价的任务直觉与环境奖励的量化趋势能够为机器人提供较稳定的策略优化信号。特别是在原始示范未覆盖的接近终点区域反馈模型仍能够对安全、高效的前进动作给出较高评价体现出一定的泛化能力。除GPT-4o外研究团队还进一步采用Claude 3.7 Sonnet、Gemini 2.5 Pro以及GPT-5.2等不同大语言模型生成反馈并在经典控制任务和移动机器人导航任务中开展对比实验。结果显示GASL3MF在不同大语言模型支持下均能够完成有效学习并在多数任务中达到较好的训练速度和最终性能表明该框架并不依赖于某一特定模型。在复杂导航环境的泛化测试中不同大语言模型所提供的反馈也表现出较好的稳定性。部分场景下采用Claude 3.7 Sonnet或Gemini 2.5 Pro反馈训练得到的策略甚至优于使用人工评价反馈训练的对比方法。这说明在固定任务规则和结构化提示词约束下大语言模型能够持续提供具有一致性的行为评价为降低人工逐步标注和专家反馈成本提供了可行路径。06 仿真策略迁移验证应用潜力为进一步验证所提方法在真实场景中的应用能力研究团队将基于GPT-4o反馈训练得到的GASL3MF导航策略直接部署至Robotnik公司的Summit-XL实体移动机器人平台。实体机器人搭载二维激光雷达、惯性导航单元和里程计用于获取障碍物位置、机器人姿态、角速度及相对目标的距离和速度等信息。由于真实机器人与仿真环境中的激光雷达采样数量不同研究团队针对观测空间存在的仿真—现实差异设计了基于激光扫描区域划分的域适应方法将仿真与真实雷达的扫描范围统一划分为20个区域并选取每个区域内距离障碍物最近的采样点作为对应观测量从而实现真实传感器数据与仿真输入形式的对齐。在无需重新训练策略的条件下研究团队共开展8次实体机器人测试最终实现75%的任务成功率。实验结果表明机器人能够在真实障碍环境中完成自主转向、路径调整和避障到达等动作验证了所提方法在仿真到现实迁移中的可行性。总体而言从低质量示范学习到仿真导航训练再到实体机器人部署GASL3MF展示了大语言模型反馈驱动机器人自主学习的应用前景为面向复杂环境的移动机器人导航与具身智能系统提供了新的技术路径。Ref论文标题Generative Adversarial Self-Imitation Learning with Large Language Model Feedback for Robot Control and Navigation