
MolmoAct2 模型成功将自适应深度推理引入机器人控制并创下开源 VLA 最新 SOTA 纪录引言想象一台机器人面对从未见过的任务180 毫秒内完成理解、推理、决策并执行——成功率 87.1%。这不是某个闭源实验室的内部演示而是 AI2 刚刚开源的 MolmoAct2 在真实世界交出的答卷。作为对比闭源模型 π0.5 的零样本成功率停留在 45.2%推理延迟长达 6.7 秒。当更快、更准、更开放同时成立时开源 VLA 的天花板被彻底击穿了。简洁科普一下Action Reasoning ModelARM动作推理模型 一句话看懂给机器人的大脑装了一个“3D 物理引擎”在真正动手前它会在脑海里先“播放”一遍动作确认不会撞墙后再执行。 生动类比拿水杯的“先想后做”想象你在杂乱的桌面上拿水杯。传统 VLA 就像凭本能扑过去的飞蛾直接根据视觉信号伸手而 ARM 则像经验丰富的老手先在脑子里建个模“杯子在右前方 20 厘米中间有个花瓶挡着我的手得绕过去”。它把机器人的“直接做”变成了“先想后做”。 场景落地赋予机器人真正的“物理直觉”有了 ARM机器人不再是只会玩“打地鼠”看到目标就砸的机器而是懂得了“空间几何”。面对复杂的现实环境它能精准判断哪个杯子能拿、哪个盒子会倒让动作从“大概齐”变成“毫米级精准”。Flow Matching流匹配 一句话看懂给机器人的动作生成装上“导航仪”而不是“指南针”顺着最优路径直达目标拒绝绕路。 生动类比蒙眼试探 vs 一键导航把生成动作想象成从A地走到B地。传统扩散模型像是一个蒙着眼睛的人靠不断试探、左右横跳反复去噪来慢慢摸索到终点费时费力而 Flow Matching 则像直接开启了“高德地图”计算出最直的行车路线一脚油门顺流而下瞬间到达。 场景落地让机器人告别“慢动作”在 MolmoAct2 中Flow Matching 让机器人彻底摆脱了扩散模型的“慢半拍”。它生成连续动作的速度极快单次推理仅需 180 毫秒让机器人真正具备了如同人类“下意识”般的敏捷反应能力。KCache BridgeKV缓存桥接机制V-⚖️ 架构对比传统流水线 vs 桥接直连传统流水线 (VLM ➡️ 离散 Token ➡️ 动作)存在严重的“翻译损耗”。视觉信息被切碎成离散 Token动作模块再艰难还原导致推理深度打折动作生硬。KV-Cache Bridge (VLM ➡️ KV Cache 直连 ➡️ 动作)打造“信息高铁”。直接抽取 VLM 注意力层的 KV 缓存连续表征喂给动作专家。 核心收益零损耗彻底干掉离散化/反离散化步骤打破表征瓶颈。保深度完美继承 VLM 的复杂逻辑推理能力。更丝滑直接输出高精度的连续控制信号动作更拟人。MolmoAct2 核心引擎拆解从量子理解到机械执行前代VLA的四大系统故障MolmoAct2 逐一修复故障代码系统症状MolmoAct2 补丁LOCK-001核心模组π0.5闭源无法逆向工程全栈开源社区可 forkLAT-999推理链路延迟数秒实时协议超时6.7s/次180ms响应满足硬实时DATA-404双臂操作数据集未找到训练样本不足自采集合成数据补全语料GEN-051真实环境零样本成功率50%泛化模块失效跨场景迁移突破阈值方案模型是如何设计的MolmoAct2 核心升级亮点MolmoER 骨干用 330 万具身样本训练13 项推理基准均分 63.8超越 GPT-5 与 Gemini 闭源模型。连续动作生成Flow Matching KV-Cache Bridge彻底消除动作离散化精度损失。OpenFAST 开源完全开源复现 PI 闭源的 FAST Tokenizer支持 5 种机器人平台。MolmoThink 深度推理仅对变化区域计算深度以 17% 延迟换取更强 3D 理解。30 倍规模数据720 小时双臂数据集YAM融合多源数据语言标签翻倍至 14.6 万。极致训练效率预训练256卡H100/1天后训练64卡H100/2小时。实测检验给开源 VLA 来一次“终极体检”MolmoAct2 交出了迄今最硬核的开源 VLA 实证答卷。研究团队拒绝“偏科”刷榜而是横跨 7 个极具挑战性的仿真与真实世界基准进行了全方位、无死角的性能验证。 以下是决定胜负的核心关键指标推理速度单张 H100实验评估与视频实录真实世界零样本评估 (Real-World Zero-Shot Evaluation)硬件平台Franka 机械臂单臂构型。实验协议为确保结果可靠性每项任务均执行 15 次独立试验Trials。跨任务泛化表现 (Cross-Task Generalization)实验重点验证了模型的零样本泛化边界。结果表明MolmoAct2 在面对未见过的任务时无需任何梯度更新或任务级微调No fine-tuning required即可实现高效的跨任务迁移与物理执行。对比意义零样本泛化的硬数据MolmoAct2 在完全未见的真实场景中零样本平均成功率87.1%。同期对比π0.5闭源SOTA45.2%MolmoBot前代开源48.4%87.1% 意味着什么这不是比对手好的问题是阈值跨越的问题。50% 左右 抛硬币级可靠性只能发论文、跑Demo不能上产线。80% 工业可用区间意味着你可以把它装进真实机器人让它去处理没见过、没训过、没调过的任务而不必担心它把东西摔了。MolmoAct2 是第一个跨过这条线的开源 VLA。第三方独立评测拒绝“自卖自夸”真金不怕火炼为了验证 MolmoAct2 的真实行业地位本次评测特别邀请了知名机器人数据与评测机构Cortex AI独立操刀彻底排除了 AI2“既当运动员又当裁判”的嫌疑。在这场严苛的“擂台赛”中Cortex AI 设置了 8 个极具挑战性的双臂协同操作任务并拉来了 5 款主流策略MolmoAct2、OpenVLA-OFT、π0.5、Cosmos Policy、X-VLA同台竞技。为保证绝对公平所有模型均针对每个具体任务进行了微调Fine-tuning直接比拼各自在特定任务上的性能上限。任务级拆解8 战 7 胜不是平均赢是逐项碾压MolmoAct2 在 8 个真实世界零样本任务中7 项登顶1 项第二。后训练适应能力双臂任务微调后MolmoAct2 在叠毛巾、碗放置、擦桌子、托盘搬运等任务上表现优异验证了基础模型的强大微调潜力。[1YAM 双臂任务执行]两台 YAM 臂协同完成叠毛巾与桌面收拾展示原生双臂操作能力。[ 2Cortex AI 评测对比]5 种策略 × 8 个双臂任务。MolmoAct2 在 7/8 任务中领先仅 1 个任务略低于基线综合表现最优技术溯源与关联工作AI2 机器人团队研究脉络技术演进MolmoAct ➡️ MolmoAct2 核心继承完整延续前代四大技术底座ARM 范式坚持“先 3D 空间推理后动作规划”。完全开源模型、数据、代码 100% 开放。数据策略延续多源数据混合训练机制。空间感知保留深度感知 Token 以强化 3D 理解。改进点工程洞察从 Algorithmic PoC 到 Production-ReadyMolmoAct 的核心贡献在于作为 Proof of Concept (PoC) 验证了 ARM 范式的有效性而 MolmoAct2 则完成了向 Production-ready 的系统级跃迁。通过在 Data Scaling数据规模、Inference Latency推理速度和 Architecture Efficiency架构效率三个维度的全面优化MolmoAct2 彻底解决了开源 VLA 在真实物理环境中的部署瓶颈实现了真正的工程化落地。绘制技术演进路线图Molmo → Molmo 2 → MolmoAct → MolmoAct2。需在图中明确标注各阶段的核心 Technical Milestones如视觉语言基座 - ARM 范式验证 - 连续动作与自适应推理的工程化落地。局限性与坦诚分析MolmoAct2 团队没装短板列得比长板还清楚批量规划的刚性锁机制模型以 10-30 步为一批做规划然后闭眼执行。问题执行中途遇到意外物体滑动、碰撞、人类干扰——无法实时重规划。表现批次切换时动作可能断层看起来像机器人愣了一下。本质推理速度 vs 灵活性的 trade-off。180ms 一帧的代价是锁死批次内决策。未来解法在线重规划、更细粒度的 KV-Cache 更新、或者干脆接受更高延迟换灵活性all tech_link:论文地址https://arxiv.org/abs/2605.02881项目主页https://allenai.org/blog/molmoact2技术报告https://allenai.org/papers/molmoact2模型权重https://huggingface.co/collections/allenai/molmoact2-models数据集https://huggingface.co/collections/allenai/molmoact2-datasets代码仓库https://github.com/allenai/molmoact2