
ICMLInternational Conference on Machine Learning国际机器学习大会是机器学习领域最具影响力的国际顶级学术会议之一。大会旨在探讨机器学习未来发展所面临的关键挑战与核心问题并通过征集和评估具有重要理论价值和实际影响的前沿研究成果推动领域发展并引领未来研究方向。2026年ICML共收到全球篇论文23918投稿最终6352篇被接收接收率约为26.6%。本文解读了美团技术团队被收录的13篇论文覆盖智能体推理、强化学习训练、复杂任务生成、智能体基准测试、监督微调等技术方向。01 MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon ReasoningMemOCR面向高效长程推理的版面感知视觉记忆机制论文下载PDF论文简介长时间跨度的智能体推理需要将不断增长的交互历史有效压缩到有限的上下文窗口中。现有的大多数记忆系统将历史序列化为文本其中token级别的开销是均匀的且与长度线性增长。为此我们提出了MemOCR一种多模态记忆智能体通过视觉布局实现自适应信息密度的记忆空间分配从而在紧张的上下文预算下提升长时间跨度推理能力。在长上下文多跳和单跳问答基准测试中MemOCR优于强文本基线方法并在极端预算条件下实现了更有效的上下文利用。02 ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent TrainingScaleEnv: 从零开始构建可扩展的环境合成系统用于通用交互式工具使用智能体的训练论文下载PDF论文简介为智能体配备交互式环境和可验证任务以进行自我探索对于培养能够适应多样化场景的通用智能体至关重要。我们提出了ScaleEnv一个完全从零开始构建全交互式环境和可验证任务的框架。ScaleEnv通过程序化测试确保环境的可靠性通过工具依赖图扩展和可执行动作验证来保证任务的完整性和可解性。在未见过的多轮工具使用基准测试上展示了显著的性能提升突显了强大的泛化能力。03 V_0: A Generalist Value Model for Any Policy at State ZeroV_0一种适用于任意策略在初始状态下的通用价值模型论文下载PDF论文简介大语言模型的强化学习训练中的价值模型面临耦合困境它们需要与更新中的策略同步训练。我们提出了V_0一种通用价值模型通过将任务重新定义为上下文学习来预测未见策略的性能从而将价值估计与特定策略参数解耦。实验结果表明V_0在GRPO训练过程中追踪策略演化方面优于耦合价值模型能够优化冷启动预算分配并在推理路由中逼近性能-成本的帕累托前沿。04 Learning to Self-Verify Makes Language Models Better Reasoners学习自我验证使语言模型成为更好的推理者论文下载PDF论文简介近期的大语言模型在为复杂任务生成有前景的推理路径方面表现出色但在验证自身答案方面仍然薄弱。我们发现学习自我验证能够有效提升生成性能产生更高效的推理轨迹。我们提出了一个多任务强化学习框架将生成和自我验证作为两个独立但互补的目标进行联合优化。实验表明该方法在生成和验证能力上均优于仅进行生成训练的方法。05 AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy ConditionAgentNoiseBench噪声条件下工具使用型大语言模型智能体的鲁棒性基准评测论文下载PDF论文简介随着基于大语言模型的智能体越来越多地部署在实际工作流程中现有的智能体基准测试不足以刻画智能体在不完美用户指令和不可靠工具反馈下的鲁棒性。我们提出了AgentNoiseBench一个用于系统评估大语言模型智能体交互式噪声鲁棒性的框架。该基准建模了用户侧指令噪声和工具侧结果噪声两种主要噪声来源提供模块化噪声注入管道和多维度评估指标。通过对25个工具使用模型的评估发现工具侧噪声通常比用户侧噪声引起更大幅度的性能下降。06 AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware EvaluationAJ-Bench面向环境感知评估的智能体裁判基准论文下载PDF论文简介随着强化学习不断推动基于大语言模型的智能体训练规模化在复杂环境中可靠地验证智能体行为变得日益困难。现有方法依赖基于规则的验证器或 LLM-as-a-Judge 模型但这些方法难以泛化到狭窄领域之外。Agent-as-a-Judge 通过主动与环境和工具交互以获取可验证的证据来解决这一局限性但其能力仍未得到充分探索。 我们提出了一个基准测试 AJ-Bench用于系统性地评估智能体充当评判者在三个领域——搜索、数据系统和图形用户界面——中的表现涵盖155个任务和516条标注轨迹。该基准全面评估了评判智能体在信息获取、状态验证和过程验证方面的能力。实验表明相比 LLM-as-a-Judge 基线方法该方法取得了稳定的性能提升同时也揭示了基于智能体的验证中仍存在的重大开放性挑战。07 LUVE : Latent-Cascaded Ultra-High-Resolution Video Generation with Dual Frequency ExpertsLUVE基于双频率专家的潜空间级联超高分辨率视频生成论文下载PDF论文简介为解决超高分辨率视频生成中连贯性与算力难以兼顾的难题该论文提出了基于双频专家的潜空间级联框架LUVE。该框架创新性地采用三阶段架构先通过低分辨率生成保障运动一致性接着利用潜空间上采样直接提升分辨率大幅降低内存与计算开销最后融合高低频专家细化高分辨内容全面增强全局语义与局部细节。实验表明LUVE展现出了卓越的逼真度与内容保真度其核心思想现已成功应用于美团LongCat-Video模型中。08 Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical MemoryInfinite-World通过无位姿层次化记忆将交互式世界模型扩展至1000帧论文下载PDF论文简介Infinite-World 是面向真实场景中的长程交互式世界模型其目标是在 1000 帧生成中保持稳定的视觉记忆和动作响应。针对真实视频中位姿噪声大、视角回访稀少的问题论文提出三点创新用无位姿层级记忆压缩器将历史 latent 压缩为固定预算记忆降低长程建模成本用不确定性感知动作标注提升噪声轨迹下的动作学习再通过高回访数据微调增强 loop closure 能力。整体上它让世界模型更适合从真实视频学习长时空一致性。09 WildActor: Unconstrained Identity-Preserving Video GenerationWildActor无约束身份保持视频生成论文下载PDF论文简介本文提出 WildActor一种面向无约束身份保留的视频生成新框架旨在应对现有方法在动态长镜头和视角剧烈切换时面临的全身体态不一致、面部漂移及姿态僵死伪影。在机制层面WildActor 构建了含1.6M视频和18M多视角图像的大规模数据集 Actor-18M有效解决原始数据中的正脸偏置同时引入非对称身份保留注意力AIPA解耦身份与运动生成并结合身份感知3D旋转位置编码I-ROPE显式分离时空 Token配合视角自适应蒙特卡洛采样实现了鲁棒的任意视角条件控制。实验表明WildActor 在新构建的 Actor-Bench 连贯叙事与泛化测试中不仅全身一致性与文本对齐度显著超越现有开源及商业大模型还验证了其在复杂现实场景下保持物理恒常性的优越性。10 Navigating the Pareto Frontier of Alignment: Spectrum-Adaptive Fine-Tuning for LLMsSAFT面向大语言模型的谱自适应微调方法论文下载PDF论文简介监督微调常用交叉熵作为目标函数虽然学习高效但它并非正确率的光滑近似还会因为特别关注预测概率低的样本从而容易对噪音过度拟合并过度自信。DFT则在梯度层面等同优化正确率的光滑近似函数在保持训推一致性的同时提升了鲁棒性但也会削弱对可学习的难样本的学习效率。因此SFT 与 DFT 构成效率—鲁棒性两个端点而真实数据应选择哪种折中取决于其未知的内在 SNR。我们提出轻量的 pre-test protocol用少量训练数据分别训练 SFT/DFT 并在验证集比较表现SFT 更优则判定为高 SNR 并选择几何插值Geo-SAFTDFT 更优则判定为低 SNR 并选择调和插值Har-SAFT。相比仍保留低置信梯度发散的线性插值SAFT 通过数据自适应的几何/调和非线性插值匹配不同噪声 regime从而获得更优的鲁棒性—效率 Pareto trade-off。11 TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World ScenariosTRIP-Bench真实场景中长时域交互式智能体的基准评测论文下载PDF论文简介本论文提出了 TRIP-Bench一个面向长程交互式 Agent 的旅行规划评测基准。它基于真实世界数据构建包含 18 个工具和 40 多类旅行约束重点考察模型在多轮对话中保持全局约束、调用工具、处理用户需求变化和方案反复修改的能力。其困难任务最长可达 15 轮用户交互、150 次以上工具调用甚至超过 20 万 tokens 上下文。实验表明现有先进模型在该基准上仍表现有限。论文进一步提出 GTPO 多轮强化学习方法通过奖励归一化和轮次级奖励差分提升模型鲁棒性使 Qwen2.5-32B-Instruct 在评测中超过 Gemini-3-Pro。12 InfVSR: Toward Consistency-Driven Streaming Generative Video Super-ResolutionInfVSR面向一致性驱动的流式生成视频超分辨率论文下载PDF论文简介本文提出了 InfVSR一种面向一致性驱动的流式生成视频超分辨率新框架旨在解决扩散式视频超分方法在长视频场景中存在的推理效率低、显存占用大和时序不一致问题。其核心机制包括将预训练视频 DiT 改为因果流式架构引入滚动 KV 缓存以维持局部过渡平滑性设计联合视觉引导通过交叉注意力注入全局语义锚点抑制累积误差漂移。训练阶段结合分块像素监督与跨块分布匹配双重约束时序一致性并将扩散过程蒸馏为高效单步推理。实验表明InfVSR 在多项基准上取得 SOTA 性能时序一致性显著领先推理速度提升 58 倍且长序列显存占用恒定。13 DRIVE: Distributional and Retrieval-Augmented Bidding with Value EvaluationDRIVE基于混合分布与检索增强的价值评估出价策略论文下载PDF论文简介针对标准Decision Transformer (DT)在复杂竞价环境中的三大痛点“平均动作”陷阱、长尾幻觉、缺乏推理优化提出“生成—检索—评估”闭环框架1用高斯混合模型替代确定性输出解决多模态策略坍缩问题2引入检索机制增强长尾场景记忆避免参数化模型幻觉3通过IQL Critic实现闭环择优对生成动作与历史动作进行实时评估。该方案显著提升决策鲁棒性。| 本文系美团技术团队出品著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容敬请注明“内容转载自美团技术团队”。本文未经许可不得进行商业性转载或者使用。任何商用行为请发送邮件至 techmeituan.com 申请授权。