CLI-Universe:终端Agent任务合成新范式,可验证数据自动生成

发布时间:2026/6/25 13:15:17
CLI-Universe:终端Agent任务合成新范式,可验证数据自动生成 CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents作者Zhanbo Hua, Yifan Yao, Weihao Xie, Yongchi Zhao, Minghao Liu, Ruizhi Qiu, Zhewei Huang, Zun Wang, Yiyan Ji, Yunhai Ye, Letian Zhu, Xinping Lei, Han Li, Zhiyuan Ma, Zili Wang, Zhaoxiang Zhang, Jiaheng Liu核心发表机构Nanjing University、StepFun、ZODA、Shanghai AI Lab、Huazhong University of Science and Technology论文链接arXiv:2606.22883v1发布于arXiv 预印本cs.AI一、核心贡献 / Core Contributions提出原则性合成引擎 CLI-Universe基于多维能力分类法领域、技能类型、能力、工程支柱生成候选任务通过证据引导深度研究和多阶段可执行验证系统性地保障终端智能体训练数据的真实性、可执行性和挑战性。实现严格的端到端质量过滤从候选生成到最终验证管道丢弃约三分之二候选任务仅保留 33.6% 的端到端通过率确保每个保留轨迹均满足非琐碎、可验证、有意义的执行转换标准。发布高质量数据集 CLI-Universe-6K包含 6,000 条成功轨迹由 Kimi-K2.6 智能体在 CLI-Universe 生成的任务上收集经多阶段验证保真。微调 Qwen3-32B 在该数据集上于 Terminal‑Bench 2.0 达到 33.4%创下开源 32B 以下模型新 SOTA超越多个参数高出一个数量级的模型如 Qwen3-Coder-480B 23.9%、Kimi-K2-Instruct-1T 27.8%。揭示数据质量优先于数量的核心设计哲学通过消融实验证明仅使用 6k 成功轨迹优于包含全部 10k 轨迹含失败/不完整且性能随模型规模单调提升而未见饱和验证了结构化、高保真合成数据的深度信息密度和数据效率。二、研究背景与动机 / Background Motivation近年来基于大型语言模型LLM的终端智能体terminal agent展现出了令人瞩目的能力能够通过自然语言指令操控命令行界面完成复杂任务。然而这类系统的训练面临一个关键瓶颈高质量、可执行的训练数据极度稀缺。现有合成数据管道通常采用“表面改造”surface-level retrofitting策略即从公开仓库、文档或配置文件中提取任务再为它们配以指令和测试。此类方法虽然能快速扩展数据规模但往往产生模糊甚至矛盾的指令、浅层执行路径例如只需执行一次命令即可完成以及脆弱的测试用例——这些测试只能提供微弱甚至误导性的学习信号。例如一些管道生成的测试仅检查输出文本是否包含特定字符串而忽略了状态转换的正确性或者指令本身因缺乏真实上下文而让智能体无法理解目标。终端智能体面临的环境具有状态持久性、工具多样性以及需要多步规划和错误恢复的天然挑战低质量数据会严重限制模型在这些维度上的泛化能力。为克服上述局限本文提出了 CLI-Universe一个旨在构建“可验证”任务的原则性合成引擎。其核心理念是“由内而外”inside‑out首先通过结构化能力分类法定义任务的内在技术内涵然后借助对真实技术文献的证据驱动研究来锚定任务细节最后在多阶段可执行验证中剔除一切无法通过严格监控检查的候选。这种方法将合成数据的关注点从“数量最大化”转向“质量最大化”为终端智能体提供真正有学习价值的训练信号。三、方法 / Methodology3.1 总体框架 / Overall ArchitectureCLI-Universe 的设计围绕一条三阶段管道展开如下图图 1所示。第一阶段是任务蓝图构建从多维能力分类法中采样组合以生成候选任务并对每个候选进行证据引导的细化研究最终形成包含用户指令、内部提示和环境清单的蓝图。第二阶段是环境实现根据蓝图获取或合成所需资产并将它们打包进 Docker 隔离环境通过冒烟测试确保可用性。第三阶段是测试构建与可执行过滤包括 rubric 门控测试生成、解轨迹构建、提示条件过滤和 fail‑to‑pass 检查。只有通过所有阶段的候选才能进入最终数据集。整个管道从候选生成到验证约三分之二的候选被丢弃保留的任务均满足指令无歧义、执行路径足够深平均需要多步规划和推理、测试能够可靠地验证正确状态转换。这一严格的过滤机制是数据集高质量的核心保障。3.2 关键模块 / Key Modules多维能力分类法是任务生成的种子。它由四个正交维度构成领域17 个人工整理的领域如软件工程、系统管理、安全、数据处理等、技能类型8 种专业知识如算法、脚本编写、配置、密码学等、能力11 种推理行为如探索、错误恢复、长程规划等、工程支柱6 种工程活动如新特性创建、调试、DevOps 等。每个候选任务由随机采样这四个维度在领域允许的组合范围内后由 LLM 根据维度描述生成自然语言指令。这种设计保证了任务在技能层面上的多样性而非仅仅在表面主题上重复。证据引导的细化是确保任务真实可执行的关键。一个专门的研究智能体针对每个候选任务搜索真实世界的技术材料包括代码仓库、官方文档、问题讨论、教程和实际使用示例。它将找到的证据逐步融入任务规范使指令锚定在具体的工具、现实约束、已知故障模式和输入/输出合约上。无法被充分锚定的候选例如涉及虚构工具或矛盾约束会被直接丢弃。细化后的任务其求解器步数平均增加了 3.45 倍而通过率下降了 13.3 个百分点证明了该过程有效提升了任务的真实难度和深度。下图图 2展示了细化前后求解步数和通过率的变化。多阶段可执行验证被进一步部署以确保每个最终任务的可信度。首先一个测试智能体从实现的环境和蓝图中生成测试用例这些用例通过一套测试用例评分标准涵盖正确性、确定性、边界情况进行迭代检查直到提供稳定且可执行的信号。然后一个解智能体在内部提示HINT的辅助下生成一条成功的解轨迹。接着提示条件过滤比较同一智能体在有/无内部提示下的求解表现只有无提示时失败、有提示时成功的任务才被保留这排除了那些琐碎可解的任务。最后严格 fail‑to‑pass 检查确保任务测试在初始环境上执行失败而在执行了带提示的解轨迹后通过从而确认任务实现了从“未解状态”到“已验证解”的有意义状态转换。下图图 3以漏斗图形式展示了整个管道从候选生成到最终保留的流程端到端通过率为 33.6%。原论文对应图片Solver turns and pass rate, before vs.\ after refinement.原论文对应图片Solver turns and pass rate, before vs.\ after refinement.原论文对应图片Solver turns and pass rate, before vs.\ after refinement.四、实验 / Experiments4.1 数据集与评估指标 / Datasets Metrics训练数据集为 CLI-Universe-6K包含 6,000 条成功轨迹由 Kimi-K2.6 智能体在 CLI-Universe 管道生成的任务上收集。所有轨迹均通过上述多阶段验证并保留完整的 reasoning‑command‑observation 交互序列。评估主要使用Terminal‑Bench 2.0TB 2.0作为终端智能体基准同时也在Terminal‑Bench 1.0、BFCL v4函数调用和VitaBench多轮工具使用上报告结果。评估设置统一采用 Terminus 2 支架每任务最多 200 轮报告 avg44 次运行的平均通过率。基础模型选择 Qwen3 稠密系列8B、14B、32B使用多轮监督微调multi‑turn SFT进行训练超参数包括 AdamW 优化器β₂0.95、峰值学习率 1e‑5、cosine 学习率调度最小 1e‑6、warmup 比例 0.03、权重衰减 0.01、梯度裁剪 1.0、训练 5 轮、全局 batch size 64、序列长度 64K、bf16 精度并使用 32 张 NVIDIA H200 GPU 进行分布式训练。4.2 主实验结果 / Main Results微调 Qwen3-32B 在 CLI-Universe-6K 上TB 2.0 达到了33.4%。这一结果不仅显著超越了所有在开源数据上训练且参数不超过 32B 的模型如 SkillSynth-32B 29.6%、Nemotron-Terminal-32B 27.4%、TerminalTraj-32B 22.0%还超越了几个参数量高出一个数量级的开源模型如 Qwen3-Coder-480B 23.9%、Kimi-K2-Instruct-1T 27.8%、Minimax-M2.1-229B 29.2%。这充分展示了结构化、高保真合成数据所带来的数据效率提升。值得注意的是Qwen3 基线模型在无针对性指令数据时TB 2.0 性能几乎不随规模变化2.5% ~ 4.0%而使用 CLI-Universe 数据后性能随模型规模单调提升8B: 10.9%, 14B: 23.0%, 32B: 33.4%且增益随规模增大而增大8.4 → 19.0 → 30.0表明高质量数据能有效激发大模型的潜力且尚未饱和。下图图 4展示了数据规模对数图显示在 CLI-Universe-6K 上性能随数据量增大而稳步提升未见饱和迹象表明管道可以继续生成有效监督。此外CLI-Universe 模型的优势还泛化到域外基准。在BFCL v4上CLI-Universe-32B 达到 58.0%相比基线 46.7% 增益 11.3在VitaBench上达 27.0%相比基线 15.4% 增益 11.6。下图图 5展示了跨基准泛化性能。进一步地图 6 按类别分解了 TB 2.0 上的性能增益。最大的绝对增益出现在 Data Processing62.5、Machine Learning50.0、Data Querying50.0、Model Training43.8等类别而 Video Processing 和 Games 在 32B 上无增益提示未来扩展方向。4.3 消融实验 / Ablation Study为验证管道各组件的贡献在 1K 子集上使用 Qwen3-32B 进行了组件消融。结果如下图图 7所示。移除任何单一组件都会导致 TB 2.0 分数下降 3–6 个百分点确认了每个组件的互补性。其中移除资产物化策略影响最大下降 6.2 个百分点至 20.5说明多样化环境是任务覆盖度的关键移除查询评分标准下降 3.4 点至 23.3说明指令质量是学习上限移除测试用例评分标准下降 3.9 点至 22.8说明高保真验证对轨迹训练至关重要。轨迹选择消融也进行了研究仅保留通过所有测试的 6k 成功轨迹获得了最佳性能33.4%而使用未过滤的完整 10k 轨迹包含失败和不完整交互分数降至 28.2%-5.2 点证明质量过滤比原始轨迹量更重要。教师模型消融比较了 Kimi-K2.6 和 DeepSeek-V4-Pro 作为教师提取的解轨迹训练出的学生性能相近33.4% vs 31.2%表明管道对教师模型的选择具有一定鲁棒性。下图图 8展示了模型规模缩放的对比CLI-Universe 数据在 Qwen3-8B、14B、32B 上均带来单调增益且随规模增大而增大而基线模型本身几乎不缩放。数据效率对比图 9在 Qwen3-32B 上呈现CLI-Universe-6K 增益 30.03.4→33.4远高于 Nemotron-28.9增益25.5和 TerminalTraj-18.0增益14.6说明每条轨迹的信息密度更高。最后错误归因分析对 TB 2.0 上失败轨迹进行了分类。共定义 9 种失败模式分属三类执行失败、连贯性失败、验证失败。对于基线前沿模型如 Claude-Opus-4.6、GPT-5.3-Codex验证类错误占比最高47%–60%即模型能执行和推理但未能正确检查目标状态。而 CLI-Universe-32B 的验证类错误降至 27%执行类错误成为最大类44%其中“步骤重复”占比升至 23%表明模型在探索中更易卡住而非跳过验证。下图图 10展示了错误归因分布。五、相关工作 / Related Work现有终端智能体训练数据合成工作主要分为两类一类通过从技能/领域分类法随机生成任务如 EndlessTerminals、Termigen另一类通过从现有基础设施如开源仓库、配置错误数据库中提取任务如 Nemotron、TerminalTraj。这些方法的目标主要是扩展任务数量但每个任务的质量和验证信号密度往往缺乏保证。相比之下CLI-Universe 采取互补路径它结合了结构化能力规范、证据引导的深入研究和多阶段可执行验证确保每个保留轨迹都扎根于现实技术约束并通过严谨的检查。Nemotron 虽然也采用数据工程扩展但其 per‑trajectory 信息密度低于 CLI-Universe增益 25.5 vs 30.0且 Nemotron 未强调 rubric 门控测试构建和 fail‑to‑pass 检查。TerminalTraj 存在任务表面改造产生模糊指令或浅层执行路径的问题导致基准增益较低14.6。CLI-Universe 的独特之处在于将焦点从“扩展任务源”转向“提升任务质量”并通过系统化流程实现。六、局限性与展望 / Limitations Future Work尽管 CLI-Universe 在开源模型中取得了领先性能但仍存在若干局限性。首先整个管道从任务构思、环境构造、解法生成到测试构建均依赖底层 LLM 的能力目前使用 Kimi-K2.6 作为生成器和教师数据质量受模型上限限制。尽管有 rubric 门控和可执行验证仍可能存在质量天花板。其次与最强闭源模型如 Claude-Opus-4.6 在 TB 2.0 上 57.8%仍有明显性能差距未来可探索更大开源基座模型如 72B/130B或基于强化学习的训练以进一步缩小差距。第三当前数据规模有限6K 轨迹扩展到更大、更多样化的任务池可能解锁更大提升这要求管道在计算效率和可扩展性上进一步优化。另外错误分析显示训练出的模型在“步骤重复”上出现新失败模式提示未来可针对该模式设计对抗训练或数据增强策略例如引入防止循环的辅助损失或随机重新采样命令空间。最后所有实验结果基于 Terminus 2 支架模型在其他支架上的泛化性有待验证。七、总结 / ConclusionCLI-Universe 通过结构化任务规范、证据引导深度研究和多阶段可执行验证成功构建了高质量、可验证、非琐碎的终端智能体训练数据。微调 Qwen3-32B 在 Terminal‑Bench 2.0 上达到 33.4%创下 32B 以下开源模型新 SOTA并泛化到 BFCL v4 和 VitaBench。实验表明精心构造并严格验证的 6K 轨迹提供了比大规模未过滤数据更强的学习信号且性能随模型规模单调提升未饱和。主要失败模式从前沿模型的验证不足转变为执行中的步骤重复揭示了未来优化的方向。CLI-Universe 验证了“先保真、后保量”的数据合成哲学在终端智能体领域的有效性为后续研究提供了可复现的引擎和方法论基础。原文摘要:While recent LLM-based terminal agents have demonstrated promising capabilities, the scarcity of high-quality, executable training data remains a critical bottleneck. Existing synthesis pipelines typically scale by retrofitting surface-level artifacts into tasks, frequently yielding ambiguous instructions, shallow execution paths, and brittle tests that provide weak learning signals. To overcome this, we introduce CLI-Universe, a principled synthesis engine that constructs terminal-agent tasks. CLI-Universe generates candidate tasks by sampling combinations across a multi-dimensional capability taxonomy (domain, skill type, capability, and engineering pillar), then grounds each candidate through evidence-guided deep research over real-world technical materials. To ensure rigorous supervision, validated blueprints are instantiated into Dockerized environments and subjected to a multi-stage executable verification pipeline featuring rubric-gated test construction, hint-conditional filtering, and strict fail-to-pass checking. Across the full pipeline, from candidate generation to verification, approximately two-thirds of candidates are discarded, retaining only those that are genuine, verifiable, and non-trivially challenging. To validate our framework, we instantiate a highly distilled dataset of 6,000 trajectories called CLI-Universe-6K. Remarkably, fine-tuning Qwen3-32B on CLI-Universe-6K achieves 33.4% on Terminal-Bench 2.0. This sets a new state-of-the-art for models trained on open-source data at or below 32B parameters, and outperforms several models an order of magnitude larger, demonstrating the profound data efficiency of structured, high-fidelity synthesis.PDF链接:https://arxiv.org/pdf/2606.22883v1部分平台可能图片显示异常请以我的博客内容为准