
模型智力已经在线我们现在比拼的就是 Harness。 —— 黄佳《动手做 AI Agent》作者2026 年上半年AI Agent 领域冒出了一个绕不开的高频词Harness。Anthropic 连发两篇工程博客讲它OpenAI 专门撰文讨论Microsoft 在 BUILD 2026 直接把它做成了 Agent Framework 的核心模块Thoughtworks 的 Birgitta Böckeler 在 martinfowler.com 上做了系统梳理连第一篇以 Harness 为研究领域的学术论文arXiv:2604.25850都发表了。这不是又一个被过度炒作的 buzzword。Harness 代表的是 AI 工程范式的第三次跃迁——理解它才能理解 2026 年 Agent 领域所有的重要决策。一、Harness 到底是什么1.1 一句话定义Agent Model HarnessHarness/hɑːrnɪs/原意是马具、缰绳引申为驾驭、控制。在 AI Agent 语境下它指的是把一个大语言模型转变为能够自主行动的 Agent 所需的全部外围基础设施。模型提供智力Harness 提供行动能力。模型决定想什么Harness 决定怎么做和什么不能做。1.2 一个精准的类比Beren Millidge 在 2023 年提出了一个至今仍然最精准的类比表格组件类比职责LLMCPU提供推理和决策能力Context WindowRAM快速但有限的短期记忆External Database硬盘大容量但较慢的长期存储Tool Integrations设备驱动与外部世界交互的接口Harness操作系统统筹管理一切的运行环境一个原始 LLM 就像一台没有 RAM、没有硬盘、没有 I/O 的 CPU。无论这颗 CPU 多强没有操作系统它就跑不了任何应用。Harness 就是 Agent 世界的操作系统。1.3 官方定义AnthropicThe SDK is the agent harness that powers Claude Code.Salesforce AgentforceAn agent harness is the operational software layer that manages an AIs tools, memory, and safety to ensure reliable, autonomous task execution.Microsoft在 BUILD 2026 中将 Agent Harness 定义为The layer where model reasoning meets real execution.二、AI 工程的三次范式跃迁要理解 Harness 为什么在 2026 年爆发需要先看 AI 工程这四年的演进脉络。据 colourful.codes 的梳理 来源第一代Prompt Engineering2022-2024关注点写好一条指令。Few-shot learning、Chain-of-Thought、角色扮演……所有技巧都围绕如何优化单次输入。这个阶段的核心假设是只要 prompt 写得够好模型就能给出正确答案。第二代Context Engineering2025关注点动态构建整个上下文。单条 prompt 不够用。工程师学会了动态组装完整的上下文——相关文件、对话历史、工具定义、知识库检索结果——让模型在充分信息下做出决策。RAG 是这个时代的标志性技术。第三代Harness Engineering2026关注点约束、反馈回路、架构规则、工具链和生命周期管理。Context Engineering 成了基本功table stakesHarness Engineering 在上层运作它创造的是一个环境让 Agent 能持续、稳定、高质量地工作。Prompt 和 Context Engineering 成了 Harness 的子学科。表格层次做什么作用域Prompt Engineering调优单次输入字符串单次模型调用Context Engineering决定什么信息进入上下文窗口检索、压缩、技能加载Agent FrameworkLangChain/CrewAI 等提供可组合的构建块库 / SDKHarness Engineering设计、运维、保护、评估整个运行时系统工程学科三、为什么是 2026 年数据说话Harness 概念的爆发不是偶然的而是因为业界终于有了足够的数据来证明Harness 的质量比模型的选择更重要。3.1 同模型、不同 Harness 的惊人差距来自多个独立来源的数据 来源Nate B Jones 实验同一个模型不同 Harness → 成功率从 42% 跃升到 78%Anthropic 实验同一个 prompt、同一个模型 → 20 分钟/$9 产出了损坏的核心功能而 6 小时/$200 产出了可运行的完整游戏LangChain 实验Terminal Bench 2.0 分数从 52.8% 升到 66.5%只换了 Harness模型没变Terminal Bench 2.0 排行Claude Opus 4.6 用 Harness A 排第 33 名用 Harness B 排第 5 名——同一个模型28 个名次之差3.2 Terminal-Bench 2.0 全面数据Terminal-Bench 2.0 是 2026 年 Agent 评测的核心基准89 个任务覆盖软件工程、安全、生物、游戏每个任务在 Docker 容器中独立运行自动验证。Top Agent 模型组合表格排名Agent 模型分数1Forge Code Gemini 3.1 Pro78.4%2Droid GPT-5.3-Codex77.3%3Simple Codex GPT-5.3-Codex75.1%5Terminus-KIRA Claude Opus 4.674.7%6Mux GPT-5.3-Codex74.6%同一时期裸模型分数表格模型裸跑分数GPT-5.573.20%Claude Opus 4.768.54%Gemini 3.1 Pro Preview67.42%注意看排名第 1 的 Forge Code Gemini 3.1 Pro78.4%比排名第 1 的裸模型 GPT-5.573.2%高出 5.2 个百分点。而 Gemini 3.1 Pro 裸跑只有 67.4%——好的 Harness 能把同一个模型的表现提升 11 个百分点。3.3 结论优化模型外层的 Harness回报可能比等下一代模型更高。这是 2026 年 AI 工程最重要的认知转变。四、Harness 的十大核心组件把 Anthropic、OpenAI、Microsoft、Thoughtworks 的工程实践放在一起看一个标准栈已经收敛成型。不是谁抄谁而是大家在解决同一组问题时独立走到了相似的答案。4.1 Agentic Loop心脏while (true) {// 1. 解构状态// 2. 压缩上下文// 3. 构建系统提示// 4. 调用 LLM API流式// 5. 收集 tool_use 块// 6. 错误恢复// 7. 工具执行// 8. Stop Hook → 终止或继续// 9. 更新状态 → continue}这是 Harness 的心脏。本质是 ReActReasoning Acting论文的工程化——思考和行动交替执行。所有复杂行为都从这个简单循环中涌现。关键设计原则Async Generator不是返回最终结果而是 yield 每一个中间事件让上层应用实时监控、随时中断无限循环 显式退出只在return Terminal时退出提供最大灵活性单一 State 对象维护伪不可变语义方便回滚和审计4.2 Tool Registry手脚Agent 能看到哪些工具、能调用哪些 API都在这里定义。经验法则10 个精准工具 50 个重叠工具。工具菜单膨胀是 Agent 不可靠的最常见原因之一。Anthropic 发现当 Claude 3.5 Sonnet 在 SWE-bench Verified 上达到 49% 时它只用了两个工具bash 和文本编辑器。不是定制的 Agent 工具而是每个版本的 Claude 都会使用的通用开发者工具。核心洞察不要为模型构建新工具让它用自己已知工具的组合来解决问题。Agent Skills、Programmatic Tool Calling、Memory Tools——全都是从 bash 文本编辑器的新颖组合中涌现出来的。4.3 Sandbox Execution安全隔离容器、浏览器、隔离文件系统——限制错误操作的爆炸半径。没有沙箱每次工具调用都是一次赌博。生产级 Harness 必须让 Agent 在受控环境里执行出错了能快速回滚。OpenAI Codex 使用内核级沙箱Cursor 使用容器隔离Claude Code 目前仅部分沙箱化。这是各家 Harness 在安全维度的核心差异点。4.4 Permission Model缰绳三级权限控制表格权限级别行为适用场景Allow自动执行无需确认只读操作读文件、搜索、查询Deny不可绕过直接拒绝高危操作删除系统文件、访问凭证Ask暂停执行等待人工确认写操作创建文件、发送 API 请求Claude Code 一直问你要不要执行这个操作就是在做这个。人必须控制权限——这是 Harness 区别于全自动脚本的关键。Anthropic 进一步建议将需要安全控制、用户交互或审计追踪的操作从 bash 中提取为独立工具。比如 Claude Code 的edit工具是独立的不是 bash 命令。这让 Harness 能在编辑前检查文件是否过期防止覆盖。如果用 bash 的sed来编辑Harness 根本不知道哪些文件被改了。4.5 Memory Context Management记忆核心原则Agent 无法在上下文中访问的信息等于不存在。记忆分两层静态上下文仓库文档、CLAUDE.md/AGENTS.md 文件、设计文档动态上下文日志、指标、目录映射、CI/CD 状态上下文压缩Compaction是 Harness 最关键的子系统之一。当 token 用量达到上下文窗口的 98% 时Harness 自动启动压缩总结早期历史、保留关键元数据、剥离图像和 PDF。Microsoft MAF 内置了Automatic Context Compaction在长时间工具调用链中监控 token 使用并自动压缩聊天历史全程无需人工干预。Anthropic 发现了一个有趣的现象——压缩质量高度依赖模型本身表格模型压缩后任务完成率Sonnet 4.543%Opus 4.568%Opus 4.684%同一个压缩机制不同模型的表现天差地别。这证明模型本身知道该记住什么、该忘记什么。另一个进化案例——在宝可梦游戏测试中表格模型14,000 步后的表现Sonnet 3.5还在第二个小镇31 个文件包括重复的毛毛虫笔记Opus 4.610 个文件按目录组织获得三个徽章还有一个从失败中提取的经验教训文件同样的机制更聪明的模型。从记录 NPC 对话进化到记录战斗失败经验。4.6 Hooks守卫在关键节点插入检查逻辑防止危险操作。Anthropic 的双阶段 Harness 架构中Hooks 扮演了关键角色Pre-execution Hook工具调用前检查权限和参数合法性Post-execution Hook工具调用后验证结果是否符合预期Stop Hook判断任务是否真正完成防止假性完工实际案例代码提交到 GitHub 之前Hook 自动检查是否误传了.env文件或 API Key。这类检查看起来简单但在 Agent 自主操作场景下没有 Hook 就等于裸奔。4.7 Sub-agents子任务编排将子任务委派给并行运行的子 Agent实现 fan-out 编排。Anthropic 发现让模型自己决定何时 fork 一个干净的上下文窗口、把子任务隔离出去比让 Harness 硬编码编排逻辑效果更好。Opus 4.6 的 Subagent 能力在 BrowseComp 基准上比最佳单 Agent 运行提高了 2.8%。Microsoft MAF 的BackgroundAgentsProvider也是这个思路——主 Agent 拆任务子 Agent 并行执行结果汇总回来。4.8 System Prompt Skills渐进式披露System prompt 的每一行都应该源自一次过去的失败——Addy Osmani 称之为棘轮原则Ratchet Principle。推测性规则是分散注意力的噪音。Skills 的渐进式披露是 Anthropic 的重要创新每个 Skill 的 YAML frontmatter 提供简短描述加载到上下文中作为概览完整内容只在需要时通过read file工具加载这给了 Claude 自由组装自己上下文窗口的能力传统做法是把所有指令预装进 system prompt。问题是指令越多模型的注意力预算越紧张而且大部分指令在大部分时候都不相关。Skills 机制完美解决了这个矛盾。4.9 Observability可观测性OpenTelemetry 追踪、Token 消耗监控、成本追踪。Anthropic 和 OpenAI 都发现了同一件事改进基础设施的回报大于改进模型。一个能清楚看到以下信息的 Harness比一个黑盒 Harness 有用得多每轮对话的 token 消耗每个工具的调用成功率和延迟上下文窗口的使用率变化缓存命中率直接影响成本——缓存 token 只花基础输入 10% 的费用Microsoft MAF 内置了OpenTelemetryAgent自动按照 Semantic Conventions 追踪零额外配置。4.10 Eval Loop评估闭环不是评测答对题而是评测完成任务。当前主流模式是Planner / Generator / Evaluator 分离Anthropic 三代理架构Planner Agent将高层需求拆解为可验证的端到端特性列表Generator Agent每次只专注一个特性增量推进Evaluator Agent独立于执行者用端到端测试验证结果分离的关键是消除自我打分偏差——让执行者评价自己的工作就像让学生批改自己的试卷。五、长时间运行 Agent 的核心难题为什么 Harness 如此重要因为长时间运行的 Agent 面临一组独特难题。Anthropic 的工程博客 来源 精准诊断了四个核心问题5.1 上下文断裂长时间运行的 Agent 必须在多个离散 session 中工作。每个新 session 都从没有前情记忆开始像换了一位完全不了解前因后果的新工程师接手项目。Harness 解法Initializer Agent 创建init.sh统一启动环境、claude-progress.txt进度日志、初始 git commit状态快照让新 session 能快速恢复上下文。5.2 一次性过载模型容易试图一口气做太多结果在实现中途耗尽上下文留下只完成一半、又没有文档的半成品。下一轮 Agent 还得花大量时间猜测之前到底做了什么。Harness 解法强制每次只做一个特性的规则通过结构化特性清单JSON 格式管理进度。5.3 假性完成项目推进到后期后后续 Agent 可能因为看起来已经有进展就过早宣布任务完成导致功能其实并未真正收尾。一位 DevOps 工程师分享的真实案例 来源我的 AI 编码 Agent 开始了一次零停机迁移在 Helm chart 做到一半时耗尽了上下文。第二天醒来看了一眼半成品 YAML然后欢快地宣布All done! Harness 解法完成标准绑定到端到端验证。特性清单用 JSON 管理只有当端到端测试通过后才能把passes从false改为true{category: deployment,description: Implement blue-green rollout for prod,steps: [Update Helm values, Add traffic switch logic, Test rollback],passes: false}5.4 状态不可见如果没有标准化的环境记录、进度日志和启动脚本新来的 Agent 很难快速判断当前代码能不能跑、哪里坏了、下一步该做什么。Harness 解法每个新 session 启动时的标准流程读pwd确认位置读git log了解历史读progress file了解当前进度读feature list了解待办事项启动开发服务器做基础端到端测试确认现有功能没坏然后才开始推进新功能六、Anthropic 的反直觉洞察该停止做什么Anthropic 的第二篇 Harness 工程博客回答了一个关键问题有什么是我可以停止做的 随着模型进步Harness 也需要进化。6.1 停止为模型构建新工具Claude 3.5 Sonnet 在 SWE-bench Verified 上达到 49% 时只用了 bash 和文本编辑器两个工具。所有高级能力Agent Skills、Programmatic Tool Calling、Memory Tools都是从这两个工具的新颖组合中涌现出来的。启示与其花精力开发自定义工具不如让模型用它已经熟悉的通用工具来组合解决方案。6.2 停止由 Harness 编排一切传统 Harness 假设每次工具调用的结果都必须返回模型的上下文窗口来做出下一个决策。但这浪费了大量 token。旧方式读取一个大表格来分析一列数据 → 所有行都消耗 token。新方式给 Claude 一个代码执行工具bash 或 REPL让它自己写代码来调用工具、过滤结果、串联逻辑。只有最终输出才返回上下文。这把编排权从 Harness 转移到了模型。因为代码是通用的编排语言编码能力强的模型天然就是强大的通用 Agent。实际效果在 BrowseCompWeb 搜索 Agent 基准上给 Opus 4.6 自我过滤能力后准确率从 45.3% 提升到 61.6%——这还是一个非编程任务。6.3 停止由 Harness 管理上下文传统方法把所有任务指令预装进 system prompt。问题指令越多注意力预算越紧张而且大部分指令在大部分时候都不相关。新方式Skills 渐进式披露 Subagent 隔离 Compaction 自动压缩。让模型自己决定看什么、记什么、忘什么。6.4 停止由 Harness 管理记忆传统方法在模型周围构建检索基础设施向量数据库、RAG pipeline。Anthropic 的方式给 Claude 简单的读写能力让它自己选择保存什么。Compaction让 Claude 总结历史上下文以维持连续性Memory Folders给 Claude 一个读写文件夹让它自己决定持久化什么后者的效果Sonnet 4.5 在 BrowseComp-Plus 上的分数从 60.4% 提升到 67.2%。七、业界实践五大 Harness 对比截至 2026 年 6 月主流的 Agent Harness 实现及其设计哲学 来源7.1 Claude CodeAnthropic设计哲学少即是多让模型自组织工具系统极简bash text editor 为核心1M token 上下文窗口业界最大权限模型最严格默认 Ask 模式SWE-bench Verified 80.9%首次通过率约 95%Agent Teams 支持多 Agent 协作7.2 OpenAI Codex设计哲学云端沙箱内核级安全云端沙箱执行环境内核级隔离用 Rust 重写后 Token 效率大幅提升Terminal-Bench 2.0 得分 77.3%原生 CI/CD 集成GitHub ActionsPlan 模式先规划后执行7.3 Cursor设计哲学IDE 原生人机协作亚 100ms 延迟的实时 Tab 补全Plan 模式 截图转代码200K 上下文窗口底层模型可选配 Claude 时表现最佳沙盒安全执行容器隔离7.4 Microsoft Agent Framework (MAF)设计哲学开箱即用的完整 Harnessagent create_harness_agent(clientclient,max_context_window_tokens128_000,nameResearchAgent,descriptionA research assistant,agent_instructionsRESEARCH_INSTRUCTIONS,)一行代码获得全部十大组件自动上下文压缩FileMemoryProvider会话级文件记忆FileAccessProvider通用文件访问TodoProvider多步任务管理AgentModeProvider计划/执行模式分离AgentSkillsProvider模块化技能注入BackgroundAgentsProvider子 Agent 并行编排Web Search内置网络搜索Shell Execution沙箱化 Shell 执行OpenTelemetry 追踪7.5 开源方案对比表格工具协议Stars模型灵活性入门成本OpenCodeMIT156,00075 供应商BYOK免费Gemini CLIApache 2.0103,000仅 Gemini免费1000 req/天Codex CLIApache 2.080,600OpenAI 为主支持 Ollama$20/月AiderApache 2.044,500100 via LiteLLM免费7.6 核心差异一览表格能力维度Claude CodeCodexCursorMAF上下文窗口1M1M (Pro)200K128K (可配)沙箱安全部分内核级容器级可插拔多 Agent 协作Agent Teams并行容器有限BackgroundAgents自动上下文压缩98% 触发内置无内置记忆持久化Memory Folder会话文件无FileMemoryProvider可观测性基础日志基础日志无OpenTelemetry工具数量哲学极简中等丰富模块化八、成本经济学Harness 如何影响你的钱包Harness 不只是技术问题也是经济问题。8.1 缓存设计决定成本Anthropic Messages API 是无状态的——每轮对话都需要发送完整历史。缓存的 token 只花基础输入 10% 的费用所以最大化缓存命中率直接影响成本。五条缓存原则把动态内容放在 prompt 末尾追加新消息而不是每次当单轮处理对话中途不要切换模型会破坏缓存谨慎管理工具增删工具会使缓存失效多轮 Agent 对话中把断点移到最新消息8.2 自编排节省 Token让模型自己用代码过滤工具输出而不是把所有输出塞进上下文能大幅减少 Token 消耗。BrowseComp 基准数据给模型自过滤能力后准确率提升 16.3 个百分点的同时每任务平均 Token 消耗降低了约 30%。8.3 Anthropic 的成本实验同一任务20 分钟 / $9核心功能损坏6 小时 / $200产出可运行的完整游戏便宜 ≠ 好。Harness 的价值之一就是帮你在成本和质量之间找到平衡点。九、合规视角EU AI Act 与 Harness2026 年 8 月 2 日欧盟 AI 法案EU AI Act的高风险义务条款将正式生效 来源。Articles 9-15 要求的内容恰好是一个 Harness 应该产出的东西表格EU AI Act 要求Harness 对应组件风险管理系统Permission Model Guardrails数据治理Memory Context Management技术文档Observability Hooks 审计日志透明度System Prompt Skills 记录人类监督Permission ModelAsk/Deny准确性和稳健性Eval Loop Sandbox可追溯性Git 历史 Progress File Session 记录换句话说一个好的 Harness 天然就是一套合规基础设施。如果你的 Agent 系统涉及 EU AI Act 定义的高风险场景Harness 不是可选项而是必需品。十、生产环境常见失败模式来自实战的教训值得提前规避表格失败模式表现Harness 解决方案无限循环Agent 陷入死循环无法终止Stop Hook 最大轮次限制上下文爆炸Token 超限关键信息丢失四级压缩管道 磁盘持久化权限失控Agent 执行危险操作Guardrails 人工确认假性完成看起来好了但实际没好端到端测试 Evaluator Agent质量不可控输出质量参差不齐验证循环 质量审核成本不透明Token 消耗难以预估成本追踪 预算限制上下文漂移Agent 忘了最初目标Progress File Git History工具过载工具太多导致选错精简工具注册表十一、实操指南设计你自己的 Harness第一步定义工具边界不要一开始就注册 50 个工具。从 5-10 个核心工具开始观察 Agent 在哪里卡住再按需添加。每添加一个工具问自己这个工具的失败场景是什么如果 Agent 误用了它最坏结果是什么能不能把它和其他工具合并第二步建立权限模型三类操作必须分开yamlpermissions:allow: # 自动执行- read_file- search- list_directoryask: # 需要人工确认- write_file- send_api_request- install_packagedeny: # 绝对禁止- delete_system_file- access_credentials- modify_harness_config第三步设计退出条件Agent 不能无限运行。必须有pythonexit_conditions {max_turns: 100, # 最大轮次token_budget: 200_000, # Token 上限timeout_seconds: 3600, # 超时机制stop_hook: verify_task, # 完成度验证cost_limit_usd: 10.0, # 成本上限}第四步接入可观测性从第一天就接入。事后加的成本是事前接入的 10 倍。关键指标每轮对话的 token 消耗每个工具的调用成功率和延迟上下文窗口的使用率变化缓存命中率单任务总成本第五步建立评估闭环不要用感觉评估 Agent 质量。设计评测集定期跑跟踪趋势。pythoneval_metrics {task_completion_rate: 0.0, # 任务完成率avg_steps_per_task: 0.0, # 平均完成步数error_recovery_rate: 0.0, # 错误恢复成功率cost_per_task_usd: 0.0, # 单任务成本false_completion_rate: 0.0, # 假性完成率}第六步为长时间任务设计交接协议如果你的 Agent 需要跨多个 session 工作超过 30 分钟的任务通常都需要Session 启动协议1. 读取 pwd 确认工作目录2. 读取 git log 了解最近变更3. 读取 progress.txt 了解当前进度4. 读取 feature_list.json 了解待办事项5. 运行基础端到端测试确认现有功能没坏6. 然后才开始推进新功能Session 结束协议1. 提交带描述性 commit message 的 git commit2. 更新 progress.txt记录本轮做了什么、下一步是什么3. 更新 feature_list.json 中对应条目的状态4. 确认工作区处于干净可续接状态十二、从 30 年软件工程演进看 Harness从更大的视角看Harness Engineering 不是凭空出现的。它呼应了软件工程 30 年来反复出现的主题。表格年代复杂性中心解决方案1990s单体应用面向对象、设计模式2000s企业系统SOA、企业架构2010s分布式服务微服务、容器化2020s数据密集型系统大数据、流处理2026不确定性系统Harness Engineering复杂性一直在转移但本质从未改变——通过抽象和结构化把复杂的东西变得可控。Harness 就是我们驾驭 Agent 这个不确定性系统的缰绳。结语2026 年的 AI 工程正在经历从写好 Prompt到设计好 Harness的范式跃迁。核心认知已经确立Agent Model Harness。模型是 CPUHarness 是操作系统。没有好的操作系统再强的 CPU 也跑不了应用。Harness 比模型更重要。同一个模型不同 Harness成功率差距可达 36 个百分点。优化 Harness 的回报可能比等下一代模型更高。十大组件已成标准栈。Agentic Loop、Tool Registry、Sandbox、Permission Model、Memory、Hooks、Sub-agents、Skills、Observability、Eval Loop——这些不是选项是必需品。让模型做更多Harness 做更少。Anthropic 的反直觉洞察最好的 Harness 不是控制最多而是让模型自编排、自管理上下文、自管理记忆。合规是驱动力。EU AI Act 8 月生效好的 Harness 天然就是合规基础设施。对于工程师来说这意味着你的竞争力不在于会用哪个模型而在于能设计出多好的 Harness。这个转变已经在发生了。参考资料Anthropic: Effective Harnesses for Long-Running Agents2025.11Anthropic: Harness Design for Long-Running Application Development2026.03OpenAI: Harness Engineering - Leveraging Codex in an Agent-First WorldMicrosoft: Agent Framework at BUILD 20262026.06.03Innobu: Agentic Harness Engineering - The Framework for Reliable AI Agents2026.05Colourful Codes: Harness Engineering - Anthropics Practical Guide2026.04Richard Soutar: Harness Engineering - AI for Long-Running DevOps Tasks2026.03Lin et al., Agentic Harness Engineering, arXiv:2604.25850