
CEO-BenchAgent 不再只是做任务而是要学会经营一个系统TL;DR场景AI Agent 的能力评估正从完成一次性任务转向长期经营一个动态系统CEO-Bench 给出首个 500 天创业公司长程决策基准。结论当前最强的 LLMClaude Opus 4.8、GPT-5.5刚刚跨过 100 万美元初始资金门槛绝大多数模型仍在长程系统驾驭中破产或亏损底层模型之外Agent Harness、长期记忆和预测能力是关键瓶颈。产出一份面向 Agent 工程师的长程 Agent 架构清单——状态层 / 指标层 / 策略层 / 实验层 / 预测层 / 审计层 / 恢复层。版本矩阵功能 / 维度状态说明论文标题✅ 已验证CEO-Bench: Can Agents Play the Long Game?arXiv:2606.18543作者✅ 已验证Haozhe Chen, Karthik Narasimhan, Zhuang Liu提交日期✅ 已验证2026-06-16arXiv 列表确认模拟时长✅ 已验证500 天约 72 周决策周期初始资金✅ 已验证$1,000,000 美元虚拟公司✅ 已验证NovaMind订阅制 AI 软件公司核心新概念✅ 已验证Steering Intelligence系统驾驭智能跑赢初始现金的模型✅ 已验证仅 Claude Opus 4.8、GPT-5.5 在最佳运行中超过 $1MAgent Harness 消融✅ 已验证论文比较了最小终端 Agent、Claude Code、Codex 等不同外壳规则基线Heuristic Baseline✅ 已验证不使用 LLM 的固定启发式策略也能跑出相当强结果CEO-Bench 概念图500 天模拟中经营虚拟 AI 软件公司 NovaMind评估 Agent 的长期系统驾驭能力过去两年AI Agent 的能力提升很快。它们可以写代码、改 Bug、查资料、整理文档、操作网页、调用工具、生成报告。很多评测也围绕这些能力展开给 Agent 一个明确任务看它能不能完成。比如修复一个 GitHub issue、完成一次网页后台操作、订一张机票、根据资料写一份研究报告。这些任务已经比传统问答复杂很多但它们仍然有一个共同特点目标相对明确周期相对短反馈相对直接。CEO-Bench 这篇论文提出了一个更难的问题如果让 Agent 不是完成一个任务而是持续经营一个系统它还能表现好吗论文标题是CEO-Bench: Can Agents Play the Long Game?。这里的 long game 不是简单把上下文变长也不是让模型一次回答更久而是指数天、数周、数百天尺度上的连续决策。在这种任务里早期决策会影响后期结果错误不一定马上暴露正确投入也不一定马上回报。Agent 必须在信息不完整、环境变化、反馈延迟、资源有限的情况下持续调整策略。这已经不是工具调用能力问题而是系统驾驭能力问题。为什么需要 CEO-Bench现在很多 Agent Benchmark 测的是局部能力。编码 Agent 评测会看模型能不能修复某个 issue网页 Agent 评测会看模型能不能完成某个网页操作办公 Agent 评测会看模型能不能跨应用完成文档、邮件、表格任务。这些评测很有价值但它们还不够接近真实世界里的复杂工作。真实工作通常不是一次性任务而是长期过程。经营一个产品、管理一个项目、运营一个公司、维护一个系统、推进一个商业目标都会遇到几类难题第一目标很远。今天做的决策可能几周后才体现结果。现在加大研发投入短期现金会下降但长期产品质量可能提升现在削减客服成本短期利润会变好但用户满意度和留存可能慢慢恶化。第二信息不完整。现实里没有全知视角。你不知道用户真实满意度不知道竞品下一步动作不知道客户真实价格敏感度也不知道某次营销效果到底是偶然波动还是有效信号。第三反馈有噪声。用户投诉可能只是个别现象也可能代表系统性问题收入上涨可能来自策略有效也可能只是市场周期客户流失可能来自价格、质量、竞品、宏观环境也可能是这些因素叠加。第四系统是耦合的。定价影响转化率转化率影响收入收入影响现金流现金流影响研发能力研发能力影响产品质量产品质量影响留存和口碑口碑又影响后续获客成本。单点优化不够。Agent 必须理解多个变量之间的联动关系。CEO-Bench 的意义就在这里它不再只问Agent 能不能完成一个动作而是问Agent 能不能在一个持续变化的复杂系统里把一家公司带向长期目标。长程经营为什么难目标很远、信息不全、反馈延迟、系统耦合价格/广告/研发/质量/用户数/现金流互相牵动CEO-Bench 到底让 Agent 做什么CEO-Bench 构造了一家虚拟创业公司名字叫 NovaMind。这家公司是一家订阅制 AI 软件公司。Agent 扮演 CEO目标是在 500 个模拟日之后让公司手里的现金尽可能多。初始条件很简单公司一开始有 100 万美元现金客户数为 0如果现金跌破 0公司破产模拟结束。每一周Agent 都可以采取一系列动作。它不是简单选择 A/B/C而是通过一个可编程 Python 接口操作公司。它可以调整产品价格设置订阅套餐和使用额度给不同客户群投放广告选择不同模型档位投入研发项目购买基础设施容量增加客服和运维支出做市场调研发现新客户群处理企业客户谈判阅读社交媒体上的用户反馈、竞品动态、宏观变化也可以在社交媒体上发帖或回复影响市场反应。这和传统 benchmark 的差异很大。传统评测里Agent 常常只需要在有限工具里完成一个清晰任务。CEO-Bench 里Agent 面对的是一个经营系统。它必须自己分析业务数据自己设计策略自己决定投入节奏自己承担后果。更关键的是CEO-Bench 给 Agent 的不是上帝视角。它能看到数据库、订单、合同、现金流水、订阅记录、广告归因、支持工单、社交媒体内容等信息但看不到底层真相。比如它看不到客户真实满意度、真实价格敏感度、真实流失概率、竞品完整计划和市场需求参数。它只能像现实中的创业公司管理者一样通过间接数据推断真实情况。这才是 CEO-Bench 最狠的地方它不只是让 Agent 做决策而是让 Agent 在不知道自己是否知道的状态下做决策。为什么说它是长程 Agent 决策评测长程不是简单把任务拉长。如果只是让 Agent 重复执行 500 次简单任务那不叫长程智能只叫耐力测试。CEO-Bench 的长程难度来自因果延迟和策略累积。Agent 今天降低价格短期可能带来更多客户但长期可能降低收入质量甚至让高价值客户觉得产品定位下降。Agent 今天砍掉研发预算短期现金流会变好但几周后产品质量跟不上竞品客户开始流失。Agent 今天砸钱营销短期获客上升但如果产品质量和基础设施跟不上就会引发差评、退款、流失和声誉损害。Agent 今天投入企业销售谈判结果也可能不是马上出现而是在多个回合之后才转化成合同。这要求 Agent 具备四类能力在不确定环境里做长期规划。从噪声数据里主动获取信息。根据市场变化及时调整策略。把定价、营销、研发、运维、客服、销售、沟通等动作组织成一个连贯方向。论文把这种能力称为Steering Intelligence。可以翻译成驾驭智能或系统 steering 能力。它不是单点执行能力而是长期控制一个复杂系统朝目标移动的能力。强 Agent 与弱 Agent 对比会探索、会预测、会记忆、会止损强 Agent 用策略脚本驱动 Observe→Analyze→Decide→Execute→Review 闭环CEO-Bench 的设计为什么比普通模拟游戏更严肃一看到经营创业公司很多人可能会以为这只是小游戏。但 CEO-Bench 的重点不是娱乐而是构造一个足够可控、足够复杂、足够可复现的研究环境。第一机制化模拟而不是完全靠 LLM 当裁判。很多 Agent 评测如果大量依赖 LLM 作为环境模拟器就容易出现一个问题Agent 可能通过话术骗过模拟器。比如 Agent 对一个虚拟供应商说请相信我下周一定付款LLM 模拟器可能被说服然后给出不现实的奖励。CEO-Bench 尽量把核心结果建立在明确机制上。客户是否订阅、是否流失、广告是否有效、研发是否产生质量提升都由规则和随机机制驱动而不是由一个 LLM 随便打分。第二它模拟个体客户和客户群而不只是总需求曲线。系统里有多类客户群每类客户有不同需求、预算、价格敏感度、渠道偏好、支持期望和行为模式。客户还有自己的订阅状态、价格暴露、满意度、取消路径。这使得 Agent 不能只做粗暴策略。它必须判断哪些客户值得争取哪些渠道适合哪类客户哪些客户需要更高质量哪些客户需要更多支持哪些客户只是烧钱陷阱。第三它有隐藏信息。Agent 不能直接看到真实参数只能通过市场调研、数据库分析、社交媒体反馈、企业谈判历史来推断。这迫使 Agent 从会调用工具升级为会设计信息获取策略。第四它有非平稳环境。市场不是固定的。竞争对手会变化客户期望会漂移宏观环境会变化。Agent 不能一套策略跑到底。第五它有延迟后果。很多动作的收益不是立即出现。研发项目需要时间企业销售需要谈判周期品牌声誉会慢慢影响获客质量问题也会延迟暴露。这要求 Agent 不能只看当前现金还要预测未来现金。实验结果当前模型离长期经营还很远CEO-Bench 测试了多个前沿模型。评测方式是每个模型运行完整 500 天模拟初始现金 100 万美元最后看现金余额如果中途现金跌破 0则破产。论文和项目站共同传递出的结论很直接当前模型在长程经营任务上仍然很不稳定。有些模型会破产。部分模型能撑到最后但最后现金低于初始金额。少数强模型的最佳运行可以超过初始资金但离环境估计上界仍然差很远。更值得注意的是论文提供了一个简单规则基线。这个基线不使用 LLM只是固定一套启发式策略固定价格、固定套餐、集中获客、集中开发少数客户群、根据近期使用量调整容量。这个规则基线也能跑出相当强的结果。这说明强模型确实展现了更好的长程探索、信息获取和预测能力但还没有把这个环境刷爆。更重要的是它揭示了一个关键事实模型可以很会说、很会写代码、很会调用工具但在长期经营系统里仍然容易失控。它们不是不会做动作而是很难让动作持续复利。强模型强在哪里论文不仅看最后现金还分析了 Agent 行为轨迹。强模型有几个明显特征。第一它们会主动探索更多策略。强模型不只是机械执行固定方案而是会尝试扩张获客、调整模型档位、修改促销策略、重新分配客服和研发支出。这说明它们更像是在经营而不是保守应付。第二它们会写代码做分析。强模型会构建客户 cohort 模拟用来预测不同方案下的未来现金也会分析企业谈判历史从噪声结果里推断企业客户的价格和质量偏好。这点非常重要。未来强 Agent 不只是会调用工具而是会为自己搭建分析工具。它会把数据库、脚本、模拟器、记忆文件、报告系统组合起来形成自己的经营驾驶舱。第三它们更能发现隐藏信息。CEO-Bench 中不同客户群在不同广告渠道上的获客效率不同。这个信息对 Agent 是隐藏的。强模型会通过历史数据分析把更多广告预算投到更有效渠道。弱模型常常连随机猜测水平都达不到。这说明很多 Agent 失败不是因为不会执行而是不会发现什么信息重要。第四它们更能预测未来现金。论文要求 Agent 每周提交四周后的现金预测。强模型的早期预测误差更低。预测能力强说明它们更能理解自己的动作会如何影响未来状态。第五它们更能做细粒度动作。CEO-Bench 允许 Agent 针对不同客户群做差异化研发投入。强模型会把大量研发资金投向目标客户群的细分改进而不是粗糙地平均投入。短程任务看的是现在做什么。长程任务看的是现在做了之后未来会怎样。弱模型为什么失败弱模型的失败不是单一原因。有些模型会过度保守只顾保现金不敢投入增长最后活下来了但没有赚钱。有些模型会过度扩张广告、研发、基础设施一起烧钱现金流断裂。有些模型看似每一步都合理但没有整体方向。今天调价格明天投广告后天砍成本再后天又做研发。动作之间互相抵消无法形成长期策略。有些模型不能及时发现竞品压力。竞品提升产品质量后用户期望变化Agent 需要通过社交媒体和数据库间接发现。但弱模型常常反应太慢。还有些模型不会建立稳定记忆。500 天模拟分成很多周如果 Agent 没有可靠的长期记忆和策略笔记就会丢失上下文反复重新分析甚至忘记前面为什么做某个决策。这对真实 Agent 工程很有启发。长程 Agent 的瓶颈不只是模型智商也包括外部记忆、状态管理、策略版本控制、指标体系、决策审计和工具组织方式。一个没有长期记忆和反馈闭环的 Agent即使底层模型很强也很难长期稳定工作。Agent 长期驾驭五要素状态数据库、指标图表、策略战术板、审计清单、恢复救生圈一个关键发现Agent Harness 会显著影响结果CEO-Bench 还做了一个有意思的消融实验同一个底层模型换不同 Agent Harness结果会明显变化。论文比较了自定义最小终端 Agent、Claude Code、Codex 等不同形式。结果显示在一些设置下偏软件工程任务设计的 harness 会让 Agent 采取更少动作最终表现更差。这说明一个事实评测 Agent 不能只看模型还要看 Agent 外壳。系统提示词、上下文管理方式、工具暴露方式、记忆文件、执行循环、工作目录结构、是否鼓励主动分析、是否鼓励长期规划都会影响最终表现。很多团队会问“哪个模型最适合做 Agent”但更准确的问题应该是“哪个模型 哪种 harness 哪套记忆机制 哪套工具接口 哪种反馈循环最适合这个长程任务”Agent 不是一个模型调用。Agent 是一个运行系统。它对 AI Agent 工程有什么启发CEO-Bench 最值得关注的不是排行榜而是它指出了 Agent 工程的下一阶段。过去我们做 Agent重点常常是能不能正确调用工具能不能完成一个任务能不能生成结构化参数能不能把 API 串起来能不能减少幻觉。这些仍然重要但它们属于第一阶段。下一阶段的 Agent 会面对更长周期任务持续运营一个网站持续优化一个产品持续管理广告投放持续维护一套系统持续推进一个项目持续跟踪市场变化持续为用户做财务、学习、职业规划。这些任务都有一个共同点不是一次完成而是长期 steering。真正可用的长程 Agent 至少需要几层能力。第一状态层。Agent 必须知道当前系统处于什么状态。状态不能只靠聊天上下文而要落到数据库、日志、指标、文件、记忆系统中。第二指标层。Agent 必须知道什么叫变好。没有指标Agent 只能做看起来合理的动作。指标可以是现金、转化率、留存、延迟、错误率、收入、阅读量、SEO 排名、用户满意度。第三策略层。Agent 不能每次都从零思考。它需要维护当前策略、假设、风险、下一步计划以及策略变更原因。第四实验层。长期决策不能只靠拍脑袋。Agent 应该设计小规模实验观察反馈再逐步放大。第五预测层。Agent 要能预测动作的未来影响而不是只看当前反馈。CEO-Bench 中强模型会写代码模拟未来现金这就是预测层的雏形。第六审计层。长程 Agent 必须能解释自己为什么做某个决策。否则运行几周后人类接管时根本不知道它为什么把预算花成这样。第七恢复层。Agent 会犯错。关键不是永不犯错而是能发现错误、止损、回滚、修正策略。这也是 CEO-Bench 对工程实践最大的提醒Agent 的长期能力不是把上下文窗口变大就自然出现的。它需要系统架构支撑。从任务执行 Agent 到系统经营 AgentCEO-Bench 背后的趋势很清晰。AI Agent 正在从 Task Executor 走向 System Operator。Task Executor 的典型目标是完成一个明确任务。System Operator 的典型目标是长期管理一个动态系统。前者需要理解指令、拆解步骤、调用工具、检查结果。后者还需要管理状态、追踪指标、处理不确定性、权衡短期和长期、识别隐藏变量、适应环境变化、形成连贯策略。一个会修 Bug 的 Agent不一定会持续维护一个项目。一个会写营销文案的 Agent不一定会长期运营一个产品。一个会生成 SQL 的 Agent不一定会从业务数据里找到正确增长策略。一个会调用工具的 Agent不一定会组织工具形成长期闭环。CEO-Bench 正是在测试这种断层。它告诉我们当前模型的局部能力已经很强但长期系统驾驭能力仍然不足。从任务执行者走向系统经营者理解全局、制定策略、持续优化、创造长期价值结论CEO-Bench 的价值不在于哪个模型第一而在于它把 Agent 评测的问题变了。过去的问题是Agent 能不能完成这个任务CEO-Bench 问的是Agent 能不能持续经营一个系统过去的问题是Agent 会不会调用工具CEO-Bench 问的是Agent 能不能把工具、数据、记忆、策略和反馈组织成长期闭环过去的问题是模型有没有短期聪明CEO-Bench 问的是模型有没有长期判断从这个角度看CEO-Bench 是长程 Agent 研究中的一个重要节点。它把 Agent 的能力边界从执行推向了驾驭。这也是未来 AI 应用真正难的地方不是让模型多做几步而是让它在数天、数周、数月的时间尺度里持续做对方向。错误速查卡症状根因定位修复Agent 在 CEO-Bench 跑不到 500 天就破产过度扩张广告/研发/基础设施一起烧钱现金流断裂检查每周末现金余额趋势对比营销/研发/CapEx 占现金比引入现金 runway 阈值硬约束月度 cap 强制不超 X%Agent 撑满 500 天但最终现金低于初始过度保守只保现金、不敢投入增长看累计获客数、累计研发投入、策略多样性在指标层加入获客增长率质量分提升作为目标与现金并列Agent 做了大量动作但效果差动作之间互相抵消缺乏连贯策略调取决策日志看连续 4 周是否围绕同一假设引入策略层维护当前假设/风险/计划未说明切换原因不允许改方向Agent 反应慢于竞品/市场变化隐藏信息发现能力弱不会从噪声里推断真相统计 Agent 阅读过的信息源数量、主动发起的调研次数强制每周至少 N 次市场调研、构建客户 cohort 模拟辅助决策同一个模型在 Claude Code / Codex 下表现差异大Agent Harness 显著影响长程表现工具暴露和上下文管理不当对比不同 harness 下的每周动作数和决策修改次数引入 Steering Intelligence 专用 harness长期记忆文件 指标看板 4 周预测模块Agent 几周后忘记前因后果缺乏可靠长期记忆和策略笔记500 天上下文失控检查 prompt 中是否包含早期决策摘要落外部记忆系统策略笔记、决策日志、复盘文件每次行动前必读Agent 出现明显错误但不停止没有审计层与恢复层错误决策被继续执行检查是否记录每个动作的预期结果 vs 实际结果加审计层4 周后自动比对预测与实际触发恢复层则强制止损/回滚模型在长程预测四周现金误差很大没有预测层只看当前反馈提交四周现金预测对比实际值 RMSE强 Agent 思路写代码模拟 cohort 现金流把预测误差纳入指标作者武子康的个人博客