
2026年春节API7.ai创始人温铭团队在Apache APISIX上撞了一个怎么也复现不了的bug。读了几轮代码无果后他们把问题现象描述给了一个AI Agent——不到10分钟仅靠静态代码分析和现象描述Agent就准确指出了问题所在。那一刻真的把我惊艳到了。温铭在InfoQ上发表的文章中回忆道。但这只是他个人AI实验的序幕。此后一两个月他烧掉了几百亿Token用AI从零重写了一个生产级AI网关AISIX并在公司内部推行了一条颇具争议的规则尽量不手写代码。InfoQ在6月26日发布了这篇题为《烧了几百亿Token我用AI重写了生产级网关总结出6条经验》的长文。以下为转载核心内容并结合我们在Agent、MCP与技能仓库建设中的同类体感做一些延伸讨论。一、AI接管了打字但没接管你脑子里的那张图温铭的第一个判断直接而锋利AI看得到What、能完成How但Why还得人自己来。他解释说你看Apache APISIX看到的是一个成品但它中间的思考过程、概念抽象、架构设计——这些背后的为什么——从来没有被很好地写进任何公开知识库。AI能看懂代码长什么样也能照着写出来但在对Why的理解、判断和抉择上和资深工程师比仍有不小的偏差。“说白了它接管的是打字没接管我脑子里的那张图。”这个判断和我们做Agent Skill Warehouse过程中的体感完全一致。技能仓库里BA-Master、SA-Master、PM-Master这些Skillset真正难的不是让AI写出一份PRD——这件事哪个大模型都能做。难的是让AI在写之前先通过渐进式提问把根目的、异常分支、合规约束逐一澄清形成一份每一行都被验证过的文档。这个过程对应的正是温铭所说的脑子里那张图——它不能靠模型一次生成而是靠人和Agent的多轮交互一步一步收敛出来的。二、禁止手写代码引来的反弹暴露的是组织惯性温铭在公司做了一个决定尽量不手写代码把打字这件事交给AI Agent。反弹最厉害的恰恰是最资深的那批工程师——他们认定vibe coding做出来的只能是玩具。这背后有一个更深的组织命题。温铭观察到反弹大的人往往是那些把自己定位得特别清晰的工程师——“我是前端”“我是后端”。一旦你把自己框死在某个角色里AI这种能轻松打破边界的工具反而会让你不适应。他举了自己的例子一个基本没写过前端的人靠说清楚配色、CDN、移动端适配这些评判标准就能做出还不错的Dashboard。“这对产品的定义和迭代来说是个很不一样的视角。”我们在推广Agent Skill Warehouse的过程中遇到的是同一类问题。不是技术问题——是领地意识问题。BA习惯了自己写PRD、SA习惯了自己画架构图、PM习惯了自己排期。当一套Agent Skillset能把BA的需求澄清、SA的七维度架构确认、PM的跨角色编排做成标准化能力时第一反应往往不是太好了而是那我的价值在哪。温铭给团队的建议值得参考你可以不同意但请用最好的大模型放手让它去做——这样你才知道它的边界在哪。三、是玩具还是生产级这条线画在人身上经常有人问我哪些代码能交给AI哪些不能我觉得这个问题本身就问偏了。温铭说比起区分代码类型更核心的标准是——指挥AI的这个人对架构、代码、测试有没有清晰的理解对把东西推上生产有没有一颗敬畏之心他给自己定了一条原则这个决定你要是看不懂那就一定别做。因为哪怕AI的决策正确率达到85%到90%剩下那10%也足以让整个项目的质量大幅下降。这恰好解释了为什么Skill不能只是一段增强提示词。在Agent Skill Warehouse的实践中一个合格的Skill必须有四层结构指令层决定何时触发知识层提供执行上下文执行层做确定性校验评测层闭合反馈。其中最关键的是评测层——每个测试用例跑两遍一遍带Skill、一遍不带用数据回答这个Skill到底有没有用。温铭说的敬畏之心在Skill层面对应的就是这套对照评测机制不是凭感觉说AI变强了而是拿证据说话。四、AI写的代码得再用一个AI去review——治理需要闭环温铭团队的做法是用Claude Code写写完之后冷启动一个全新的、独立的AI Agent去审计PR同时再用CodeRabbit和GitHub Copilot做第二层。AI写出来的代码至少要换一个不同的AI去review。这恰好是我们在技能仓库治理中反复强调的审计闭环逻辑。Uber在Agent身份治理上的实践给出了一个方向通过参与者链让每一次工具调用都可追溯到谁最初发起、中间经过了哪些Agent。把这个思路平移到Skill层面——当Agent通过Skill A调用Skill B时授权决策应该能追溯整个链原始用户→Agent→Skill A→Skill B每一层的权限应该逐级收窄而非逐级放大。温铭用AI审AI保证代码质量我们主张用Skill的声明边界与执行轨迹的自动化比对保证能力治理——本质上是同一件事在AI加速的系统中人的肉眼已经追不上产出的速度了必须把治理本身也自动化。五、为什么需要一个新的AI网关基础设施的逻辑变了文章后半段温铭解释了为什么要从零重写一个AI网关AISIX而不是在Apache APISIX上加插件。两年前他们尝试用APISIX的插件体系代理AI流量——限流限速、负载均衡、fallback、身份认证看起来API流量和AI流量没什么不同。但做着做着就发现核心概念根本不一样API网关的核心是路由、Service、ConsumerAI流量的核心是LLM Provider、虚拟API Key、模型合议、语义路由。硬套进去不是不能做是不自然。于是他们用Rust从零写了AISIX把各家大模型收在一个统一API后面把token计量、成本控制、多模型负载均衡与fallback、prompt层面安全、流量可观测全部内建到网关里。选Rust的理由也很实在——AI流量大量是长连接的流式输出需要一个没有GC停顿、单请求开销低、延迟可预测的运行时。这个决策逻辑和我们反复强调的技能仓库为什么不能是一堆SKILL.md文件的共享盘如出一辙。当Agent数量从几个膨胀到几十个当Skill从十几条涨到上百条你会撞上同样的问题旧基础设施的核心概念兜不住新场景的真实需求。技能仓库需要的不只是文件存储而是版本化管理、可评测的通过率数据、权限策略的逐级传播、执行轨迹的审计闭环——这些能力靠加个目录或写个插件是加不出来的必须重新设计基础设施的底层概念。六、从网关到仓库AI基础设施的两块拼图温铭在文中画了一条个人进化曲线第一阶段堆框架各种harness和skill集合第二阶段扔掉框架、把自己的经验沉淀进一个百行左右的agents.md第三阶段从上瘾式编码转向高质量决策——并行五六个任务一天做四五十个决策把精力压在上午到下午三四点之间晚上和周末尽量不碰AI。“烧1亿还是100亿token真不是关键。关键是两件事你的经验有没有沉淀进那个md文件你的高质量决策能不能高效地做出来。”这段话恰好揭示了AI网关和技能仓库之间的互补关系。网关管的是流量的入口——模型调度、成本控制、安全防护、可观测仓库管的是能力的出口——Skill的发现、评测、权限、生命周期。两者叠加才构成企业AI基础设施的完整轮廓流量进入网关被路由、计量、保护能力从仓库加载被Agent按需发现、按策略调用、按证据审计。温铭说AI的能力早就溢出了跟不上的是人。我们想补充的是让人跟上的方式不是让每个人变得更聪明而是把人的经验结构化为Agent可以加载的Skill把治理逻辑编码为平台自动执行的策略把脑子里的图变成可复用、可迭代的工程资产。让人从重复决策中抽身聚焦那些真正需要人类判断力的Why——这才是Agent基础设施的意义。转载说明本文核心内容转载自InfoQ 2026年6月26日发布的《API7.ai创始人温铭烧了几百亿Token我用AI重写了生产级网关总结出6条经验》作者温铭。本文在转载基础上结合Agent Skill Warehouse在Agent治理、MCP协议落地与技能仓库建设中的实践经验做了延伸讨论。参考资料API7.ai创始人温铭烧了几百亿Token我用AI重写了生产级网关总结出6条经验 - InfoQAPI7.ai 官网Apache APISIXAgent Skill Warehouse