
最近在研究渗透测试agent前段时间参加了第二届腾讯黑客松拿了个第十九但始终感觉我们做的东西还不够完美最近抽出时间来继续开发把第一绿盟科技的skill直接拿过来用看上去是一套很成熟的skill体系但是用的过程中我感觉到ai变蠢了没错他的每一步命令和思考远远不如codex。做的过程一度有点灰心如果都不如codex做了还有什么意义呢codex破甲又不是什么难事到这里突然醍醐灌顶那为什么不直接向codex学呢来看codex的系统提示词codex——gpt5default.md意外吧他不仅没有给任何安全相关的知识和引导甚至连工具都没有说明但是codex所体现的能力无需我多做描述。这说明一件什么事情我们在给agent套上一层重重的枷锁垂直领域的agent确实需要特定的知识和能力我不否认这一点我想说的是不要让过多设计限制住模型的能力。比如系统提示词没必要告诉他怎么做渗透测试只需要告诉他当前的环境是什么样的他有哪些可用的工具彻底释放模型本身的能力。当然这一点是针对本身能力就足够强的模型。那问题又来了像这样做不是完全依赖模型本身的能力吗所以我觉得一个非常有必要的东西就是观察agent就像人在看codex工作时所参与的无非是两件事纠偏和纠正。那你又凭什么觉得一个ai搞不定的东西另外一个ai能帮他搞定客观一点来说ai在长步骤长上下文近期工具反馈容易出现幻觉和偏移还喜欢钻死胡同主观一点来说确实还在一个探索尝试的阶段目前我只能回答的是这个东西不难加加上的效果不会差。在这个vibe coding的时代想做出一个什么东西不再困难所以我觉得再说自己做了什么什么根本没意义真正有意义的是什么是你做的东西是不是一个好东西。谁都能用ai做点东西出来但大家也知道无脑ai不可能做出来一个好东西要做出一个好东西只能靠大量的实践只有大量的实践你才会知道ai前端写的不协调十有八九是它那个破补丁跟老代码冲突了同样也只有大量的实践你才能培养出敏锐的判断力知道ai给你的东西是不是好东西