
一开始做AI项目的时候我其实特别在意“能力”。比如这个模型是不是更强回答是不是更聪明能不能处理更复杂的问题那时候的判断很简单能力强 更好用一、第一次让我改变想法的不是“失败”而是“波动”真正开始做项目之后我遇到的不是“不能用”而是有时候很好用有时候又很奇怪比如同一个功能上午测试结果很好下午结果开始变不稳定换个时间又正常最开始我会以为是代码问题。但排查下来很多时候都不是。二、一个很具体的场景我做过一个比较简单的功能自动生成内容摘要刚开始效果很好逻辑清晰输出稳定基本不用改但上线之后开始出现问题有时候摘要很完整有时候会漏掉关键内容有时候甚至风格变化很大最麻烦的是 没有明显报错但体验在变差三、我一开始的处理方式是“追求更强模型”那时候我做的事情很直接换更强的模型调更复杂的 prompt增加限制条件但结果是问题并没有消失只是换了形式出现。四、后来我才慢慢意识到问题在哪真正影响体验的不是“它能不能做好一次”而是它能不能持续保持一致因为用户不会只用一次。比如第一次觉得不错第二次觉得还可以第三次开始觉得不稳定体验其实是在“下降”但不是一下子坏掉。五、我开始重新理解“好用”这件事以前我理解的“好用”是能解决复杂问题能输出高质量结果后来变成是否稳定是否可预测是否不会突然变差甚至可以说稳定性开始比能力更重要六、一个很现实的变化后来我做决策的时候开始变了以前是“哪个更强用哪个”后来变成“哪个更稳定用哪个”有时候甚至会放弃更强的方案选择稍微简单但稳定的方案。七、最后现在回头看我最明显的变化其实不是技术上的而是判断标准变了。我现在更关注的不是它能不能做到最好而是它能不能一直保持“差不多的好”但这个判断我也不确定是不是完全正确。因为有时候“能力上限”也很重要。我有点好奇的是如果是你们做AI项目会更看重“能力上限”还是“稳定输出”或者你们有没有遇到过那种——第一次很好用但越用越不稳定的情况