
在赢政指数今日Smoke评测中Grok 4材料约束得分从83.00降至61.30下降21.7分代码执行得分从80.90升至100.00。单日得分对比对比昨日与今日数据Grok 4工程判断从55.00升至63.50任务表达从93.00降至86.50主榜整体从81.85升至82.59诚信评级维持pass。材料约束单项跌幅远超其他维度代码执行则达到满分。波动来源分析Smoke评测每日仅10题每维度2题抽签随机性较大。材料约束暴跌可能源于今日题目对来源标注或事实锚定要求更高模型回答出现更多未约束内容导致得分下滑。代码执行满分则显示该模型在今日抽中题目上执行准确率达到100%与昨日80.90形成反差。若将此变化归因于模型真实退化目前缺乏连续多日同维度数据支撑。单日21.7分落差在快测框架下更接近抽签波动区间而非系统性能力下降。是否需要持续关注主榜得分仅上升0.7分材料约束的大幅下滑被代码执行增分部分抵消。短期内此异常对整体排名影响有限但若下一期材料约束仍维持在61分附近则需判断是否存在提示词理解或上下文约束能力的阶段性变化。工程判断与任务表达小幅波动未脱离正常范围诚信评级维持pass未触发准入门槛问题。单日材料约束21.7分落差提醒Smoke快测更适合捕捉即时状态而非作为长期能力定论依据。若后续评测中材料约束持续低于70分建议切换至多日聚合数据再做能力评估。数据来源赢政指数 (YZ Index) | Run #176 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接