
2026年6月15日Smoke轻量评测中Grok 4以主榜82.59分执行100、约束61.3 pass位居11模型首位但其材料约束较前一日暴跌21.7分。执行满分模型的约束短板前八名模型执行维度全部达到100分材料约束却集中在51.3至61.3区间。Grok 4、豆包Pro、GPT-5.5、Qwen3 Max四家执行均为100约束分别为61.3、60.8、60.8、60.3主榜依次82.59、82.36、82.36、82.14。Claude Opus 4.7执行100、约束59.3主榜81.69诚信评级为warn。后三名模型执行仅50分Gemini 2.5 Pro主榜53.38约束57.5、Gemini 3.1 Pro主榜53.06约束56.8、文心一言4.5主榜50.59约束51.3。执行与约束的明显分化导致主榜前八与后三形成30分以上断层。昨日对比下的剧烈波动与昨日数据对比Gemini 3.1 Pro主榜下降39.4分执行下降47.5分、约束下降29.5分。Qwen3 Max主榜上升29.3分但约束下降30.7分。豆包Pro主榜上升23.1分约束下降24分。DeepSeek V4 Pro主榜上升16.2分约束下降39.2分。Gemini 2.5 Pro主榜下降17.2分。材料约束维度出现多起30分以上跌幅Claude Sonnet 4.6下降38.7分、Claude Opus 4.7下降38分、DeepSeek V4 Pro下降39.2分、文心一言4.5下降32.5分。执行维度保持100的模型其约束下滑直接拉低主榜。分数结构差异的直接影响core_overall公式为0.55×执行0.45×约束。执行100的模型约束每下降1分主榜约下降0.45分执行50的模型约束影响权重相对更高。今日前八模型约束中位数约57分后三模型约束中位数约56.8分两组执行差距50分最终主榜差距主要来自执行维度。异常信号集中于材料约束所有11个模型均出现该维度下滑其中10个模型跌幅超过20分。Grok 4尽管仍居首位但约束61.3已接近及格线边缘。执行满分已成标配材料约束正在成为决定排名的关键变量。今日Smoke数据仅反映单日10题快测结果稳定性维度未纳入本次轻量评测。后续观察重点在于各模型约束分数的恢复速度。数据来源赢政指数 (YZ Index) | Run #176 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接