材料约束暴跌39分，赢政指数11模型主榜集体下滑

发布时间：2026/6/15 16:37:05

2026年6月15日Smoke轻量评测中Grok 4以主榜82.59分执行100、约束61.3 pass位居11模型首位但其材料约束较前一日暴跌21.7分。执行满分模型的约束短板前八名模型执行维度全部达到100分材料约束却集中在51.3至61.3区间。Grok 4、豆包Pro、GPT-5.5、Qwen3 Max四家执行均为100约束分别为61.3、60.8、60.8、60.3主榜依次82.59、82.36、82.36、82.14。Claude Opus 4.7执行100、约束59.3主榜81.69诚信评级为warn。后三名模型执行仅50分Gemini 2.5 Pro主榜53.38约束57.5、Gemini 3.1 Pro主榜53.06约束56.8、文心一言4.5主榜50.59约束51.3。执行与约束的明显分化导致主榜前八与后三形成30分以上断层。昨日对比下的剧烈波动与昨日数据对比Gemini 3.1 Pro主榜下降39.4分执行下降47.5分、约束下降29.5分。Qwen3 Max主榜上升29.3分但约束下降30.7分。豆包Pro主榜上升23.1分约束下降24分。DeepSeek V4 Pro主榜上升16.2分约束下降39.2分。Gemini 2.5 Pro主榜下降17.2分。材料约束维度出现多起30分以上跌幅Claude Sonnet 4.6下降38.7分、Claude Opus 4.7下降38分、DeepSeek V4 Pro下降39.2分、文心一言4.5下降32.5分。执行维度保持100的模型其约束下滑直接拉低主榜。分数结构差异的直接影响core_overall公式为0.55×执行0.45×约束。执行100的模型约束每下降1分主榜约下降0.45分执行50的模型约束影响权重相对更高。今日前八模型约束中位数约57分后三模型约束中位数约56.8分两组执行差距50分最终主榜差距主要来自执行维度。异常信号集中于材料约束所有11个模型均出现该维度下滑其中10个模型跌幅超过20分。Grok 4尽管仍居首位但约束61.3已接近及格线边缘。执行满分已成标配材料约束正在成为决定排名的关键变量。今日Smoke数据仅反映单日10题快测结果稳定性维度未纳入本次轻量评测。后续观察重点在于各模型约束分数的恢复速度。数据来源赢政指数 (YZ Index) | Run #176 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

资讯详情

材料约束暴跌39分，赢政指数11模型主榜集体下滑

相关新闻

Grok 4 材料约束暴跌21.7分，代码执行却升至100分

深入解析SoC XBAR从端口：状态机、仲裁与停车模式实战

Visual C++运行库终极解决方案：告别程序无法启动的烦恼

如何用DouyinLiveRecorder一站式录制40+平台直播内容？

PXD10嵌入式开发实战：SRAM ECC安全机制与步进电机SMC驱动详解

DDR3内存接口稳定性：写均衡与驱动校准原理与实战配置

etcd空间满(V3接口）

深入解析NXP LINFlexD模块：LIN总线硬件状态机与寄存器实战指南

VoicePitchAnalyzer声音分析终极指南：3步掌握专业音频特征识别技巧

090、批量任务处理：遍历代码库做统一修改的脚本化方案与质量保障

Java 转大模型开发：后端程序员的升级路线：从踩坑到可复用方案

LangChain 实战指南：从调用模型到构建 AI 应用：一次项目复盘里的真实取舍

视频内容一键保存到Obsidian，搭建本地永久知识库

B站视频怎么转文字稿？AI自动总结要点+生成思维导图教程

别再瞎猜了！用MATLAB Profiler精准定位Simulink仿真性能瓶颈（附详细报告解读）