GLM-5.2 与 Claude Opus 4.8 正面较量:成本、速度、质量谁更胜一筹?

发布时间:2026/6/23 12:16:53
GLM-5.2 与 Claude Opus 4.8 正面较量:成本、速度、质量谁更胜一筹? GLM-5.2 与 Claude Opus 对比详情2026 年 6 月 18 日GLM-5.2 刚刚发布这是开源模型能力的又一次重大进步网络上顿时热议纷纷。于是让 GLM-5.2 与 Claude Opus 4.8 进行了一场正面较量使用相同的一次性提示从零开始用原生 WebGL 构建一个 3D 平台游戏。以下是测试后结合基准测试和各方讨论得出的结论。测试结论Opus 为主力GLM-5.2 有价值不会放弃以 Opus 作为主力。在测试中Opus 构建速度更快生成的游戏更完善、更正确并且它能够检查自己的视觉输出而仅支持文本的 GLM-5.2 则无法做到这一点。不过GLM-5.2 也有其独特的价值值得长期保留它是一款真正有能力的模型成本却只是 Opus 的一小部分而且由于它采用开源权重所以始终可以使用。而闭源模型可能会在毫无预警的情况下被停用或限制使用最近 Fable 模型就是一个例子但可以下载的权重不会被拿走。试玩与代码获取现在就可以试玩这两款游戏或者获取源代码GLM-5.2 生成的游戏、Opus 生成的游戏、两款游戏的源代码。两款游戏都是从零开始编写的浏览器游戏没有使用任何游戏引擎或 3D 渲染库如 Three.js。3D 模型是来自 Kenney 的免费 CC0 资产。两者对比情况以下是两者的对比情况实际构建时间GLM-5.2 为 1 小时 10 分 40 秒Opus 为 33 分 30 秒输出令牌数GLM-5.2 为 131,000Opus 为 216,809最大上下文窗口GLM-5.2 是 100 万令牌的 16%Opus 是 100 万令牌的 19%工具调用次数GLM-5.2 为 128Opus 为 153成本GLM-5.2 为 5.39 美元实际计费Opus 约为 21.92 美元估计标价。GLM-5.2 的成本只是 Opus 的一小部分但 Opus 只用了一半的时间就完成了构建并且生成的游戏更加完善。从纸面和网络看 GLM-5.2从纸面上看基准测试显示 GLM-5.2 的性能略逊于顶级闭源模型而网络上的讨论则真假参半。在介绍完游戏测试后将详细分析这些情况。什么是 GLM-5.2GLM-5.2 是 Z.ai 最新的旗舰模型。它采用 MIT 许可证下的开源权重可以下载自行运行也可以通过 Z.ai 的 API 调用。该模型专为长期任务而设计适用于那种需要长时间运行、多步骤的编码智能体工作。它拥有 100 万令牌的上下文窗口并提供两种思考努力级别高High和最大Max这两种级别可以在速度和能力之间进行权衡。注意GLM-5.2 仅支持文本不具备多模态能力。它无法读取图像因此围绕截图或图表构建的工作流程仍然需要像 Claude Opus 这样的模型。Z.ai 认为在相似的令牌使用情况下GLM-5.2 的性能大致介于 Claude Opus 4.7 和 4.8 之间。GLM-5.2 定价和访问方式由于采用开源权重GLM-5.2 的成本很低。通过 API 调用时它的费用只是 Opus 的一小部分如果有相应的硬件还可以免费自行运行。每 100 万令牌的定价供应商文档如下Claude Opus 4.8 输入为 5 美元、缓存读取为 0.50 美元、输出为 25 美元GLM-5.2 输入为 1.4 美元、缓存读取为 0.26 美元、输出为 4.4 美元。在输出令牌方面GLM-5.2 的价格不到 Opus 的五分之一。该模型的权重可以在 Hugging Face 和 ModelScope 上获取采用 MIT 许可证没有区域限制。可以使用 vLLM、SGLang 或 Transformers 等框架在本地部署。实际测试从零开始构建 3D 游戏为了消除各种炒作的影响给 Opus 4.8 和 GLM-5.2 提供了相同的一次性提示从零开始用原生 WebGL 构建一个 3D 平台游戏不使用任何游戏引擎或 3D 库。为何选择此任务模型可以通过零样本学习生成一个美观的着陆页但社区已经普遍认为这并不能很好地测试模型的能力。而用原生 WebGL 构建一个 3D 平台游戏则无法通过一个漂亮的文件来伪造。它具有真正的结构包括 GLB 模型解析器、矩阵和向量数学、GLSL 着色器、骨骼动画、固定时间步长循环、碰撞检测和跟随相机等。这个任务可以同时测试人们争论的两个方面。在多步骤、多层级的构建过程中保持连贯性这是智能体能力的体现而 GLM-5.2 在这方面应该表现出色。确保引擎内部的正确性即那些看起来正常但实际上可能存在问题的部分这需要模型具备推理和判断能力而 Opus 在这方面应该更有优势。将 3D 资产本地打包因此测试的重点是引擎和渲染而不是能否获取模型文件。游戏中的美术资源是人类制作的资产包即 Kenney 的 CC0 平台游戏套件两个模型都得到了相同的文件。每个模型需构建的内容为了完成任务每个模型需要构建以下内容一个原生 WebGL 的 3D 引擎和渲染器不使用 Three.js 或任何其他库一个用于加载提供的 3D 角色和世界模型的加载器一个可以在竞技场中奔跑和跳跃的角色具备重力和碰撞检测一个跟随相机和键盘控制整个游戏可以通过一个命令在浏览器中运行。两个模型大部分都是手动完成构建或者说是通过工具完成包括 GLB 二进制解析器、矩阵和四元数数学、带有 GLSL 蒙皮着色器的 WebGL2 渲染器以及用于防止角色穿过平台的子步长 AABB 碰撞检测。两个模型得到了相同的提示、相同的资产并且只有一次尝试机会没有任何提示。将 Opus 4.8 的思考级别设置为高将 GLM-5.2 的思考级别也设置为高GLM-5.2 还有一个更高的最大级别没有使用。可以自行查看两个模型的构建过程。构建所需时间和成本Opus 4.8 在 Claude Code 中进行构建GLM-5.2 在 Pi 上通过 OpenRouter 进行构建。时间推移图展示了整个构建过程的压缩情况Opus 完成构建的实际时间大约是 GLM-5.2 的一半而 GLM-5.2 虽然花费的时间更长但成本却低得多。具体数据可以查看文章开头的结果表格。试玩两款游戏从头到尾试玩了两款游戏两款游戏都是第三人称 3D 平台游戏控制方式相同。可以使用 WASD 键或方向键移动空格键跳跃Shift 键冲刺通过拖动鼠标旋转相机使用鼠标滚轮缩放。游戏目标也相同收集平台上的硬币到达旗帜处避开尖刺陷阱从世界边缘掉落会让你回到起点。GLM-5.2 生成的游戏表现GLM-5.2 生成的游戏看起来有些粗糙。从试玩过程中可以看出整体效果不佳角色缺少一些材质尖刺陷阱无法杀死角色到达旗帜处没有任何反应没有获胜条件。不过它也有一个亮点弹簧机制。可以跳到弹簧上然后被发射到下一个平台。Opus 生成的游戏表现Opus 生成的游戏更加完善玩起来也很流畅。从试玩过程中可以看出相机和控制器工作正常尖刺陷阱可以杀死玩家逻辑正确。不过尖刺陷阱位于关卡的一侧不在主要路径上所以需要特意去触碰它整体效果良好可以到达旗帜处并获胜有真正的获胜条件。游戏中的动画效果看起来很好运行流畅纹理也应用得当。每个模型如何检查自己的工作两个模型都被要求在完成任务之前验证自己的工作。智能体常用的一种验证方法是对最终产品进行截图然后查看截图以确保没有任何问题或缺失。Opus 在构建过程中正是这样做的。GLM-5.2 在这里遇到了问题因为它无法读取图像不具备多模态能力。因此它只能采用一种不太可靠的方法编写脚本来读取原始像素数据并检查颜色是否大致符合预期。为何 GLM-5.2 的自我检查没发现问题由于无法查看保存的截图GLM-5.2 试图通过读取像素来验证帧。它最终报告中的一段摘录通过采样颜色来“分析”保存的图像final_start/overview/flag.png 颜色分析草绿色、土褐色、金币金色、旗帜红色、角色蓝灰色、半兰伯特光照无黑色。它预期的颜色都存在因此确认游戏已完成并停止构建。但从它自己的最终截图中可以看到角色是纯灰色的缺少纹理而且调试覆盖层仍然显示在画面上。一个能够真正查看截图的智能体很可能会发现这些问题并返回去进行修复。在有视觉结果的任务中能够理解图像的模型相比不能理解图像的模型具有明显的优势。Opus 如何检查自己的工作Opus 具备多模态能力因此可以直接读取截图。它的框架渲染了游戏并捕获了一帧Opus 在验证过程中检查了这张图像。它的会话记录中的一段摘录描述了它看到的内容最终场景渲染正确顶部为草地的方块侧面为土褐色楼梯向上延伸金/银币和宝石右侧岛屿上的蓝色尖刺方块陷阱顶部目标处的红色旗帜角色 [...] 站在起始广场上还有得分 HUD。光照和阴影效果正确几何形状清晰。由于能够看到画面Opus 注意到了屏幕上残留的调试读数并在完成之前将其清除。两款游戏的问题两款游戏都存在一些问题。GLM-5.2 生成的游戏问题GLM-5.2 生成的游戏问题频繁且明显其中一些是根本性的问题。角色朝向错误角色行走方向正确但模型始终向后缺少纹理和头部消失角色渲染为纯灰色没有纹理并且相机移动时头部会消失。Kenney 模型指向一个单独文件中的共享调色板而不是将其嵌入GLM-5.2 的渲染器从未加载该文件因此只能使用纯色。Opus 加载了调色板因此其角色有纹理尖刺陷阱无法杀死角色角色直接落在尖刺陷阱上但没有任何反应既不会死亡也不会重置。Opus 生成的游戏问题Opus 生成的游戏问题较少且不那么明显多为边缘情况而非基本功能的问题。可以站在空气中角色可以站在平台旁边的半空中而不会掉落。这是它的“土狼时间”缓冲期即在离开边缘后仍可跳跃的短暂时间但设置得过于宽松。这是一个稍微过度实现的优化功能并非基本功能的问题过早触发获胜条件角色还离旗帜很远时就触发了获胜条件。测试结果总结两个模型都在一次尝试中从零开始构建了一个完整的、可运行的 3D 平台游戏没有使用任何引擎和 3D 库。这是一个很高的标准就在不久前它们都还无法达到这个水平。以下是它们的表现对比GLM-5.2 速度慢、质量粗糙、成本低花费的时间是 Opus 的两倍多生成的游戏质量粗糙大部分问题都是根本性的但成本只有 Opus 的五分之一Opus 速度快、质量好、成本高只用了一半的时间就完成了构建生成的游戏更加完善、正确问题多为边缘情况而非基本功能的问题但成本大约是 GLM-5.2 的四倍多模态能力的优势Opus 能够读取图像因此它的自我检查可以查看渲染后的游戏画面并发现视觉问题。而 GLM-5.2 仅支持文本它通过数字进行验证从未发现角色是灰色的也没有发现调试覆盖层仍然显示。在视觉任务中这就是发现问题和忽略问题的区别。一次游戏测试只是一个数据点下面的基准测试将从更广泛的角度测试相同类型的能力。基准测试Z.ai 在发布 GLM-5.2 时在其模型卡片上公布了这些基准测试数据。每行中的最佳结果用粗体表示。ArtificialAnalysis 进行的独立测试结果与上述数据大致相符智能指数 v4.1 为 51领先的开源权重模型MiniMax-M3 为 44DeepSeek V4 Pro 为 44Kimi K2.6 为 43终端基准测试 v2.1 为 78%模型卡片上的数据为 81 / 82.7使用的框架不同每个任务的输出令牌数约为 43kGLM-5.1 为 26k。这些数据与测试结果一致GLM-5.2 在开源权重模型中处于领先地位在推理能力方面与其他模型不相上下但 Opus 在大多数编码和智能体能力测试中表现更优。每个基准测试的衡量内容这些基准测试涵盖了三个领域。推理能力通过高难度的数学和科学考试进行测试包括 HLE人类最后考试包含数千个跨多个学科的专家级问题难度极高。“使用工具”行表示在考试中允许使用网络搜索和代码、AIME 2026美国高中数学竞赛难度较大、GPQA-Diamond研究生级别的科学问题设计目的是无法通过快速搜索回答、IMOAnswerBench数学奥林匹克风格的问题根据最终答案评分编码能力通过修复代码中的问题和构建完整项目进行测试包括 SWE-bench Pro修复实际代码库中的真实问题通常需要对多个文件进行更改、NL2Repo根据单一书面规范构建一个完整的、可运行的代码库、DeepSWE在无网络的沙盒容器中进行智能体软件工程任务、ProgramBench仅根据编译后的二进制文件和文档重建一个完整的程序不提供源代码或规范、Terminal Bench 2.1通过真实终端完成任务两行分别使用固定框架Terminus-2和每个模型的最佳框架、SWE-Marathon二十个超长期的工程任务每个任务需要运行数小时智能体能力通过调用和链接真实工具进行测试包括 MCP-Atlas针对真实 MCP 服务器运行工具使用任务每个任务需要多次工具调用、Tool-Decathlon跨多个真实应用的长期任务每个任务需要一系列工具调用。各方评价基准测试和自己的测试是一回事网络上的反应则是另一回事。很多评价都是来自没有可靠记录的账号的炒作因此只参考了那些长期以来判断准确的个人和团体的意见。Simon Willison“可能是最强大的仅支持文本的开源权重大语言模型”多年来Simon Willison 几乎对每一个重要的模型发布都进行了详细报道。他称 GLM-5.2 为“可能是最强大的仅支持文本的开源权重大语言模型”。他的标准测试是要求模型生成一个鹈鹕骑自行车的 SVG 图像。GLM-5.2 返回了一个完全动画化且没有任何问题的图像他称这“非常令人印象深刻”。在另一个测试中生成负鼠骑滑板车的图像时GLM-5.2 的表现不如上一个版本的 GLM-5.1。因此它虽然强大但表现并不稳定。Artificial Analysis顶级开源模型但令牌消耗大独立基准测试机构 Artificial Analysis 将 GLM-5.2 评为其智能指数中领先的开源权重模型。它的得分是 51超过了 MiniMax-M3、DeepSeek V4 Pro 和 Kimi K2.6并且在成本与智能的权衡中是该水平下最便宜的模型。他们也指出了测试中遇到的问题GLM-5.2 令牌消耗大。每个任务大约使用 43k 输出令牌其中大部分用于推理比他们测试的其他领先开源模型都要多。Nathan Lambert开源和闭源模型的差距正在缩小Nathan Lambert 在艾伦人工智能研究所专门研究开源权重模型。他观察了 GLM-5.2 在 LMArena 排行榜上的表现后认为“可以说它的智能体能力比 Gemini 更强”并称这对于一个采用 MIT 许可证的开源模型来说是“一项了不起的成就”。他更广泛的观点是中国的实验室在计算资源远少于美国的情况下取得了这些成绩不应被忽视尽管美国的顶级模型总体上仍然领先。这与测试结果相符在测试中 Opus 表现更优但 GLM-5.2 的表现比其价格和开源性质所暗示的要更接近 Opus。总结那么关于 GLM-5.2 的炒作是真的吗大部分是真的。GLM-5.2 是一款真正强大的开源模型成本只是 Opus 的一小部分。对于很多工作来说这种性价比很难被超越。但它毕竟不是 Opus。在测试中Opus 速度更快生成的游戏更完善、更正确并且能够通过查看画面来检查自己的工作。而 GLM-5.2 成本低得多但质量粗糙并且仅支持文本。如果成本和开源性很重要并且工作主要涉及文本和逻辑那么可以使用 GLM-5.2。如果正确性、完善度和视觉判断很重要并且愿意为此付费那么应该选择 Opus。无论如何都应该将 GLM-5.2 纳入考虑范围它是少数不会被供应商拿走的前沿模型之一。