
30 亿参数的模型能在数学竞赛和编程实战中挑战千亿、甚至万亿参数的旗舰大模型吗微博新开源的 VibeThinker-3B将小模型特定能力维度性能推向了极限。AIME26 拿到 94.3 分配合测试时扩展冲到 97.1 分近期 LeetCode 周赛首过通过率 96.1%。一个 3B 小模型把可验证推理做到接近天花板性能直逼顶尖开源千亿、万亿大模型甚至超越闭源 Claude Opus 4.5。3B 模型刷出顶配成绩VibeThinker-3B 是 VibeThinker 系列在 30 亿参数规模上的最新探索前身 VibeThinker-1.5B 已经在 15 亿参数上做过一轮验证。这次扩到 3B重点放在数学、编程、STEM 这些有明确验证信号的推理任务上。模型走的是 Spectrum-to-Signal光谱到信号后训练范式思路是用课程式监督微调、多领域强化学习和离线自蒸馏把可验证推理推到极致。数学竞赛上的表现最显眼。AIME26 上直接拿到 94.3 分结合 Claim-Level Reliability AssessmentCLR针对答案可验证推理的测试时扩展策略进一步提升到 97.1 分。IMO-AnswerBench 这个包含 400 道 IMO 级难题的高难度基准上单跑得分 76.4加 CLR 后到 80.6。HMMT、AIME 这些传统数学竞赛基准上模型同样表现稳定。DeepSeek V3.2 用 6710 亿参数在 IMO-AnswerBench 上拿到 78.3 分GLM-5 用 7440 亿参数拿到 82.5 分Kimi K2.5 用 1 万亿参数拿到 81.8 分。VibeThinker-3B 的 80.6 分挤进了这个区间参数量只是别人的零头。数学之外编程、知识和指令遵循这几条线VibeThinker-3B 也都表现优异。LiveCodeBench v6 上 Pass1 达到 80.2IFEval 拿到 93.4 分。在多个可验证推理基准上VibeThinker-3B 与 Qwen3.6 Plus、Gemini 3 Pro、GLM-5、Kimi K2.5 这些第一梯队推理模型同台竞争整体进入顶级模型的性能区间。分布外泛化是另一个看点。研究团队在 2026 年 4 月 25 日到 5 月 31 日期间未见过的 LeetCode 周赛和双周赛上做了评估全部用 Python。128 道题首次提交通过 123 道通过率 96.1%。模型不是在熟悉的题库里刷分遇到没见过的真实赛题也能稳定出解。代码能力的迁移性往往比数学题更能说明问题因为题面、约束、数据结构都是新的模型必须真正理解题意才能解出来。训练流程的层层叠加VibeThinker-3B 沿用了 VibeThinker-1.5B 提出的 Spectrum-to-Signal PrincipleSSP光谱到信号原则。核心想法是SFTSupervised Fine-Tuning监督微调阶段构建一个宽泛的合理推理轨迹谱系RLReinforcement Learning强化学习阶段再用可验证奖励把正确信号放大。最先做的是基于课程的两阶段 SFT。前半段覆盖数学、代码、STEM 推理、通用对话和指令遵循这些通用能力后半段切到更难、推理跨度更长的样本。这里用了 Diversity-Exploring Distillation多样性探索蒸馏目的是保留多种有效的解题路径不让模型只学到单一打法。接下来是多领域推理 RL复用了 MaxEnt 引导策略优化MGPO。RL 依次应用在数学、代码和 STEM 任务上全程用单一 64K 长上下文窗口训练把完整的长跨度推理轨迹保留下来。之后是离线自蒸馏。从数学、代码和 STEM 的 RL 检查点里挑出高质量推理轨迹蒸馏回一个统一的学生模型。挑选标准用了 learning-potential score学习潜力评分优先选那些答案正确但学生模型还没充分掌握的轨迹。最后是指令强化学习。前几轮把推理推到极限后这一步专门提升模型在用户提示上的可控性。数据分两类格式敏感指令和开放式指令分别用基于规则的验证器和基于评分标准的奖励模型。模型既会推理也听人话IFEval 93.4 分就是这一步的直接成果。参数压缩与覆盖的边界从 VibeThinker-1.5B 到 VibeThinker-3B团队的目标是沿特定能力维度探索小模型的真实边界。观察这一系列结果他们提出了 Parametric Compression-Coverage Hypothesis参数压缩-覆盖假说。核心观点是不同能力对参数规模的依赖方式根本不同。可验证推理更像一种高度可压缩、参数密集型的能力。它的本质是多步推理、约束满足、自我修正和答案验证这一套循环。任务空间结构清晰反馈信号可靠小模型就有机会逼近前沿水平。数学题做对就是做对代码跑通就是跑通验证信号干净。参数在这里的作用更像把已有潜力放大而不是装下整个世界。开放域知识、通用对话和长尾场景理解则是另一回事。这些能力依赖大规模参数去广泛覆盖事实、概念和世界知识。一个事实没见过就是答不上来长尾场景没训练过就是不会处理压缩不动。参数在这里的作用是存储和检索没有规模就没有覆盖度。假说如果成立小模型和大模型的关系不是替代更像互补。在反馈机制明确的领域SLM小型语言模型是一条独立的前沿路径。压缩型能力和覆盖型能力可能需要不同的扩展策略硬套同一套参数扩展逻辑会两头都不讨好。VibeThinker-3B 划出了一条不同的能力曲线。推理这种结构清晰、反馈可靠的能力即使参数压缩得很狠3B 也能挤进 1T 旗舰的性能区间。知识、对话、长尾理解这类需要广覆盖的能力参数还是绕不过去。这条路线走下去前沿性能未必只能靠堆参数。在能验证的领域把推理做透小模型完全可能成为独立的一极。微博开源 VibeThinker-3B验证了这条路线的可行性社区能不能在它基础上往前再走一步非常值得期待。参考资料https://huggingface.co/WeiboAI/VibeThinker-3Bhttps://github.com/WeiboAI/VibeThinkerhttps://modelscope.cn/models/WeiboAI/VibeThinker-3Bhttps://arxiv.org/pdf/2606.16140