3B模型逆袭Opus 4.5 + 国产744B开源称王：小模型推理与大模型开源的"双重革命"

同一天，两篇重磅工作震动AI圈——VibeThinker-3B在数学推理上匹敌数十倍参数的旗舰模型，GLM-5.2以99.2的AIME得分登顶开源榜首。这背后折射的是"推理可压缩、知识需覆盖"的深层原理。

2026年6月，AI模型领域出现了两条看似矛盾却又互补的消息。VibeThinker-3B 以仅 3B 参数在数学推理任务上匹敌甚至超越数十倍于它的旗舰模型；而 GLM-5.2 以 744B 总参数在开源模型中登顶。这两者共同描绘了一幅未来图景：推理能力可以被"压缩"到小模型中，而知识广度仍需要大模型来承载。

VibeThinker-3B：小模型的"推理核爆"

VibeThinker 团队提出了一个引人深思的"参数压缩-覆盖假说"（Parametric Compression-Coverage Hypothesis）。该假说认为，可验证推理（如数学证明、代码生成）可以被高度压缩到一个小型"推理核心"中，而开放领域知识和通用能力则需要更广泛的参数来覆盖事实、概念和长尾场景。

实验结果印证了这一假说。VibeThinker-3B 在 AIME26 上获得 94.3 分（使用测试时缩放提升到 97.1），在 LiveCodeBench v6 上取得 80.2 Pass@1，并在未见过的 LeetCode 竞赛题目上达到 96.1% 的接受率——这已经与 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro 等参数量大得多的模型处于同一性能带。更难得的是，它在 IFEval 上的 93.4 分证实，极致的推理增强并未损害模型的指令可控性。

GLM-5.2：国产开源模型的"登顶之战"

与 VibeThinker 的"以小博大"形成有趣对比的是，Z.ai 发布的 GLM-5.2 走的是 MoE 大规模路线——总参数 744B，活跃参数 40B。但二者的目标殊途同归：都在追求特定维度的极致性能。

GLM-5.2 的 benchmark 表现令人振奋：AIME 2026 得分 99.2，超越了 Claude Opus 4.8（95.7）和 GPT-5.5（98.3）；IMOAnswerBench 得分 91.0，同样登顶。在编程方面，SWE-bench Pro 62.1 分虽略低于 Claude 4.8 Opus（69.2），但 Terminal Bench 2.1 的 82.7 分展现了强大的实际操作能力。值得一提的是，GLM-5.2 以完全开源的形式发布，通过 Unsloth 等工具可以在消费级硬件集群上运行。

两条路线，一个未来

VibeThinker 和 GLM-5.2 的组合揭示了AI模型演进的双轨：小模型推理核心处理结构化、可验证的推理任务，部署成本低，响应快；大模型知识引擎应对开放领域、需要广泛背景知识和对复杂工作流的理解。二者不是竞争关系，而是互补关系——正如 VibeThinker 论文所暗示的，未来的最优架构或许是一个小型推理核心加一个大型知识组件，协同工作。

对于开发者和企业来说，这意味着模型选择的自由度前所未有地大：预算有限的团队可以用 3B 模型处理推理类任务，需要深度编程辅助时转向 GLM-5.2 这样的开源顶级模型，而不用被单一服务商的 API 定价锁死。

[关联推荐]

本地LLM微调实战：用0.6B参数模型实现92%分类准确率 — 小模型本地化部署的完整实践教程
Apertus：瑞士推出面向主权AI的完全开源基础模型 — 开源模型生态的最新动态
AI逆合成分析——化学家的"时光机"如何用大语言模型逆向设计分子 — AI在科学领域的深度应用案例