← 返回内容列表

3B模型逆袭Opus 4.5 + 国产744B开源称王:小模型推理与大模型开源的"双重革命"

3B模型逆袭Opus 4.5 + 国产744B开源称王:小模型推理与大模型开源的"双重革命"

同一天,两篇重磅工作震动AI圈——VibeThinker-3B在数学推理上匹敌数十倍参数的旗舰模型,GLM-5.2以99.2的AIME得分登顶开源榜首。这背后折射的是"推理可压缩、知识需覆盖"的深层原理。

2026年6月,AI模型领域出现了两条看似矛盾却又互补的消息。VibeThinker-3B 以仅 3B 参数在数学推理任务上匹敌甚至超越数十倍于它的旗舰模型;而 GLM-5.2 以 744B 总参数在开源模型中登顶。这两者共同描绘了一幅未来图景:推理能力可以被"压缩"到小模型中,而知识广度仍需要大模型来承载。

VibeThinker-3B:小模型的"推理核爆"

VibeThinker 团队提出了一个引人深思的"参数压缩-覆盖假说"Parametric Compression-Coverage Hypothesis)。该假说认为,可验证推理(如数学证明、代码生成)可以被高度压缩到一个小型"推理核心"中,而开放领域知识和通用能力则需要更广泛的参数来覆盖事实、概念和长尾场景。

实验结果印证了这一假说。VibeThinker-3B 在 AIME26 上获得 94.3 分(使用测试时缩放提升到 97.1),在 LiveCodeBench v6 上取得 80.2 Pass@1,并在未见过的 LeetCode 竞赛题目上达到 96.1% 的接受率——这已经与 DeepSeek V3.2GLM-5Gemini 3 Pro 等参数量大得多的模型处于同一性能带。更难得的是,它在 IFEval 上的 93.4 分证实,极致的推理增强并未损害模型的指令可控性。

GLM-5.2:国产开源模型的"登顶之战"

与 VibeThinker 的"以小博大"形成有趣对比的是,Z.ai 发布的 GLM-5.2 走的是 MoE 大规模路线——总参数 744B,活跃参数 40B。但二者的目标殊途同归:都在追求特定维度的极致性能。

GLM-5.2 的 benchmark 表现令人振奋:AIME 2026 得分 99.2,超越了 Claude Opus 4.8(95.7)和 GPT-5.5(98.3);IMOAnswerBench 得分 91.0,同样登顶。在编程方面,SWE-bench Pro 62.1 分虽略低于 Claude 4.8 Opus(69.2),但 Terminal Bench 2.1 的 82.7 分展现了强大的实际操作能力。值得一提的是,GLM-5.2 以完全开源的形式发布,通过 Unsloth 等工具可以在消费级硬件集群上运行。

两条路线,一个未来

VibeThinker 和 GLM-5.2 的组合揭示了AI模型演进的双轨:小模型推理核心处理结构化、可验证的推理任务,部署成本低,响应快;大模型知识引擎应对开放领域、需要广泛背景知识和对复杂工作流的理解。二者不是竞争关系,而是互补关系——正如 VibeThinker 论文所暗示的,未来的最优架构或许是一个小型推理核心加一个大型知识组件,协同工作。

对于开发者和企业来说,这意味着模型选择的自由度前所未有地大:预算有限的团队可以用 3B 模型处理推理类任务,需要深度编程辅助时转向 GLM-5.2 这样的开源顶级模型,而不用被单一服务商的 API 定价锁死。

[关联推荐]