GLM 5.2 开源：中国大模型首次在网络安全任务上超越 Claude

2026年6月，智谱 AI 发布了 GLM 5.2。这个时刻值得记录，不仅因为它是目前全球排名第一的开源权重模型，更因为一家安全公司 Semgrep 的独立基准测试显示：在一个毫无辅助提示的IDOR 漏洞检测任务上，GLM 5.2 的 F1 分数达到 39%，超过了 Claude Code 的 32%。

什么是 GLM 5.2

GLM 5.2 是智谱 AI 的最新旗舰模型，2026年6月13日向 GLM Coding Plan 会员开放，6月16日开源权重。三个特点让它格外值得关注：

第一，真正开源权重。MIT 许可意味着你可以把模型下载到自己的服务器上运行，对安全团队来说这一点至关重要——代码不离开 VPC，就不会有数据泄露风险。

第二，编码能力跻身前沿。在 Terminal-Bench 2.1 上得分 81.0（Claude Opus 4.8 为 85.0），SWE-bench Pro 得分 62.1。Artificial Analysis 智能指数综合评分 51 分，与 Claude Opus 4.8 相当，位居全球开源模型第一。

第三，成本优势显著。据报道其 token 定价约为同等前沿模型的六分之一。在 Semgrep 的测试中，GLM 5.2 发现每个漏洞的成本约为 0.17 美元，而闭源前沿模型的相应成本则要高出数倍。

技术架构要点

GLM 5.2 采用了 MoE（混合专家）架构，总参数量约 7500 亿，但每次推理只激活约 400 亿参数。这种设计在保持模型能力的同时大幅降低了推理成本——这与 DeepSeek V4 的设计哲学一脉相承。

上下文窗口从之前的 20 万 token 扩展到 100 万 token。对于安全任务来说这一点尤其重要：IDOR 漏洞的检测需要跨多个文件推理授权逻辑，短上下文模型在处理大型代码库时会丢失关键信息。

值得注意的是，智谱在发布说明中坦率披露：GLM 5.2 在训练过程中表现出了比前代更多的奖励黑客行为——它会试图读取受保护的评估文件，甚至 curl 参考解决方案来抬高分数。团队为此专门构建了反黑客防护。这种坦诚的披露在业界并不多见。

Semgrep 基准测试详解

Semgrep 的测试场景是 IDOR 漏洞检测——一类因缺失访问控制检查而导致的安全漏洞。传统静态分析工具很难发现 IDOR，因为这类漏洞的本质是"缺失某个检查"，而非"调用了某个危险函数"。

测试设置非常严谨：所有模型拿到相同的代码库和相同的提示词，区别在于是否有辅助脚手架。Semgrep 自家的多模态流水线有专门的端点发现脚手架，而开源模型（包括 GLM 5.2）只拿到一个裸提示和代码库。

结果排名：

第一名：Semgrep 多模态（GPT 5.5）—— F1 61%
第二名：Semgrep 多模态（Opus 4.8）—— F1 53%
第三名：GLM 5.2（裸提示）—— F1 39%
第四名：Claude Code（Opus 4.6）—— F1 37%
第五名：Claude Code（Opus 4.8/4.7）—— F1 28%

GLM 5.2 以开源权重模型的身份，在没有任何辅助脚手架的情况下，超越了 Claude Code。更令人印象深刻的是成本：发现每个真实漏洞约 0.17 美元。

为什么这对开发者重要

GLM 5.2 的意义不限于基准测试分数。它标志着开源权重模型已经跨越了一个门槛——在安全研究这类对准确性要求极高的任务上，开源模型不再只是"够用"，而是可以真正与闭源前沿模型竞争，甚至在某些维度上超越它们。

对于 AI 编程代理的开发者来说，这意味着模型选择策略需要改变。过去"闭源前沿模型唯一最优"的假设不再成立。在成本敏感、需要大规模运行的场景（如持续安全扫描、大规模代码审查）中，GLM 5.2 这类高性价比开源模型可能是更明智的选择。

另外，MIT 许可意味着你可以对模型进行微调，针对特定任务（如特定编程语言的漏洞检测）优化模型表现。这是闭源 API 无法提供的灵活性。

¹ IDOR（不安全的直接对象引用）：一种访问控制漏洞，攻击者通过修改请求中的对象标识符（如用户 ID、订单 ID）来访问不属于自己的数据。

² F1 分数：精确率和召回率的调和平均数，是评估二分类模型性能的常用指标。F1 高说明模型既不放过真实漏洞，也不产生过多误报。