Apertus:瑞士推出面向主权AI的完全开源基础模型

由Swiss AI Initiative主导、EPFL和ETH Zurich联合开发的Apertus模型正式发布。完全开源涵盖训练数据、代码、权重和方法论,满足EU AI Act合规,支持1000+种语言。
在 HN 获得 478 点热度的 Apertus 项目,代表了一种与"闭源大模型"截然不同的 AI 发展路线。它不仅仅是开放模型权重,而是将 AI 模型的整个生产链路——从训练数据到方法论——全部公开。
什么是"完全开源"AI 模型?
目前业界所说的"开源 AI"往往只是开放模型权重(如 Llama 系列),训练数据和方法论并不公开。Apertus 将开源提升到了新高度:
- 训练数据:完全公开,可审计、可复现
- 训练代码:开源,任何人可审查和改进
- 模型权重:开放下载,可用于商业和非商业用途
- 训练方法:完整文档化,包括超参数、训练策略等
- 对齐原则:公开 AI 安全对齐的设计理念和实现
这种"端到端开源"的方式使模型完全可复现——给定相同的训练数据和代码,理论上可以训练出相同的模型。这在当前 AI 领域极为罕见。
主权 AI:为什么重要?
"主权 AI"(Sovereign AI)是近年来备受关注的概念,其核心是国家或地区对 AI 技术栈的自主可控。这包括:
- 模型自主:不依赖单一商业公司的 API(如 OpenAI、Anthropic)
- 数据自主:训练数据不被外部实体控制或审查
- 基础设施自主:拥有训练和推理所需的算力资源
- 法规合规:满足本国或本地区的法律法规要求
Apertus 正是在这一背景下诞生的。由瑞士的顶尖学术机构(EPFL、ETH Zurich)和超算中心(CSCS)联合开发,Swisscom 作为战略合作伙伴,确保了从研究到部署的完整主权链路。
EU AI Act 合规设计
Apertus 的一个关键差异化优势是从设计上满足 EU AI Act 要求:
- 尊重 Opt-out:数据集中尊重内容所有者的退出选择
- PII 移除:训练前清除个人身份信息
- 防止记忆:技术手段防止模型逐字复现训练数据
这使得在欧洲市场部署 Apertus 的合规成本显著低于使用非合规的开源模型。
模型规格
Apertus 提供两种参数规模:
- 8B 参数:适合边缘部署和中等规模推理
- 70B 参数:适合高性能推理场景
两种规模均在同等参数量级的开源模型中具有竞争力。更引人注目的是,Apertus 从第一天起就支持 1000+ 种语言的训练,这远超大多数主流模型的语言覆盖范围。
"完全开源"的挑战
虽然 Apertus 的完全开源理念令人钦佩,但也面临实际挑战:
- 数据版权:公开训练数据可能涉及版权问题,需要严格的数据清洗和 opt-out 机制
- 隐私风险:即使移除了 PII,大规模数据集中仍可能存在间接识别信息
- 恶意利用:完全开源的模型可能被用于训练有害的衍生模型
- 复现成本:虽然代码和数据公开,但训练 70B 模型需要大量算力,普通机构难以完整复现
对行业的影响
Apertus 代表了一种趋势:学术界和公共机构正在挑战商业 AI 公司的主导地位。与 Meta 的 Llama(开放权重但闭源数据)不同,Apertus 的完全开源模式为研究社区提供了前所未有的透明度。
对于需要高度合规和自主可控的场景——如政府服务、医疗、金融——Apertus 提供了一个值得考虑的替代方案。它的 EU AI Act 合规设计也为在欧洲运营的组织降低了法律风险。