AlphaFold 数据库新增 3000 万个蛋白质复合体:四巨头联手绘制生命互作图谱

EMBL-EBI、Google DeepMind、NVIDIA 和首尔国立大学四方联手,将 3000 万个 AI 预测的蛋白质复合体结构注入 AlphaFold 数据库,其中 170 万高置信度同源二聚体已面向全球开放。这是迄今最大规模的蛋白质互作数据集。
蛋白质很少单独工作。在细胞这个拥挤的分子都市里,绝大多数蛋白质通过形成多亚基复合体来完成功能——从 DNA 复制的复制体(replisome)到基因转录的起始复合物,从核糖体这个有 80 多种蛋白质构成的翻译工厂,到细胞膜上密密麻麻的受体-配体对。要理解生命,只看单个蛋白质的结构是远远不够的,必须绘制蛋白质之间的相互作用图谱。
2026年,这一目标向前迈出了革命性的一步。
四巨头合璧:EPIC 速度的联合计算
欧洲生物信息学研究所(EMBL-EBI)牵头发起了一项史无前例的合作——Google DeepMind 提供 AlphaFold AI 系统基础,NVIDIA 提供前沿 GPU 基础设施和推理管线加速,首尔国立大学 Steinegger 实验室开发加速多序列比对的方法学。四方分工明确,目标一致:一次性完成 3000 万个蛋白质复合体的结构预测,并全部免费开放。
这 3000 万个预测如果用常规计算资源分散完成,预计需要约 1700 万 GPU 小时——相当于约 2000 张 A100 GPU 不间断运行一整年。NVIDIA 的加速基础设施将这一时间压缩到了可实际执行的尺度,使得「一次性计算、全球共享」成为可能。
打开黑箱:从单体到复合体
AlphaFold 数据库此前已经收录了超过 2 亿个单体蛋白质的结构预测。但从单体到复合体,不是简单的 1+1:
- 同源二聚体(两条相同蛋白质链的复合体):此次新增 170 万个高置信度预测直接上线,另有 1800 万个较低置信度预测供批量下载
- 异源二聚体(两条不同蛋白质链的复合体):近 8 万个高置信度预测已上线,另有 810 万个供下载
预测蛋白质复合体的技术难度远高于单体。蛋白质在相互作用时会经历构象变化——用「握手」来类比,单体结构只是「手静止时的形状」,而复合体结构是「握在一起时两只手的形状」。在输入层面,需要对两条链同时进行多序列比对,配对(pairing)的正确与否直接影响预测质量。Steinegger 实验室开发的加速 MSA 方法正是攻克了这一计算瓶颈。
应用场景:为什么复合体数据如此关键?
药物发现:大多数小分子药物的靶点是蛋白质上的结合口袋(binding pocket),而这些口袋往往形成于蛋白质-蛋白质相互作用界面。拥有复合体结构可以帮助药物化学家精确设计能阻断异常相互作用的分子。例如,癌症中 MDM2-p53 的异常结合阻止了 p53 的抑癌功能——针对这个 PPI 界面的药物设计直接依赖复合体结构。
致病突变解读:临床上大量发现的错义突变(一个氨基酸被另一个替代)位于蛋白质相互作用界面上。有了复合体结构,可以快速判断一个突变是破坏了哪个蛋白质伙伴的结合,从而解释致病机制。
宿主-病原体互作:数据集优先覆盖了 WHO 优先病原体清单,意味着研究者可以直接查询新冠病毒蛋白与人类受体蛋白的预测复合体结构,为广谱抗病毒药物和疫苗设计提供直接的结构依据。
开放科学的又一座里程碑
正如 EMBL-EBI 荣誉退休主任 Janet Thornton 爵士所言,这是「迈向全面描述人类相互作用组(interactome)的第一步」。AlphaFold 数据库自上线以来已服务全球 190 个国家的 340 多万用户——在开发者和基础设施提供者的共同努力下,蛋白质结构预测正从少数实验室的「奢侈品」转变为全球科学家的「公共品」。
从 AlphaFold2 解决单体折叠问题(2020年),到 AlphaFold3 预测复合体和配体相互作用(2024年),再到 3000 万个复合体数据库上线(2026年)——以大约两年的节奏迭代,AI 正在以指数级速度改写我们对生命分子世界的认知图景。
[关联推荐]
- AlphaFold 3的76%准确率:从结构预测到药物发现引擎的跨越 — 理解 AlphaFold 的技术演进路线
- 从 AlphaFold 到可编程蛋白质设计:生成式 AI 改写生命的分子编程 — 从预测到设计的范式转变
- AlphaFold 4 攻克跨膜蛋白:AI 解开药物设计最大难题 — 最新的 AlphaFold 技术进展