🧬 AlphaFold 深度学习

面向个人自学的结构生物学 + AI 路线:先懂「为什么要预测结构」,再拆解 AlphaFold 2 怎么做到,最后学会读 pLDDT/PAE、查数据库、知道边界在哪里

建议学习顺序(约 2–4 周,业余节奏)

不必一次啃完 Nature 全文。按下面顺序推进,每步都有本站页面或公开工具配合。

  1. 1
    分子生物基础(3–5 天)
    理解 DNA→蛋白质信息流、20 种氨基酸、二级结构(α 螺旋、β 折叠)。
    中心法则 · 氨基酸
  2. 2
    序列比对与 MSA(3–5 天)
    同源序列、空位、共进化——AlphaFold 的第一道输入就来自 MSA。
    序列比对演示(重点看全局比对与共进化概念)
  3. 3
    折叠问题与 CASP(2–3 天)
    阅读本页「折叠问题」Tab;了解 CASP 竞赛如何评价预测方法(GDT_TS、LDDT)。
  4. 4
    AlphaFold 2 架构(5–7 天)
    精读 Jumper et al. Nature 2021 的 Figure 1 与 Methods 概要;配合本页「流程」「架构」Tab。
  5. 5
    读结构、读置信度(3–5 天)
    在 AlphaFold DB 打开一个熟悉蛋白(如胰岛素、血红蛋白),对照 pLDDT 颜色与 PAE 热图。
    → 本页「置信度」「动手实践」Tab
  6. 6
    边界与 AF3(2–3 天)
    弄清预测器 vs 设计器、无序区、复合物;了解 AlphaFold 3 扩展到核酸/配体。
    → 本页「局限」Tab · 站内文章 从 AlphaFold 到可编程蛋白质设计
💡 个人学习技巧:每学一个模块,用「我能用自己的话解释给同学听吗?」自测。 推荐记笔记时画一张「序列 → MSA → 距离约束 → 3D 坐标」的单页示意图,比死记模块名更有效。

为什么需要 AlphaFold?

蛋白质执行细胞里绝大多数工作:催化反应、运输、信号转导、免疫识别。其功能高度依赖三维结构——序列中相隔很远的氨基酸,折叠后可能在空间上相邻并形成活性位点。

一级

氨基酸序列

20 种单体按顺序连接;这是基因翻译的直接产物,也是 AlphaFold 的输入。

二级

局部构象

α 螺旋、β 折叠等规律结构;由主链氢键驱动。

三级

整体折叠

整条链的空间排布;折叠问题主要指预测这一层(AF2 核心)。

四级

多亚基组装

多条链形成复合物;AF2-Multimer / AF3 处理这类问题。

Levinthal 悖论与 Anfinsen 原则

  • Levinthal(1969):若随机搜索构象,100 残基蛋白来不及试完所有可能——说明折叠有快速引导路径,而非暴力搜索。
  • Anfinsen(1972 诺贝尔):在适宜条件下,序列 alone 决定天然结构——为「从序列预测结构」提供理论依据(不含需要分子伴侣/翻译后修饰等例外)。
  • 实验瓶颈:X 射线、NMR、Cryo-EM 昂贵且慢;UniProt 序列数 ≫ PDB 结构数,形成巨大的「序列-结构 gap」。

CASP:结构预测的「奥运会」

Critical Assessment of Structure Prediction 每两年举办,组织者给出未公开结构的序列,各团队盲测。评价指标包括:

  • GDT_TS / TM-score:预测与实验结构的整体相似度(0–1,>0.5 通常认为折叠拓扑正确)。
  • LDDT:局部距离差异检验,与 AlphaFold 输出的 pLDDT 概念相关。

AlphaFold 2 在 CASP14(2020)对多数单结构域蛋白达到实验竞争水平,被视为转折点。

📅 发展时间线

2018 · AlphaFold 1
CASP13;使用距离预测 + 梯度优化,已领先但难泛化。
2020 · AlphaFold 2
CASP14 突破;端到端学习,Evoformer + Structure Module。
2021 · 开源 + AF DB
代码与权重发布;与 EMBL-EBI 发布 ~2 亿预测结构。
2022 · ColabFold
MMseqs2 加速 MSA,个人可在 Colab 免费跑短序列。
2024 · AlphaFold 3
统一预测蛋白-核酸-配体复合物(架构不同于 AF2,需单独学习)。

AlphaFold 2 推理流水线(点击各步)

下面六步是理解 AF2 的主线。不必先懂所有数学,先建立「数据如何流动」的直觉。

📝

输入序列

FASTA

🔍

MSA 搜索

UniRef / BFD

📐

模板检索

PDB 同源(可选)

🧠

Evoformer

48 块 × 迭代

🏗️

Structure Module

IPA 生成坐标

♻️

Recycling

3 轮精炼

互动:共进化 → 接触约束(简化示意)

MSA 中若位置 3 与位置 8 的氨基酸协同变化,它们可能在 3D 结构中靠近。点击下方配对,观察「接触图」高亮。

MSA 列:
残基 i–j 接触强度(示意,非真实计算)

Evoformer:双轨表示 + 交叉注意力

AF2 同时维护两种表示,并在 48 个 Evoformer 块中反复更新:

MSA 表示形状 (N_seq, N_res, C)
多序列比对中的进化信息
Pair 表示形状 (N_res, N_res, C)
残基对关系 / 距离分布
Single 表示形状 (N_res, C)
每个残基的汇总特征
↓ 每个 Evoformer 块内
MSA Stack

Row / Column Attention

沿序列方向与残基方向做注意力,提取共进化与保守模式。

Pair Stack

Triangle Multiplicative Update

利用 (i,k) 与 (k,j) 推断 (i,j) 关系——传播「三角不等式」式几何约束。

Cross

MSA → Pair 外积

把 MSA 信息注入残基对表示,更新距离/取向 logits。

Structure Module(结构模块)

  • 输入 Pair/Single 表示,输出每个残基的刚体框架(旋转 + 平移)及侧链 torsion angles。
  • 核心算子 Invariant Point Attention (IPA):在 3D 空间中做等变注意力,使预测对全局旋转/平移不敏感。
  • 输出全原子坐标(通过残基几何模板 + 扭转角),并计算pLDDT 头。

Recycling(循环精炼)

将上一轮预测的结构特征反馈回 Evoformer 输入,默认循环 3 次。每一轮都在前一轮坐标基础上修正,类似「草稿 → 定稿」。

组件作用学的时候记住
MSA进化约束没有 deep MSA 时精度会掉——小蛋白/新颖家族是难点
Pair 表示残基对「距离分布」相当于学习 contact map + 更远距离
Evoformer约束传播与去噪不是简单 CNN,是图式消息传递
Structure Module坐标生成等变设计保证物理合理性
TemplatePDB 同源结构有高质量模板时通常更准

pLDDT:每个残基有多可信?

pLDDT(predicted LDDT)范围 0–100,是对局部原子位置误差的预期(越高越好)。在 PDB / AF DB 查看器中通常按颜色着色:

示例肽段(10 残基)· 悬停色块看分数
🔵 >90 极高(侧链可信) 🟢 70–90 高(主链可靠) 🟡 50–70 低(谨慎使用) 🟠 <50 很可能无序或错误

PAE:残基对之间的相对位置有多准?

PAE(Predicted Aligned Error)是 N×N 矩阵:元素 (i,j) 表示若对齐残基 i,残基 j 位置误差期望(Å)。

  • 低 PAE(蓝/绿):两个结构域相对位置可信 → 可能是稳定复合物界面。
  • 高 PAE(红/橙):相对取向不确定 → 可能是柔性 linker、无序尾、或应分开建模的结构域。

读结构时:pLDDT 看局部质量,PAE 看结构域组装是否靠谱——两者缺一不可。

互动:PAE 热图示意(10×10)

数字为示意性 PAE(Å)。点击单元格查看解读。

Multimer:ipTM / PTM

预测蛋白复合物时,关注 ipTM(interface TM-score 预测)与 PTM(整体 TM)。ipTM > 0.6 通常表示界面较可信;仍建议结合实验(SPR、Cryo-EM)验证。

第一步:在 AlphaFold DB 查一个已知蛋白

  1. 打开 AlphaFold Protein Structure Database
  2. 搜索 P01308(人胰岛素)或 hemoglobin
  3. 打开 3D 视图:观察 pLDDT 着色——胰岛素 B 链柔性区 vs 核心 β 折叠
  4. 下载 PDB,用 PyMOL / ChimeraX 打开,切换「按 pLDDT 着色」

第二步:用 ColabFold 跑一条短序列

  1. 访问 ColabFold AlphaFold2 notebook(需 Google 账号)
  2. 粘贴 FASTA(建议 <400 残基先试;更短更快)
  3. 运行 MSA + 预测;下载 ranked_0.pdbpae.json
  4. PyMOL 或在线 PAE 查看器对照 JSON
Colab 免费 GPU 有时间限制;超长序列或复合物建议用本地 OpenFold / 机构算力。

第三步:对照实验结构(若有)

RCSB PDB 搜同一蛋白实验结构,用 TM-align 或 PyMOL align 叠合。亲自看 RMSD 比读论文更有体感。

AlphaFold 做不到 / 不应过度解读的事

场景问题建议
内在无序蛋白(IDP)无稳定单一构象,pLDDT 往往很低用实验(SAXS、NMR)或专门 IDP 预测工具
翻译后修饰(磷酸化等)AF2 默认不含修饰建模时手动改残基或用 MD 探索
构象变化 / 动力学只给「一个」静态 snapshot分子动力学、Cryo-EM 多态分析
配体 / 辅因子 / 膜环境AF2 单链不含配体(AF3 部分解决)分子对接 + 实验验证
新颖序列(无 MSA)进化信息不足,精度下降谨慎;参考 pLDDT/PAE,做突变实验
抗体 CDR 环高变区常需专门方法AbFold、IgFold 等专门工具

预测器 vs 设计器(再强调)

AlphaFoldRFdiffusion / ProteinMPNN
问题这条序列会折成什么?我要什么功能/结构,序列应是什么?
输出单一结构预测 + 置信度新骨架 + 序列候选
验证对比实验结构 / pLDDT仍需 AF 验证可折叠 + 湿实验

知识检测(6 题)

选完后显示解析,可反复练习。

核心论文(建议按顺序读摘要 + 图)

  • Jumper J. et al. Highly accurate protein structure prediction with AlphaFold. Nature 2021. — AF2 主论文
  • Varadi M. et al. AlphaFold Protein Structure Database. NAR 2022. — AF DB
  • Abramson J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature 2024. — AF3

术语速查

术语含义
MSA多序列比对;同源序列堆叠,提取共进化
EvoformerAF2 主干网络,更新 MSA 与 Pair 表示
IPAInvariant Point Attention,结构模块中的等变注意力
pLDDT每残基局部置信度,0–100
PAE残基对相对位置误差预期(Å)
Recycling将上一轮结构反馈再预测,默认 3 轮
Template从 PDB 检索到的同源实验结构
CASP盲测结构预测竞赛