建议学习顺序(约 2–4 周,业余节奏)
不必一次啃完 Nature 全文。按下面顺序推进,每步都有本站页面或公开工具配合。
- 1
- 2
-
3
折叠问题与 CASP(2–3 天)
阅读本页「折叠问题」Tab;了解 CASP 竞赛如何评价预测方法(GDT_TS、LDDT)。 -
4
AlphaFold 2 架构(5–7 天)
精读 Jumper et al. Nature 2021 的 Figure 1 与 Methods 概要;配合本页「流程」「架构」Tab。 -
5
读结构、读置信度(3–5 天)
在 AlphaFold DB 打开一个熟悉蛋白(如胰岛素、血红蛋白),对照 pLDDT 颜色与 PAE 热图。
→ 本页「置信度」「动手实践」Tab -
6
边界与 AF3(2–3 天)
弄清预测器 vs 设计器、无序区、复合物;了解 AlphaFold 3 扩展到核酸/配体。
→ 本页「局限」Tab · 站内文章 从 AlphaFold 到可编程蛋白质设计
为什么需要 AlphaFold?
蛋白质执行细胞里绝大多数工作:催化反应、运输、信号转导、免疫识别。其功能高度依赖三维结构——序列中相隔很远的氨基酸,折叠后可能在空间上相邻并形成活性位点。
氨基酸序列
20 种单体按顺序连接;这是基因翻译的直接产物,也是 AlphaFold 的输入。
局部构象
α 螺旋、β 折叠等规律结构;由主链氢键驱动。
整体折叠
整条链的空间排布;折叠问题主要指预测这一层(AF2 核心)。
多亚基组装
多条链形成复合物;AF2-Multimer / AF3 处理这类问题。
Levinthal 悖论与 Anfinsen 原则
- Levinthal(1969):若随机搜索构象,100 残基蛋白来不及试完所有可能——说明折叠有快速引导路径,而非暴力搜索。
- Anfinsen(1972 诺贝尔):在适宜条件下,序列 alone 决定天然结构——为「从序列预测结构」提供理论依据(不含需要分子伴侣/翻译后修饰等例外)。
- 实验瓶颈:X 射线、NMR、Cryo-EM 昂贵且慢;UniProt 序列数 ≫ PDB 结构数,形成巨大的「序列-结构 gap」。
CASP:结构预测的「奥运会」
Critical Assessment of Structure Prediction 每两年举办,组织者给出未公开结构的序列,各团队盲测。评价指标包括:
- GDT_TS / TM-score:预测与实验结构的整体相似度(0–1,>0.5 通常认为折叠拓扑正确)。
- LDDT:局部距离差异检验,与 AlphaFold 输出的 pLDDT 概念相关。
AlphaFold 2 在 CASP14(2020)对多数单结构域蛋白达到实验竞争水平,被视为转折点。
📅 发展时间线
AlphaFold 2 推理流水线(点击各步)
下面六步是理解 AF2 的主线。不必先懂所有数学,先建立「数据如何流动」的直觉。
输入序列
FASTA
MSA 搜索
UniRef / BFD
模板检索
PDB 同源(可选)
Evoformer
48 块 × 迭代
Structure Module
IPA 生成坐标
Recycling
3 轮精炼
互动:共进化 → 接触约束(简化示意)
MSA 中若位置 3 与位置 8 的氨基酸协同变化,它们可能在 3D 结构中靠近。点击下方配对,观察「接触图」高亮。
Evoformer:双轨表示 + 交叉注意力
AF2 同时维护两种表示,并在 48 个 Evoformer 块中反复更新:
多序列比对中的进化信息
残基对关系 / 距离分布
每个残基的汇总特征
Row / Column Attention
沿序列方向与残基方向做注意力,提取共进化与保守模式。
Triangle Multiplicative Update
利用 (i,k) 与 (k,j) 推断 (i,j) 关系——传播「三角不等式」式几何约束。
MSA → Pair 外积
把 MSA 信息注入残基对表示,更新距离/取向 logits。
Structure Module(结构模块)
- 输入 Pair/Single 表示,输出每个残基的刚体框架(旋转 + 平移)及侧链 torsion angles。
- 核心算子 Invariant Point Attention (IPA):在 3D 空间中做等变注意力,使预测对全局旋转/平移不敏感。
- 输出全原子坐标(通过残基几何模板 + 扭转角),并计算pLDDT 头。
Recycling(循环精炼)
将上一轮预测的结构特征反馈回 Evoformer 输入,默认循环 3 次。每一轮都在前一轮坐标基础上修正,类似「草稿 → 定稿」。
| 组件 | 作用 | 学的时候记住 |
|---|---|---|
| MSA | 进化约束 | 没有 deep MSA 时精度会掉——小蛋白/新颖家族是难点 |
| Pair 表示 | 残基对「距离分布」 | 相当于学习 contact map + 更远距离 |
| Evoformer | 约束传播与去噪 | 不是简单 CNN,是图式消息传递 |
| Structure Module | 坐标生成 | 等变设计保证物理合理性 |
| Template | PDB 同源结构 | 有高质量模板时通常更准 |
pLDDT:每个残基有多可信?
pLDDT(predicted LDDT)范围 0–100,是对局部原子位置误差的预期(越高越好)。在 PDB / AF DB 查看器中通常按颜色着色:
PAE:残基对之间的相对位置有多准?
PAE(Predicted Aligned Error)是 N×N 矩阵:元素 (i,j) 表示若对齐残基 i,残基 j 位置误差期望(Å)。
- 低 PAE(蓝/绿):两个结构域相对位置可信 → 可能是稳定复合物界面。
- 高 PAE(红/橙):相对取向不确定 → 可能是柔性 linker、无序尾、或应分开建模的结构域。
读结构时:pLDDT 看局部质量,PAE 看结构域组装是否靠谱——两者缺一不可。
互动:PAE 热图示意(10×10)
数字为示意性 PAE(Å)。点击单元格查看解读。
Multimer:ipTM / PTM
预测蛋白复合物时,关注 ipTM(interface TM-score 预测)与 PTM(整体 TM)。ipTM > 0.6 通常表示界面较可信;仍建议结合实验(SPR、Cryo-EM)验证。
第一步:在 AlphaFold DB 查一个已知蛋白
- 打开 AlphaFold Protein Structure Database
- 搜索
P01308(人胰岛素)或hemoglobin - 打开 3D 视图:观察 pLDDT 着色——胰岛素 B 链柔性区 vs 核心 β 折叠
- 下载 PDB,用 PyMOL / ChimeraX 打开,切换「按 pLDDT 着色」
第二步:用 ColabFold 跑一条短序列
- 访问 ColabFold AlphaFold2 notebook(需 Google 账号)
- 粘贴 FASTA(建议 <400 残基先试;更短更快)
- 运行 MSA + 预测;下载
ranked_0.pdb与pae.json - 用 PyMOL 或在线 PAE 查看器对照 JSON
第三步:对照实验结构(若有)
在 RCSB PDB 搜同一蛋白实验结构,用 TM-align 或 PyMOL align 叠合。亲自看 RMSD 比读论文更有体感。
AlphaFold 做不到 / 不应过度解读的事
| 场景 | 问题 | 建议 |
|---|---|---|
| 内在无序蛋白(IDP) | 无稳定单一构象,pLDDT 往往很低 | 用实验(SAXS、NMR)或专门 IDP 预测工具 |
| 翻译后修饰(磷酸化等) | AF2 默认不含修饰 | 建模时手动改残基或用 MD 探索 |
| 构象变化 / 动力学 | 只给「一个」静态 snapshot | 分子动力学、Cryo-EM 多态分析 |
| 配体 / 辅因子 / 膜环境 | AF2 单链不含配体(AF3 部分解决) | 分子对接 + 实验验证 |
| 新颖序列(无 MSA) | 进化信息不足,精度下降 | 谨慎;参考 pLDDT/PAE,做突变实验 |
| 抗体 CDR 环 | 高变区常需专门方法 | AbFold、IgFold 等专门工具 |
预测器 vs 设计器(再强调)
| AlphaFold | RFdiffusion / ProteinMPNN | |
|---|---|---|
| 问题 | 这条序列会折成什么? | 我要什么功能/结构,序列应是什么? |
| 输出 | 单一结构预测 + 置信度 | 新骨架 + 序列候选 |
| 验证 | 对比实验结构 / pLDDT | 仍需 AF 验证可折叠 + 湿实验 |
知识检测(6 题)
选完后显示解析,可反复练习。
核心论文(建议按顺序读摘要 + 图)
- Jumper J. et al. Highly accurate protein structure prediction with AlphaFold. Nature 2021. — AF2 主论文
- Varadi M. et al. AlphaFold Protein Structure Database. NAR 2022. — AF DB
- Abramson J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature 2024. — AF3
术语速查
| 术语 | 含义 |
|---|---|
MSA | 多序列比对;同源序列堆叠,提取共进化 |
Evoformer | AF2 主干网络,更新 MSA 与 Pair 表示 |
IPA | Invariant Point Attention,结构模块中的等变注意力 |
pLDDT | 每残基局部置信度,0–100 |
PAE | 残基对相对位置误差预期(Å) |
Recycling | 将上一轮结构反馈再预测,默认 3 轮 |
Template | 从 PDB 检索到的同源实验结构 |
CASP | 盲测结构预测竞赛 |