AlphaFold 深度学习：从折叠问题到结构预测

建议学习顺序（约 2–4 周，业余节奏）

不必一次啃完 Nature 全文。按下面顺序推进，每步都有本站页面或公开工具配合。

1
分子生物基础（3–5 天）
理解 DNA→蛋白质信息流、20 种氨基酸、二级结构（α 螺旋、β 折叠）。
→ 中心法则 · 氨基酸
2
序列比对与 MSA（3–5 天）
同源序列、空位、共进化——AlphaFold 的第一道输入就来自 MSA。
→ 序列比对演示（重点看全局比对与共进化概念）
3
折叠问题与 CASP（2–3 天）
阅读本页「折叠问题」Tab；了解 CASP 竞赛如何评价预测方法（GDT_TS、LDDT）。
4
AlphaFold 2 架构（5–7 天）
精读 Jumper et al. Nature 2021 的 Figure 1 与 Methods 概要；配合本页「流程」「架构」Tab。
5
读结构、读置信度（3–5 天）
在 AlphaFold DB 打开一个熟悉蛋白（如胰岛素、血红蛋白），对照 pLDDT 颜色与 PAE 热图。
→ 本页「置信度」「动手实践」Tab
6
边界与 AF3（2–3 天）
弄清预测器 vs 设计器、无序区、复合物；了解 AlphaFold 3 扩展到核酸/配体。
→ 本页「局限」Tab · 站内文章从 AlphaFold 到可编程蛋白质设计

💡 个人学习技巧：每学一个模块，用「我能用自己的话解释给同学听吗？」自测。推荐记笔记时画一张「序列 → MSA → 距离约束 → 3D 坐标」的单页示意图，比死记模块名更有效。

为什么需要 AlphaFold？

蛋白质执行细胞里绝大多数工作：催化反应、运输、信号转导、免疫识别。其功能高度依赖三维结构——序列中相隔很远的氨基酸，折叠后可能在空间上相邻并形成活性位点。

一级

氨基酸序列

20 种单体按顺序连接；这是基因翻译的直接产物，也是 AlphaFold 的输入。

二级

局部构象

α 螺旋、β 折叠等规律结构；由主链氢键驱动。

三级

整体折叠

整条链的空间排布；折叠问题主要指预测这一层（AF2 核心）。

四级

多亚基组装

多条链形成复合物；AF2-Multimer / AF3 处理这类问题。

Levinthal 悖论与 Anfinsen 原则

Levinthal（1969）：若随机搜索构象，100 残基蛋白来不及试完所有可能——说明折叠有快速引导路径，而非暴力搜索。
Anfinsen（1972 诺贝尔）：在适宜条件下，序列 alone 决定天然结构——为「从序列预测结构」提供理论依据（不含需要分子伴侣/翻译后修饰等例外）。
实验瓶颈：X 射线、NMR、Cryo-EM 昂贵且慢；UniProt 序列数 ≫ PDB 结构数，形成巨大的「序列-结构 gap」。

CASP：结构预测的「奥运会」

Critical Assessment of Structure Prediction 每两年举办，组织者给出未公开结构的序列，各团队盲测。评价指标包括：

GDT_TS / TM-score：预测与实验结构的整体相似度（0–1，>0.5 通常认为折叠拓扑正确）。
LDDT：局部距离差异检验，与 AlphaFold 输出的 pLDDT 概念相关。

AlphaFold 2 在 CASP14（2020）对多数单结构域蛋白达到实验竞争水平，被视为转折点。

📅 发展时间线

2018 · AlphaFold 1

CASP13；使用距离预测 + 梯度优化，已领先但难泛化。

2020 · AlphaFold 2

CASP14 突破；端到端学习，Evoformer + Structure Module。

2021 · 开源 + AF DB

代码与权重发布；与 EMBL-EBI 发布 ~2 亿预测结构。

2022 · ColabFold

MMseqs2 加速 MSA，个人可在 Colab 免费跑短序列。

2024 · AlphaFold 3

统一预测蛋白-核酸-配体复合物（架构不同于 AF2，需单独学习）。

AlphaFold 2 推理流水线（点击各步）

下面六步是理解 AF2 的主线。不必先懂所有数学，先建立「数据如何流动」的直觉。

📝

输入序列

FASTA

→

🔍

MSA 搜索

UniRef / BFD

→

📐

模板检索

PDB 同源（可选）

→

🧠

Evoformer

48 块 × 迭代

→

🏗️

Structure Module

IPA 生成坐标

→

♻️

Recycling

3 轮精炼

互动：共进化 → 接触约束（简化示意）

MSA 中若位置 3 与位置 8 的氨基酸协同变化，它们可能在 3D 结构中靠近。点击下方配对，观察「接触图」高亮。

MSA 列：

残基 i–j 接触强度（示意，非真实计算）

Evoformer：双轨表示 + 交叉注意力

AF2 同时维护两种表示，并在 48 个 Evoformer 块中反复更新：

MSA 表示形状 (N_seq, N_res, C)
多序列比对中的进化信息

Pair 表示形状 (N_res, N_res, C)
残基对关系 / 距离分布

Single 表示形状 (N_res, C)
每个残基的汇总特征

↓ 每个 Evoformer 块内

MSA Stack

Row / Column Attention

沿序列方向与残基方向做注意力，提取共进化与保守模式。

Pair Stack

Triangle Multiplicative Update

利用 (i,k) 与 (k,j) 推断 (i,j) 关系——传播「三角不等式」式几何约束。

Cross

MSA → Pair 外积

把 MSA 信息注入残基对表示，更新距离/取向 logits。

Structure Module（结构模块）

输入 Pair/Single 表示，输出每个残基的刚体框架（旋转 + 平移）及侧链 torsion angles。
核心算子 Invariant Point Attention (IPA)：在 3D 空间中做等变注意力，使预测对全局旋转/平移不敏感。
输出全原子坐标（通过残基几何模板 + 扭转角），并计算pLDDT 头。

Recycling（循环精炼）

将上一轮预测的结构特征反馈回 Evoformer 输入，默认循环 3 次。每一轮都在前一轮坐标基础上修正，类似「草稿 → 定稿」。

组件	作用	学的时候记住
MSA	进化约束	没有 deep MSA 时精度会掉——小蛋白/新颖家族是难点
Pair 表示	残基对「距离分布」	相当于学习 contact map + 更远距离
Evoformer	约束传播与去噪	不是简单 CNN，是图式消息传递
Structure Module	坐标生成	等变设计保证物理合理性
Template	PDB 同源结构	有高质量模板时通常更准

pLDDT：每个残基有多可信？

pLDDT（predicted LDDT）范围 0–100，是对局部原子位置误差的预期（越高越好）。在 PDB / AF DB 查看器中通常按颜色着色：

示例肽段（10 残基）· 悬停色块看分数

🔵 >90 极高（侧链可信） 🟢 70–90 高（主链可靠） 🟡 50–70 低（谨慎使用） 🟠 <50 很可能无序或错误

PAE：残基对之间的相对位置有多准？

PAE（Predicted Aligned Error）是 N×N 矩阵：元素 (i,j) 表示若对齐残基 i，残基 j 位置误差期望（Å）。

低 PAE（蓝/绿）：两个结构域相对位置可信 → 可能是稳定复合物界面。
高 PAE（红/橙）：相对取向不确定 → 可能是柔性 linker、无序尾、或应分开建模的结构域。

读结构时：pLDDT 看局部质量，PAE 看结构域组装是否靠谱——两者缺一不可。

互动：PAE 热图示意（10×10）

数字为示意性 PAE（Å）。点击单元格查看解读。

Multimer：ipTM / PTM

预测蛋白复合物时，关注 ipTM（interface TM-score 预测）与 PTM（整体 TM）。ipTM > 0.6 通常表示界面较可信；仍建议结合实验（SPR、Cryo-EM）验证。

第一步：在 AlphaFold DB 查一个已知蛋白

打开 AlphaFold Protein Structure Database
搜索 P01308（人胰岛素）或 hemoglobin
打开 3D 视图：观察 pLDDT 着色——胰岛素 B 链柔性区 vs 核心 β 折叠
下载 PDB，用 PyMOL / ChimeraX 打开，切换「按 pLDDT 着色」

第二步：用 ColabFold 跑一条短序列

访问 ColabFold AlphaFold2 notebook（需 Google 账号）
粘贴 FASTA（建议 <400 残基先试；更短更快）
运行 MSA + 预测；下载 ranked_0.pdb 与 pae.json
用 PyMOL 或在线 PAE 查看器对照 JSON

Colab 免费 GPU 有时间限制；超长序列或复合物建议用本地 OpenFold / 机构算力。

第三步：对照实验结构（若有）

在 RCSB PDB 搜同一蛋白实验结构，用 TM-align 或 PyMOL align 叠合。亲自看 RMSD 比读论文更有体感。

AlphaFold DB2 亿+ 预计算结构，首选入口 DeepMind AlphaFold GitHub官方代码与文档 OpenFold可复现、可微调的开源实现 EMBL-EBI AlphaFold 课程免费英文系统课（强烈推荐）

AlphaFold 做不到 / 不应过度解读的事

场景	问题	建议
内在无序蛋白（IDP）	无稳定单一构象，pLDDT 往往很低	用实验（SAXS、NMR）或专门 IDP 预测工具
翻译后修饰（磷酸化等）	AF2 默认不含修饰	建模时手动改残基或用 MD 探索
构象变化 / 动力学	只给「一个」静态 snapshot	分子动力学、Cryo-EM 多态分析
配体 / 辅因子 / 膜环境	AF2 单链不含配体（AF3 部分解决）	分子对接 + 实验验证
新颖序列（无 MSA）	进化信息不足，精度下降	谨慎；参考 pLDDT/PAE，做突变实验
抗体 CDR 环	高变区常需专门方法	AbFold、IgFold 等专门工具

预测器 vs 设计器（再强调）

	AlphaFold	RFdiffusion / ProteinMPNN
问题	这条序列会折成什么？	我要什么功能/结构，序列应是什么？
输出	单一结构预测 + 置信度	新骨架 + 序列候选
验证	对比实验结构 / pLDDT	仍需 AF 验证可折叠 + 湿实验

知识检测（6 题）

选完后显示解析，可反复练习。

核心论文（建议按顺序读摘要 + 图）

Jumper J. et al. Highly accurate protein structure prediction with AlphaFold. Nature 2021. — AF2 主论文
Varadi M. et al. AlphaFold Protein Structure Database. NAR 2022. — AF DB
Abramson J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature 2024. — AF3

EBI AlphaFold 在线课从入门到读 PAE，免费 DeepMind CASP14 解读官方视频，建立直觉本站：序列比对MSA 前置知识本站：AF → 蛋白质设计下一步方向

术语速查

术语	含义
`MSA`	多序列比对；同源序列堆叠，提取共进化
`Evoformer`	AF2 主干网络，更新 MSA 与 Pair 表示
`IPA`	Invariant Point Attention，结构模块中的等变注意力
`pLDDT`	每残基局部置信度，0–100
`PAE`	残基对相对位置误差预期（Å）
`Recycling`	将上一轮结构反馈再预测，默认 3 轮
`Template`	从 PDB 检索到的同源实验结构
`CASP`	盲测结构预测竞赛

🧬 AlphaFold 深度学习