🧬 序列比对

DNA / 蛋白质序列对齐 · 动态规划算法 · 互动演示与自测

什么是序列比对?

序列比对(Sequence Alignment)是在两条或多条 DNA、RNA 或蛋白质序列之间寻找对应关系的方法。通过插入空位(gap,记为 -),使相同或相似的字符尽量排在同一列,从而推断进化同源功能保守区突变位点

应用场景:基因注释、PCR 引物设计、系统发育树构建、CRISPR 脱靶评估、蛋白质结构预测(同源建模)等。

全局 · Global

Needleman-Wunsch (1970)

强制比对整条序列,从起点到终点。适合长度相近、整体同源的序列(如不同物种的同源基因全长)。

局部 · Local

Smith-Waterman (1981)

只找得分最高的局部片段,允许序列两端不对齐。适合在长序列中搜索保守结构域或 motif。

仿射 gap

Gotoh (1982)

空位罚分 = open + extend×(k−1),一次 indel 只付一次 opening 代价。EMBOSS Needle 默认采用此模型。

打分模型

  • DNA:通常 match +2、mismatch −1;空位可用线性或 Gotoh 仿射(open −10 / extend −1)。
  • 蛋白质:本演示支持简化分组或完整 BLOSUM62 替换矩阵(Henikoff 1992)。
  • 仿射 gap 罚分:Gotoh 三矩阵 DP(M / Ix / Iy),比线性 gap 更符合 indel 生物学。
  • FASTA 导入:支持粘贴或上传 .fasta / .fa,自动填充双序列并推断核酸/蛋白质类型。
  • 字母速查:碱基与 20 种氨基酸的一/三字母代码、中英文全称,见「字母速查」Tab。

动态规划思路

设序列为 A(长 m)、B(长 n),构建 (m+1)×(n+1) 得分矩阵 H。H[i,j] 表示 A 前 i 个字符与 B 前 j 个字符的最优比对得分:

H[i,j] = max( H[i−1,j−1] + s(Ai,Bj),   H[i−1,j] + gap,   H[i,j−1] + gap )

Smith-Waterman 在每一项外再取 max(0, ·),并在矩阵中找全局最大值作为局部起点,再回溯。时间复杂度 O(mn),空间 O(mn);长序列需 BLAST 等启发式方法。

Needleman-Wunsch 全局比对

📂 FASTA 导入(双序列)

粘贴或上传含 1–2 条序列的 FASTA;两条时分别填入 A/B,一条时仅填入 A。

算法与打分

Smith-Waterman 局部比对

在长序列中寻找最佳匹配片段;矩阵单元格得分不会低于 0。支持 BLOSUM62 与 Gotoh 仿射 gap。

📂 FASTA 导入
算法与打分

BLOSUM62 替换矩阵(20×20)

点击单元格查看氨基酸对与 log-odds 分值。正值表示比随机更常见的替换(保守);负值表示罕见替换。EMBOSS Needle / Water 默认使用此矩阵。

点击矩阵单元格查看详情

与 Clustal 符号的对应关系

  • BLOSUM 得分 = 0 且非同字符 → 显示 ·
  • BLOSUM 得分 > 0 且非同字符 → 显示 :(保守替换)
  • 完全相同 → 显示 |

数据来源:Henikoff S, Henikoff JG. PNAS 1992;89(22):10915-10919. 矩阵值与 NCBI BLAST / EMBOSS 标准 BLOSUM62 一致。

碱基与氨基酸字母速查

序列比对中常见单字母代码的中英文对照。DNA 使用 A/T/G/C;RNA 以 U 替代 T;蛋白质使用 IUPAC 标准 20 种氨基酸单字母码。

字母 三字母 中文名 英文名 碱基类型 互补碱基 出现场景
单字母 三字母 中文名 英文名 分类 侧链特性 分子量 (Da)

参考:IUPAC-IUB 生化命名委员会;NCBI Genetic Code;Lehninger Principles of Biochemistry。BLOSUM62 矩阵氨基酸顺序与上表 ARNDCQEGHILKMFPSTWYV 一致。

读序列时的实用提示

  • DNA 双链:A↔T、G↔C 碱基配对;比对单链时通常只比较相同字母是否一致。
  • RNA:T 由 U(尿嘧啶)取代,其余与 DNA 类似;mRNA 序列在 FASTA 中常含 U。
  • 蛋白质 N 端 → C 端:序列书写方向与翻译方向一致;甲硫氨酸(M)常为翻译起始氨基酸。
  • 模糊字符:X = 任意氨基酸,B = N/D,Z = Q/E;本演示比对时会过滤非标准字符。

知识检测

完成以下题目检验理解(点击选项后立即反馈)。

经典文献

  • Needleman & Wunsch (1970) — 全局序列比对的动态规划方法
    Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 1970;48(3):443-453.
  • Smith & Waterman (1981) — 局部序列比对
    Smith TF, Waterman MS. Identification of common molecular subsequences. J Mol Biol. 1981;147(1):195-197.
  • Altschul et al. (1990) — BLAST 启发式搜索
    Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. 1990;215(3):403-410.
  • Gotoh (1982) — 仿射 gap 罚分
    Gotoh O. An improved algorithm for matching biological sequences. J Mol Biol. 1982;162(3):705-708.
  • Henikoff & Henikoff (1992) — BLOSUM 替换矩阵
    Henikoff S, Henikoff JG. Amino acid substitution matrices from protein blocks. PNAS. 1992;89(22):10915-10919.