什么是序列比对?
序列比对(Sequence Alignment)是在两条或多条 DNA、RNA 或蛋白质序列之间寻找对应关系的方法。通过插入空位(gap,记为 -),使相同或相似的字符尽量排在同一列,从而推断进化同源、功能保守区或突变位点。
应用场景:基因注释、PCR 引物设计、系统发育树构建、CRISPR 脱靶评估、蛋白质结构预测(同源建模)等。
Needleman-Wunsch (1970)
强制比对整条序列,从起点到终点。适合长度相近、整体同源的序列(如不同物种的同源基因全长)。
Smith-Waterman (1981)
只找得分最高的局部片段,允许序列两端不对齐。适合在长序列中搜索保守结构域或 motif。
Gotoh (1982)
空位罚分 = open + extend×(k−1),一次 indel 只付一次 opening 代价。EMBOSS Needle 默认采用此模型。
打分模型
- DNA:通常 match +2、mismatch −1;空位可用线性或 Gotoh 仿射(open −10 / extend −1)。
- 蛋白质:本演示支持简化分组或完整 BLOSUM62 替换矩阵(Henikoff 1992)。
- 仿射 gap 罚分:Gotoh 三矩阵 DP(M / Ix / Iy),比线性 gap 更符合 indel 生物学。
- FASTA 导入:支持粘贴或上传 .fasta / .fa,自动填充双序列并推断核酸/蛋白质类型。
- 字母速查:碱基与 20 种氨基酸的一/三字母代码、中英文全称,见「字母速查」Tab。
动态规划思路
设序列为 A(长 m)、B(长 n),构建 (m+1)×(n+1) 得分矩阵 H。H[i,j] 表示 A 前 i 个字符与 B 前 j 个字符的最优比对得分:
H[i,j] = max( H[i−1,j−1] + s(Ai,Bj), H[i−1,j] + gap, H[i,j−1] + gap )
Smith-Waterman 在每一项外再取 max(0, ·),并在矩阵中找全局最大值作为局部起点,再回溯。时间复杂度 O(mn),空间 O(mn);长序列需 BLAST 等启发式方法。
Needleman-Wunsch 全局比对
📂 FASTA 导入(双序列)
粘贴或上传含 1–2 条序列的 FASTA;两条时分别填入 A/B,一条时仅填入 A。
Smith-Waterman 局部比对
在长序列中寻找最佳匹配片段;矩阵单元格得分不会低于 0。支持 BLOSUM62 与 Gotoh 仿射 gap。
📂 FASTA 导入
BLOSUM62 替换矩阵(20×20)
点击单元格查看氨基酸对与 log-odds 分值。正值表示比随机更常见的替换(保守);负值表示罕见替换。EMBOSS Needle / Water 默认使用此矩阵。
与 Clustal 符号的对应关系
- BLOSUM 得分 = 0 且非同字符 → 显示
· - BLOSUM 得分 > 0 且非同字符 → 显示
:(保守替换) - 完全相同 → 显示
|
数据来源:Henikoff S, Henikoff JG. PNAS 1992;89(22):10915-10919. 矩阵值与 NCBI BLAST / EMBOSS 标准 BLOSUM62 一致。
碱基与氨基酸字母速查
序列比对中常见单字母代码的中英文对照。DNA 使用 A/T/G/C;RNA 以 U 替代 T;蛋白质使用 IUPAC 标准 20 种氨基酸单字母码。
| 字母 | 三字母 | 中文名 | 英文名 | 碱基类型 | 互补碱基 | 出现场景 |
|---|
| 单字母 | 三字母 | 中文名 | 英文名 | 分类 | 侧链特性 | 分子量 (Da) |
|---|
参考:IUPAC-IUB 生化命名委员会;NCBI Genetic Code;Lehninger Principles of Biochemistry。BLOSUM62 矩阵氨基酸顺序与上表 ARNDCQEGHILKMFPSTWYV 一致。
读序列时的实用提示
- DNA 双链:A↔T、G↔C 碱基配对;比对单链时通常只比较相同字母是否一致。
- RNA:T 由 U(尿嘧啶)取代,其余与 DNA 类似;mRNA 序列在 FASTA 中常含 U。
- 蛋白质 N 端 → C 端:序列书写方向与翻译方向一致;甲硫氨酸(M)常为翻译起始氨基酸。
- 模糊字符:X = 任意氨基酸,B = N/D,Z = Q/E;本演示比对时会过滤非标准字符。
知识检测
完成以下题目检验理解(点击选项后立即反馈)。
经典文献
-
Needleman & Wunsch (1970) — 全局序列比对的动态规划方法
Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 1970;48(3):443-453. -
Smith & Waterman (1981) — 局部序列比对
Smith TF, Waterman MS. Identification of common molecular subsequences. J Mol Biol. 1981;147(1):195-197. -
Altschul et al. (1990) — BLAST 启发式搜索
Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. 1990;215(3):403-410. -
Gotoh (1982) — 仿射 gap 罚分
Gotoh O. An improved algorithm for matching biological sequences. J Mol Biol. 1982;162(3):705-708. -
Henikoff & Henikoff (1992) — BLOSUM 替换矩阵
Henikoff S, Henikoff JG. Amino acid substitution matrices from protein blocks. PNAS. 1992;89(22):10915-10919.
在线工具与数据库
相关演示
中心法则 · DNA 复制 · 氨基酸代谢 · 卡方检验(遗传统计)