序列比对：算法与互动演示

什么是序列比对？

序列比对（Sequence Alignment）是在两条或多条 DNA、RNA 或蛋白质序列之间寻找对应关系的方法。通过插入空位（gap，记为 -），使相同或相似的字符尽量排在同一列，从而推断进化同源、功能保守区或突变位点。

应用场景：基因注释、PCR 引物设计、系统发育树构建、CRISPR 脱靶评估、蛋白质结构预测（同源建模）等。

全局 · Global

Needleman-Wunsch (1970)

强制比对整条序列，从起点到终点。适合长度相近、整体同源的序列（如不同物种的同源基因全长）。

局部 · Local

Smith-Waterman (1981)

只找得分最高的局部片段，允许序列两端不对齐。适合在长序列中搜索保守结构域或 motif。

仿射 gap

Gotoh (1982)

空位罚分 = open + extend×(k−1)，一次 indel 只付一次 opening 代价。EMBOSS Needle 默认采用此模型。

打分模型

DNA：通常 match +2、mismatch −1；空位可用线性或 Gotoh 仿射（open −10 / extend −1）。
蛋白质：本演示支持简化分组或完整 BLOSUM62 替换矩阵（Henikoff 1992）。
仿射 gap 罚分：Gotoh 三矩阵 DP（M / Ix / Iy），比线性 gap 更符合 indel 生物学。
FASTA 导入：支持粘贴或上传 .fasta / .fa，自动填充双序列并推断核酸/蛋白质类型。
字母速查：碱基与 20 种氨基酸的一/三字母代码、中英文全称，见「字母速查」Tab。

动态规划思路

设序列为 A（长 m）、B（长 n），构建 (m+1)×(n+1) 得分矩阵 H。H[i,j] 表示 A 前 i 个字符与 B 前 j 个字符的最优比对得分：

H[i,j] = max( H[i−1,j−1] + s(A_i,B_j), H[i−1,j] + gap, H[i,j−1] + gap )

Smith-Waterman 在每一项外再取 max(0, ·)，并在矩阵中找全局最大值作为局部起点，再回溯。时间复杂度 O(mn)，空间 O(mn)；长序列需 BLAST 等启发式方法。

Needleman-Wunsch 全局比对

📂 FASTA 导入（双序列）

粘贴或上传含 1–2 条序列的 FASTA；两条时分别填入 A/B，一条时仅填入 A。

或选择文件

算法与打分

序列类型

蛋白质打分

Gap 模型

Match

Mismatch

Gap

Gap open

Gap extend

序列 A

序列 B

Smith-Waterman 局部比对

在长序列中寻找最佳匹配片段；矩阵单元格得分不会低于 0。支持 BLOSUM62 与 Gotoh 仿射 gap。

📂 FASTA 导入

或选择文件

算法与打分

蛋白质打分

Gap 模型

Match

Mismatch

Gap

Gap open

Gap extend

序列 A（较长）

序列 B（较短 / 查询）

BLOSUM62 替换矩阵（20×20）

点击单元格查看氨基酸对与 log-odds 分值。正值表示比随机更常见的替换（保守）；负值表示罕见替换。EMBOSS Needle / Water 默认使用此矩阵。

点击矩阵单元格查看详情

与 Clustal 符号的对应关系

BLOSUM 得分 = 0 且非同字符 → 显示 ·
BLOSUM 得分 > 0 且非同字符 → 显示 :（保守替换）
完全相同 → 显示 |

数据来源：Henikoff S, Henikoff JG. PNAS 1992;89(22):10915-10919. 矩阵值与 NCBI BLAST / EMBOSS 标准 BLOSUM62 一致。

碱基与氨基酸字母速查

序列比对中常见单字母代码的中英文对照。DNA 使用 A/T/G/C；RNA 以 U 替代 T；蛋白质使用 IUPAC 标准 20 种氨基酸单字母码。

字母	三字母	中文名	英文名	碱基类型	互补碱基	出现场景

单字母	三字母	中文名	英文名	分类	侧链特性	分子量 (Da)

参考：IUPAC-IUB 生化命名委员会；NCBI Genetic Code；Lehninger Principles of Biochemistry。BLOSUM62 矩阵氨基酸顺序与上表 ARNDCQEGHILKMFPSTWYV 一致。

读序列时的实用提示

DNA 双链：A↔T、G↔C 碱基配对；比对单链时通常只比较相同字母是否一致。
RNA：T 由 U（尿嘧啶）取代，其余与 DNA 类似；mRNA 序列在 FASTA 中常含 U。
蛋白质 N 端 → C 端：序列书写方向与翻译方向一致；甲硫氨酸（M）常为翻译起始氨基酸。
模糊字符：X = 任意氨基酸，B = N/D，Z = Q/E；本演示比对时会过滤非标准字符。

知识检测

完成以下题目检验理解（点击选项后立即反馈）。

经典文献

Needleman & Wunsch (1970) — 全局序列比对的动态规划方法
Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 1970;48(3):443-453.
Smith & Waterman (1981) — 局部序列比对
Smith TF, Waterman MS. Identification of common molecular subsequences. J Mol Biol. 1981;147(1):195-197.
Altschul et al. (1990) — BLAST 启发式搜索
Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. 1990;215(3):403-410.
Gotoh (1982) — 仿射 gap 罚分
Gotoh O. An improved algorithm for matching biological sequences. J Mol Biol. 1982;162(3):705-708.
Henikoff & Henikoff (1992) — BLOSUM 替换矩阵
Henikoff S, Henikoff JG. Amino acid substitution matrices from protein blocks. PNAS. 1992;89(22):10915-10919.

在线工具与数据库

Clustal Omega ↗EBI 多序列比对 NCBI BLAST ↗核酸/蛋白质序列搜索 EMBOSS Water ↗Smith-Waterman 在线 EMBOSS Needle ↗Needleman-Wunsch 在线 UniProt Align ↗蛋白质序列比对 ClustalW @ KEGG ↗经典多序列比对

📖 比对符号与打分说明

比对中间行的符号含义

运行 NW / SW 后，结果会在序列 A 与 B 之间显示一行一致性标记。本演示与 Clustal、MUSCLE 等工具惯例一致，符号只反映显示规则，最终得分仍由右侧参数或替换矩阵决定。

符号	名称	含义	在本演示中
`\|`	竖线（pipe）	该列两序列字符完全相同（identity）。多序列比对中有时也用 `*` 表示该列所有序列一致。	A、B 同字符且均非 gap 时显示绿色 `\|`，计入 Match 分值。
`·`	点（dot）	该列字符不同，且不满足“保守替换”阈值。表示错配或非保守替换。	两字符不同且均非 gap 时：BLOSUM62 模式下，得分 > 0 显示 `:`，否则显示 `·`；简化分组模式一律显示 `·`。
`:`	冒号（colon）	常见于 Clustal Omega、MUSCLE 输出：两氨基酸化学性质相近（保守替换，conservative substitution），如 I↔L、K↔R。比 `·` 更“相似”，但不如 `\|` 完全相同。	本演示在 BLOSUM62 模式下按矩阵得分渲染 `:`（>0）与 `·`（≤0）；见「BLOSUM62」Tab 交互矩阵。
`*`	星号	多序列比对（MSA）专用：该列所有序列字符完全一致，进化上高度保守。	双序列演示不出现；Clustal 结果最后一行共识序列上方常见 `*` / `:` / `.` 三档。
（空格）	空位列	至少一侧为 gap（`-`），表示插入或缺失（indel），无字符可比。	中间行留空；线性 gap 每列加 Gap 分值；Gotoh 仿射 gap 按 open+extend 累计（一次 indel 只 open 一次）。
`-`	连字符 / gap	空位符号，不是 DNA 碱基或氨基酸字母。算法在 DP 回溯时插入，使两条序列长度对齐。	灰色高亮；罚分取决于 Gap 模型（线性或 Gotoh open/extend）。

参考：Clustal 系列输出约定——* = 全列相同，: = 强保守替换（BLOSUM 得分 > 0 的常见分组），. = 弱相似或错配。详见 Larkin et al., Bioinformatics 2007（Clustal W and Clustal X）。

本演示的打分参数如何得出总分

Needleman-Wunsch / Smith-Waterman 在填充动态规划矩阵时，对每个单元格从三种来源取最优（仿射 gap 时使用 Gotoh 三矩阵 M / Ix / Iy）：

对角线：H[i−1,j−1] + s(A_i, B_j) — 两字符对齐，s 为 match / mismatch / 替换矩阵得分
上方：H[i−1,j] + gap — A 侧插入 gap
左方：H[i,j−1] + gap — B 侧插入 gap

回溯得到的最优比对路径上，总得分 = 路径上每一步得分之和。示例（默认 DNA 参数 match=+2, mismatch=−1, gap=−2）：

默认参数来源（可调）：

DNA match +2 / mismatch −1 / gap −2：教学与 pairwise 演示常用简化值，与 NCBI BLAST 核酸计分（奖励匹配、惩罚错配与空位）思路一致，但非唯一标准。实际项目常用更复杂的仿射 gap（open −5, extend −2）或物种特异模型。
线性 gap：每个 - 固定加 Gap 分值（默认 −2）。
Gotoh 仿射 gap（默认 open −10 / extend −1）：长度为 k 的 indel 罚分 = open + k×extend；EMBOSS Needle 默认配置。

蛋白质替换矩阵：BLOSUM62 与 FASTA

蛋白质模式默认使用完整 BLOSUM62 矩阵（见「BLOSUM62」Tab）；亦可选简化化学分组。NW / SW 面板支持粘贴或上传 FASTA，自动识别 DNA / 蛋白质并填入双序列。

BLOSUM62（Henikoff & Henikoff, 1992）分值推导概要：

从 BLOCKS 数据库提取进化保守的蛋白质块（无 gap 区域）。
统计每对氨基酸 (i, j) 在比对块中共现频率 q_ij，与随机期望频率 e_ij 比较。
采用对数几率比（log-odds score，单位 bit）：
S_ij = (1/λ) · log₂( q_ij / e_ij )
λ 为缩放常数；正值表示该替换比随机更常见（保守），负值表示罕见替换。
数字「62」表示在 < 62% 同一性块上构建；BLOSUM80 更严格，BLOSUM45 更宽松。

BLOSUM62 片段示例（完整 20×20 表见 NCBI / EMBOSS）：

比对	BLOSUM62	解读
I ↔ I	+4	相同氨基酸
I ↔ L	+2	保守疏水替换 → Clustal 常标 `:`
K ↔ R	+2	碱性氨基酸互换常见
D ↔ E	+2	酸性氨基酸互换常见
W ↔ D	−4	性质差异大，强烈惩罚
任意 ↔ X	−1	未知氨基酸（模糊字符）

PAM 矩阵（Dayhoff et al., 1978）基于全局同源序列的氨基酸替换计数，按进化距离外推；BLOSUM 基于局部保守块，对远同源搜索通常更优。EMBOSS Needle / Water、UniProt Align 默认 BLOSUM62 + 仿射 gap。

文献：Henikoff S, Henikoff JG. Amino acid substitution matrices from protein blocks. PNAS 1992;89(22):10915-10919. · Dayhoff MO et al. Atlas of Protein Sequence and Structure 1978. · Gotoh O. An improved algorithm for matching biological sequences. J Mol Biol 1982;162(3):705-708.

🧬 序列比对