生物信息学编程入门——用 Python 玩转 DNA 序列分析

如果你是一位生物研究者，或者对生命密码感到好奇，那么生物信息学就是一座连接生物学与计算机科学的桥梁。

简单来说，生物信息学编程就是用代码去「读懂」生物大分子——尤其是DNA和RNA。

Biopython 是生物信息学领域最流行的 Python 库之一。

from Bio import SeqIO
for record in SeqIO.parse("sequence.fasta", "fasta"):
    print(f"ID: {record.id}")

生物信息学的核心问题之一，是序列比对。

from Bio.pairwise2 import align
alignments = align.globalxx(seq1, seq2)
for a in alignments[:3]:
    print(a[0])
    print(a[1])

知道了 DNA 的序列，下一步自然是问：它编码的蛋白质长什么样？这就是蛋白质结构预测的问题。

答案很简单：数据太大了。一次现代NGS可以产生几百Gb的原始数据。