生物信息学编程入门——用 Python 玩转 DNA 序列分析

如果你是一位生物研究者,或者对生命密码感到好奇,那么生物信息学就是一座连接生物学与计算机科学的桥梁。
如果你是一位生物研究者,或者对生命密码感到好奇,那么生物信息学就是一座连接生物学与计算机科学的桥梁。
什么是生物信息学编程?
简单来说,生物信息学编程就是用代码去「读懂」生物大分子——尤其是DNA和RNA。
用 Biopython 读取 DNA 序列
Biopython 是生物信息学领域最流行的 Python 库之一。
from Bio import SeqIO
for record in SeqIO.parse("sequence.fasta", "fasta"):
print(f"ID: {record.id}")序列比对:找「相似」的艺术
生物信息学的核心问题之一,是序列比对。
from Bio.pairwise2 import align
alignments = align.globalxx(seq1, seq2)
for a in alignments[:3]:
print(a[0])
print(a[1])从序列到结构:生物信息学的「圣杯」
知道了 DNA 的序列,下一步自然是问:它编码的蛋白质长什么样?这就是蛋白质结构预测的问题。
为什么生物信息学需要编程?
答案很简单:数据太大了。一次现代NGS可以产生几百Gb的原始数据。