← 返回内容列表

生物信息学编程入门——用 Python 玩转 DNA 序列分析

生物信息学编程入门——用 Python 玩转 DNA 序列分析

如果你是一位生物研究者,或者对生命密码感到好奇,那么生物信息学就是一座连接生物学与计算机科学的桥梁。

如果你是一位生物研究者,或者对生命密码感到好奇,那么生物信息学就是一座连接生物学计算机科学的桥梁。

什么是生物信息学编程?

简单来说,生物信息学编程就是用代码去「读懂」生物大分子——尤其是DNARNA

用 Biopython 读取 DNA 序列

Biopython 是生物信息学领域最流行的 Python 库之一。

from Bio import SeqIO
for record in SeqIO.parse("sequence.fasta", "fasta"):
    print(f"ID: {record.id}")

序列比对:找「相似」的艺术

生物信息学的核心问题之一,是序列比对

from Bio.pairwise2 import align
alignments = align.globalxx(seq1, seq2)
for a in alignments[:3]:
    print(a[0])
    print(a[1])

从序列到结构:生物信息学的「圣杯」

知道了 DNA 的序列,下一步自然是问:它编码的蛋白质长什么样?这就是蛋白质结构预测的问题。

为什么生物信息学需要编程?

答案很简单:数据太大了。一次现代NGS可以产生几百Gb的原始数据。

生物信息学编程入门——用 Python 玩转 DNA 序列分析 | 必学必会