biopython

综合分子生物学工具包。用于序列操作、文件解析(FASTA/GenBank/PDB格式)、系统发育分析,以及程序化访问NCBI/PubMed数据库(通过Bio.Entrez模块)。尤其适用于批量处理、定制生物信息学流程、BLAST自动化任务。若需快速查询推荐使用gget工具;若需多服务集成则建议采用bioservices库。

安装

热度:6

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-biopython&locale=zh&source=copy

Biopython:Python 生物信息学计算工具包

技能概述


Biopython 是一套功能强大的 Python 生物信息学工具库,用于处理 DNA、RNA 和蛋白质序列,解析 FASTA/GenBank 等生物文件格式,访问 NCBI 数据库,执行 BLAST 搜索和序列比对等计算分子生物学任务。

适用场景

1. 序列数据处理与格式转换


当你需要批量处理生物序列文件时,Biopython 是理想选择。它可以读取和写入 FASTA、GenBank、FASTQ、PDB、mmCIF 等数十种生物文件格式,轻松实现格式转换。例如,将 GenBank 文件批量转换为 FASTA 格式,从大型序列文件中提取特定记录,或者计算序列的 GC 含量、分子量、熔解温度等统计指标。

2. NCBI 数据库访问与 BLAST 自动化


当需要程序化访问 NCBI 数据库(如 GenBank、PubMed、Protein)时,Bio.Entrez 模块提供了完整的 API 支持。你可以自动化执行 BLAST 搜索,批量下载序列数据,解析 BLAST 结果并按 E 值或相似度筛选。特别适合构建自定义的生物信息学分析管道,避免手动下载数据的繁琐过程。

3. 序列比对与系统发育分析


Biopython 支持成对和多重序列比对,可使用 BLOSUM、PAM 等替换矩阵计算比对得分。通过 Bio.Phylo 模块,你可以读取、操作和可视化系统发育树(Newick、NEXUS 格式),从序列比对构建距离矩阵,使用邻接法(NJ)构建进化树。这对于理解物种间亲缘关系或蛋白质家族演化非常有用。

核心功能

1. 序列操作与文件 I/O


Bio.Seq 和 Bio.SeqIO 提供完整的序列处理能力,包括序列转录、翻译、反向互补、密码子表查询等。支持迭代处理大型文件,避免内存溢出问题。可以轻松创建 SeqRecord 对象,管理序列的注释信息,并配合 Bio.SeqUtils 计算各种序列统计指标。

2. 结构生物信息学分析


Bio.PDB 模块用于解析蛋白质三维结构文件(PDB 和 mmCIF),按照 SMCRA 层级(Structure-Model-Chain-Residue-Atom)导航结构。可以计算原子间距离、角度和二面角,进行结构叠加和 RMSD 计算,使用 DSSP 分配二级结构,或从 PDB 文件中提取序列信息。

3. 数据库查询与批量分析


通过 Bio.Entrez 访问 NCBI Entrez 系统,支持搜索 PubMed 文献、下载 GenBank 记录、获取基因信息等。配合 Bio.Blast 运行在线或本地 BLAST,解析 XML 格式结果。对于需要处理大量数据的工作流,Biopython 提供了高效的批量处理能力,特别适合构建自动化分析管道。

常见问题

Biopython 是什么?适合什么人使用?


Biopython 是一个开源的 Python 生物信息学工具包,版本 1.85(2025年1月发布)支持 Python 3。它适合生物学家、生物信息学研究人员、数据科学家以及任何需要用 Python 处理生物序列数据的人。如果你需要批量分析序列、自动化 NCBI 查询或构建生物信息学管道,Biopython 是最成熟的 Python 解决方案之一。

Biopython 和 gget、bioservices 怎么选择?


Biopython 适合批量处理、自定义管道和深度分析,提供最全面的模块覆盖。gget 更适合快速查询和简单任务,命令行友好。bioservices 优势在于整合多个生物数据库服务(如 UniProt、KEGG),适合需要跨平台数据集成的场景。如果只是简单查序列,gget 更快;如果是复杂分析流程,选 Biopython;如果需要访问多种生物服务 API,选 bioservices。

Biopython 支持哪些文件格式?可以处理 PDB 结构吗?


Biopython 支持超过 30 种生物文件格式,包括 FASTA、GenBank、FASTQ、EMBL、PDB、mmCIF、Clustal、Phylip、NEXUS、Newick 等。通过 Bio.PDB 模块可以完整解析蛋白质三维结构,计算结构参数、提取原子坐标、分析二级结构。结构生物学研究者可以使用它进行结构比较、距离计算和叠加分析。