scikit-bio

生物数据工具包。支持序列分析、比对、系统发育树构建、多样性指标计算(α/β多样性、UniFrac)、排序分析(PCoA)、PERMANOVA统计检验、FASTA/Newick格式读写,专为微生物组分析设计。

安装

热度:10

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-scikit-bio&locale=zh&source=copy

scikit-bio - Python 生物信息学与微生物组分析工具库

技能概述


scikit-bio 是一个综合性的 Python 生物信息学库,用于处理和分析生物序列数据、构建系统发育树、计算微生物多样性指标、进行生态统计检验和排序分析。

适用场景

1. 微生物组与生态群落分析


适用于 16S rRNA、宏基因组等微生物组研究,计算 Alpha 多样性(Shannon、Simpson、Faith's PD)和 Beta 多样性(Bray-Curtis、UniFrac 距离),进行 PERMANOVA、ANOSIM 等统计检验,评估群落结构差异。

2. 生物序列处理与分析


适用于 DNA、RNA、蛋白质序列的读取、编辑和转换,支持 FASTA、FASTQ、GenBank 等 19+ 种生物文件格式,进行序列比对、 motif 搜索、转录翻译等操作。

3. 系统发育与进化分析


适用于从距离矩阵构建系统发育树(NJ、UPGMA 等方法),进行树的修剪、重新扎根、比较(Robinson-Foulds 距离),计算 patristic 和 cophenetic 距离。

核心功能

1. 多样性分析


计算微生物生态学常用指标,包括 Alpha 多样性(丰富度、Shannon 熵、Simpson 指数、Pielou 均匀度、Faith's PD)和 Beta 多样性(Bray-Curtis、Jaccard、加权/非加权 UniFrac),支持稀疏化和子采样。

2. 序列操作与比对


提供 DNA、RNA、Protein 类进行序列操作(反向互补、转录翻译、motif 搜索),支持全局和局部序列比对,使用 TabularMSA 处理多重序列比对。

3. 统计检验与排序


提供 PERMANOVA、ANOSIM、Mantel 检验等生态统计方法,支持 PCoA、CA、CCA、RDA 等排序分析,可处理距离矩阵和生物表格(BIOM 格式)。

常见问题

scikit-bio 是什么?适合用来做什么?


scikit-bio 是一个用于生物数据处理的 Python 库,特别适合微生物组分析、生物序列处理、系统发育树构建和生态统计分析。它与 QIIME 2 生态系统集成,支持 BIOM、Newick 等常见格式。

scikit-bio 和 Biopython 有什么区别?


两者都是生物信息学 Python 库,但侧重点不同。Biopython 更通用,涵盖序列解析、结构生物学、网络数据库访问等;scikit-bio 专注于微生物组分析和生态统计,提供更完善的多样性指标、UniFrac、PERMANOVA 等群落分析工具。

如何用 scikit-bio 计算微生物多样性?


使用 skbio.diversity.alpha_diversity() 计算 Alpha 多样性,使用 skbio.diversity.beta_diversity() 计算 Beta 多样性(如 unweighted_unifrac)。计算前需要准备整数丰度矩阵(而非相对丰度),UniFrac 等系统发育指标还需要提供树和 OTU ID 映射。