scikit-bio

scikit-bio - Python 生物信息学与微生物组分析工具库

技能概述

scikit-bio 是一个综合性的 Python 生物信息学库，用于处理和分析生物序列数据、构建系统发育树、计算微生物多样性指标、进行生态统计检验和排序分析。

适用场景

1. 微生物组与生态群落分析

适用于 16S rRNA、宏基因组等微生物组研究，计算 Alpha 多样性（Shannon、Simpson、Faith's PD）和 Beta 多样性（Bray-Curtis、UniFrac 距离），进行 PERMANOVA、ANOSIM 等统计检验，评估群落结构差异。

2. 生物序列处理与分析

适用于 DNA、RNA、蛋白质序列的读取、编辑和转换，支持 FASTA、FASTQ、GenBank 等 19+ 种生物文件格式，进行序列比对、 motif 搜索、转录翻译等操作。

3. 系统发育与进化分析

适用于从距离矩阵构建系统发育树（NJ、UPGMA 等方法），进行树的修剪、重新扎根、比较（Robinson-Foulds 距离），计算 patristic 和 cophenetic 距离。

核心功能

1. 多样性分析

计算微生物生态学常用指标，包括 Alpha 多样性（丰富度、Shannon 熵、Simpson 指数、Pielou 均匀度、Faith's PD）和 Beta 多样性（Bray-Curtis、Jaccard、加权/非加权 UniFrac），支持稀疏化和子采样。

2. 序列操作与比对

提供 DNA、RNA、Protein 类进行序列操作（反向互补、转录翻译、motif 搜索），支持全局和局部序列比对，使用 TabularMSA 处理多重序列比对。

3. 统计检验与排序

提供 PERMANOVA、ANOSIM、Mantel 检验等生态统计方法，支持 PCoA、CA、CCA、RDA 等排序分析，可处理距离矩阵和生物表格（BIOM 格式）。

常见问题

scikit-bio 是什么？适合用来做什么？

scikit-bio 是一个用于生物数据处理的 Python 库，特别适合微生物组分析、生物序列处理、系统发育树构建和生态统计分析。它与 QIIME 2 生态系统集成，支持 BIOM、Newick 等常见格式。

scikit-bio 和 Biopython 有什么区别？

两者都是生物信息学 Python 库，但侧重点不同。Biopython 更通用，涵盖序列解析、结构生物学、网络数据库访问等；scikit-bio 专注于微生物组分析和生态统计，提供更完善的多样性指标、UniFrac、PERMANOVA 等群落分析工具。

如何用 scikit-bio 计算微生物多样性？

使用 skbio.diversity.alpha_diversity() 计算 Alpha 多样性，使用 skbio.diversity.beta_diversity() 计算 Beta 多样性（如 unweighted_unifrac）。计算前需要准备整数丰度矩阵（而非相对丰度），UniFrac 等系统发育指标还需要提供树和 OTU ID 映射。

作者

分类

安装