Scanpy 技能 - Python 单细胞 RNA-seq 分析完整流程

Scanpy - Python 单细胞 RNA-seq 分析工具

技能概述

Scanpy 是一个基于 Python 的可扩展单细胞转录组测序数据分析工具包，提供从质量控制到细胞类型注释的完整分析流程，帮助研究人员高效处理和分析 scRNA-seq 数据。

适用场景

1. 单细胞 RNA-seq 数据分析

支持 10X Genomics、h5ad (AnnData)、CSV 等多种格式的单细胞数据导入和处理，适用于探索性数据分析和发表级结果展示。

2. 细胞聚类与可视化

通过 UMAP、t-SNE、PCA 等降维方法进行数据可视化，使用 Leiden 算法进行细胞聚类，识别细胞亚群并发现标记基因。

3. 细胞类型注释与轨迹分析

基于已知标记基因进行细胞类型注释，支持 PAGA 和扩散伪时间等轨迹推断方法，揭示细胞分化路径。

核心功能

1. 质量控制与预处理

提供完整的质控流程，包括线粒体基因比例计算、细胞和基因过滤、标准化归一化、高变基因筛选和批次校正，确保数据质量可靠。

2. 降维与聚类可视化

支持 PCA 主成分分析、UMAP 和 t-SNE 非线性降维、Leiden/Louvain 图聚类，生成发表级质量的细胞分布图和热图。

3. 差异表达与标记基因识别

使用 Wilcoxon 秩和检验等方法进行组间差异表达分析，识别各细胞簇的特异性标记基因，支持点图、热图、小提琴图等多种可视化方式。

常见问题

Scanpy 支持哪些数据格式？

Scanpy 支持多种主流单细胞数据格式，包括 10X Genomics 的 MTX 和 H5 格式、AnnData 的 h5ad 格式、以及通用的 CSV/TSV 表格格式。通过 sc.read_10x_mtx()、sc.read_10x_h5()、sc.read_h5ad() 和 sc.read_csv() 等函数即可导入数据。

Scanpy 和 Seurat 有什么区别？

两者都是主流的单细胞分析工具，主要区别在于编程语言和生态系统。Scanpy 使用 Python，与 scverse 生态系统（squidpy、scvi-tools、cellrank）无缝集成，适合需要深度学习或自定义分析流程的场景；Seurat 使用 R 语言，在统计分析和可视化方面有优势。选择主要取决于团队的技术栈和具体需求。

单细胞质控阈值如何设置？

常用质控阈值包括：每个细胞最少检测基因数（min_genes: 200-500）、每个基因最少出现细胞数（min_cells: 3-10）、线粒体基因比例上限（pct_counts_mt: 5-20%）。具体阈值需要根据数据质量、组织类型和实验方案调整，建议通过小提琴图观察 QC 指标分布后确定。

scanpy

作者

分类

安装