scanpy

标准单细胞RNA测序分析流程。适用于质量控制、数据归一化、降维分析(PCA/UMAP/t-SNE)、细胞聚类、差异表达基因识别及可视化。最适合采用成熟工作流程进行探索性单细胞RNA测序分析。若需深度学习模型请使用scvi-tools工具;有关数据格式问题请查阅anndata文档。

安装

热度:7

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-scanpy&locale=zh&source=copy

Scanpy - Python 单细胞 RNA-seq 分析工具

技能概述

Scanpy 是一个基于 Python 的可扩展单细胞转录组测序数据分析工具包,提供从质量控制到细胞类型注释的完整分析流程,帮助研究人员高效处理和分析 scRNA-seq 数据。

适用场景

1. 单细胞 RNA-seq 数据分析

支持 10X Genomics、h5ad (AnnData)、CSV 等多种格式的单细胞数据导入和处理,适用于探索性数据分析和发表级结果展示。

2. 细胞聚类与可视化

通过 UMAP、t-SNE、PCA 等降维方法进行数据可视化,使用 Leiden 算法进行细胞聚类,识别细胞亚群并发现标记基因。

3. 细胞类型注释与轨迹分析

基于已知标记基因进行细胞类型注释,支持 PAGA 和扩散伪时间等轨迹推断方法,揭示细胞分化路径。

核心功能

1. 质量控制与预处理

提供完整的质控流程,包括线粒体基因比例计算、细胞和基因过滤、标准化归一化、高变基因筛选和批次校正,确保数据质量可靠。

2. 降维与聚类可视化

支持 PCA 主成分分析、UMAP 和 t-SNE 非线性降维、Leiden/Louvain 图聚类,生成发表级质量的细胞分布图和热图。

3. 差异表达与标记基因识别

使用 Wilcoxon 秩和检验等方法进行组间差异表达分析,识别各细胞簇的特异性标记基因,支持点图、热图、小提琴图等多种可视化方式。

常见问题

Scanpy 支持哪些数据格式?

Scanpy 支持多种主流单细胞数据格式,包括 10X Genomics 的 MTX 和 H5 格式、AnnData 的 h5ad 格式、以及通用的 CSV/TSV 表格格式。通过 sc.read_10x_mtx()sc.read_10x_h5()sc.read_h5ad()sc.read_csv() 等函数即可导入数据。

Scanpy 和 Seurat 有什么区别?

两者都是主流的单细胞分析工具,主要区别在于编程语言和生态系统。Scanpy 使用 Python,与 scverse 生态系统(squidpy、scvi-tools、cellrank)无缝集成,适合需要深度学习或自定义分析流程的场景;Seurat 使用 R 语言,在统计分析和可视化方面有优势。选择主要取决于团队的技术栈和具体需求。

单细胞质控阈值如何设置?

常用质控阈值包括:每个细胞最少检测基因数(min_genes: 200-500)、每个基因最少出现细胞数(min_cells: 3-10)、线粒体基因比例上限(pct_counts_mt: 5-20%)。具体阈值需要根据数据质量、组织类型和实验方案调整,建议通过小提琴图观察 QC 指标分布后确定。