pydeseq2
差异基因表达分析(Python DESeq2)。通过沃尔德检验、错误发现率校正及火山图/MA图绘制,从批量RNA-seq计数数据中识别差异表达基因,适用于RNA-seq分析流程。
分类
其他工具安装
热度:6
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-pydeseq2&locale=zh&source=copy
PyDESeq2 - Python 差异基因表达分析工具
技能概述
PyDESeq2 是 DESeq2 的 Python 实现,专为 bulk RNA-seq 数据的差异表达分析设计。无需依赖 R 环境,即可完成从数据加载到结果可视化的完整转录组分析流程,支持多因子设计、批次效应控制和 Wald 检验。
适用场景
1. RNA-seq 差异表达分析
当您需要比较不同实验条件下的基因表达差异时(如药物处理组 vs 对照组),PyDESeq2 可以自动完成数据标准化、统计检验和多重假设校正,输出可靠差异表达基因列表。
2. 多因子实验设计
支持复杂实验场景,可以同时分析多个变量对基因表达的影响。例如在考虑批次效应时,可通过
~batch + condition 设计公式控制技术变异,准确识别生物学差异。3. 从 R 迁移到 Python 的生物信息学分析
如果您熟悉 R 版 DESeq2 但希望使用 Python 生态,PyDESeq2 提供相同的核心算法,同时与 pandas、AnnData 等常用 Python 库无缝集成,便于构建完整的 Python 分析流程。
核心功能
1. 完整的 DESeq2 工作流
实现 DESeq2 的全部关键步骤:size factor 标准化、离散度估计、Wald 检验、FDR 校正(Benjamini-Hochberg)。支持低表达基因过滤、异常值检测(Cook's distance)和 LFC 收缩(apeGLM)。
2. 多样化统计分析
支持单因素和多因素实验设计,可纳入连续协变量(如年龄)和分类变量(如批次)。提供对比检验功能,灵活指定比较组别,并生成包含 log2FC、pvalue、padj 的完整结果表。
3. 结果可视化
内置火山图和 MA 图生成功能,直观展示差异表达基因的统计显著性与表达量变化。支持通过 matplotlib 和 seaborn 进一步定制可视化效果,便于论文配图和结果展示。
常见问题
PyDESeq2 适合什么类型的数据?
PyDESeq2 专门用于 bulk RNA-seq 计数数据的差异表达分析。输入应为非负整数的基因计数矩阵(样本 × 基因)和实验元数据。不适用于单细胞 RNA-seq 数据(推荐使用 scanpy 等工具)或已标准化的表达数据(如 TPM/FPKM)。
如何处理实验中的批次效应?
在分析公式中包含批次变量即可控制批次效应,例如
design="~batch + condition"。PyDESeq2 会先建模批次变异,再检验条件效应,从而校正技术性差异。建议先通过样本检查确认批次与实验条件不混淆。分析结果中的 padj 和 pvalue 有什么区别?
pvalue 是 Wald 检验的原始 p 值,padj 是经过 Benjamini-Hochberg FDR 校正后的调整 p 值。判断基因是否显著差异表达时,应使用 padj < 0.05 作为阈值,这样可以控制假发现率在 5% 以内,避免大量假阳性结果。