PyDESeq2

PyDESeq2 - Python 差异基因表达分析工具

PyDESeq2 是 DESeq2 的 Python 实现，专为 bulk RNA-seq 数据的差异表达分析设计。无需依赖 R 环境，即可完成从数据加载到结果可视化的完整转录组分析流程，支持多因子设计、批次效应控制和 Wald 检验。

当您需要比较不同实验条件下的基因表达差异时（如药物处理组 vs 对照组），PyDESeq2 可以自动完成数据标准化、统计检验和多重假设校正，输出可靠差异表达基因列表。

支持复杂实验场景，可以同时分析多个变量对基因表达的影响。例如在考虑批次效应时，可通过 ~batch + condition 设计公式控制技术变异，准确识别生物学差异。

如果您熟悉 R 版 DESeq2 但希望使用 Python 生态，PyDESeq2 提供相同的核心算法，同时与 pandas、AnnData 等常用 Python 库无缝集成，便于构建完整的 Python 分析流程。

实现 DESeq2 的全部关键步骤：size factor 标准化、离散度估计、Wald 检验、FDR 校正（Benjamini-Hochberg）。支持低表达基因过滤、异常值检测（Cook's distance）和 LFC 收缩（apeGLM）。

支持单因素和多因素实验设计，可纳入连续协变量（如年龄）和分类变量（如批次）。提供对比检验功能，灵活指定比较组别，并生成包含 log2FC、pvalue、padj 的完整结果表。

内置火山图和 MA 图生成功能，直观展示差异表达基因的统计显著性与表达量变化。支持通过 matplotlib 和 seaborn 进一步定制可视化效果，便于论文配图和结果展示。

PyDESeq2 专门用于 bulk RNA-seq 计数数据的差异表达分析。输入应为非负整数的基因计数矩阵（样本 × 基因）和实验元数据。不适用于单细胞 RNA-seq 数据（推荐使用 scanpy 等工具）或已标准化的表达数据（如 TPM/FPKM）。

在分析公式中包含批次变量即可控制批次效应，例如 design="~batch + condition"。PyDESeq2 会先建模批次变异，再检验条件效应，从而校正技术性差异。建议先通过样本检查确认批次与实验条件不混淆。

pvalue 是 Wald 检验的原始 p 值，padj 是经过 Benjamini-Hochberg FDR 校正后的调整 p 值。判断基因是否显著差异表达时，应使用 padj < 0.05 作为阈值，这样可以控制假发现率在 5% 以内，避免大量假阳性结果。