cellxgene-census

通过编程方式查询CELLxGENE Census(6100万+细胞)。当您需要从最大的经整理单细胞图谱中获取跨组织、疾病或细胞类型的表达数据时使用。最适合群体规模查询、参考图谱比较。如需分析自有数据,请使用scanpy或scvi-tools。

安装

热度:18

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-cellxgene-census&locale=zh&source=copy

CELLxGENE Census - 61M+ 单细胞基因组数据查询

技能概述


CZ CELLxGENE Census 是一个程序化访问超过 6100 万个单细胞基因组数据的 Python 工具,提供跨组织、疾病和细胞类型的标准化基因表达数据查询接口。

适用场景

  • 大规模细胞数据查询

  • 当你需要查询跨越多个组织、疾病类型或细胞类别的单细胞表达数据时,Census 提供了统一的 API 来访问超过 6100 万个经过标准化处理的人类和小鼠细胞数据。

  • 参考图谱比对与注释

  • 适合将你自己的单细胞数据与大规模参考图谱进行比对,或使用 Census 数据作为训练集进行细胞类型注释和机器学习模型开发。

  • 跨数据集整合分析

  • 当你需要同时分析数千个单细胞数据集,进行跨组织、跨疾病的人群规模统计分析时,Census 提供了统一的元数据和表达矩阵,无需分别下载和处理原始数据。

    核心功能

  • 按条件过滤查询细胞数据

  • 支持通过细胞类型、组织、疾病、供体 ID 等多种元数据字段过滤查询,可精确返回符合条件的细胞子集及其基因表达数据,同时提供 is_primary_data 标志避免重复计数。

  • 与 scanpy 无缝集成

  • 查询结果可直接返回为 AnnData 格式,与 scanpy 生态完全兼容,支持标准的降维、聚类、可视化和差异表达分析流程。

  • 大规模数据的内存优化处理

  • 对于超过内存容量的查询,支持 out-of-core 迭代处理模式,并可提供 PyTorch DataLoader 接口用于深度学习模型的训练。

    常见问题

    CELLxGENE Census 是什么,如何访问?


    CZ CELLxGENE Census 是由 Chan Zuckerberg Initiative 维护的单细胞基因组数据库,整合了数千个标准化处理的数据集,包含超过 6100 万个细胞。通过 cellxgene-census Python 包,你可以使用 open_soma() 函数打开数据库,然后使用 get_anndata()get_obs() 查询数据。

    如何下载单细胞基因表达数据?


    使用 cellxgene_census.get_anndata() 函数可以按条件查询并获取基因表达数据。例如:get_anndata(census, organism="Homo sapiens", obs_value_filter="cell_type == 'T cell' and tissue_general == 'lung'") 会返回肺部 T 细胞的表达矩阵。注意添加 is_primary_data == True 过滤条件避免重复细胞。

    cellxgene-census 可以和 scanpy 一起使用吗?


    可以。Census 查询结果可以直接返回为 AnnData 格式,完全兼容 scanpy 工作流。你可以像处理普通 AnnData 对象一样进行标准化、降维、聚类和可视化分析。

    Census 中有多少细胞数据?


    截至最新版本,Census 包含超过 6100 万个来自人类和小鼠的单细胞,涵盖数千个原始数据集,支持按组织、疾病、细胞类型等多维度查询。

    如何按组织或细胞类型筛选数据?


    使用 obs_value_filter 参数指定筛选条件,例如 obs_value_filter="tissue_general == 'brain' and cell_type == 'neuron'"。支持 andor 逻辑运算符和 in 操作符进行多值筛选。

    cellxgene-census 是免费的吗?


    是的,CELLxGENE Census 是完全免费开放的数据资源,由 Chan Zuckerberg Initiative 资助和维护,无需注册即可访问。

    支持哪些物种?


    目前主要支持人类(Homo sapiens)和小鼠(Mus musculus)的单细胞数据。

    如何避免查询结果中的重复细胞?


    在所有查询中添加 is_primary_data == True 过滤条件。Census 中的细胞可能出现在多个数据集中,此标志可确保只返回唯一的原始细胞。