cellxgene-census
通过编程方式查询CELLxGENE Census(6100万+细胞)。当您需要从最大的经整理单细胞图谱中获取跨组织、疾病或细胞类型的表达数据时使用。最适合群体规模查询、参考图谱比较。如需分析自有数据,请使用scanpy或scvi-tools。
分类
其他工具安装
热度:18
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-cellxgene-census&locale=zh&source=copy
CELLxGENE Census - 61M+ 单细胞基因组数据查询
技能概述
CZ CELLxGENE Census 是一个程序化访问超过 6100 万个单细胞基因组数据的 Python 工具,提供跨组织、疾病和细胞类型的标准化基因表达数据查询接口。
适用场景
当你需要查询跨越多个组织、疾病类型或细胞类别的单细胞表达数据时,Census 提供了统一的 API 来访问超过 6100 万个经过标准化处理的人类和小鼠细胞数据。
适合将你自己的单细胞数据与大规模参考图谱进行比对,或使用 Census 数据作为训练集进行细胞类型注释和机器学习模型开发。
当你需要同时分析数千个单细胞数据集,进行跨组织、跨疾病的人群规模统计分析时,Census 提供了统一的元数据和表达矩阵,无需分别下载和处理原始数据。
核心功能
支持通过细胞类型、组织、疾病、供体 ID 等多种元数据字段过滤查询,可精确返回符合条件的细胞子集及其基因表达数据,同时提供
is_primary_data 标志避免重复计数。查询结果可直接返回为 AnnData 格式,与 scanpy 生态完全兼容,支持标准的降维、聚类、可视化和差异表达分析流程。
对于超过内存容量的查询,支持 out-of-core 迭代处理模式,并可提供 PyTorch DataLoader 接口用于深度学习模型的训练。
常见问题
CELLxGENE Census 是什么,如何访问?
CZ CELLxGENE Census 是由 Chan Zuckerberg Initiative 维护的单细胞基因组数据库,整合了数千个标准化处理的数据集,包含超过 6100 万个细胞。通过
cellxgene-census Python 包,你可以使用 open_soma() 函数打开数据库,然后使用 get_anndata() 或 get_obs() 查询数据。如何下载单细胞基因表达数据?
使用
cellxgene_census.get_anndata() 函数可以按条件查询并获取基因表达数据。例如:get_anndata(census, organism="Homo sapiens", obs_value_filter="cell_type == 'T cell' and tissue_general == 'lung'") 会返回肺部 T 细胞的表达矩阵。注意添加 is_primary_data == True 过滤条件避免重复细胞。cellxgene-census 可以和 scanpy 一起使用吗?
可以。Census 查询结果可以直接返回为 AnnData 格式,完全兼容 scanpy 工作流。你可以像处理普通 AnnData 对象一样进行标准化、降维、聚类和可视化分析。
Census 中有多少细胞数据?
截至最新版本,Census 包含超过 6100 万个来自人类和小鼠的单细胞,涵盖数千个原始数据集,支持按组织、疾病、细胞类型等多维度查询。
如何按组织或细胞类型筛选数据?
使用
obs_value_filter 参数指定筛选条件,例如 obs_value_filter="tissue_general == 'brain' and cell_type == 'neuron'"。支持 and、or 逻辑运算符和 in 操作符进行多值筛选。cellxgene-census 是免费的吗?
是的,CELLxGENE Census 是完全免费开放的数据资源,由 Chan Zuckerberg Initiative 资助和维护,无需注册即可访问。
支持哪些物种?
目前主要支持人类(Homo sapiens)和小鼠(Mus musculus)的单细胞数据。
如何避免查询结果中的重复细胞?
在所有查询中添加
is_primary_data == True 过滤条件。Census 中的细胞可能出现在多个数据集中,此标志可确保只返回唯一的原始细胞。