anndata
单细胞分析中带注释矩阵的数据结构。适用于处理.h5ad文件或与scverse生态系统集成。此数据格式技能——分析工作流请用scanpy;概率模型请用scvi-tools;群体规模查询请用cellxgene-census。
分类
文件管理安装
热度:4
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-anndata&locale=zh&source=copy
AnnData 技能详情
技能概述
AnnData 是 Python 中用于处理注释数据矩阵的数据结构,专为单细胞基因组学分析设计,可高效存储实验测量值、细胞注释和基因元数据,支持 h5ad、Zarr 等多种格式。
适用场景
1. 单细胞RNA测序数据分析
处理 scRNA-seq 数据时,AnnData 可以存储基因表达矩阵、细胞类型注释、样本来源等信息,配合 Scanpy 完成从质控到聚类的完整分析流程。
2. 大规模基因组数据存储与处理
当数据量超出内存容量时,使用 AnnData 的备份模式(backed mode)可以按需加载数据,无需一次性读取整个文件,有效避免内存溢出问题。
3. 多批次实验数据整合
在处理多个实验批次或不同样本来源的数据时,AnnData 提供灵活的数据拼接功能,支持内连接、外连接等策略,自动追踪数据来源标签。
核心功能
1. 多格式数据读写
支持 h5ad 原生格式、Zarr 云存储格式,以及 CSV、MTX、Loom、10X Genomics 等常见基因组学格式,可轻松实现数据导入导出和格式转换。
2. 高效数据操作
提供基于条件的子集选择、数据转置、稀疏矩阵转换等功能,支持视图和复制两种操作模式,在保证数据完整性的同时优化内存使用。
3. scverse 生态系统集成
作为 Scanpy、scvi-tools、Muon 等工具的基础数据结构,AnnData 可无缝衔接单细胞分析、概率建模、多模态数据处理等工作流,还支持 PyTorch DataLoader 用于深度学习。
常见问题
AnnData 和 Scanpy 有什么区别?
AnnData 是数据结构,负责存储和管理注释数据矩阵;Scanpy 是基于 AnnData 的分析工具包,提供质控、归一化、降维、聚类等分析函数。简单来说,AnnData 是"容器",Scanpy 是"工具"。
如何避免处理大型数据集时内存溢出?
使用 AnnData 的备份模式(
backed='r')打开文件,数据仅在需要时加载;对于稀疏数据,可转换为 CSR/CSC 格式存储;此外可以分块处理数据,每次只操作一小部分。h5ad 文件可以在其他软件中打开吗?
h5ad 是 AnnData 的专有格式,基于 HDF5 标准。虽然可以用 h5py 等 HDF5 工具读取底层结构,但完整解析建议使用 AnnData 或兼容的 scverse 生态工具。与其他工具交互时,可导出为 CSV、MTX 等通用格式。