lamindb
此技能适用于操作LaminDB——一个面向生物学的开源数据框架,它能使数据具备可查询、可追溯、可复现及符合FAIR原则的特性。适用于以下场景:管理生物数据集(如单细胞RNA测序、空间转录组、流式细胞术等)、追踪计算工作流程、利用生物本体进行数据整理与验证、构建数据湖仓,或在生物学研究中确保数据沿袭与可重复性。涵盖领域包括数据管理、数据标注、本体应用(如基因、细胞类型、疾病、组织)、模式验证、与工作流管理器(如Nextflow、Snakemake)及MLOps平台(如W&B、MLflow)的集成,以及部署策略。
分类
开发工具安装
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
LaminDB - 生物学数据管理与追溯框架
技能概述
LaminDB 是一个开源的生物学数据框架,通过统一的 Python API 让数据变得可查询、可追溯、可重现且符合 FAIR 原则,为单细胞测序、空间转录组学、流式细胞术等生物学研究提供完整的数据管理解决方案。
适用场景
管理 scRNA-seq、空间转录组学、流式细胞术等多模态生物学数据集,通过统一的查询界面快速检索和过滤实验数据,使用生物本体论(基因、细胞类型、组织、疾病)进行标准化注释。
自动追踪从原始数据到分析结果的完整血缘关系,记录 Jupyter Notebook、Python 脚本以及 Nextflow、Snakemake 等管道的执行过程,确保研究过程的可重现性和数据来源的透明度。
定义数据模式进行自动验证,标准化生物学术语和实验元数据,构建符合 FAIR 原则的数据湖,支持多用户协作和云端部署,与 Weights & Biases、MLflow、HuggingFace 等 MLOps 平台无缝集成。
核心功能
支持 DataFrame、AnnData、Zarr、Parquet 等多种格式,通过 Artifact 版本控制和 Record 实验元数据管理,实现数据的分层存储、流式加载和跨数据集统一查询,可连接本地文件系统、AWS S3、Google Cloud Storage 等多种存储后端。
内置 Ensembl 基因、UniProt 蛋白质、CL 细胞类型、Uberon 组织、Mondo 疾病等公共本体论,支持术语标准化、同义词映射、层次关系查询和自定义本体构建,确保数据注释的一致性和可互操作性。
通过
ln.track() 和 ln.finish() 自动捕获代码执行与数据输出的关系,生成可视化的血缘图谱,支持按来源代码、输入数据、创建时间等维度追溯数据历史,轻松回答"这个结果是如何产生的"这一关键问题。常见问题
LaminDB 适合什么类型的生物学数据?
LaminDB 专为生物学研究设计,支持单细胞 RNA-seq、空间转录组学、流式细胞术、bulk RNA-seq、多模态数据、电子健康记录(EHR)等多种数据类型。它通过统一的接口管理这些异构数据,支持 AnnData、MuData、SpatialData、TileDB-SOMA 等生物学常用格式,并可扩展到自定义数据类型。
如何开始使用 LaminDB?
安装 LaminDB 非常简单,使用 uv pip install lamindb 即可完成基础安装。根据需要可添加额外功能模块,如 lamindb[gcp,zarr,fcs]。安装后运行 lamin login 完成认证,然后使用 lamin init --storage <路径> 初始化实例即可开始使用。开发环境可使用 SQLite,生产环境推荐 PostgreSQL。
LaminDB 如何与其他工具集成?
LaminDB 提供丰富的集成选项:工作流管理器方面支持 Nextflow、Snakemake、Redun;MLOps 平台支持 Weights & Biases、MLflow、HuggingFace、scVI-tools;存储系统支持本地、AWS S3、Google Cloud Storage 及 S3 兼容服务;还支持 Git 版本控制、Vitessce 可视化以及 DuckDB SQL 查询,能轻松融入现有的生物学数据分析流程。