geniml

该技能适用于处理基因组区间数据(BED文件)以进行机器学习任务。可用于训练区域嵌入(如Region2Vec、BEDspace)、单细胞ATAC-seq分析(scEmbed)、构建共有峰集(universes),或任何基于机器学习的基因组区域分析。适用于BED文件集合、单细胞ATAC-seq数据、染色质可及性数据集以及基于区域的基因组特征学习。

安装

热度:15

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-geniml&locale=zh&source=copy

Geniml: 基因组区间机器学习分析工具

技能概述

Geniml 是一个专用于基因组区间数据(BED 文件)机器学习分析的 Python 工具包,提供无监督学习方法训练基因组区域、单细胞和元数据的嵌入,支持相似性搜索、聚类和下游机器学习任务。

适用场景

  • scATAC-seq 单细胞分析

  • 对单细胞 ATAC 测序数据进行细胞类型聚类、注释和降维分析,生成的嵌入可无缝集成到 scanpy 工作流中。

  • 批量基因组数据特征提取

  • 处理 ChIP-seq、ATAC-seq 等批量测序数据的 BED 文件,通过 Region2Vec 训练区域嵌入,用于区域相似性分析和下游监督学习。

  • 元数据感知的基因组搜索

  • 当实验具有细胞类型、组织、条件等元数据标签时,使用 BEDspace 构建区域和标签的联合嵌入空间,支持跨模态查询。

    核心功能

    1. Region2Vec 基因组区域嵌入


    采用 word2vec 风格的无监督学习方法,将基因组区域转换为低维向量表示。适用于 BED 文件集合的降维、区域相似性分析以及为下游 ML 任务构建特征向量。

    2. scEmbed 单细胞嵌入


    专为单细胞 ATAC-seq 数据设计的嵌入训练工具,能够生成细胞级别的嵌入向量,直接支持与 scanpy 的集成,实现聚类、可视化和细胞类型注释。

    3. 共识峰(Universe)构建


    从 BED 文件集合构建参考峰集合,提供 CC(覆盖率截断)、CCF(灵活截断)、ML(最大似然)和 HMM(隐马尔可夫模型)四种统计方法,为分词化提供标准化的参考特征。

    常见问题

    Geniml 支持哪些类型的基因组数据?

    Geniml 主要处理 BED 格式的基因组区间数据,包括 ChIP-seq、ATAC-seq 等染色质可及性数据集、scATAC-seq 单细胞数据,以及任何基于区域基因组特征的学习任务。数据需要与参考基因组匹配,并可用于构建 tokenization universe。

    Region2Vec 和 BEDspace 应该如何选择?

    如果只需要分析区域本身的相似性、没有元数据标签,选择 Region2Vec;当实验具有细胞类型、组织、条件等元数据,且需要跨模态查询(如"这些区域属于什么细胞类型")时,选择 BEDspace。BEDspace 构建的是区域和标签的联合嵌入空间。

    Geniml 可以和现有的单细胞分析流程集成吗?

    可以。scEmbed 生成的细胞嵌入可以直接作为 AnnData 对象的 obsm 条目(如 adata.obsm['scembed_X']),完全兼容 scanpy 的下游分析流程,包括邻域图构建、聚类、UMAP 可视化等。同时也支持与 BEDbase、Hugging Face 等生态系统集成。