arboreto

使用可扩展算法(GRNBoost2、GENIE3)从基因表达数据推断基因调控网络(GRNs)。适用于分析转录组学数据(批量RNA测序、单细胞RNA测序),以识别转录因子与靶基因关系及调控相互作用。支持大规模数据集的分布式计算。

安装

热度:21

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-arboreto&locale=zh&source=copy

Arboreto 基因调控网络推断工具

技能概述


Arboreto 是一个用于从基因表达数据推断基因调控网络(GRN)的 Python 库,通过 GRNBoost2 和 GENIE3 等并行算法,识别转录因子与其靶基因之间的调控关系。

适用场景

1. 单细胞转录组数据分析


分析单细胞 RNA-seq 数据,推断细胞类型特异性基因调控网络,识别关键转录因子及其调控靶基因。适用于细胞分化轨迹研究、细胞类型鉴定等场景。

2. Bulk RNA-seq 网络推断


从批量转录组测序数据中构建基因调控网络,支持多条件比较分析(如对照组 vs 处理组),识别差异调控关系。

3. 大规模数据分布式计算


利用 Dask 分布式计算框架,从本地多核扩展到多节点集群,处理包含数万个观测值的大规模基因表达数据。

核心功能

1. 双算法网络推断


提供 GRNBoost2(基于梯度提升,速度快、适合大规模数据)和 GENIE3(基于随机森林,经典算法)两种推断算法,用户可根据数据规模和分析需求灵活选择。

2. 灵活的转录因子过滤


支持指定转录因子列表进行推断,聚焦感兴趣的调控因子,提高分析效率并降低计算成本。

3. 分布式并行计算


基于 Dask 框架实现从本地多核到远程集群的无缝扩展,自动利用可用 CPU 核心,也可自定义工作进程数和内存限制。

常见问题

Arboreto 是什么?主要用来做什么?


Arboreto 是一个计算生物学工具库,专门用于从基因表达数据(如 RNA-seq)中推断基因调控网络。它的核心功能是根据基因表达模式,识别哪些转录因子调控哪些靶基因,帮助研究人员理解基因间的调控关系。

GRNBoost2 和 GENIE3 应该选择哪个?


对于大多数分析场景,推荐使用 GRNBoost2,它基于梯度提升算法,处理大规模数据(10,000+ 观测值)时速度更快。GENIE3 是经典的随机森林算法,适合用于结果验证或方法比较。两者输出格式一致,可直接互换使用。

如何处理大规模基因表达数据的内存问题?


Arboreto 支持分布式计算来应对内存限制。可以通过过滤低方差基因减少数据规模,或者使用 Dask 分布式客户端将计算任务分配到多节点集群。默认情况下,Arboreto 会自动使用本地所有可用 CPU 核心进行并行计算。