etetoolkit

系统发育树工具包(ETE)。支持树形结构操作(Newick/NHX格式)、进化事件检测、直系/旁系同源分析、NCBI分类学数据集成,以及面向系统发育基因组学的可视化输出(PDF/SVG格式)。

安装

热度:8

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-etetoolkit&locale=zh&source=copy

ETE Toolkit - 系统发育树分析与进化研究工具

技能概述

ETE Toolkit 是一个用于系统发育树和层次树结构分析的 Python 工具包,支持树操作、进化事件检测、直系同源基因识别、NCBI 分类学集成以及出版级可视化,适用于系统基因组学和进化生物学研究。

适用场景

1. 系统基因组学研究

从基因树到直系同源识别的完整工作流程:加载基因树与序列比对,配置物种命名规则,自动检测基因复制和物种形成事件,结合 NCBI 分类数据库注释谱系信息,最终提取直系同源群并进行可视化展示。

2. 进化树可视化与论文配图

生成出版质量的系统发育图:支持矩形和圆形布局,可自定义节点颜色、形状和大小,添加文本、图表和热图等注解元素,输出高分辨率 PNG、PDF 和 SVG 矢量格式,满足期刊投稿要求。

3. 树数据批量处理与比较

格式转换、重新定根、分支修剪等批量预处理操作;使用 Robinson-Foulds 距离量化不同树之间的拓扑差异,识别独特和共享的分支划分,构建多树距离矩阵,适用于系统发育推断方法的比较和评估。

核心功能

1. 树操作与拓扑分析

读取和导出 Newick、NHX、PhyloXML 和 NeXML 多种格式,支持前序、后序和层序遍历策略。提供分支修剪、重新定根、节点塌陷和多叉树解析等拓扑修改功能,计算分支长度和拓扑距离,使用 Robinson-Foulds 距离进行树比较。

2. 进化事件与同源基因检测

将基因树与多序列比对关联,自动或自定义提取物种名称。基于物种重叠或树调和算法检测基因复制和物种形成事件,据此识别直系同源和旁系同源基因,支持按复制事件分割树和折叠谱系特异性扩张。

3. NCBI 分类学集成

自动下载并本地缓存 NCBI 分类数据库(约 300MB),实现分类 ID 与科学名称的双向转换。获取完整进化谱系,根据指定物种列表构建最小连接树,自动为系统发育树节点添加分类学注释信息。

常见问题

ETE Toolkit 支持哪些系统发育树格式?

ETE 支持 Newick 格式的多种变体(格式 0-100),包括带分支长度的默认格式、含内部节点名称的格式、含支持值的格式,以及 NHX(New Hampshire eXtended)扩展格式。此外还支持 PhyloXML 和 NeXML 格式的读写。

如何检测基因树中的复制和物种形成事件?

使用 PhyloTree 类加载基因树并配置物种命名函数,调用 get_descendant_evol_events() 方法自动检测进化事件。遍历树节点时可通过 evoltype 属性区分复制(D)和物种形成(S)事件,进而识别查询基因的直系同源和旁系同源。

ETE3 怎么可视化系统发育树并导出 PDF?

配置 TreeStyle 设置显示选项和缩放比例,使用 NodeStyle 自定义节点颜色和大小,通过 layout_fn 函数实现基于节点属性的动态样式。调用 tree.render() 方法导出为 PDF、SVG 或 PNG 格式,支持自定义分辨率和尺寸单位。