ensembl-database

查询Ensembl基因组数据库REST API,覆盖250多个物种。支持基因查找、序列提取、变异分析、比较基因组学、同源基因查询、VEP预测等功能,适用于基因组研究。

安装

热度:15

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-ensembl-database&locale=zh&source=copy

Ensembl Database 技能详情

技能概述


Ensembl Database 技能让你能够通过 Python 或 REST API 直接访问 EMBL-EBI 维护的权威基因组数据库,支持人类、小鼠等 250 多种物种的基因查询、序列下载、变异分析和跨物种比较。

适用场景

1. 基因注释与序列获取


当你需要快速查询某个基因(如 BRCA2、TP53)的详细信息、获取对应的 DNA、转录本或蛋白质序列时,该技能可以直接通过基因符号或 Ensembl ID 查询,返回完整的注释和序列数据,无需手动下载大型数据库文件。

2. 遗传变异功能预测


在进行基因变异分析时,需要预测某个变异(如 rsID 或基因组坐标位置)可能产生的生物学影响。该技能集成了 VEP(Variant Effect Predictor),可以预测变异是否影响蛋白质编码、剪接位点等重要功能区域。

3. 跨物种基因比较研究


研究基因在不同物种间的进化关系时,需要找到目标基因在其他物种中的直系同源基因。该技能支持一键查找同源基因,获取进化树和基因家族信息,适用于比较基因组学和进化生物学研究。

核心功能

基因信息查询


支持通过基因符号(如 "BRCA2")、Ensembl ID(如 "ENSG00000139618")或外部数据库 ID 进行基因查找,返回基因的染色体位置、转录本、蛋白质序列和外部数据库交叉引用(UniProt、RefSeq 等)。

序列数据检索


提供多种序列获取方式,包括基因组 DNA 序列、转录本 cDNA 序列、蛋白质序列,以及指定基因组区域的序列提取。支持 JSON、FASTA 等多种输出格式,方便后续分析。

变异效应分析(VEP)


输入变异的 HGVS 表示法或 rsID,即可预测该变异的生物学后果,包括是否导致氨基酸改变、是否位于剪接位点、是否影响调控区域等,并附带人群频率数据和表型关联信息。

比较基因组学工具


查找指定基因在其他物种中的直系同源基因和旁系同源基因,获取基因树和基因家族信息,帮助理解基因的进化历史和功能保守性。

基因组坐标转换


支持不同基因组组装版本之间的坐标映射(如 GRCh37/hg19 到 GRCh38/hg38),解决历史数据与最新参考基因组版本不匹配的问题。

基因组区域检索


查询指定染色体区域内的所有基因、转录本、调控元件(启动子、增强子)和结构变异,适用于区域性基因组分析。

常见问题

Ensembl 数据库支持哪些物种?

Ensembl 数据库覆盖了超过 250 种脊椎动物物种,包括人类、小鼠、大鼠、斑马鱼、果蝇等常用模式生物,以及多种非模式生物。你可以通过 API 查询完整物种列表和各物种的基因组组装信息。除了主站 Ensembl,Ensembl Genomes 还包含植物、真菌、原生生物等非脊椎生物数据。

如何使用 Ensembl API 查询基因信息?

最简单的方式是安装 Python 包 ensembl_rest,然后使用 EnsemblClient 进行查询。例如:client.symbol_lookup(species='human', symbol='BRCA2') 即可返回 BRCA2 基因的完整信息。也可以不安装任何包,直接使用 requests 库调用 REST API 端点。

Ensembl REST API 有调用限制吗?

有。匿名用户每秒最多可发起 15 个请求。如果超出限制,API 会返回 429 状态码,并在响应头中包含 Retry-After 字段告知等待时间。建议在代码中实现重试机制和速率控制,或使用批量端点减少请求次数。

VEP(变异效应预测)如何使用?

VEP 接受多种格式的变异输入,包括 HGVS 表示法(如 ENST00000380152.7:c.803C>T)、rsID(如 rs699)或基因组坐标。调用后会返回该变异的预测后果,如同义突变、错义突变、剪接位点改变等,以及人群频率和临床关联信息。

如何将旧版本基因组坐标转换为新版本?

使用 AssemblyMapper 功能可以实现坐标转换。例如从 GRCh37 转换到 GRCh38,只需指定 asm_from='GRCh37'asm_to='GRCh38',然后输入染色体和坐标位置即可得到映射结果。注意 GRCh37 查询需要使用专门的域名 grch37.rest.ensembl.org