ena-database

通过API/FTP访问欧洲核苷酸档案库。可按登录号获取DNA/RNA序列、原始读数(FASTQ格式)、基因组组装数据,适用于基因组学和生物信息学流程。支持多种数据格式。

安装

热度:8

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-ena-database&locale=zh&source=copy

ENA Database - 欧洲核苷酸序列档案库数据获取工具

技能概述


ENA Database 是一个用于访问欧洲核苷酸序列档案库(European Nucleotide Archive)的技能,支持通过 REST API 和 FTP 下载 DNA/RNA 序列、FASTQ 原始测序数据和基因组组装数据,适用于基因组学和生物信息学研究流程。

适用场景

1. 获取公开测序数据进行生物信息学分析


当您的研究需要使用已发表的测序数据进行二次分析时,可以通过 accession 号快速检索并下载 FASTQ 原始读段数据、BAM/CRAM 比对文件或基因组组装结果,无需自己测序。

2. 构建自动化生物信息学流程


ENA 提供完整的 REST API,支持编程方式查询样本、研究项目和基因组数据,可轻松集成到您的分析流程中,实现自动化的数据获取和处理。

3. 跨数据库查询与元数据检索


需要查询特定物种、研究项目或样本的元数据信息时,支持按物种分类学、项目编号、日期范围等多维度检索,并可通过交叉引用服务获取关联数据库的记录。

核心功能

1. 多数据类型检索与下载


支持检索和下载 Studies(研究项目)、Samples(样本)、Raw Reads(原始测序数据)、Assemblies(基因组组装)、Sequences(序列记录)等多种数据类型。提供 Browser API 用于直接获取记录,Portal API 用于高级搜索和批量查询。

2. 多种数据格式支持


序列数据提供 FASTQ(原始读段)、FASTA(组装序列)、BAM/CRAM(比对数据)格式;元数据支持 XML、JSON、TSV/CSV 等格式。可通过 API、FTP 或 Aspera 高速下载工具获取数据。

3. 高级查询与分类学检索


支持自由文本搜索、序列相似性搜索(BLAST)和 Rulespace 高级查询语法。可按物种分类学树查询相关基因组组装,获取分类学信息和谱系关系,实现跨数据库交叉引用。

常见问题

ENA Database 是什么,主要用途是什么?


ENA Database 是欧洲核苷酸序列档案库的数据访问工具,由 EBI 维护。它是全球三大核酸序列公共数据库之一(与 NCBI GenBank、DDBJ 并列),存储 DNA/RNA 序列、测序原始数据、基因组组装及其功能注释。主要用途是让研究人员检索和下载公开的基因组学数据用于分析和研究。

如何通过 accession 号下载 FASTQ 原始测序数据?


使用 ENA Browser API,格式为 https://www.ebi.ac.uk/ena/browser/api/xml/{accession} 获取记录信息。对于 FASTQ 文件下载,可使用 Portal API 搜索:https://www.ebi.ac.uk/ena/portal/api/search?result=read_run&query=run_accession={ERR号}&format=json 获取下载链接。大规模下载建议使用 enaBrowserTools 或 FTP/Aspera。

ENA 数据库的 API 有请求频率限制吗?


有的。所有 ENA API 的频率限制为每秒 50 次请求。超过限制会返回 HTTP 429(Too Many Requests)状态码。建议在代码中实现指数退避重试机制,或使用批量查询接口减少请求次数。对于大量数据下载,推荐使用 FTP 或 Aspera 工具而非逐条 API 调用。

ENA Portal API 和 Browser API 有什么区别?


Portal API 用于高级搜索和批量查询,支持复杂查询语法、多字段过滤,可返回 JSON/TSV/XML 格式的元数据摘要。Browser API 用于直接获取单个记录的完整信息和数据文件,主要返回 XML 格式。简单来说:Portal 适合"搜索一批",Browser 适合"获取一个"。

ENA Database 支持哪些数据格式?


元数据格式:XML(ENA 原生格式)、JSON(Portal API)、TSV/CSV(表格摘要)。序列数据:FASTQ(原始读段)、BAM/CRAM(比对后序列)、FASTA(组装序列)、EMBL flat file(带注释序列)。可根据分析需求选择合适格式。