gget
快速命令行与Python查询超过20个生物信息学数据库。适用于快速检索:基因信息、BLAST搜索、AlphaFold结构、富集分析。最适合交互式探索和简单查询。批量处理或高级BLAST应用推荐使用biopython;多数据库Python工作流建议使用bioservices。
分类
开发工具安装
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
gget - 生物信息学数据库快速查询工具
技能概述
gget 是一个命令行生物信息学工具和 Python 包,提供对 20+ 基因组数据库的统一查询接口,支持基因信息检索、序列分析、蛋白质结构预测、表达数据和疾病关联分析。
适用场景
1. 快速基因信息查询
当你需要快速查找基因的基本信息、序列、蛋白质结构等数据时,gget 提供简洁的命令行接口和 Python API,无需访问多个数据库网站即可完成查询。
2. 序列分析与比对
对于序列比对、BLAST 搜索、多序列比对等常规分析任务,gget 集成了 BLAST、BLAT、MUSCLE、DIAMOND 等工具,可直接调用标准数据库进行分析。
3. 基因表达与功能分析
需要查询基因表达数据、进行富集分析、获取疾病关联信息时,gget 整合了 ARCHS4、Enrichr、OpenTargets、cBioPortal 等资源,支持一站式分析。
核心功能
1. 多数据库统一查询
支持 Ensembl、UniProt、NCBI、RCSB PDB、ARCHS4、Enrichr、Bgee、OpenTargets 等二十多个生物信息学数据库,所有模块既可作为命令行工具使用,也可在 Python 中直接调用,返回格式统一的 JSON、CSV 或 DataFrame 数据。
2. 序列分析与结构预测
内置 BLAST、BLAT 序列比对工具,支持多序列比对(MUSCLE)和快速本地比对(DIAMOND);集成 AlphaFold2 进行蛋白质结构预测,可生成 PDB 文件和交互式 3D 可视化;支持 PDB 数据库查询和线性模体预测。
3. 表达数据与疾病关联
查询 ARCHS4 基因相关性和组织表达数据,获取单细胞 RNA-seq 数据(CELLxGENE),进行 GO、KEGG 等富集分析,检索疾病和药物关联信息(OpenTargets),分析癌症基因组数据(cBioPortal、COSMIC)。
常见问题
gget 支持哪些数据库?
gget 目前支持 20+ 生物信息学数据库,包括:Ensembl(参考基因组、基因信息)、UniProt 和 NCBI(蛋白质/基因元数据)、RCSB PDB(蛋白质结构)、ARCHS4(基因表达相关性)、Enrichr(富集分析)、Bgee(同源与表达)、OpenTargets(疾病药物关联)、cBioPortal(癌症基因组)、COSMIC(体细胞突变)、UCSC(BLAT 比对)等。
gget 和 Biopython 有什么区别?
gget 专注于快速查询和简单分析,提供统一的命令行接口,适合交互式探索和一次性查询。Biopython 功能更全面,适合复杂的数据处理和大规模批量分析。如果只是需要快速查询基因信息、做 BLAST 搜索或富集分析,gget 更简单直接;如果需要自定义复杂的分析流程或处理大量数据,Biopython 或 bioservices 更合适。
gget 能处理大量数据的批量分析吗?
gget 主要设计用于快速查询和交互式探索,并非为大规模批量处理优化。对于单个或少量基因的查询、序列比对等任务,gget 非常高效。但如果需要处理数千个基因或大规模数据集,建议使用专门的批处理工具(如 Biopython)或编写自定义脚本。gget info 模块建议每次查询不超过 1000 个 Ensembl ID。