string-database
STRING数据库查询接口,专用于蛋白质相互作用分析(涵盖5900万种蛋白质与200亿组相互作用)。支持网络拓扑分析、基因本体/通路富集计算、新型互作关系挖掘,覆盖超5000个物种,为系统生物学研究提供全面支持。
分类
其他工具安装
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
STRING Database - 蛋白质相互作用网络与功能富集分析工具
技能概述
STRING Database 技能提供对 STRING 蛋白质相互作用数据库的完整访问,涵盖 5900 万种蛋白质和超过 200 亿条互作关系,支持 5000+ 物种的网络分析、GO/KEGG 功能富集、互作伙伴发现和系统生物学研究。
适用场景
1. 蛋白质组学数据解读
从质谱实验、转录组测序或其他组学研究中获得的差异表达蛋白列表,可以通过 STRING 进行系统生物学解读。通过互作网络构建和功能富集分析,快速识别这些蛋白质参与的生物学通路、分子功能和细胞组分,为实验结果提供生物学意义解释。
2. 蛋白质互作网络研究
研究单个蛋白质(如 TP53)的互作网络,或分析多个蛋白质之间的连接关系。支持发现新的互作伙伴、识别网络中的核心蛋白(hub protein)、探索蛋白质复合物,并生成可视化的网络图谱用于论文发表或学术报告。
3. 跨物种比较分析
比较不同物种(人类、小鼠、酵母等)之间的蛋白质互作保守性,研究同源蛋白的互作模式差异,追踪进化过程中的网络变化。适用于进化生物学、比较基因组学和 translational research。
核心功能
1. 互作网络查询与可视化
通过 string_network() 函数获取蛋白质-蛋白质相互作用网络数据,支持自定义置信度阈值(150-900)和网络类型(功能关联或物理结合)。使用 string_network_image() 生成 PNG 格式的网络可视化图,可选择按证据类型、置信度高低或激活/抑制关系进行着色展示。
2. 功能富集分析
通过 string_enrichment() 函数对蛋白质列表进行多维度的功能富集分析,涵盖 Gene Ontology(生物过程、分子功能、细胞组分)、KEGG 通路、Pfam 结构域、InterPro 蛋白质家族等数据库。采用 Fisher 精确检验和 Benjamini-Hochberg FDR 校正,提供统计显著性评估。
3. 互作伙伴发现与网络扩展
使用 string_interaction_partners() 发现目标蛋白的所有已知和预测互作伙伴,支持按置信度筛选和数量限制。结合 string_ppi_enrichment() 验证蛋白质网络是否形成功能模块,判断互作密度是否显著高于随机期望。
常见问题
STRING 数据库是什么?如何用于蛋白质相互作用分析?
STRING(Search Tool for the Retrieval of Interacting Genes/Proteins)是一个整合了已知和预测蛋白质-蛋白质相互作用的数据库。它汇集了实验数据、计算预测、文献挖掘和公共数据库注释等多种证据来源,为 5900 万种蛋白质提供超过 200 亿条互作记录,覆盖 5000 多个物种。通过 STRING 可以查询蛋白互作网络、进行功能富集分析、可视化蛋白质关联关系,是系统生物学和蛋白质组学研究的核心工具之一。
如何使用 STRING API 查询蛋白质互作网络?
使用本技能提供的 Python 函数可以便捷调用 STRING REST API。首先使用 string_map_ids() 将基因名或蛋白质名称映射为 STRING 标识符(如 9606.ENSP00000269305),然后使用 string_network() 指定物种(如 9606 代表人类)和置信度阈值(0-1000)获取互作数据。对于网络可视化,使用 string_network_image() 生成 PNG 图片。代码示例:
from scripts.string_api import string_map_ids, string_network
mapping = string_map_ids('TP53', species=9606)
network = string_network('TP53', species=9606, required_score=700)STRING 置信度评分如何选择?400、700、900 有什么区别?
STRING 置信度评分范围为 0-1000,综合了基因组邻域、基因融合、系统发育谱、共表达、实验验证、数据库注释和文本挖掘七种证据类型。常用阈值选择:150(低置信度)适合探索性分析和假设生成,包含更多潜在互作但假阳性率较高;400(中等置信度)是默认值,平衡灵敏度和特异性,适用于标准分析;700(高置信度)用于保守分析,主要保留有强证据支持的互作;900(最高置信度)最为严格,通常只包含实验验证的高质量互作。选择阈值需要根据研究目的权衡召回率和精确率。