GEO Database 技能 - NCBI 基因表达数据下载与分析工具

GEO Database 基因表达数据库访问技能

技能概述

GEO Database 是一个用于访问 NCBI Gene Expression Omnibus（基因表达综合数据库）的 AI 技能，帮助用户搜索、下载和分析超过 26 万个研究的基因表达与基因组学数据。

适用场景

1. 转录组学研究

当您需要获取特定疾病、药物处理或实验条件下的基因表达数据时，可以使用此技能快速检索 GEO 数据库中的微阵列（microarray）和 RNA-seq 数据集，获取 GSE 系列数据、GSM 样本数据和 GPL 平台注释信息。

2. 差异表达分析

对于需要进行基因表达差异分析的研究场景，此技能可以帮助下载 Series Matrix 表达矩阵文件，使用 GEOparse 库解析数据，并结合 Python 数据科学栈（pandas、scipy、statsmodels）进行统计分析、聚类可视化和 meta 分析。

3. 生物信息学数据整合

当您的研究涉及多个独立数据集的整合分析时，此技能支持批量下载多个 GEO 系列，统一处理不同平台的数据格式，提取关键基因的表达谱，并进行跨研究的 meta 分析。

核心功能

1. 智能数据检索与下载

支持通过多种方式访问 GEO 数据：使用 GEOparse 库一键下载完整的 GSE 系列，通过 NCBI E-utilities API 进行精确检索，或直接通过 FTP 获取 SOFT/MINIML 格式的原始文件。自动处理数据层级结构（Series/Sample/Platform/DataSet），支持按样本元数据筛选和子集提取。

2. 数据解析与预处理

自动解析 SOFT 格式和 Series Matrix 文件，提取表达矩阵和样本元数据。支持 log2 转换、缺失值处理、质量控制可视化等预处理步骤，可将 GEO 数据直接转换为 pandas DataFrame 便于下游分析。

3. 分析工作流支持

提供差异表达分析、样本相关性热图、层次聚类等常用分析模板。支持批量处理多个数据集，进行跨研究的基因表达 meta 分析，并整合 GEO2R 在线工具进行快速探索性分析。

常见问题

GEO 数据库是什么？

GEO（Gene Expression Omnibus）是美国国家生物技术信息中心（NCBI）维护的公共数据库，收录高通量基因表达和功能基因组学数据。截至 2024 年，GEO 包含超过 264,000 个研究和 800 万个样本，涵盖微阵列芯片和 RNA 测序数据，是生物医学研究中使用最广泛的基因表达数据资源之一。

如何从 GEO 下载数据？

有多种方式可以下载 GEO 数据。最推荐的方式是使用 Python 的 GEOparse 库，只需一行代码 GEOparse.get_GEO("GSE123456") 即可自动下载并解析完整数据集。对于批量下载，可以直接访问 NCBI FTP 站点获取 Series Matrix 或 SOFT 格式文件。若只需元数据信息，可使用 NCBI E-utilities API 进行检索，无需下载完整文件。

GSE、GSM、GPL 有什么区别？

GEO 使用分层结构组织数据：GSE（Series） 代表一个完整的实验研究，包含实验设计、相关样本和整体信息；GSM（Sample） 是单个实验样本或生物学重复，包含个体样本数据和协议信息；GPL（Platform） 描述所使用的微阵列芯片或测序平台，包含探针/特征注释。简单理解：GSE 是整个项目，GSM 是具体样本，GPL 是检测工具。

geo-database

作者

分类

安装