exploratory-data-analysis

对200多种文件格式的科学数据文件执行全面的探索性数据分析。此技能适用于分析任何科学数据文件时,用于理解其结构、内容、质量和特征。自动检测文件类型并生成详细的Markdown报告,包含特定格式分析、质量指标和下游分析建议。涵盖化学、生物信息学、显微成像、光谱学、蛋白质组学、代谢组学及通用科学数据格式。

安装

热度:13

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-exploratory-data-analysis&locale=zh&source=copy

探索性数据分析 (Exploratory Data Analysis)

技能概述


自动化分析 200+ 种科学数据文件格式的探索性数据分析工具,自动检测文件类型并生成包含质量评估和下游分析建议的详细报告。

适用场景

1. 实验数据质量检查


在开始正式分析前,快速评估科学数据的完整性、一致性和质量指标,发现潜在问题如缺失值、异常数据、格式错误等,避免在分析后期才发现数据问题浪费计算资源。

2. 不确定格式的数据文件分析


当遇到不熟悉的科学数据格式或从公共数据库下载的未知格式文件时,技能会自动识别文件类型、提取结构信息,并告诉您如何处理这类数据。

3. 跨学科数据整合分析


处理来自不同实验平台、不同学科的数据文件(如同时处理测序数据、显微镜图像和化学结构文件),统一了解各数据集的特征,为整合分析做好准备。

核心功能

自动格式检测与分类


支持 200+ 种科学数据格式,涵盖化学与分子格式 (PDB, MOL, SDF)、生物信息学格式 (FASTA, FASTQ, VCF, BAM)、显微镜成像格式 (ND2, CZI, OME-TIFF)、光谱分析格式 (mzML, DX, JDX)、蛋白质组学/代谢组学格式以及通用科学格式 (CSV, HDF5, NetCDF)。

格式特定分析


根据检测到的文件类型,执行针对性的深度分析:序列数据计算 GC 含量和质量分数分布,结构文件验证键长键角,成像数据提取维度通道信息,表格数据计算统计摘要和相关性,真正做到"懂格式"的分析。

详细报告生成


自动生成包含文件元数据、结构信息、统计汇总、质量评估、可视化建议和下游分析方法推荐的完整 Markdown 报告,可直接用于实验记录、方法学文档或团队协作。

常见问题

这个技能支持哪些科学数据文件格式?

支持 200+ 种格式,涵盖六大类别:化学与分子 (60+ 格式,如 PDB, MOL, CIF, XYZ)、生物信息学与基因组学 (50+ 格式,如 FASTA/Q, BAM, VCF, GFF)、显微镜与成像 (45+ 格式,如 ND2, CZI, OME-TIFF)、光谱与分析化学 (35+ 格式,如 mzML, DX, SPC)、蛋白质组学与代谢组学 (30+ 格式,如 mzML, mzTab, mzIdentML) 以及通用科学数据 (30+ 格式,如 CSV, HDF5, Zarr)。

生成的分析报告包含哪些内容?

报告包含八个核心部分:文件基本信息(大小、位置、时间戳)、格式识别与描述、数据结构维度、统计摘要、数据质量评估(缺失值、异常值、一致性检查)、可视化建议、适用的下游分析方法以及推荐的 Python 工具库。所有内容以结构化 Markdown 呈现,方便阅读和版本控制。

分析大型数据文件需要多长时间?

对于大多数文件,分析在几秒到几分钟内完成。对于特别大的文件(如几十 GB 的测序数据或大型显微镜成像),技能会采用智能采样策略,分析代表性样本并给出估计,避免内存溢出或长时间等待。报告会明确说明是基于全量数据还是采样分析。

这个技能能替代专业分析软件吗?

不能完全替代。这个技能专注于探索性数据分析(EDA)——即理解数据"长什么样"、"质量如何"、"适合什么分析",而不是执行特定领域的深度分析(如差异表达分析、分子对接、图像分割)。它的价值在于快速评估和规划,帮助您选择合适的后续专业工具。