hypogenic

基于LLM的自动化假设生成与表格数据集测试。适用于系统性地探索实证数据中的模式假设(如欺骗检测、内容分析)。该方法融合文献洞见与数据驱动的假设检验。若需手动构建假设,请使用hypothesis-generation;若需创意构思,请使用scientific-brainstorming。

安装

热度:66

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-hypogenic&locale=zh&source=copy

Hypogenic - 自动化假设生成与测试工具

技能概述

Hypogenic 是一个基于大语言模型的自动化假设生成和测试框架,能够从表格数据中快速生成可验证的科学假设,帮助研究人员加速发现数据背后的规律。

适用场景

1. 欺骗检测与内容分析

当您需要分析虚假评论、AI生成内容或其他需要识别欺骗性文本的场景时,Hypogenic 可以从数据中自动生成关于语言模式、语法特征、语调差异等可测试的假设,辅助您快速定位关键特征。

2. 文献与数据结合的研究

如果您的研究领域已有理论基础,Hypogenic 的 HypoRefine 方法可以提取相关论文的核心观点,与您的实证数据结合生成更全面的假设,实现理论驱动和数据驱动的协同分析。

3. 探索性数据分析

当您面对一个新的数据集但没有明确的研究假设时,HypoGeniC 方法可以纯粹从数据模式出发,生成10-20个候选假设供您验证,特别适合心理学、社会学、市场营销等领域的数据探索。

核心功能

1. 三种假设生成方法

  • HypoGeniC: 纯数据驱动,适合探索性研究

  • HypoRefine: 文献与数据融合,适合有理论基础的研究

  • Union方法: 整合多种来源的假设,最大化覆盖范围
  • 2. 文献智能处理

    支持自动提取研究论文的核心观点,将文献中的理论知识转化为可测试的假设,配合 GROBID 进行 PDF 解析,让文献综述与假设生成无缝衔接。

    3. 灵活的配置与扩展

    基于 YAML 的配置文件支持自定义提示模板、标签提取函数和数据格式,同时提供 Python API 和 CLI 命令行两种使用方式,方便集成到现有工作流中。

    常见问题

    Hypogenic 支持哪些编程语言?

    Hypogenic 是一个 Python 包,主要通过 Python API 或命令行使用。您的数据需要是 JSON 格式的表格数据,但内容本身可以是任何语言——只要您的 LLM 支持处理该语言文本即可。

    我需要多少数据才能使用 Hypogenic?

    官方建议使用 HuggingFace 数据集格式,需要训练集、验证集和测试集三个文件。数据量要求取决于具体任务,一般来说几十到几百个样本即可开始生成假设,数据越多假设质量通常越好。

    Hypogenic 生成的假设可靠吗?

    根据研究论文报告,使用 Hypogenic 生成的假设在 AI 内容检测任务上比少样本基线提升 8.97%,在欺骗检测任务上提升 7.44%,且 80-84% 的假设对具有非冗余的独特见解。不过假设质量仍需人工验证,工具更多是辅助发现而非替代判断。