ab-test-setup

A/B测试结构化指南:设立假设、指标与执行准备度的强制审查关卡。

作者

安装

热度:12

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-ab-test-setup&locale=zh&source=copy

A/B Test Setup - 严谨的 A/B 测试设计与执行指南

技能概述

A/B Test Setup 是一套结构化的 A/B 测试设置指南,通过强制性的假设锁定、指标定义和执行就绪检查,确保每个实验在设计阶段就具备统计严谨性和可执行性,防止因设计缺陷导致的无效实验。

适用场景

  • 产品功能验证:在正式发布新功能或改版前,通过对照实验验证改动的真实效果,避免凭感觉做决策带来的风险。
  • 增长实验设计:针对转化率优化、用户留存提升等关键指标,设计具备足够统计功效的实验,确保能够检测到预期的效果变化。
  • 实验流程规范:为产品、数据和分析团队建立统一的实验设计标准,减少因假设模糊、样本不足或指标不当导致的实验失败。
  • 核心功能

  • 假设锁定机制:在设计变体和指标之前,强制要求明确并锁定最终假设,包括目标受众、主要指标、预期方向和最小可检测效应(MDE),防止实验过程中随意变更目标。
  • 样本量与时长计算:基于基线率、MDE、显著性水平和统计功效,估算每个变体所需的样本量和预期测试时长,避免因流量不足导致实验无法得出结论。
  • 执行就绪检查:在开始实施前进行强制性检查,确保假设已锁定、指标已冻结、样本量已计算、护栏已设置、追踪已验证,任一条件不满足则阻止实验启动。
  • 结果解释规范:提供明确的解读原则和决策矩阵,区分统计显著性与业务判断,防止因护栏指标失败而错误地推广"胜利"变体。
  • 拒绝条件与安全阀:当基线率未知、流量不足、主要指标未定义或多变量混杂时,主动拒绝继续推进并说明原因,避免执行无效或有害的实验。
  • 常见问题

    A/B 测试需要多少流量才能进行?

    所需流量取决于基线转化率和预期检测的最小效应。例如,如果基线转化率为 5%,希望检测到 10% 的相对提升(即绝对提升 0.5%),在 95% 置信水平和 80% 统计功效下,每个变体大约需要 3 万个样本。如果日访问量有限,可能需要延长测试周期或重新评估 MDE 的合理性。

    实验过程中看到明显的好结果,可以提前停止吗?

    不可以。提前停止会破坏实验的统计有效性,即使结果看起来很好也可能是虚假的正面结果。必须坚持在实验设计阶段预定的样本量完成测试,除非因护栏指标严重失败而提前终止。这一技能会明确提醒不要因"看起来不错"而提前停止。

    什么是护栏指标,为什么重要?

    护栏指标是实验过程中必须不能显著下降的关键指标,用于防止"局部优化"带来的系统性伤害。例如,一个提高点击率的改版可能导致用户留存下降或加载时间变长。如果护栏指标出现显著负面变化,即使主要指标获胜,也不应该推广该变体。这一技能要求在实验设计阶段就明确定义护栏指标,并在结果分析时给予其一票否决权。