A/B Test Setup - 严谨的实验设计与假设验证指南

A/B Test Setup - 严谨的 A/B 测试设计与执行指南

A/B Test Setup 是一套结构化的 A/B 测试设置指南，通过强制性的假设锁定、指标定义和执行就绪检查，确保每个实验在设计阶段就具备统计严谨性和可执行性，防止因设计缺陷导致的无效实验。

产品功能验证：在正式发布新功能或改版前，通过对照实验验证改动的真实效果，避免凭感觉做决策带来的风险。

增长实验设计：针对转化率优化、用户留存提升等关键指标，设计具备足够统计功效的实验，确保能够检测到预期的效果变化。

实验流程规范：为产品、数据和分析团队建立统一的实验设计标准，减少因假设模糊、样本不足或指标不当导致的实验失败。

假设锁定机制：在设计变体和指标之前，强制要求明确并锁定最终假设，包括目标受众、主要指标、预期方向和最小可检测效应（MDE），防止实验过程中随意变更目标。

样本量与时长计算：基于基线率、MDE、显著性水平和统计功效，估算每个变体所需的样本量和预期测试时长，避免因流量不足导致实验无法得出结论。

执行就绪检查：在开始实施前进行强制性检查，确保假设已锁定、指标已冻结、样本量已计算、护栏已设置、追踪已验证，任一条件不满足则阻止实验启动。

结果解释规范：提供明确的解读原则和决策矩阵，区分统计显著性与业务判断，防止因护栏指标失败而错误地推广"胜利"变体。

拒绝条件与安全阀：当基线率未知、流量不足、主要指标未定义或多变量混杂时，主动拒绝继续推进并说明原因，避免执行无效或有害的实验。

所需流量取决于基线转化率和预期检测的最小效应。例如，如果基线转化率为 5%，希望检测到 10% 的相对提升（即绝对提升 0.5%），在 95% 置信水平和 80% 统计功效下，每个变体大约需要 3 万个样本。如果日访问量有限，可能需要延长测试周期或重新评估 MDE 的合理性。

不可以。提前停止会破坏实验的统计有效性，即使结果看起来很好也可能是虚假的正面结果。必须坚持在实验设计阶段预定的样本量完成测试，除非因护栏指标严重失败而提前终止。这一技能会明确提醒不要因"看起来不错"而提前停止。

护栏指标是实验过程中必须不能显著下降的关键指标，用于防止"局部优化"带来的系统性伤害。例如，一个提高点击率的改版可能导致用户留存下降或加载时间变长。如果护栏指标出现显著负面变化，即使主要指标获胜，也不应该推广该变体。这一技能要求在实验设计阶段就明确定义护栏指标，并在结果分析时给予其一票否决权。