AB 测试效果验证

AB 测试效果验证

1、测试效果显著性检验
AB 测试后,我们需要对 AB 测试的结果进行显著性检验,从而判断改动是否对我们的核心指标产生了显著差异。举个栗子,仍以点击率为例,我们运行 AB 测试一周,分别对 1000 个样本进行了测试。对照组 A 的点击率为 7.5%,B 的点击率为 9%,如表:
Preview

我们能否给出结论说 B 比 A 好,改动是有效果的呢?有多大的可能是因为一些随机的因素导致这样的差异呢?
假设检验可以有效地帮助我们回答这个问题。首先假设改动没有效果,即 B 的效果不会比 A 好,然后试图通过样本测试的结果来验证这个假设, 如果样本足以推翻假设,那么我们就可以认为改动有效果,否则我们需要继续实验或者干脆就接受这个假设,把 B 方案扔掉了事。
由于我们实验的样本一般都较大(大于 30),所以我们使用 Z 检验来检验差异显著性(样本量较小时,我们一般用 T 检验,对此有疑问感兴趣的同学可以查阅相关资料)。
2、Z 检验
1) 样本统计量 Z 值
Z 检验是一种适用于大样本(样本容量大于 30)的两组平均数之间差异显著性检验的方法。它是通过计算两组平均数之间差的 Z 值与理论 Z 值相比较,看是否大于规定的理论 Z 值,从而判定两组平均数的差异是否显著。
其一般步骤如下:
第一步:建立原假设 H0:μ1 = μ2 ,即先假定两组平均数之间没有显著差异,
第二步:计算统计量 Z 值,对于不同类型的问题选用不同的统计量计算方法,通过检验两组样本平均数的差异性,判断它们各自代表的总体的差异是否显著。
与计算样本量相似,当观测的指标为绝对值类型/比率型指标时,Z 值的计算公式有所差异。
当观测指标为绝对值类指标时:
Preview

Preview

当观测指标为比率类指标时:
Preview

Preview

2) 理论 Z 值
样本的统计量 Z 值可以通过以上的公式进行计算, 理论 Z 值可以通过查询 Z 值表获得, 更方便的一种方法, 我们可以通过 Excel 的NORM.S.INV 函数直接计算,如下是我们常用置信水平 90%、95%、99%下的理论 Z 值。
Preview

3) 样本统计量 Z 值 vs 理论 Z 值比较
假设通过以上公式计算的统计量 Z 值 = 1.22,小于我们设定 95%置信水平对应理论 Z 值 1.96,也就是说我们暂无法判断这种差异性是显著的, 所以上述样本不足以得出 B 比 A 好的结论。
4) 继续实验
正如之前所说,由于无法得出 B 比 A 好的结论,这种情况下,我们需要做更多实验。
于是,我们又做了一周,A 和 B 分别得到了 3000 个样本,对照组和实验组转化率不变。这个时候我们有信心认为 B 比 A 好了吗?
Preview

仍然是套用上述公式求统计量 Z 值= 2.66。超出了我们设定的 95%置信水平对应理论 Z 值 1.96,这个时候我们有了足够的信心来相信 B 比 A 好。到此为止,实验结束。
  • 41
5条回复