一亩三分地

AB 测试效果验证

2644

查看帖子分类信息

AB 测试效果验证

1、测试效果显著性检验
AB 测试后，我们需要对 AB 测试的结果进行显著性检验，从而判断改动是否对我们的核心指标产生了显著差异。举个栗子，仍以点击率为例，我们运行 AB 测试一周，分别对 1000 个样本进行了测试。对照组 A 的点击率为 7.5%，B 的点击率为 9%，如表：

Preview

我们能否给出结论说 B 比 A 好，改动是有效果的呢？有多大的可能是因为一些随机的因素导致这样的差异呢？
假设检验可以有效地帮助我们回答这个问题。首先假设改动没有效果，即 B 的效果不会比 A 好，然后试图通过样本测试的结果来验证这个假设，如果样本足以推翻假设，那么我们就可以认为改动有效果，否则我们需要继续实验或者干脆就接受这个假设，把 B 方案扔掉了事。
由于我们实验的样本一般都较大（大于 30），所以我们使用 Z 检验来检验差异显著性（样本量较小时，我们一般用 T 检验，对此有疑问感兴趣的同学可以查阅相关资料）。
2、Z 检验
1）样本统计量 Z 值
Z 检验是一种适用于大样本（样本容量大于 30）的两组平均数之间差异显著性检验的方法。它是通过计算两组平均数之间差的 Z 值与理论 Z 值相比较，看是否大于规定的理论 Z 值，从而判定两组平均数的差异是否显著。
其一般步骤如下：
第一步：建立原假设 H0:μ1 = μ2 ，即先假定两组平均数之间没有显著差异，
第二步：计算统计量 Z 值，对于不同类型的问题选用不同的统计量计算方法，通过检验两组样本平均数的差异性，判断它们各自代表的总体的差异是否显著。
与计算样本量相似，当观测的指标为绝对值类型/比率型指标时，Z 值的计算公式有所差异。
当观测指标为绝对值类指标时：

Preview

当观测指标为比率类指标时：

Preview

2）理论 Z 值
样本的统计量 Z 值可以通过以上的公式进行计算，理论 Z 值可以通过查询 Z 值表获得，更方便的一种方法，我们可以通过 Excel 的NORM.S.INV 函数直接计算，如下是我们常用置信水平 90%、95%、99%下的理论 Z 值。

Preview

3）样本统计量 Z 值 vs 理论 Z 值比较
假设通过以上公式计算的统计量 Z 值 = 1.22，小于我们设定 95%置信水平对应理论 Z 值 1.96，也就是说我们暂无法判断这种差异性是显著的，所以上述样本不足以得出 B 比 A 好的结论。
4）继续实验
正如之前所说，由于无法得出 B 比 A 好的结论，这种情况下，我们需要做更多实验。
于是，我们又做了一周，A 和 B 分别得到了 3000 个样本，对照组和实验组转化率不变。这个时候我们有信心认为 B 比 A 好了吗？

Preview

仍然是套用上述公式求统计量 Z 值= 2.66。超出了我们设定的 95%置信水平对应理论 Z 值 1.96，这个时候我们有了足够的信心来相信 B 比 A 好。到此为止，实验结束。

5条回复

最早最热最新