A/B测试是如何工作的-JobPlus

A/B测试是确定哪些营销信息能提高转化率（并因此可能会提高销售和收入）的一种很好的方式。很多人可能已经用过A/B测试了，但在对测试结果的理解上可能还需要一些帮助。在这篇文章里我希望不用数学方程和技术就能给大家解释清楚和A/B测试相关的一些数字。

A/B测试的结果通常以花哨的数学和统计学的方式给出，但数字背后的含义实际上相当简单。理解核心概念是很重要的部分，让计算器和软件休息一下吧。

采样和统计意义

需要讨论的第一个概念是抽样和样本大小。确定一组测试的结果是否有用高度依赖于进行测试的次数。我们把对每个A/B测试转化的测量称为样本，把收集这些测量结果的行为称为抽样。

现在假设你拥有一家快餐店，并且你很想知道人们更喜欢薯条还是洋葱圈。（如果你已经在做快餐生意，你可能已经知道这个销售问题的答案了。）假设你没有开店，并且想估计那种卖的更好，这样你就可以提前准备预定相应的库存了。

你在你位于三里屯的餐厅里进行了一个随机调查，问人们更喜欢洋葱圈还是炸薯条。如果你总共只问了三个人，有两个人说他们更喜欢洋葱圈，你会自信的认为三分之二的客户更喜欢洋葱圈然后按这个比例订购库存吗？可能不会吧。

随着你收集到更多的测量（或样品，在这种情况下，去问更多的人）数据，统计学结果就越趋于稳定，并且越来越接近实际可能看到的结果。炸薯条和洋葱圈的问题同样适用于网站和营销策略的变化。

目标是要确保你收集到了足够的数据点，在数据结果的基础上能自信地做出预测或改变。要计算试验所需要样本的准确数量需要一点技术，但有很多计算和应用软件可以帮到你，比如 evanmiller.org 就可以帮你计算出准确的数字。

埃文斯样本量计算器

置信区间

很可能你已经看到了置信区间，它是对测量可靠性的一个估值，一般写成如下形式：20.0％±2.0％。

让我们假设你执行的炸薯条洋葱圈调查有足够的参与人数来保证统计显著性，你可以通过使用可信赖的统计计算器或软件工具来确定。（同时也要注意，样本人群分布（人口统计等），但这里我们忽略了对它的简单讨论。）

比方说调查结果显示20%的受访者更喜欢洋葱圈。现在，注意置信区间部分为±2.0％。这表示喜欢洋葱圈的人的上限和下限，被称为误差幅度，它实际上是对多次重复试验真实平均值的误差衡量。

回到2%的误差幅度，20%减去2%是18%，加上2%就是22%。因此，我们可以自信地断定18-22%之间的人更喜欢洋葱圈。误差幅度越小，我们对平均值的估计就越有信心。

假设有一个很好的样本群体和规模，这基本上告诉我们，我们能自信地以某种方式做调查，比如对美国人的调查中，从95%的调查结果来看，喜欢洋葱圈的人介于18-22%之间，换句话说，我们可以比较肯定的是跟炸薯条比起来，18%-22%的美国人喜欢洋葱圈超过炸薯条。

因此，在我们为餐厅订购食材时，就能确定把22%的预算用来订购洋葱圈，剩下的预定薯条。那么假定食材库存足够，那么随着时间和订单的变化，我们就不太可能会用光任何一种食材了。

A/B测试中的置信区间

A/B测试应用于网站的改变，将会导致同样类型的结论，尽管我们需要比较来自试验 A 和试验 B 的不同的置信区间以得出关于结果的有意义的结论。

现在假设在网页上添加了一个很好看的“立即购买”按钮，并希望这可以带来更多的转化，我们运行A/B测试，把当前的按钮作为控制组，新的按钮作为试验组。在运行了一定数量的测试后，我们知道控制版本（Test A）的置信区间是10.0％±1.5％，测试版本（Test B）的置信区间是20.0％±2.5%。

置信区间的范围告诉我们，网页控制版本的访客转化极有可能在8.5-11.5%之间，测试版本的转化在17.5-22.5%之间。尽管每个置信区间都有一个范围，但很明显，两个范围没有重叠。

新的“立即购买”按钮似乎已经显著增加了我们的转化率。同样，假定有了适当的抽样总体和样本大小，我们就能对新按钮增加转化率非常有信心。

到底有多大的区别？

上面的案例中，有了很明显的改善，但改善是多少？让我们先忘记置信区间的误差部分一分钟，来看看每个测试的平均转化率。试验 A 的结果表明有10%的转化率，试验 B 有20%的转化率，做一个简单的减法（比如，20%-10%=10%）表明测试版本的转化率提高了10%。

10%的增长似乎是一个很大的提高，但它是有误导性的，因为我们关注的是两个转化率之间的绝对差。我们真正需要知道的是与控制组比较起来的两组转化率的差异。

我们知道两个转化率之差为10%，控制版本的转化率是10%，因此如果我们取比（即，用对照组除以控制组的转化率），我们会意识到其实转化率改善了100%。

换句话说，新按钮为我们带来了100%的转化率增长，这实际上增加了一倍。哇！我们一定要知道我们实际上增加了一个非常棒的按钮。

事实上，我们可能会看到更多像下面这样的情况。试验 A 的置信区间是13.84±0.22％，试验 B 的置信区间是15.02±0.27％，做相同的比较15.02%-13.84%=1.18%，这是测试版本为我们增加的百分比。1.18%/13.84%=8.5%，尽管绝对值只增加了1.18%，但转化率增加了8.5%。因此这是一个相当显著的改善，难道你不会为转化率提高将近百分之十而开心？我会。

转化率变化的百分比是比绝对值更值得记住的指标。转化率增长了8.5%听起来要比转化率绝对值增加了1.18%好得多。

置信区间的重叠

有一点要注意的是试验 A 和试验 B 置信区间的重叠。假设试验 A 转化率的置信区间为10-20%，试验 B 的置信区间为15-25%。（这么设置数字能简化接下来的讲解。）

注意，两个置信区间的重叠为5%，并且它位于15-20%的范围之间。如果给定这个信息的话，确保试验 B 有了显著的改善是很困难的。进一步解释，通常情况下 A/B 置信区间重叠5%表明了变化在统计学上不够显著或是采样数太少。

如果你有信心通过可信的计算方式确定了样本规模，并收集了足够多的样本，那么你可能要重新考虑试验变化并尝试别的改变来对转化率造成更大的影响。理想情况下，可以看到转化率的置信区间与控制试验不会重叠。

总结

A/B测试是建立于统计方法和分析上的技术。也就是说，你并不需要成为一个统计学家来了解相关的概念或你最喜欢的A/B测试框架给你的结果。当然你可以学习一些数学知识来计算你的测试中的统计数据和指标。但最终，可能你更关心的是什么结果能引导你让你的营销或产品变得更有针对性。

我们已经讨论了和A/B测试相关的各种概念和统计术语，以及可用于决策的数据结果。了解这些概念是是从A/B测试结果中做出更好决策的第一步，下一步是确保测试正常开展，并有足够的采样来提供结果，这样你才会有信心做出重大决策。

A/B测试是确定哪些营销信息能提高转化率（并因此可能会提高销售和收入）的一种很好的方式。很多人可能已经用过A/B测试了，但在对测试结果的理解上可能还需要一些帮助。在这篇文章里我希望不用数学方程和技术就能给大家解释清楚和A/B测试相关的一些数字。A/B测试的结果通常以花哨的数学和统计学的方式给出，但数字背后的含义实际上相当简单。理解核心概念是很重要的部分，让计算器和软件休息一下吧。采样和统计意义需要讨论的第一个概念是抽样和样本大小。确定一组测试的结果是否有用高度依赖于进行测试的次数。我们把对每个A/B测试转化的测量称为样本，把收集这些测量结果的行为称为抽样。<img src="https://file.jobplus.com.cn/2018/01/12/76254b35fc474a12ae74ab01bd3c445c.png" _src="https://file.jobplus.com.cn/2018/01/12/76254b35fc474a12ae74ab01bd3c445c.png"/>现在假设你拥有一家快餐店，并且你很想知道人们更喜欢薯条还是洋葱圈。（如果你已经在做快餐生意，你可能已经知道这个销售问题的答案了。）假设你没有开店，并且想估计那种卖的更好，这样你就可以提前准备预定相应的库存了。你在你位于三里屯的餐厅里进行了一个随机调查，问人们更喜欢洋葱圈还是炸薯条。如果你总共只问了三个人，有两个人说他们更喜欢洋葱圈，你会自信的认为三分之二的客户更喜欢洋葱圈然后按这个比例订购库存吗？可能不会吧。随着你收集到更多的测量（或样品，在这种情况下，去问更多的人）数据，统计学结果就越趋于稳定，并且越来越接近实际可能看到的结果。炸薯条和洋葱圈的问题同样适用于网站和营销策略的变化。目标是要确保你收集到了足够的数据点，在数据结果的基础上能自信地做出预测或改变。要计算试验所需要样本的准确数量需要一点技术，但有很多计算和应用软件可以帮到你，比如 evanmiller.org 就可以帮你计算出准确的数字。埃文斯样本量计算器<img src="https://file.jobplus.com.cn/2018/01/12/d294a4210ee147ad96df925ce0bc760d.png" _src="https://file.jobplus.com.cn/2018/01/12/d294a4210ee147ad96df925ce0bc760d.png"/>置信区间很可能你已经看到了置信区间，它是对测量可靠性的一个估值，一般写成如下形式：20.0％±2.0％。让我们假设你执行的炸薯条洋葱圈调查有足够的参与人数来保证统计显著性，你可以通过使用可信赖的统计计算器或软件工具来确定。 （同时也要注意，样本人群分布（人口统计等），但这里我们忽略了对它的简单讨论。）比方说调查结果显示20%的受访者更喜欢洋葱圈。现在，注意置信区间部分为±2.0％。这表示喜欢洋葱圈的人的上限和下限，被称为误差幅度，它实际上是对多次重复试验真实平均值的误差衡量。回到2%的误差幅度，20%减去2%是18%，加上2%就是22%。因此，我们可以自信地断定18-22%之间的人更喜欢洋葱圈。误差幅度越小，我们对平均值的估计就越有信心。假设有一个很好的样本群体和规模，这基本上告诉我们，我们能自信地以某种方式做调查，比如对美国人的调查中，从95%的调查结果来看，喜欢洋葱圈的人介于18-22%之间，换句话说，我们可以比较肯定的是跟炸薯条比起来，18%-22%的美国人喜欢洋葱圈超过炸薯条。因此，在我们为餐厅订购食材时，就能确定把22%的预算用来订购洋葱圈，剩下的预定薯条。那么假定食材库存足够，那么随着时间和订单的变化，我们就不太可能会用光任何一种食材了。A/B测试中的置信区间A/B测试应用于网站的改变，将会导致同样类型的结论，尽管我们需要比较来自试验 A 和试验 B 的不同的置信区间以得出关于结果的有意义的结论。现在假设在网页上添加了一个很好看的“立即购买”按钮，并希望这可以带来更多的转化，我们运行A/B测试，把当前的按钮作为控制组，新的按钮作为试验组。在运行了一定数量的测试后，我们知道控制版本（Test A）的置信区间是10.0％±1.5％，测试版本（Test B）的置信区间是20.0％±2.5%。置信区间的范围告诉我们，网页控制版本的访客转化极有可能在8.5-11.5%之间，测试版本的转化在17.5-22.5%之间。尽管每个置信区间都有一个范围，但很明显，两个范围没有重叠。新的“立即购买”按钮似乎已经显著增加了我们的转化率。同样，假定有了适当的抽样总体和样本大小，我们就能对新按钮增加转化率非常有信心。到底有多大的区别？上面的案例中，有了很明显的改善，但改善是多少？让我们先忘记置信区间的误差部分一分钟，来看看每个测试的平均转化率。试验 A 的结果表明有10%的转化率，试验 B 有20%的转化率，做一个简单的减法（比如，20%-10%=10%）表明测试版本的转化率提高了10%。10%的增长似乎是一个很大的提高，但它是有误导性的，因为我们关注的是两个转化率之间的绝对差。我们真正需要知道的是与控制组比较起来的两组转化率的差异。我们知道两个转化率之差为10%，控制版本的转化率是10%，因此如果我们取比（即，用对照组除以控制组的转化率），我们会意识到其实转化率改善了100%。换句话说，新按钮为我们带来了100%的转化率增长，这实际上增加了一倍。哇！我们一定要知道我们实际上增加了一个非常棒的按钮。事实上，我们可能会看到更多像下面这样的情况。试验 A 的置信区间是13.84±0.22％，试验 B 的置信区间是15.02±0.27％，做相同的比较15.02%-13.84%=1.18%，这是测试版本为我们增加的百分比。1.18%/13.84%=8.5%，尽管绝对值只增加了1.18%，但转化率增加了8.5%。因此这是一个相当显著的改善，难道你不会为转化率提高将近百分之十而开心？我会。转化率变化的百分比是比绝对值更值得记住的指标。转化率增长了8.5%听起来要比转化率绝对值增加了1.18%好得多。置信区间的重叠有一点要注意的是试验 A 和试验 B 置信区间的重叠。假设试验 A 转化率的置信区间为10-20%，试验 B 的置信区间为15-25%。（这么设置数字能简化接下来的讲解。）注意，两个置信区间的重叠为5%，并且它位于15-20%的范围之间。如果给定这个信息的话，确保试验 B 有了显著的改善是很困难的。进一步解释，通常情况下 A/B 置信区间重叠5%表明了变化在统计学上不够显著或是采样数太少。如果你有信心通过可信的计算方式确定了样本规模，并收集了足够多的样本，那么你可能要重新考虑试验变化并尝试别的改变来对转化率造成更大的影响。理想情况下，可以看到转化率的置信区间与控制试验不会重叠。总结A/B测试是建立于统计方法和分析上的技术。也就是说，你并不需要成为一个统计学家来了解相关的概念或你最喜欢的A/B测试框架给你的结果。当然你可以学习一些数学知识来计算你的测试中的统计数据和指标。但最终，可能你更关心的是什么结果能引导你让你的营销或产品变得更有针对性。我们已经讨论了和A/B测试相关的各种概念和统计术语，以及可用于决策的数据结果。了解这些概念是是从A/B测试结果中做出更好决策的第一步，下一步是确保测试正常开展，并有足够的采样来提供结果，这样你才会有信心做出重大决策。

关于我们

法律声明

帮助中心

商务合作

相关文章

关于我们

法律声明

帮助中心

商务合作