开始A/B测试前，你必须知道的13件事-JobPlus

《后会无期》中有句台词：「听过很多道理，还是过不好这一生。」你是不是也已经听过很多关于增长黑客和 AB 测试的知识，但依然迟迟没有开始动手？心中还有很多顾虑和担忧？我们来为你解答。

在开始之前，如果你对 AB 测试还不是很了解，或者并不知道它可以用来做什么，你可以先看看下面这篇文章：

人生没有AB可选，做APP、H5、广告是可以的

如果对 AB 测试已经很熟悉，请继续往下读。

1. 如何理解“用数据帮助开发者做产品决策”？

移动互联网的产品经理和工程师在设计和开发产品时，会更多的从C端用户的需求出发做产品优化。需要强调的是，对用户行为的深度理解，很难仅仅依靠决策者的个人洞察力。有些经验只有通过科学的 AB 测试的试验数据才能获得。小到颜色调整，大到产品逻辑，都可以通过数据来驱动产品的优化。

用 Amazon 的信用卡广告作为例子，这个广告最初放在购物页面里，几乎无人问津，并且浪费了宝贵的广告位；当产品经理尝试把这个广告放在结算页面时，用户就会发现这个信用卡的好处。AB 测试的试验数据显示这个改进会带来年化上亿美元的营收增长。产品经理以数据证明了自己的成功。

全数据驱动 (Data Driven) 的产品优化理念就是为产品优化确定可以量化的“优化指标”，进而通过 AB 测试这样的科学试验手段来大胆尝试各种改进，由试验数据来决定哪种改进更好。需要注意的是，试验数据如果不进行充分的分析可能会带来不正确的决策。

比如电商 App 的新设计里强调了商品价格，结果导致用户点击率下降一半！说明这个改动是不好的么？不一定，因为有可能点击商品的用户的购买转化提高了2倍以上。也就是说，新设计的商品信息对用户更加有用了，反而可能增加营收。

另外，阅读数据要全面，要避免以偏概全或者以全盖偏的问题。例如，如果 App 用自己公司的员工做试验，得到的试验结果未必能推广到全体用户。

再例如，试验结果显示新版本比老版本提高了0.2%，微不足道；但是可能对城市里的年轻女性 iPhone 用户来说，新版本比老版本提高了20%，从这个试验中学到的经验依然很宝贵。

所以，App 开发者需要制定科学的优化指标，从海量数据中挖掘出有用的用户行为信息。 AppAdhoc A/B Testing 支持自定义的优化指标和可计算的复合指标，能够多维度的分析试验数据。我们吆喝科技的专业团队，也会做好咨询服务，帮助开发者理解和分析试验数据。

2. AB 测试可以测试哪些具体内容？

从视觉上的 UI 改变，到着陆页的转化率优化，甚至是后端推荐算法等等。用数据优化产品，用 AB 测试做真正的 Growth Hacking。

3. 如何通过 AB 测试降低开发成本，节约开发资源？

AB 测试可以使你在现有流量中获取更高的收益。每个产品都希望访客最终可以转化成为有价值的用户。去获取新的用户和流量多数时候会耗费很高的成本，但是如果将现有的流量尽可能高的变现，成本会小得多。这种转化的概率统称为“转化率”。在 AB 测试中，设定 AB 版本进行对比试验，即可得知哪个版本拥有更高的转化率。

4. 我的用户量级很小，是否适合进行 AB 测试？

想要获得一个可信度较高的 AB 测试结果，日活最好能够保证大于1000，否则进行可信 AB 测试是比较困难的。此外，在保证一定用户量级的情况下，试验时间也要运行充足。

5. 点击率这种指标的短期优化会和产品质量的长期优化矛盾么？

有可能，在构建优化指标的时候需要考虑对用户的长期影响。比如，把用户活跃度按照用户注册时间来加权，就可以生成一个针对用户长期行为的优化指标。

6. 测试版本和控制版本的流量分配有相关性么？

测试版本和控制版本的流量分配没有相关性。理论上来说，为了保证试验结果的科学性，测试版本和控制版本的流量分配建议保持一致。但在流量足够的情况下，只要保证试验结果的置信区间在收敛范围内，那么不同版本的流量也可以进行差异分配。

7. 随机流量分割是单纯的随机分配吗？

当然不是单纯的随机分配。如果试验流量分割是通过单纯的随机算法完成的，A 和 B 两个版本的用户群体很可能就不具有代表性，无法进行对等的比较。所以需要通过科学的试验流量分割进行聚类分析，使得每个测试版本的用户群体都具有相同的代表性，对比结果是科学可信的。

8.95%置信区间是什么意思？

置信区间是指参与试验用户的优化指标相对于产品所有用户在同一优化指标均值的区间估计，展现的是优化指标的真实值与参与试验用户指标数据的相似度。95%是置信度，置信度越高，置信区间就越大。

以优化点击率为例，当测试版本的优化指标数据好于控制版本，在试验报告的数据变化中显示为“+55%”。那么在95%的置信区间下，版本上线后有95%的机率能够将真实点击率提升50%-60%，点击率提升低于50%的可能性小于5%。

此外，需要注意版本测试时的用户流量大小，小流量的用户行为统计在流量放宽后关键指标数据可能会发生变化。建议用户在试验过程中，由小到大逐步增加流量分配，同时实时监控关键指标的数据走势，得到可信的指标分布区间，实现关键指标数据的真实优化。

9. 什么是辛普森悖论？

当人们尝试探究两种变量是否具有相关性的时候，会分别对之进行分组研究。然而，在分组比较中都占优势的一方，在总评中有时反而是失势的一方。该现象命名为辛普森悖论。

该现象在 AB 测试上的表现就是：如果试验流量分割是通过纯随机算法完成的，A 和 B 两个版本的用户群体就不具有代表性，无法进行对等的比较。如果试验结果显示 B 优于 A，有可能应用 B 版本到全体用户中之后，它的表现比 A 差。

10. 什么是区群谬误？

区群谬误是一种以全盖偏，认为对全部用户好等于对部分用户好。需要将试验数据进行多维度切割，帮助深入理解一个新功能对特定人群的效果。

11. 在线灰度发布功能是如何加速 APP/Web 敏捷开发的？

对于早期 App 开发者，精细化的优化成本太高，大量微调型的 AB 测试也没有必要。但是在线灰度发布功能是十分有用的，可以大大提高开发者的敏捷开发效率。通过使用第三方 AB 测试云服务，接入包装了“模块开关”这个 API 接口的 SDK，开发者在每次改动代码时可以在控制台定义一个或者几个模块开关，然后用模块开关来保护代码改动。简单的说，可以让新功能只有在模块开关打开的情况下才展示给手机用户。

在新代码部署上线之后，用户对新代码无感知。开发者可以通过控制台开放新功能给部分用户，用来检测 bug 和获得用户反馈。如果发现问题，可以随时回滚到老版本；如果新功能获得成功，则可以推送给所有用户。

这种对不确定的新功能进行灰度上线的模式，能够使每一次代码改动更快的部署，减轻企业内部的 QA 和测试压力；而且可以快速通过应用商店的审核；特别是在发现问题时可以无须通过审核直接关停有问题的试验。

12.怎么判断一个试验是否已经达到成熟的试验结果？

通常判断一个试验结果是否成熟可根据置信区间和显著性，置信区间表示试验真实的结果会在该区间之内，显著性表明试验结果在当前条件下已经稳定可信。

要获得一个可信的试验结果需要一定的流量和时间，如果流量太小，试验结果会存在偶然性，可能无法得出可信的结果；试验运行时间太短的话同理。

13.使用第三方 AB 测试云服务是否安全？

以吆喝科技的 AppAdhoc 为例，首先，我们的 SDK 并不会获取用户的个人信息，我们只统计客户 App 关心的优化指标，所以我们是和客户 App 一起尊重用户的个人隐私；其次，我们并不保存和处理 App 的历史数据，AB 测试需要的只是短期的试验数据用来科学的判断哪个试验更成功就可以了。最后，我们可以为客户 App 提供私有云解决方案，数据完全不经过我们。

而且，AppAdhoc A/B Testing 支持可视化编辑功能，所见即所得，无需代码知识，就可以完成试验创建。

吆喝科技：国内唯一同时支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 测试服务的专业 SaaS 平台。支持线上灰度发布、多维度数据统计分析、科学的流量分配系统、一键发布新版本无需应用市场审核、定向测试。

用数据帮助用户优化产品，提升转化、留存和你想要的一切。 AppAdhoc 用数据验证最佳方案，提高产品设计、研发、运营和营销效率，降低产品决策风险。

<p>《后会无期》中有句台词：「听过很多道理，还是过不好这一生。」你是不是也已经听过很多关于增长黑客和 AB 测试的知识，但依然迟迟没有开始动手？心中还有很多顾虑和担忧？我们来为你解答。</p><p> </p><p>在开始之前，如果你对 AB 测试还不是很了解，或者并不知道它可以用来做什么，你可以先看看下面这篇文章：</p><p> </p><p>人生没有AB可选，做APP、H5、广告是可以的</p><p> </p><p>如果对 AB 测试已经很熟悉，请继续往下读。</p><p><img src="http://www.appadhoc.com/blog/wp-content/uploads/2016/12/%E9%BB%98%E8%AE%A4%E6%A0%87%E9%A2%98-%E8%AE%BE%E8%AE%A1%E5%88%9B%E5%BB%BA%E4%BA%8E%E5%88%9B%E5%AE%A2%E8%B4%B4-4-1.png" style="max-width:98%"/></p><h3><strong>1. 如何理解“用数据帮助开发者做产品决策”？</strong></h3><p>移动互联网的产品经理和工程师在设计和开发产品时，会更多的从C端用户的需求出发做产品优化。 需要强调的是，对用户行为的深度理解，很难仅仅依靠决策者的个人洞察力。有些经验只有通过科学的 <a href="http://#" onclick="return false;">AB 测试</a>的试验数据才能获得。 小到颜色调整，大到产品逻辑，都可以通过数据来驱动产品的优化。</p><p> </p><p>用 Amazon 的信用卡广告作为例子，这个广告最初放在购物页面里，几乎无人问津，并且浪费了宝贵的广告位；当产品经理尝试把这个广告放在结算页面时， 用户就会发现这个信用卡的好处。AB 测试的试验数据显示这个改进会带来年化上亿美元的营收增长。产品经理以数据证明了自己的成功。</p><p> </p><p>全数据驱动 (Data Driven) 的产品优化理念就是为产品优化确定可以量化的“优化指标”，进而通过 AB 测试这样的科学试验手段来大胆尝试各种改进，由试验数据来决定哪种改进更好。 需要注意的是，试验数据如果不进行充分的分析可能会带来不正确的决策。</p><p> </p><p>比如电商 App 的新设计里强调了商品价格，结果导致用户点击率下降一半！说明这个改动是不好的么？ 不一定，因为有可能点击商品的用户的购买转化提高了2倍以上。也就是说，新设计的商品信息对用户更加有用了，反而可能增加营收。</p><p> </p><p>另外，阅读数据要全面，要避免以偏概全或者以全盖偏的问题。例如，如果 App 用自己公司的员工做试验，得到的试验结果未必能推广到全体用户。</p><p> </p><p>再例如，试验结果显示新版本比老版本提高了0.2%，微不足道；但是可能对城市里的年轻女性 iPhone 用户来说，新版本比老版本提高了20%，从这个试验中学到的经验依然很宝贵。</p><p> </p><p>所以，App 开发者需要制定科学的优化指标，从海量数据中挖掘出有用的用户行为信息。 AppAdhoc A/B Testing 支持自定义的优化指标和可计算的复合指标，能够多维度的分析试验数据。我们吆喝科技的专业团队，也会做好咨询服务，帮助开发者理解和分析试验数据。</p><p><img src="http://www.appadhoc.com/blog/wp-content/uploads/2016/12/metrics-1.png" style="max-width:98%"/></p><h3><strong>2. AB 测试可以测试哪些具体内容？</strong></h3><p>从视觉上的 UI 改变，到着陆页的转化率优化，甚至是后端推荐算法等等。用数据优化产品，用 AB 测试做真正的 Growth Hacking。</p><h3></h3><h3><strong>3. 如何通过 AB 测试降低开发成本，节约开发资源？</strong></h3><p>AB 测试可以使你在现有流量中获取更高的收益。每个产品都希望访客最终可以转化成为有价值的用户。 去获取新的用户和流量多数时候会耗费很高的成本，但是如果将现有的流量尽可能高的变现，成本会小得多。 这种转化的概率统称为“转化率”。在 AB 测试中，设定 AB 版本进行对比试验，即可得知哪个版本拥有更高的转化率。</p><h3></h3><h3><strong>4. 我的用户量级很小，是否适合进行 AB 测试？</strong></h3><p>想要获得一个可信度较高的 AB 测试结果，日活最好能够保证大于1000，否则进行可信 AB 测试是比较困难的。此外，在保证一定用户量级的情况下，试验时间也要运行充足。</p><h3></h3><h3><strong>5. 点击率这种指标的短期优化会和产品质量的长期优化矛盾么？</strong></h3><p>有可能，在构建优化指标的时候需要考虑对用户的长期影响。比如，把用户活跃度按照用户注册时间来加权，就可以生成一个针对用户长期行为的优化指标。</p><h3></h3><h3><strong>6. 测试版本和控制版本的流量分配有相关性么？</strong></h3><p>测试版本和控制版本的流量分配没有相关性。理论上来说，为了保证试验结果的科学性，测试版本和控制版本的流量分配建议保持一致。但在流量足够的情况下，只要保证试验结果的置信区间在收敛范围内，那么不同版本的流量也可以进行差异分配。</p><p><img src="http://www.appadhoc.com/blog/wp-content/uploads/2016/12/AB%E6%B5%8B%E8%AF%952-996-300.jpg" style="max-width:98%"/></p><h3><strong>7. 随机流量分割是单纯的随机分配吗？</strong></h3><p>当然不是单纯的随机分配。如果试验流量分割是通过单纯的随机算法完成的，A 和 B 两个版本的用户群体很可能就不具有代表性，无法进行对等的比较。所以需要通过科学的试验流量分割进行聚类分析，使得每个测试版本的用户群体都具有相同的代表性，对比结果是科学可信的。</p><h3></h3><h3><strong>8.95%置信区间是什么意思？</strong></h3><p>置信区间是指参与试验用户的优化指标相对于产品所有用户在同一优化指标均值的区间估计，展现的是优化指标的真实值与参与试验用户指标数据的相似度。95%是置信度，置信度越高，置信区间就越大。</p><p> </p><p>以优化点击率为例，当测试版本的优化指标数据好于控制版本，在试验报告的数据变化中显示为“+55%”。那么在95%的置信区间下，版本上线后有95%的机率能够将真实点击率提升50%-60%，点击率提升低于50%的可能性小于5%。</p><p> </p><p>此外，需要注意版本测试时的用户流量大小，小流量的用户行为统计在流量放宽后关键指标数据可能会发生变化。建议用户在试验过程中，由小到大逐步增加流量分配，同时实时监控关键指标的数据走势，得到可信的指标分布区间，实现关键指标数据的真实优化。</p><h3></h3><h3><strong>9. 什么是辛普森悖论？</strong></h3><p>当人们尝试探究两种变量是否具有相关性的时候，会分别对之进行分组研究。 然而，在分组比较中都占优势的一方，在总评中有时反而是失势的一方。该现象命名为辛普森悖论。</p><p> </p><p>该现象在 AB 测试上的表现就是：如果试验流量分割是通过纯随机算法完成的，A 和 B 两个版本的用户群体就不具有代表性，无法进行对等的比较。 如果试验结果显示 B 优于 A，有可能应用 B 版本到全体用户中之后，它的表现比 A 差。</p><h3></h3><h3><strong>10. 什么是区群谬误？</strong></h3><p>区群谬误是一种以全盖偏，认为对全部用户好等于对部分用户好。需要将试验数据进行多维度切割，帮助深入理解一个新功能对特定人群的效果。</p><h3></h3><h3><strong>11. 在线灰度发布功能是如何加速 APP/Web 敏捷开发的？</strong></h3><p>对于早期 App 开发者，精细化的优化成本太高，大量微调型的 AB 测试也没有必要。但是在线灰度发布功能是十分有用的，可以大大提高开发者的敏捷开发效率。通过使用第三方 AB 测试云服务，接入包装了“模块开关”这个 API 接口的 SDK，开发者在每次改动代码时可以在控制台定义一个或者几个模块开关，然后用模块开关来保护代码改动。 简单的说，可以让新功能只有在模块开关打开的情况下才展示给手机用户。</p><p> </p><p>在新代码部署上线之后，用户对新代码无感知。 开发者可以通过控制台开放新功能给部分用户，用来检测 bug 和获得用户反馈。 如果发现问题，可以随时回滚到老版本；如果新功能获得成功，则可以推送给所有用户。</p><p> </p><p>这种对不确定的新功能进行灰度上线的模式，能够使每一次代码改动更快的部署，减轻企业内部的 QA 和测试压力； 而且可以快速通过应用商店的审核；特别是在发现问题时可以无须通过审核直接关停有问题的试验。</p><p><img src="http://www.appadhoc.com/blog/wp-content/uploads/2016/12/20160719064102-shutterstock-308665433.jpeg" style="max-width:98%"/></p><h3><strong>12.怎么判断一个试验是否已经达到成熟的试验结果？</strong></h3><p>通常判断一个试验结果是否成熟可根据置信区间和显著性，置信区间表示试验真实的结果会在该区间之内，显著性表明试验结果在当前条件下已经稳定可信。</p><p> </p><p>要获得一个可信的试验结果需要一定的流量和时间，如果流量太小，试验结果会存在偶然性，可能无法得出可信的结果；试验运行时间太短的话同理。</p><h3></h3><h3><strong>13.使用第三方 AB 测试云服务是否安全？</strong></h3><p>以吆喝科技的 AppAdhoc 为例，首先，我们的 SDK 并不会获取用户的个人信息，我们只统计客户 App 关心的优化指标，所以我们是和客户 App 一起尊重用户的个人隐私； 其次，我们并不保存和处理 App 的历史数据，AB 测试需要的只是短期的试验数据用来科学的判断哪个试验更成功就可以了。最后，我们可以为客户 App 提供私有云解决方案，数据完全不经过我们。</p><p> </p><p>而且，AppAdhoc A/B Testing 支持可视化编辑功能，所见即所得，无需代码知识，就可以完成试验创建。</p><p> </p><p><a href="http://#" onclick="return false;"><strong>吆喝科技</strong></a>：国内唯一同时支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) <strong><a href="http://#" onclick="return false;">A/B 测试</a></strong>服务的专业 SaaS 平台。支持线上灰度发布、多维度数据统计分析、科学的流量分配系统、一键发布新版本无需应用市场审核、定向测试。</p><p> </p><p>用数据帮助用户优化产品，提升转化、留存和你想要的一切。 <strong><a href="http://#" onclick="return false;">AppAdhoc</a></strong> 用数据验证最佳方案，提高产品设计、研发、运营和营销效率，降低产品决策风险。</p><p><br/></p>

1. 如何理解“用数据帮助开发者做产品决策”？

2. AB 测试可以测试哪些具体内容？

3. 如何通过 AB 测试降低开发成本，节约开发资源？

4. 我的用户量级很小，是否适合进行 AB 测试？

5. 点击率这种指标的短期优化会和产品质量的长期优化矛盾么？

6. 测试版本和控制版本的流量分配有相关性么？

7. 随机流量分割是单纯的随机分配吗？

8.95%置信区间是什么意思？

9. 什么是辛普森悖论？

10. 什么是区群谬误？

11. 在线灰度发布功能是如何加速 APP/Web 敏捷开发的？

12.怎么判断一个试验是否已经达到成熟的试验结果？

13.使用第三方 AB 测试云服务是否安全？

关于我们

法律声明

帮助中心

商务合作

1. 如何理解“用数据帮助开发者做产品决策”？

2. AB 测试可以测试哪些具体内容？

3. 如何通过 AB 测试降低开发成本，节约开发资源？

4. 我的用户量级很小，是否适合进行 AB 测试？

5. 点击率这种指标的短期优化会和产品质量的长期优化矛盾么？

6. 测试版本和控制版本的流量分配有相关性么？

7. 随机流量分割是单纯的随机分配吗？

8.95%置信区间是什么意思？

9. 什么是辛普森悖论？

10. 什么是区群谬误？

11. 在线灰度发布功能是如何加速 APP/Web 敏捷开发的？

12.怎么判断一个试验是否已经达到成熟的试验结果？

13.使用第三方 AB 测试云服务是否安全？

相关文章

关于我们

法律声明

帮助中心

商务合作