义乌市建设银行分行网站,商丘做网站推广,网站建设标准合同,网站建设有用吗前言#xff1a; 作为AB测试的学习记录#xff0c;接上文内容#xff0c; 本文继续介绍假设建立和实验设计部分#xff0c;包括实验对象、样本量计算#xff08;显著性水平、统计功效及最小可检测效应#xff09;、实验周期。 相关文章#xff1a; AB测试——原理介绍 A… 前言 作为AB测试的学习记录接上文内容 本文继续介绍假设建立和实验设计部分包括实验对象、样本量计算显著性水平、统计功效及最小可检测效应、实验周期。 相关文章 AB测试——原理介绍 AB测试——流程介绍定义问题和指标选取 3. 假设建立 3.1 原假设和备择假设
在AB测试中我们需要建立原假设和备择假设
零假设H0是默认的假设即控制组和实验组之间没有显着差异。它表明两组之间任何观察到的差异都是由于机会因素造成的。备择假设Ha与零假设相反。它表明控制组和实验组之间存在统计学上显着的差异而这种差异不是由于机会因素造成的。
3.2 案例说明
例如我们进行了一个AB测试将用户随机分为A组和B组在A组中采用原来的页面设计在B组中采用新的页面设计然后比较两组用户的转化率。我们建立如下的假设
原假设H0页面设计对转化率没有显著影响A组和B组的转化率相同。备选假设H1页面设计对转化率有显著影响A组和B组的转化率不相同。
一个完整的AB测试假设可以描述为“通过改进网站的页面设计优化方向来提高注册转化率测试指标我们将测试两个版本的网站页面测试变量版本A和版本B。我们希望看到版本B的注册转化率显著优于版本A我们将在测试期内每个版本中招募至少1000名用户测试样本量测试期为两周测试时间。”
在AB测试中建立清晰明确的假设非常重要它能够帮助我们更好地理解测试目标和测试方案高测试的可信度和有效性从而优化产品和服务的效果 4. 实验设计
4.1 确定实验对象
4.1.1实验对象分类
实验对象类型下面总结了比较常见的六种
用户以每个用户的唯一标识比如身份证号、用户ID作为实验样本可以避免数据混淆但需要注意用户特性、数量和行为对实验结果的影响如用户数量较少时需要增加实验时间保证实验组和对照组具有相似的行为习惯和偏好。设备以设备作为实验对象时每个设备将只分配给一个实验组或对照组。因为这些设备通常只能由一个用户使用可以避免同一个用户在两个分桶中的情况从而确保数据的可靠性。使用设备作为实验对象时需要考虑到设备的数量、品牌和型号的变化。页面或屏幕这是一种适用于网站和应用程序的实验对象分类因为这些页面或屏幕通常是用户与应用程序交互的主要方式。使用时需要考虑到页面或屏幕的种类、内容和布局的变化。对话如果要对用户在应用或网站上的交互行为进行实验可以使用对话作为实验对象如聊天机器人或客服。需要确保实验的随机性和可重复性避免实验组和对照组之间对话内容或应用程序使用场景的差异对实验结果的影响。区域通常是将参与实验的用户按照所在区域划分为实验组和对照组。例如可以按照城市、国家或地域等将用户分组。在这种情况下需要考虑到区域的多样性、用户数量的变化、用户行为的差异等因素。同时需要确保实验组和对照组在每个区域的用户数量相当以确保实验结果的有效性。时间将参与实验的用户按照时间顺序划分为实验组和对照组。例如可以按照日期、星期几、小时等将用户分组。在这种情况下需要考虑到时间的变化、用户数量的变化、用户行为的变化等因素。同时需要注意确保实验组和对照组在每个时间段内的用户数量相当以确保实验结果的有效性。
4.1.2 明确目标群体
除了确定好实验对象的类型还需要明确实验目标群体。实际实验中往往只需要针对特定对象进行实验基本很少会有把所有用户/设备当做实验对象的情况。
比如在页面设计中针对B端和C端的页面是不同的当实验针对的是B端商家的界面优化时实验就与C端用户无关即可排除掉无关的C端用户。同时登录方式包括网页、APP 网页页面优化和手机用户的体验无关。尽量减少不相干的用户
在实际应用中需要根据实验的具体情况来选择适合的实验对象分类并确保实验设计合理、随机性良好以获得可靠的实验结果。
4.2 计算样本量
4.2.1最小样本量的意义
实验和业务的要求不同。实验是希望样本量越大越好样本量越大越能保证实验结果准确但是业务方希望样本小可以降低风险加速迭代。
样本量过小可能会导致测试结果不够准确而样本量过大则可能会浪费资源。因此实验必须 满足最小样本量实验结果中的数据检验才可信。如果没有计算样本大小可能会提前停止测试而得出错误结论。
样本量计算工具网址 加粗样式
4.2.2 显著性水平Significant level 显著性水平是指在假设检验中拒绝零假设的概率用α表示。通常使用的显著性水平是0.05或0.01表示假设检验中有5%或1%的概率出现误判即错误地拒绝了真实的零假设。 换言之在95%或99%的情况下我们可以相信实验结果的可靠性。 1-α 为置信度或置信水平 4.2.3 统计功效Statistical power
统计功效statistical power是指在统计假设检验中能够正确拒绝原假设的概率即检验能够发现真实效应的概率。 也可以解释为正确地获得小的P值0.05的概率。
在计算样本量时通常会根据要求选择实验的功效为0.8或0.9或更高即β在0.2或0.1以下。 引用百度百科解释 在假设检验中 当原假设错误时 接受正确的替换假设的概率。 已知在假设检验中α错误是弃真错误β错误是取伪错误。取伪错误是指原假设为假样本观测值没有落在拒绝域中从而接受原假设的概率即在原假设为假的情况下接受原假设的概率。 由此可知 统计功效等于1-β。 它是在假设真实存在一定的效应差异时我们能够在实验中检测到这种效应的概率。
统计功效与一类错误和二类错误密切相关因为增加统计功效会降低二类错误的概率但同时可能增加一类错误的概率。
4.2.4 最小可检测效应Minimum detectable effect
MDE指在实验中你希望能够检测到的最小变化量。 换句话说它是一个指标可以帮助我们确定是否需要进行实验并确定实验的样本大小。在实际运用中我们通常会设定一个最小可检测效应值如果实验的结果小于该值我们则认为实验结果不具有显著性不值得进一步的关注。
通常情况下最小可检测效应越小需要的样本量就越大。
举个例子:
一个旅行网站希望能够验证一个方案去提高旅游报销的销售额。 已知 1网站每年有730,000个用户预定2预计保险的净利润为每个用户3美元3新方案将花费团队总计75000美元成本。
因此在年度基础上网站必须销售25,000份保险才能达到盈亏平衡相当于添加保险的预订量为3.42 25000 / 730000 0.0342。通过ROI计算3.42将是一个合理的MDE。 即与现在相比新方案需要对保险销量有3.42%的提升该实验才有意义。
4.3 实验周期 一般而言AB测试的实验周期应当足够长以确保测试结果具有统计学意义和稳定性。
测试周期过短可能会导致测试结果不可靠或稳定性差而测试周期过长则会延长测试周期和成本影响测试效率。
在实际应用中一般是1~2周以确保在不同时间段的测试结果差异不会对测试结果造成显著影响。此外测试时长还应当根据测试指标和变化量大小来决定一些指标可能需要更长的测试周期才能反映出变化的效果。
需要考虑周期效应和新奇效应
4.3.1 周期效应period effect
周期效应是指用户行为周期带来的效应比如季节效应、周内效应。用户可能会在某些时间点表现出与其他时间点不同的行为。
为了避免周期效应对实验结果的影响可以采取以下措施 控制外部变量尽可能地控制与实验相关的外部变量例如假期、天气等因素。这样可以减少这些外部因素对实验结果的干扰并更准确地评估实验的效果。 分层实验在实验设计中可以将用户分成不同的层级例如按照地理位置、年龄、性别等进行分层。这样可以更好地控制周期效应的影响因为不同层级的用户可能会受到不同的周期性影响。 长期实验如果实验的目的是评估某个长期效果那么可以考虑将实验设计成长期实验以避免周期效应的影响。通过持续观察实验结果可以更好地确定实验的效果并减少周期效应对实验结果的干扰。
4.3.2 新奇效应novelty effect
新奇效应是指在用户面对新的或不同于以往的体验或设计时会对其产生兴趣和好奇心从而可能会导致其行为发生变化而这种变化可能与实验本身无关。
为了避免新奇效应对实验结果的影响可以采取以下措施 增加对照组数量增加对照组数量可以帮助我们更好地确定实验结果是否受到新奇效应的影响。如果对照组数量足够大那么我们就可以比较对照组和实验组之间的行为差异从而确定实验结果是否具有统计显著性。 分阶段实验将实验分成多个阶段进行逐步引入新设计或体验可以帮助我们更好地了解用户行为的变化。通过观察不同阶段的实验结果我们可以更准确地确定新奇效应的影响并确定新设计或体验所带来的真正效果。 参考资料 https://www.invespcro.com/blog/calculating-sample-size-for-an-ab-test/ https://www.eyeofcloud.com/abtest-widget/124.html https://machinelearningmastery.com/statistical-power-and-power-analysis-in-python/ https://towardsdatascience.com/how-to-set-the-minimum-detectable-effect-in-ab-tests-fe07f8002d6d