从波哥大的起居室,到东京的早间通勤,再到洛杉矶的海滩和柏林的宿舍,Netflix 致力于为全球1.39亿会员带来欢乐,并将人们与他们喜爱的故事联系起来。从注册过程中与 Netflix 的第一次接触开始 -- 无论是在移动设备、平板电脑、笔记本电脑还是电视上 -- 客户体验的每一个部分都充满了创新。我们通过不断地从数据中学习和完善我们的产品,努力通过实验给我们的客户带来最好的体验。在客户获取领域,我们的目标是使注册过程尽可能便捷、流畅和直观。
在大规模的实验中有许多挑战。但信不信由你,即使每天有数百万的全球访问者和最先进的 a/b 测试基础设施,我们仍然希望我们有更大的样本来测试更多的创新想法。如果可能的话,尽早结束实验有很多好处。举几个例子:
- 我们可以在同样的时间内进行更多的测试,为我们的客户提供更好的体验
- 我们可以迅速试水,以确定未来创新投资的最佳领域
- 如果我们能够,以一种有原则的方式,在发现相当大的影响时提前结束试验,我们可以更快地给我们的客户带来更多的快乐
另一方面,进行短期实验也有一些风险:
- 通常测试分配的时间远远超过功耗分析确定的最小需要时间,以减轻潜在的季节性波动影响 (例如,每天的时间、每周的日子、每周的时间等) ,确定任何新奇效果的递减,或解释任何需要较长时间才能显现的治疗效果
- 节假日和特殊活动,比如新书发布会,可能会吸引不具代表性的观众。这可能使测试结果不那么具有普遍性
- 不正确地提前调用实验可能大幅提高假阳性率,从而导致浪费业务努力
因此,为了通过实验来建立一个更快的产品创新的科学框架,我们想要回答两个关键问题:
1)季节性对我们的实验有多大影响,如果有影响的话;
2)如果季节性不是一个很大的问题,我们怎样才能以一种科学原则的方式提前结束实验?
利用 Meta 分析检测季节效应
虽然季节性被认为会降低短期测试的普遍性,但并非所有的测试都同样容易受到影响。例如,如果我们试验一下“继续”按钮的外观和感觉,周一的访问者与周五的访问者在审美偏好上不应该有明显的差异。另一方面,一个新的原创电视系列的背景图片可能会更加引人注目,在推出的时候,游客可能有更高的意识和意图加入。因此,关键是识别具有时间不变策略效果的测试,并更有效地运行它们。这需要技术工作和经验的结合。
我们在这里使用的秘密武器是Meta分析,一个简单而强大的方法来分析相关性。我们采用这种方法来确定时序变化的策略效果。这种方法在医疗保健领域的一个常见应用,将独立研究的结果结合起来,以提高疗效并改进对治疗效果的估计,例如一种新药的疗效。从更高层面来看:
- 如果独立研究的结果是一致的,如下图所示(左侧) ,数据可以用一个固定效应模型来拟合,以产生一个更有信心的估计。五项个体测试的策略效果在统计学上无显著性差异,但方向性为阴性。当混合在一起时,模型产生更准确的估计,如固定效应行所示。
- 相比之下,如果独立研究的结果是不一致的,如图表右侧所示,同时有正面和负面的策略效果,Meta 分析将适当地承认更高程度的异质性。它将调整到一个随机效应模型,以适应更广泛的置信区间,正如未来的预期区间
更多的细节可以在这个参考文献中找到。模型拟合过程(即固定效应模型与随机效应模型)可以用来测试不同的治疗效应是否存在于不同的时间维度(例如,每天的时间、每周的天数、每周的周数、事件前后)。我们在 a/b 测试中对注册流程进行了全面的回顾性研究。正如预期的那样,我们发现大多数试验不能证明随着时间的推移强烈的异质策略效果。因此,我们可以提前结束一些测试,进行更多的创新,更快地为我们的潜在客户带来更好的体验。
以最优停止结束实验
假设策略效果是时间不变的(通过Meta分析评估)和足够大,我们可以应用各种最优停止策略在早期结束测试。天真地,我们可以不断地偷看实验仪表盘,但这将膨胀假阳性时,我们错误地认为有策略效果存在。有一些科学的方法可以通过窥视(或者更正式的说,临时分析)来控制假阳性(i 型错误)。在我们的回顾性研究中已经评估了几种方法,如 Wald 的序贯概率比检验(SPRT)、序贯三角检验和群体序贯检验(GST)。GST 在我们的研究中显示了最好的性能和实用价值; 它被广泛应用于临床试验中,在这些试验中样品随着时间的推移成批累积,这非常适合我们的用例。它大致是这样运作的:
- 在测试开始之前,我们决定所需的最小运行时间和中期分析的数量
- GST分配将可容忍的 i 类错误(例如0.05)计入所有中期分析,以便 i 类错误加总为 i 类错误的总和。因此,每次中期测试都比定期检查更加保守
- 一旦测试变得具有统计学意义,就可以立即停止。当观察到的处理效果大大超过预期时,这种情况经常发生
下面的图表说明了关键值,个人和累计 alpha 花费从 GST 设计与五个中期分析。通过采用这一策略,我们可以节省大量的时间进行一些实验,并更快获得非常准确的策略效果的点估计,虽然有略宽的置信区间和策略效果的小膨胀。当我们想要快速测试各种想法并且策略效果的准确性不那么重要时,或者当我们由于严重的负面影响而需要提前结束测试时,这种方法效果最好。
下面的图表说明了一个成功的 GST 早期停止和一个固定的样本大小(FSS 完全停止)确定的权力分析。由于观察到的效应大小是足够大,我们可以用类似的点估计更早地停止测试。
现在,我们的初步研究已经完成,我们正在积极开发 Meta 分析、最优停止、异质处理效果检测,以及更大的 Netflix 实验和因果推理平台。我们希望这些特性能够加快我们目前的实验工作流程,加快产品创新,并最终为我们的客户带来最好的体验和快乐。这是一个持续的旅程,如果你对我们的使命和我们激动人心的工作充满激情,加入我们的全明星团队吧!
特别感谢 Randall Lewis,Colin McFarland 和 Netflix 的科学与分析团队的支持。团队合作让梦想成真!
参考资料
原文作者: Gang Su & Ian Yohai 译者: Harry Zhu 英文原文地址:
https://netflixtechblog.com/improving-experimentation-efficiency-at-netflix-with-meta-analysis-and-optimal-stopping-d8ec290ae5be作为分享主义者(sharism),本人所有互联网发布的图文均遵从CC版权,转载请保留作者信息并注明作者 Harry Zhu 的 FinanceR专栏:https://segmentfault.com/blog...,如果涉及源代码请注明GitHub地址:https://github.com/harryprince。微信号: harryzhustudio
商业使用请联系作者。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。