[译] 解密 Netflix 如何提升AB实验效率

从波哥大的起居室，到东京的早间通勤，再到洛杉矶的海滩和柏林的宿舍，Netflix 致力于为全球1.39亿会员带来欢乐，并将人们与他们喜爱的故事联系起来。从注册过程中与 Netflix 的第一次接触开始 -- 无论是在移动设备、平板电脑、笔记本电脑还是电视上 -- 客户体验的每一个部分都充满了创新。我们通过不断地从数据中学习和完善我们的产品，努力通过实验给我们的客户带来最好的体验。在客户获取领域，我们的目标是使注册过程尽可能便捷、流畅和直观。

在大规模的实验中有许多挑战。但信不信由你，即使每天有数百万的全球访问者和最先进的 a/b 测试基础设施，我们仍然希望我们有更大的样本来测试更多的创新想法。如果可能的话，尽早结束实验有很多好处。举几个例子:

我们可以在同样的时间内进行更多的测试，为我们的客户提供更好的体验
我们可以迅速试水，以确定未来创新投资的最佳领域
如果我们能够，以一种有原则的方式，在发现相当大的影响时提前结束试验，我们可以更快地给我们的客户带来更多的快乐

另一方面，进行短期实验也有一些风险:

通常测试分配的时间远远超过功耗分析确定的最小需要时间，以减轻潜在的季节性波动影响 (例如，每天的时间、每周的日子、每周的时间等) ，确定任何新奇效果的递减，或解释任何需要较长时间才能显现的治疗效果
节假日和特殊活动，比如新书发布会，可能会吸引不具代表性的观众。这可能使测试结果不那么具有普遍性
不正确地提前调用实验可能大幅提高假阳性率，从而导致浪费业务努力

因此，为了通过实验来建立一个更快的产品创新的科学框架，我们想要回答两个关键问题:
1)季节性对我们的实验有多大影响，如果有影响的话;
2)如果季节性不是一个很大的问题，我们怎样才能以一种科学原则的方式提前结束实验？

利用 Meta 分析检测季节效应

虽然季节性被认为会降低短期测试的普遍性，但并非所有的测试都同样容易受到影响。例如，如果我们试验一下“继续”按钮的外观和感觉，周一的访问者与周五的访问者在审美偏好上不应该有明显的差异。另一方面，一个新的原创电视系列的背景图片可能会更加引人注目，在推出的时候，游客可能有更高的意识和意图加入。因此，关键是识别具有时间不变策略效果的测试，并更有效地运行它们。这需要技术工作和经验的结合。

我们在这里使用的秘密武器是Meta分析，一个简单而强大的方法来分析相关性。我们采用这种方法来确定时序变化的策略效果。这种方法在医疗保健领域的一个常见应用，将独立研究的结果结合起来，以提高疗效并改进对治疗效果的估计，例如一种新药的疗效。从更高层面来看:

如果独立研究的结果是一致的，如下图所示(左侧) ，数据可以用一个固定效应模型来拟合，以产生一个更有信心的估计。五项个体测试的策略效果在统计学上无显著性差异，但方向性为阴性。当混合在一起时，模型产生更准确的估计，如固定效应行所示。
相比之下，如果独立研究的结果是不一致的，如图表右侧所示，同时有正面和负面的策略效果，Meta 分析将适当地承认更高程度的异质性。它将调整到一个随机效应模型，以适应更广泛的置信区间，正如未来的预期区间

更多的细节可以在这个参考文献中找到。模型拟合过程(即固定效应模型与随机效应模型)可以用来测试不同的治疗效应是否存在于不同的时间维度(例如，每天的时间、每周的天数、每周的周数、事件前后)。我们在 a/b 测试中对注册流程进行了全面的回顾性研究。正如预期的那样，我们发现大多数试验不能证明随着时间的推移强烈的异质策略效果。因此，我们可以提前结束一些测试，进行更多的创新，更快地为我们的潜在客户带来更好的体验。

以最优停止结束实验

假设策略效果是时间不变的(通过Meta分析评估)和足够大，我们可以应用各种最优停止策略在早期结束测试。天真地，我们可以不断地偷看实验仪表盘，但这将膨胀假阳性时，我们错误地认为有策略效果存在。有一些科学的方法可以通过窥视(或者更正式的说，临时分析)来控制假阳性(i 型错误)。在我们的回顾性研究中已经评估了几种方法，如 Wald 的序贯概率比检验(SPRT)、序贯三角检验和群体序贯检验(GST)。GST 在我们的研究中显示了最好的性能和实用价值; 它被广泛应用于临床试验中，在这些试验中样品随着时间的推移成批累积，这非常适合我们的用例。它大致是这样运作的:

在测试开始之前，我们决定所需的最小运行时间和中期分析的数量
GST分配将可容忍的 i 类错误(例如0.05)计入所有中期分析，以便 i 类错误加总为 i 类错误的总和。因此，每次中期测试都比定期检查更加保守
一旦测试变得具有统计学意义，就可以立即停止。当观察到的处理效果大大超过预期时，这种情况经常发生

下面的图表说明了关键值，个人和累计 alpha 花费从 GST 设计与五个中期分析。通过采用这一策略，我们可以节省大量的时间进行一些实验，并更快获得非常准确的策略效果的点估计，虽然有略宽的置信区间和策略效果的小膨胀。当我们想要快速测试各种想法并且策略效果的准确性不那么重要时，或者当我们由于严重的负面影响而需要提前结束测试时，这种方法效果最好。

下面的图表说明了一个成功的 GST 早期停止和一个固定的样本大小(FSS 完全停止)确定的权力分析。由于观察到的效应大小是足够大，我们可以用类似的点估计更早地停止测试。

现在，我们的初步研究已经完成，我们正在积极开发 Meta 分析、最优停止、异质处理效果检测，以及更大的 Netflix 实验和因果推理平台。我们希望这些特性能够加快我们目前的实验工作流程，加快产品创新，并最终为我们的客户带来最好的体验和快乐。这是一个持续的旅程，如果你对我们的使命和我们激动人心的工作充满激情，加入我们的全明星团队吧！

特别感谢 Randall Lewis，Colin McFarland 和 Netflix 的科学与分析团队的支持。团队合作让梦想成真！

参考资料

原文作者： Gang Su & Ian Yohai 译者： Harry Zhu 英文原文地址:
https://netflixtechblog.com/improving-experimentation-efficiency-at-netflix-with-meta-analysis-and-optimal-stopping-d8ec290ae5be
作为分享主义者(sharism)，本人所有互联网发布的图文均遵从CC版权，转载请保留作者信息并注明作者 Harry Zhu 的 FinanceR专栏:https://segmentfault.com/blog...，如果涉及源代码请注明GitHub地址：https://github.com/harryprince。微信号: harryzhustudio
商业使用请联系作者。

[译] 解密 Netflix 如何提升AB实验效率

利用 Meta 分析检测季节效应

以最优停止结束实验

参考资料

HarryZhu

引用和评论

[译] 层次时间序列预测法

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？