Netflix的流媒体服务欺诈检测框架

Netflix 欺诈检测框架概述

Netflix 开发了一套基于人工智能模型和数据驱动异常检测的欺诈和滥用检测框架,专门用于流媒体服务。该框架通过分析用户行为来识别潜在的欺诈和滥用行为。由于流媒体服务的用户和设备数量庞大,攻击面广泛,因此采用机器学习方法来增强服务的安全性显得尤为重要。

异常检测方法

异常检测主要分为两类:基于规则的方法和基于模型的方法。

  • 基于规则的方法:依赖于领域专家定义的一组规则来识别异常行为。这种方法在大规模部署和使用时成本高、耗时长,且不适合实时分析。
  • 基于模型的方法:通过构建模型来自动检测异常行为。这种方法更具可扩展性,适合实时分析,但高度依赖于特定上下文数据的可用性(尤其是标记数据)。

框架开发与数据标记

Netflix 的欺诈检测框架采用了半监督模型和监督模型。由于没有现成的标记数据集,Netflix 基于安全专家的经验定义了一组启发式规则,用于识别客户异常行为并标记数据,从而创建数据集。为了应对标签不平衡问题,使用了合成少数类过采样技术(SMOTE)

欺诈分类与数据集

框架中考虑的欺诈类别包括:

  • 内容欺诈:31% 的异常账户被标记为此类。
  • 服务欺诈:47% 的异常账户被标记为此类。
  • 账户欺诈:21% 的异常账户被标记为此类。

数据集包含三个主要的标记子集:

  • 快速许可证获取
  • 流媒体失败尝试过多
  • 设备类型与数字版权管理(DRM)的异常组合

在 30 天的数据收集中,共收集了 1,030,005 个正常账户和 28,045 个异常账户。这些异常账户中,85% 涉及单一欺诈类别,12% 涉及两个欺诈类别,3% 涉及三个欺诈类别。

数据特征与相关性

框架中考虑了 23 个数据特征,相关矩阵显示设备签名特征和标题获取活动特征之间存在正相关关系。关键特征包括:

  • 内容欺诈检测:不同编码格式的数量、不同设备的数量、不同 DRM 的数量。
  • 服务欺诈检测:账户关联的内容许可证数量、不同设备的数量、账户使用的设备类型百分比。
  • 账户欺诈检测:不同设备的数量。

模型性能评估

评估模型性能的指标包括准确率、精确率、召回率、F0.5、F1、F2 和 ROC AUC。对于多类别多标签任务,还使用了 EMR、汉明损失和汉明得分。

  • 半监督异常检测方法:深度自编码器表现最佳。
  • 监督二分类异常检测:具体指标见相关表格。
  • 监督多类别多标签异常检测:具体指标见相关表格。

总结

Netflix 的欺诈检测框架通过结合半监督和监督模型,利用启发式规则和 SMOTE 技术,有效识别流媒体服务中的欺诈行为。该框架在处理大规模数据时表现出良好的可扩展性和实时分析能力,为流媒体服务的安全性提供了有力保障。

阅读 13
0 条评论