Netflix利用Metaflow大规模管理数百个AI/ML应用

Netflix的机器学习平台(MLP)为Metaflow提供生态系统支持

Netflix最近发布了一篇关于其机器学习平台(MLP)团队如何为开源机器学习基础设施框架Metaflow提供生态系统支持的文章。通过为Metaflow创建多种集成,Netflix能够支持由多个工程团队维护的数百个Metaflow项目。

Metaflow与Netflix生产系统的集成

Metaflow与Netflix生产系统的集成使得项目能够从原型阶段顺利过渡到生产阶段,而不会产生不可持续的操作负担。工程团队认为,成功的关键在于提供一个强大的基础层,集成公司范围内的数据、计算和编排平台,并为部署应用程序提供多种路径。在此基础上,各团队可以构建自己的领域特定库,以支持其特定的用例和需求。

Fast Data库的集成示例

Netflix提供了一个名为“Fast Data”的Metaflow库集成示例。Netflix的主要数据湖托管在S3上的Apache Iceberg表中,并使用Apache Spark进行ETL(数据提取、转换和加载)。Fast Data库通过利用Python数据生态系统中的高性能组件,实现了对Netflix数据仓库的快速、可扩展和稳健的访问。该库使得Netflix能够处理TB级的数据,并编码标题、演员和其他电影属性之间的复杂关系,从而支持公司广泛的业务应用。

Maestro在生产中的作用

Netflix的生产工作流编排器Maestro在管理生产中的Metaflow项目中起着至关重要的作用。它支持可扩展性和高可用性,并通过事件触发机制实现Metaflow流程与其他系统的无缝集成。通过这种集成,Netflix工程师能够支持内容决策,回答“Netflix应该将哪些内容引入服务”的问题。

Metaflow Hosting服务

对于需要API和实时评估的部署,Netflix提供了一个集成的模型托管服务,称为Metaflow Hosting。该服务在Netflix现有的微服务基础设施上提供了一个易于使用的界面,使数据科学家能够快速将他们的工作从实验阶段转移到生产级别的Web服务,该服务可以通过HTTP REST API进行消费,且开销最小。

使用Metaflow扩展机制

Netflix使用Metaflow的扩展机制实现了这些集成,该机制是公开可用的,但可能会发生变化,因此尚未成为Metaflow稳定API的一部分。他们邀请工程师通过Metaflow社区Slack与他们联系,讨论构建更多扩展的可能性。

总结

Netflix通过为Metaflow创建多种集成,成功支持了数百个机器学习项目。这些集成包括Fast Data库、Maestro编排器和Metaflow Hosting服务,使得项目能够从原型顺利过渡到生产,并支持广泛的业务应用。Netflix还鼓励社区参与,共同构建更多扩展。

阅读 100
0 条评论