Amazon SageMaker 现提供托管 MLflow 功能以增强实验跟踪

Amazon SageMaker 集成 MLflow 功能正式发布

AWS 宣布在 Amazon SageMaker 中集成 MLflow 功能,现已全面可用。MLflow 是一款开源工具,广泛用于管理机器学习实验。通过这一集成,用户可以在 MLflow UI 中比较模型性能、参数和指标,在 MLflow 模型注册表中跟踪最佳模型,并将其自动注册为 SageMaker 模型,最终将这些模型部署到 SageMaker 端点。

主要功能与组件

  1. MLflow Tracking Server:MLflow 跟踪服务器包含三个主要组件:计算、后端元数据存储和工件存储。计算和后端元数据存储由 SageMaker 服务账户安全托管,而工件存储则位于用户 AWS 账户中的 Amazon S3 存储桶中。跟踪服务器具有 ARN(Amazon 资源名称),可以通过 MLflow SDK 连接到跟踪服务器并开始记录训练运行。
  2. Amazon SageMaker Studio:提供了一个完全集成的机器学习开发环境(IDE),允许用户创建和管理跟踪服务器、运行笔记本以创建实验,并访问 MLflow UI 查看和比较实验运行。
  3. 自动配置与存储:在创建 MLflow 跟踪服务器时,SageMaker 服务账户中会自动配置后端存储,并完全托管给用户。后端存储会持久化每次运行的元数据,如运行 ID、开始和结束时间、参数和指标。用户必须使用 Amazon S3 创建工件存储,并明确授予 MLflow 访问 S3 的权限。

关键优势

  • 全面的实验跟踪:支持用户比较多个模型训练运行。
  • 完整的 MLflow 功能:包括模型注册、部署等功能。
  • 统一的模型治理:通过 MLflow 模型注册表实现。
  • 高效的服务器管理:由 SageMaker 托管,减少用户管理负担。
  • 增强的安全性:计算和元数据存储由 SageMaker 安全托管。
  • 有效的监控与治理:提供对实验和模型的全面监控。

社区反馈

  • Danilo Poccia(AWS 首席布道师):强调了该产品在跟踪多个模型训练运行、比较运行结果、评估模型以及将最佳模型注册到注册表方面的作用。
  • Eduardo Robledo(AWS 基础团队成员):对跟踪服务器的高成本表示失望,认为其价格过高,并希望 AWS 能够实现类似 InfinStor 的按需服务器功能。

与其他工具的对比

  • TensorBoard:在 TensorFlow 模型的可视化方面表现突出。
  • Weights & Biases 和 Neptune.ai:支持多种框架,提供广泛的跟踪和协作功能。
  • MLflow 与 SageMaker 的集成:为 AWS 用户提供了一个托管且安全的环境,易于部署到 SageMaker 端点,并具备强大的模型治理能力。

可用性

Amazon SageMaker 与 MLflow 的集成已在所有提供 Amazon SageMaker 服务的 AWS 区域中可用。

阅读 22
0 条评论