Amazon SageMaker 集成 MLflow 功能正式发布
AWS 宣布在 Amazon SageMaker 中集成 MLflow 功能,现已全面可用。MLflow 是一款开源工具,广泛用于管理机器学习实验。通过这一集成,用户可以在 MLflow UI 中比较模型性能、参数和指标,在 MLflow 模型注册表中跟踪最佳模型,并将其自动注册为 SageMaker 模型,最终将这些模型部署到 SageMaker 端点。
主要功能与组件
- MLflow Tracking Server:MLflow 跟踪服务器包含三个主要组件:计算、后端元数据存储和工件存储。计算和后端元数据存储由 SageMaker 服务账户安全托管,而工件存储则位于用户 AWS 账户中的 Amazon S3 存储桶中。跟踪服务器具有 ARN(Amazon 资源名称),可以通过 MLflow SDK 连接到跟踪服务器并开始记录训练运行。
- Amazon SageMaker Studio:提供了一个完全集成的机器学习开发环境(IDE),允许用户创建和管理跟踪服务器、运行笔记本以创建实验,并访问 MLflow UI 查看和比较实验运行。
- 自动配置与存储:在创建 MLflow 跟踪服务器时,SageMaker 服务账户中会自动配置后端存储,并完全托管给用户。后端存储会持久化每次运行的元数据,如运行 ID、开始和结束时间、参数和指标。用户必须使用 Amazon S3 创建工件存储,并明确授予 MLflow 访问 S3 的权限。
关键优势
- 全面的实验跟踪:支持用户比较多个模型训练运行。
- 完整的 MLflow 功能:包括模型注册、部署等功能。
- 统一的模型治理:通过 MLflow 模型注册表实现。
- 高效的服务器管理:由 SageMaker 托管,减少用户管理负担。
- 增强的安全性:计算和元数据存储由 SageMaker 安全托管。
- 有效的监控与治理:提供对实验和模型的全面监控。
社区反馈
- Danilo Poccia(AWS 首席布道师):强调了该产品在跟踪多个模型训练运行、比较运行结果、评估模型以及将最佳模型注册到注册表方面的作用。
- Eduardo Robledo(AWS 基础团队成员):对跟踪服务器的高成本表示失望,认为其价格过高,并希望 AWS 能够实现类似 InfinStor 的按需服务器功能。
与其他工具的对比
- TensorBoard:在 TensorFlow 模型的可视化方面表现突出。
- Weights & Biases 和 Neptune.ai:支持多种框架,提供广泛的跟踪和协作功能。
- MLflow 与 SageMaker 的集成:为 AWS 用户提供了一个托管且安全的环境,易于部署到 SageMaker 端点,并具备强大的模型治理能力。
可用性
Amazon SageMaker 与 MLflow 的集成已在所有提供 Amazon SageMaker 服务的 AWS 区域中可用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。