主要观点:软件工程中发射日很少因缺少单元测试而失败,而机器学习(ML)并非如此,多种因素可导致 ML 发布失败,重点在于能否界定、快速检测和可预测地恢复失败。
关键信息:
- 有两个研究线索影响 ML 安全方法,一是映射 ML 在生产中出错的地方,二是关注团队如何做出经得起审查的决策。
- ML 安全工作可分为四个条款,包括 robustness(测试分布变化等)、monitoring(将检测视为产品特征)、alignment(明确人类目标等)、systemic safety(确保管道可重现等)。
- 有从想法到事件再返回的循环,包括每月或重大能力变化时的安全审查、CI 门、事后循环等。
- 有三个可使合同真实且可审查的小工件,如人类目标、审议笔记、策略代码 SLOs 等。
- 发布路径熟悉,包括评估、门控、部署、观察、响应等环节。
- 以索赔分类器为例说明了整个流程。
重要细节: - 在生产中,ML 易受输入远离训练数据等因素影响。
- 四个条款需与已信任的机制连接。
- 安全审查每月或重大能力变化时进行,有预读等环节。
- CI 门要求 SLO 差异为绿色和审议笔记。
- 三个小工件的具体内容和作用。
- 发布路径各环节的具体操作和要求。
- 以索赔分类器为例详细说明了各阶段的情况。
- 团队方面的变化包括提高可观测性等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。