Facebook 开源机器学习隐私库 Opacus

Facebook AI Research发布Opacus库

Facebook AI Research (FAIR) 宣布发布 Opacus，这是一个用于在 PyTorch 框架中应用差分隐私技术的高效库。Opacus 相比其他隐私库能够实现数量级的速度提升。

Opacus的主要特点

高效的差分隐私实现：Opacus 提供了一个 PrivacyEngine 的 API 和实现，直接附加到 PyTorch 优化器上。通过利用 PyTorch Autograd 组件中的钩子，Opacus 能够高效计算每个样本的梯度，这是差分隐私的关键操作。
无缝集成：训练后生成的模型是标准的 PyTorch 模型，可以直接部署，无需更改现有的模型服务代码。
加速研究与应用：FAIR 希望通过 Opacus 为研究人员和工程师提供更简单的途径来采用差分隐私技术，并加速该领域的研究。

差分隐私（DP）简介

差分隐私是一种数学定义的数据隐私保护方法。其核心思想是在对数据集进行查询操作时添加噪声，使得从数据集中移除单个数据元素对查询结果的影响概率极低。这个概率被称为 隐私预算。每次查询都会消耗部分隐私预算，一旦预算耗尽，进一步的查询将无法保证隐私。

DP在机器学习中的应用

在机器学习中，差分隐私通常应用于训练阶段，确保模型不会对特定输入样本“学习过多”。由于大多数深度学习框架使用 随机梯度下降（SGD） 进行训练，差分隐私版本称为 DP-SGD。与普通 SGD 不同，DP-SGD 需要计算每个样本的梯度，这是 Opacus 速度提升的关键。

Opacus的技术实现

高效算法：Opacus 使用了由 Ian Goodfellow 开发的高效算法，能够计算每个输入样本的梯度。
梯度裁剪与噪声添加：每个梯度被裁剪到最大幅度，确保数据中的异常值也能保护隐私。梯度聚合后添加噪声，然后更新模型参数。
隐私预算监控：由于每个训练步骤都是对输入数据的“查询”，Opacus 实时监控隐私预算的消耗，并提供在预算耗尽时停止训练的选项。

合作与开源

FAIR 和 PyTorch 团队与 OpenMined 合作开发了 Opacus。OpenMined 是一个致力于开发隐私技术的开源社区，曾参与 Facebook 的 CrypTen 项目，并开发了 PySyft 和 PyGrid 等隐私保护工具。Opacus 将成为 OpenMined 库的核心依赖之一。

与TensorFlow的对比

Google 的 TensorFlow 在 2019 年早期发布了一个差分隐私库，但它与 TensorFlow 2.x 版本不兼容。相比之下，Opacus 提供了更现代和高效的选择。

资源与教程

Opacus 的 源代码和教程 已在 GitHub 上公开，开发者可以轻松获取并开始使用。