“隐语”是开源的可信隐私计算框架,内置 MPC、TEE、同态等多种密态计算虚拟设备供灵活选择,提供丰富的联邦学习算法和差分隐私机制。
开源项目:
https://github.com/secretflow
https://gitee.com/secretflow
本文根据蚂蚁集团隐语社区负责人 王磊,在「隐语开源社区嘉年华」的演讲分享整理。 视频回顾见文末~
大家好,我是隐语社区负责人王磊。感谢大家一直以来对隐语的支持,随着 2023 年的结束,我想和大家分享一下隐语社区 2024 年的规划。当然,这个规划不是一成不变的,2024 年希望能够与社区参与者们共同互动、制定和推动整个隐语社区的发展。目前的规划只是初步的思路,希望能够邀请更多的同学参与进来一起制定。
2024 年隐语社区目前的规划主要分为两个部分:产品能力持续提升,生态环境持续共建。
产品能力持续提升
在前面的分享中罗老师和其他同学表扬了隐语,但我个人觉得隐语还有很多方面需要持续改进。感谢大家对隐语的支持和宽容。隐语已经开源一年半,我认为目前它仅处于一个可以使用的阶段,距离好用还有很长的距离。
01 易用性 从能用到好用
在新的一年里,我们将致力于提升产品的易用性,隐语的用户大致可以划分为四类:
- 终端客户:直接零代码、白屏化的使用隐语;
- 学研用户:主要做算法研究或学习隐私计算;
- 开发人员:做隐语底层的深度开发或基于隐语做业务方的集成;
- 运维同学:做隐语的部署运维。
针对这四类用户,计划在易用性实现以下四个事情:
- 文档的持续完善
隐语的某些文档或许存在,但对于用户而言可能不易查找,整体的组织架构并不够友好。技术人员通常从技术角度撰写文档,但从用户角度而言,可能存在不足。在文档方面,我们将持续优化和完善。 - 产品自助率
一款好的产品,应该是不需要用户去深入阅读文档,而是在使用过程中根据用户习惯自动让用户把流程走完,特别是对于终端用户,所以提高产品的自助率也今年很重要的工作。 - 算法可视化
对于白屏用户或学研用户,如何能够更好地理解算法是他们很重要的一个需求。今年,我们尝试在 PSI 上做了算法可视化,让用户能够看到算法的流程和每一步的结果。未来,我们希望能够把更多常用的算法进行可视化,并且考虑如何将算法可视化能力开放出来。把一个算法讲清楚还是挺有挑战的,我们希望社区的开发者能够贡献自己的聪明才智,把更多的算法可视化出来,期待跟大家一起把算法可视化做好。
另外,算法可视化还有一个比较有意思的场景,我们从社区反馈中拿到一些信息。一些同学表示,他们在业务中引入 隐私计算时,需要向老板介绍隐私计算,但是很多老板对技术并不了解,如何给老板们解释清楚为什么隐私计算是安全的就变得既困难又重要。而算法可视化工具可以很好的解决这个问题,帮助同学们在给老板的汇报中,把隐私计算的原理和安全性讲清楚。 - 系统可观测性
在开发和运维过程中,如何快速定位问题并确切知道出了什么错以及问题出在哪里,这在工业生产过程中是特别重要的。在新的一年里,我们也会持续加强系统观测性方面的工作。
02 计算能力更多、更快、更安全
功能
隐语之前的工作主要是放在数据分析预处理和建模领域,已经开源了很多功能。新的一年,我们将继续在这两块不断丰富算子,实现更多的功能。此外,我们也会持续完善建模之后的在线预测能力,目前应该已经有少量的工作已经开源出来。另一块是在所有数据处理全链路的最开头,我们会考虑提供数据治理/管理的能力。
我们为什么想要进行数据治理?隐私计算的核心是赋能国家数据要素流通,其中一部分数据已经结构化。然而,在许多行业中,如工业互联网和医疗行业,仍有大量未经治理的数据,未经治理的数据是无法流通。我们希望通过开源社区提供数据治理的方案和工具,帮助这些企业更好地治理和管理数据,只有经过治理的数据才能参与数据流通,并为整个数据要素的价值提供帮助。
性能
性能始终是隐私计算最关注的指标之一,尤其是对 MPC 和 FL 这种管道模式,即传统意义上的原始数据不出域的模式,只有在性能上得到大幅提升,才能支持更多的场景和应用。
在传统的机器学习中,我们希望能做到千万级每小时。因为在传统机器学习上,数据规模超过千万级后,带来的模型增益已经不明显了。在数据分析和 NN 建模中,我们希望能做到亿级每小时。熟悉技术的小伙伴可能会认为这个目标有些困难。从 MPC 的角度来看,做到亿级每小时几乎是不可能的,除非实现重大的技术突破。这里我们并不一定是采用 MPC方式 ,而是考虑通过安全退让的方式把规模提升起来。
听到这里大家可能会有一个疑问,也会对“安全退让”这个概念感到困惑,因为它似乎与“更安全”的概念有所冲突。我个人对更安全的理解是这样的,当前的安全问题主要发生在安全错配的问题上,而不是计算过程中真的一个比特都不泄露。对于数据安全要求很高的场景,若使用的算法和系统的安全性没有达到要求,就会出现安全的问题。同样,在数据安全等级没有那么高要求的场景下,这时候若使用非常高等级的系统和算法,可以实现安全,但是带来了额外的成本,包括软硬件成本、计算时间和计算效率等成本,这也是得不偿失的。
安全
基于这个问题,蚂蚁与深圳国金联合推出了基于攻防的隐私计算的安全分级,与先前的安全分级最大的不同是,这个安全分级是基于攻防的,这是因为基于攻防有以下几个好处:
- 首先,基于攻防可以将隐私计算的多个技术路线的安全水平拉平,避免TEE,MPC,FL等多技术路线安全不可比的问题。
- 其次,安全防御需要有实战性,仅对算法安全进行评测是远远不够的,需要包括系统安全和网络安全等传统的安全要求,才能在实际场景中真正实现数据安全。
这个基于攻防的安全分级标准,目前也还在不断迭代中。未来,隐语也将按照该标准对技术进行安全分级。
另一个就是联邦学习的攻防体系。为什么会把联邦学习单独拿出来说?我一直觉得联邦学习非常有价值,它通过安全退让的方式能够显著提升计算规模和计算效率。然而,联邦学习在安全性上始终存在一个无法回避的问题,就是安全性说不清楚,这就严重影响联邦学习未来的发展。因为裸传梯度也叫联邦学习,做了安全加固也叫联邦学习,但大家都知道,安全加固有研发成本,且会导致算法性能、精度的损失,但加固后带来的安全性又说不清楚,就不会有人愿意在联邦学习的安全性上进行深入持续的研究,最终导致联邦学习在实际生产中发生严重的安全风险。
目前,我们正在尝试做联邦学习攻防的框架体系,集成现有的联邦学习攻击算法,可以通过这个攻防体系/框架对联邦学习算法做验证,它会告诉我们在什么地方这个算法是有被攻击的风险、会存在安全隐患。同时,我们希望在这个框架上提供安全加固的能力,可以告诉我们用什么方式能够对这个安全做加固。
通过这种方式,我们可以体系化地去评价某个联邦学习算法,就如果一个没有门和窗的房子,为了安全性我们宁愿同时做一个木头门和木头窗,而不是不管门,只是在拼命的加固窗子。
03 产品形态多样化
第三部分就是产品形态。目前的这几种产品形态隐语团队中都已经有相应的实现,目前最主要的是中心化管道模式。
中心化管道模式
这个模式是一个中心化平台带着一堆计算节点,它更适合在众多合作方中有一个主导方的场景。例如:一个集团公司和其下属子公司之间的关系,集团公司构建一个平台,子公司部署节点。这种方式的优势是,集团公司可以对所有计算任务拥有掌控力,而下属子公司无需部署平台,从而大大降低了每个子公司的部署成本。
点对点管道模式
隐语也在实现点对点管道模式,也就是 P2P 模式,它更适合两个完全对等的机构之间的合作。平台和节点部署在一起,通过互联互通协议进行合作。
学研模式
隐语也推出了 SecretNote,它能够提供与 Notebook 类似的体验,这一成果得益于蚂蚁前端团队的强大实力。SecretNote 用户可以非常低成本得在本地搭建环境,通过交互式,类似 Notebook 的功能进行隐私计算算法研发,可以立即在上面观察到每一步的执行效果。我们也将持续迭代 SecretNote,不断提升其能力,使其越来越强大。
枢纽模式
枢纽模式本质上是把所有的数据汇聚到枢纽中,通过硬件的方式(如TEE)保障其安全。我们也做了第一版的开源,就是 TrustedFlow。从安全分级上也能看到,枢纽模式和管道模式(MPC/FL),在安全性上是可以通过攻防强度来拉平的,即在同一个安全分级下,枢纽模式可以抵御与管道模式相同强度的攻击。但目前从市场来看,管道模式的接受度可能会更高一些。隐语也希望通过开源的方式,让大家更多的了解枢纽模式的安全性以及该怎么使用才能保证安全。比如,只是简单地把一个应用扔到 TEE 里,它并不能保证数据处理的安全性,需要在整个过程中对数据流、操作权限进行严格管控,才能够保证数据不会被滥用与泄露。在这方面,我们也会持续迭代。
生态环境持续建设
隐语在生态环境方面做以下四方面的工作。
高校侧,包括学术合作和协同育人。希望通过协同育人以培养更多的人才,并通过学术合作能够与高校老师一起在隐私技术上取得重大突破,从而帮助解决隐私计算的技术瓶颈,推动行业发展。
研发侧,将 OSCP(隐语开源共建计划)的任务更新常态化。针对这个任务,我们可以频繁地互动,并希望社区大家能够自己提任务自己消耗任务,以促进社区的良性发展。未来我们希望有更多的开发者进来,并希望他们在隐语社区有收获,例如开发一些功能并获得成就感。另外,也希望社区用户在参与隐语社区的开发过程中,隐语团队提供的帮助能够让开发者自己不断获得成长。我们鼓励开发者为隐语社区贡献更多更深度的代码,并希望他们能够在未来的就业和在这个行业中的持久发展中受益。
标准侧,技术标准化是任何行业发展的基石,只有通过标准化才能建立完整的生态系统,实现标准化合作,推动整个行业的发展。目前,行业对标准化的需求越来越高,但标准化进程相对较慢。目前比较好的案例有银联、信通院做的互联互通标准。虽然只是跨机构的标准例子,但它实现了不同平台之间的互联互通。隐语的目标是将隐私计算架构按模块化拆解,将各个模块的交互标准化,以便让更多的生态伙伴能参与到隐私计算的技术发展中。在银联或外部标准中,由于参与机构众多,缺乏开源参考,导致标准迭代过程缓慢。因此,隐语希望在社区中推动技术标准的快速迭代。当然,隐语并不是自己制定标准,而是借鉴外部标准,并将符合大家认可的标准纳入其中,对于尚未被认可的标准,则会进行快速迭代。在这个过程中,隐语也将借助标准制定者的参与,共同推进标准的迭代。
应用侧,隐语开源对蚂蚁集团而言,是希望做技术影响力。我一直认为技术影响力不是简单的 PR,而是隐语是否真的能在更广泛的场景中让更多的机构把它真正使用起来,并在业务中创造价值。目前,隐语是一款开源产品。开源产品对于用户真正将其集成到自己的系统中的情况,仍存在一些鸿沟。这里面既有隐语的一些问题,也有一些机构本身技术能力的问题。因此,隐语在新的一年里,将组建一个技术支持团队,希望通过技术支持团队能够帮助隐语把产品打磨得更好,同时能弥补隐语开源产品到机构集成之间的问题,比如传统的 ISV,他们想要提供一个隐私计算产品时,他们可以通过隐语以非常低成本的方式实现一个隐私产品提供给机构。还有些机构想自己去集成,则可以通过技术支持,把隐语更好得使用起来。
以上是隐语新年的规划分享。最后,愿隐语生态在新的一年蓬勃发展,愿场景创新的火花在隐语计算技术的支持下绽放。
🏠 隐语社区:
https://github.com/secretflow
https://gitee.com/secretflow
https://www.secretflow.org.cn(官网)
👇欢迎关注:
公众号:隐语的小剧场
B站:隐语secretflow
邮箱:secretflow-contact@service.alipay.com
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。