“隐语”是开源的可信隐私计算框架,内置 MPC、TEE、同态等多种密态计算虚拟设备供灵活选择,提供丰富的联邦学习算法和差分隐私机制。
开源项目:
https://github.com/secretflow
https://gitee.com/secretflow
本文根据蚂蚁集团副总裁兼首席技术安全官 韦韬,在「隐语开源社区嘉年华」的演讲分享整理。
大家好,很高兴在隐语嘉年华和大家见面,今天的活动非常棒,隐语开源后得到这么多开发者的支持也超出想象。感谢大家对隐语的喜爱。
隐语开源社区生态
学研生态
隐语开源后,在学研生态方面做了很多工作。今天现场也有很多顶会论文的展示,特别为大家感到自豪。其中也有合作高校的老师及越来越多的同学自发地基于隐语实现的论文。CCF 隐私专项基金、MOOC、网空创新资助计划也取得了很多成果。感谢大家的支持,希望在新的一年里隐语可以与大家一起取得更多进展。
行业生态
在产业界,2023 年我们非常努力地进一步拓展了隐语的应用范围。相较于之前,隐私计算的应用已经取得了显著进展,并在数据分析、TEE 环境等领域取得了良好的成果。我们期待在 2024 年能够将这个体系进一步深化,并将隐私计算应用到更多场景中。
我们也有许多优秀的行业应用案例,例如车险领域的新能源车保险。新能源车需要上报大量的数据,但这些数据无法直接提供给保险公司。利用隐私计算技术,保险公司则可以显著提升业务的部署和推动,包括定价、理赔方案等。目前,一些头部保司的新能源车险已经有超过一半的业务转向隐私计算,这个效果非常显著。
我们已经走出了当年主要靠 PSI 的初步尝试阶段,现在进入了深化阶段。未来,我们期待着能够与更多的人合作,共同开展更多工作。
数据要素战略持续升级
近期,我们对隐私计算在未来数据要素浪潮中的重要性进行了深入思考,我们究竟要做些什么事?数据要素已成为国家战略,并相继颁布了数据要素的四法一典和数据二十条。这些政策的出台,无疑为数据要素的发展提供了重要的政策支持和法律保障。
数据要素流通技术保障
数据三权分置
数据要素流通,最核心的是三权分置:数据资源持有权、数据加工使用权、数据产品经营权。这些机制是非常重要的,是使得数据要素得以流通起来的关键制度。
另外,数据二十条同时指出“要建立一个高效、场内外结合的数据要素流通和交易制度:建立数据来源可确认、使用范围可界定、流通过程可追溯、安全风险可防范的数据可信流通体系”。
在讨论数据要素流通时,业界已经熟知“可用不可见”、“可控可计量”,这是隐私计算的核心技术特征。但是,为什么要实现“可用不可见”,它为什么如此重要?
首先,让我们来探讨“三权分置”的概念。它是一个很有意思的概念,有助于我们深入思考数据使用的问题。
- 数据持有权涉及到持有原始明文数据或其等价物。
- 加工使用数据,传统上意味着必须持有数据才能进行加工。即在没有明文数据的情况下,加工也是不可能的。但如果加工使用权一定蕴含着持有权,将会导致一系列问题,特别是容易导致泄露和滥用。而隐私计算最大的变化之一是使得加工使用权和持有权分离成为可能。这意味着可以让参与方仅仅加工使用数据,而不必持有数据,这是隐私计算的最大价值。
- 经营权主要是权属的界定。经营权本身不需要接触数据,更多是规定哪些人可以有权拥有持有权和加工使用权。传统上,加工使用权一方面会隐含意味着需要获得原始数据的持有权,另一方面更重要的是其会产生新的衍生数据,产生新的持有权。从权属界定方面来看,现在相对清晰。在权属保障上,则需要全面的可信技术体系进行保障。
可信技术保障
谈到可信技术保障,隐私计算则是一个相对明确的技术体系,可信这个词汇在许多场合被提及,那么可信是什么?谈到可信,就回到了信任本源,信任本源是什么?我们发现信任这个概念其实非常复杂,社会学、心理学、营销学、经济学、管理学一堆领域里面都有相关定义,而定义还不相同,在把它抽象后,可以看到它最终的核心基石包括以下四点:
- 身份可确认:只有知道对方的身份,才能对其产生信任。
- 利益可依赖:相信对方是为我们利益着想的,对我们是有善意的。例如隐语开源出来,大家会相信隐语是是为大家的利益服务的,所以利益是可依赖的。
- 能力有预期:不要求对方十全十美,因为每个人的能力也都是有限的,但是相信他们能够在能力范围内为我们的利益着想。
- 行为有后果:在上面说到的正向有预期的工作中会不断增加我们对对方的信任,但如果对方辜负了我们的信任,并利用我们的信任来伤害我们,就会造成整个信任的崩塌。
综上所述,身份可确认、利益可依赖、能力有预期、行为有后果是信任的四个核心基石。只有在这些基石的基础上,我们才能建立起真正的信任。
信任转变
隐私计算为何如此重要,数据要素流通又为何如此困难?尽管大家都知道数据有非常高的价值,但为何至今仍然无法很好地流动?今天数据泄露以及滥用等问题不断出现。这些背后的问题是什么呢?
传统的数据安全问题是内循环问题:数据持有方在内部对自己的数据负全责。今天我们面临的问题,包括隐私计算要解的问题是其实是外循环的问题。外循环是指,数据要素离开了数据持有方,但数据持有方依然有相关的安全管控需求和责任,这是一个全新的挑战。在外循环中整个信任基石遭到了破坏。
- 在内循环时,主体是机构或公司本身,身份是明确的,利益是一致的,数据安全的保障能力是清晰的。若数据出现泄露或者滥用,也需要主体本身来负责。在这个情况下,信任四要素是完备的。
- 在外循环中,数据离开数据持有方的安全域后,首先在法律层面上其责任主体不明晰。其次,利益诉求不一致,数据在跨主体流动时,各方的利益诉求会破坏数据持有权的约定,大部分主体都会倾向于把数据缓存一份。而一旦有了数据,营业部门就会有冲动想如何利用数据在其业务中得到价值,则数据使用权约定范围也会受到破坏。此外,数据流通环节上各方能力层次不齐,目前能够有完善的数据安全能力的公司其实是相当少的,数据在链路上传播的每一环都可能造成数据泄露。最后,最糟糕的问题是,泄露后的责任主体也难以确定,因为链路很长,很难判断是谁泄露的。可以看到,在数据要素流通外循环场景下,整个信任基石都遭到了破坏。
现在在暗网上,数据被大量出售。过去几年我们协助公安机关溯源定位累计上百起数据泄露案件。然而,暗网是匿名网络,在暗网上打广告、在 Telegram 上做客服,通过比特币交易,通过国际网盘做交付,整个体系是匿名化的,大部分机构或公司是没有能力在这样的匿名化网络中做追溯的。
在这种情况下,我们会发现外循环上的信任保障真的很困难,也能理解为什么大家不敢、不愿把数据拿出来。因为目前的外循环其信任基础是不成立的,一旦数据泄露若要追责,最后往往会追责到数据源方,而数据源方并不能解决这些问题,因此大家通常会选择不拿出数据。
这里举个实际的例子:短信泄漏。两年前,我们观测到行业里短信泄露问题非常严重。我们这些年也配合警方抓了很多的短信泄露的团伙,但基本上没有一个是运营商泄露的,运营商在数据安全保护方面做得挺好的,但是其上下游几乎每一个环节,都抓到过相关黑产团伙在卖短信。大家看看自己手机会发现有各种不在预期内的信息。那时候我们建议银行发短信需要脱敏。最近,我们还在协助一家银行处理短信泄露案件,该银行已经采取了我们的建议,对短信进行了脱敏处理,从而减少了潜在的损害。
在这么漫长的数据链条里,若数据像以前那样明文形式对外,数据泄露后,责任主体不清、利益诉求不一致、能力参差不齐、责任链路很难追溯导致大家不愿意把数据拿出来再进行流动。
所以,我们认为整个行业需要从主体信任向技术信任转变。只有建立新的技术信任体系,摆脱对每个环节中的主体信任依赖,才能使得未来数据要素健康安全得发展。建立新的技术信任体系,包括用可信数字身份进行身份确认,通过使用权跨越管控对齐各方的数据权益,通过通用安全分级评估各方安全能力,最后行为和后果要做全链路可信审计。这个体系的建设也是符合前面提到的《数据二十条》中“数据可信流通体系”的相关要求。
可信数字身份
从 90 年代开始,CA 证书体系就成为了互联网的基础设施之一,它能够验证用户的机构实体,对于早期的电子支付场景是非常有用。但在数据传输与流转过程中,CA 证书体系并不能对应用系统的身份进行验证。在这个过程中,相应的技术也是有的——可信计算。尽管可信计算技术已经发展了 20 多年, TPM/TCM 技术在中国也已经相当成熟,但由于一直没有合适的应用场景,它在行业内没有得到广泛推广。现在我们也在呼吁,目前它已经到了适合大规模使用的阶段,因为应用的可信数字身份已经是整个数据流通中非常重要的基础。且它的成本也不高,一个 TPM 芯片就十几元,但因为之前系统没部署起来,后面的保障成本就特别贵,成本基本上是万倍起步。
使用权跨域管控
使用权跨域管控是指数据离开持有方的安全域后,依然能够对它的加工使用进行决策,防止泄露和滥用。在隐私计算的多个技术领域中,无论是多方安全计算、联邦学习还是可信执行环境、数据沙箱、数据空间,最终都是为了实现这样的要求:无论数据以什么形态存在,无论在域内还是域外,进行融合或委托加工操作,都要能够对其进行决策上的管控。这是使用权跨域管控的核心技术要求。然而,这个要求之前并没有被明确提出过,欧洲在提出数据空间时,也并没有将其作为核心技术要求明确。
这个要求包括对运维人员的限制,无论系统在哪里,都不是由任何一方的运维人员单独操控的,不能因为运维人员导致数据泄露。也包括了对研发过程的管控,也不能因为任何一方的研发人员在进行数据加工时导致数据泄露。这是一个巨大的挑战,需要一个全新的范式来支持。最后是全链路可信审计的保障,以前的审计只要对自己负责就可以了,但现在审计发生在第三方,如果外部篡改了审计信息,那么你的真实性、完整性和及时性都会受到影响,所以审计也需要全新的体系来支持。
使用权跨域管控是包括隐私计算在内更多技术要统一实现的技术体系。2023 年,我们也做了很多努力,包括与华东政法大学高富平老师合作发布跨域管控白皮书,将这个要求明确提出。虽然实现的技术路线可能有很多种,但这个技术要求是一致的。
能力有预期
隐私计算有多方安全计算、联邦学习、可信执行环境等技术路线,每个路线每个技术人员都有自己的安全分级,但没有通用安全分级标准,导致相互之间很难比较,这也会导致非常多的运维、部署、行业推广等问题出现。
去年,我们与很多企业、高校共同努力,达成了一个初步的通用安全分级标准规范,2024 年也会在国金试运行。这是一个核心进步,上面提到的跨域管控是提出技术要求,而通用安全标准是对技术的安全性进行标准分级,共同形成一个完整的体系。这也与《数据安全法》中对数据的分类分级要求相吻合,数据分为一般数据、重要数据和核心数据,重要数据涉及到国家安全,那么支撑重要数据流通的系统一定需要通过攻防检验才能真正保障它的安全。对于一般数据,可能不需要这么高的安全性,可以随着规模、技术的逐步成熟与提升,不同的数据对于安全的要求肯定会有差异。
总的来说,安全要求越高,应用的复杂性就越大,成本也会相应增加。这是一个无法改变的事实,所以解决问题需要采用多种方法。
通过技术突破,隐私计算的成本可以从以前的万倍千倍降至百倍、十倍甚至两倍以内。去年,我们开源了星绽可信虚机HyperEnclave,能够支撑大部分国产 CPU 实现安全的 TEE 能力,包括给没有 TEE 能力的 CPU 提供 TEE 支持,同时通过软件和 TPM 结合的方式帮助修复一些 CPU 内核基础版本的安全漏洞,形成比较完善的 TEE 能力支撑。因此,我们帮助国内公司和机构摆脱了无法信任 Intel SGX 等国外信任根的尴尬状态。其 TEE 计算成本现在可以做到明文计算的两倍以内。当然,在不同场景下有不同差异。在高安全级下,大家现在对可信密态计算 TECC 也比较熟悉了,目前我们也已经实现 TECC 计算成本控制在明文分布式计算的十倍以内。
在这种情况下,无论是大规模数据量的枢纽模式还是相对少量数据的快速部署管道模式,都能很好地实现应用。但需要注意,不同安全级别下的安全保障强度会有所不同。
隐语技术栈也在持续升级,其中,TrustedFlow 也在 2023 年开源发布,也非常感谢大家在隐语社区中做了很多贡献,每次开源的贡献任务都能迅速得到大家的积极认领与完成。
全链路审计
前面已经建立了数字应用身份验证、跨越管控的技术要求和安全分级强度保障的验证,全链路审计则是完成数据可信流通系统中实现闭环的最后一环。在流通过程中,最关键的一步是确定责任归属,如果有人泄露或滥用数据,需要实现溯源追踪以进行责任归属,整个信任体系才能得到闭合。这个过程是非常复杂,包括控制面和数据面,最关键的还是端到端的密态覆盖。
以前的加工使用是基于明文数据的,明文的原始数据在泄露后责任是非常难界定的。例如在 API 指令中发生了数据泄漏,是很难确定泄露发生在哪个环节的。如果使用隐私计算把明文数据变成纯密态的加工流转,其数据泄露的风险会大大降低。
而最后生成的衍生数据,若它作为衍生数据产品进行交付,一定需要跟原始数据不一样。在这样的情况下如果发生了数据泄露,其泄露的环节比较容易界定,更容易追责。因为在密态流通下,持有方有原始数据,中间的流通过程是全密态的,根据合同或者法规所规定的衍生数据持有方才能持有衍生数据。责任清晰,追责容易。
未来,当需要进行大规模数据流转时,密态流通可以明显降低整个行业的风险成本和治理成本。前提就是要实现数据的密态流通和全链路审计,覆盖从原始数据到衍生数据端到端的全过程。
这也是为什么我们如此确信数据会进入密态时代。因为只有这样,我们才能在大规模流转数据时有效控制全行业的风险成本,让全行业能够安全稳定地发展。
展望
当前,我们正在从计算密态化迈向大数据密态化。未来整个行业都需要来建设密态算力,以应对大模型等数据要素大规模流转的需求。不仅是通用算力的升级,更是智能算力的升级。
密态算力的核心是要支持丰富的大数据生态和 AI 生态,同时要引入新范式,以实现基于密文的研发,在降低风险成本的同时能够提升研发效率并被行业接受。这实际上是一个非常大的挑战。现在有大量的数据源,他们没有能力进行数据加工,也不敢找其他数据加工劳动者来处理。因为担心数据泄露的问题,所以宁愿把数据留在库中,导致现在的可流通的数据源严重缺失。如果我们能够成功地解决这个问题,那就像当年解决了农民无法耕种土地的问题一样,极大的释放数据生产力。
数据要素密态化未来也一定会走向密态天空计算化。这个认知首先要基于技术信任的跨域管控、密态化标准的数据互通。也基于相信未来数据密态流通将覆盖全链路,即不仅要覆盖跨云的枢纽,还应涵盖各个机构、公司等相关密态节点的起点和终点。这样的结构,将是未来数据要素密态化的重要组成部分。
总结
隐私计算在未来数据要素流通过程中有非常高的价值,我们对其的认知也更清晰了,它是整个新的信任体系中最重要的关键技术路线,能够支撑我们在新的信用体系中实现使用权跨域管控、实现安全能力保障,并对全链路审计起到关键支撑。
隐语社区在这个领域上的发展在国际上都是相当领先的,也非常期待跟大家一起推动数据要素的安全健康发展。
我的演讲到此结束,非常感谢大家!
🏠 隐语社区:
https://github.com/secretflow
https://gitee.com/secretflow
https://www.secretflow.org.cn(官网)
👇欢迎关注:
公众号:隐语的小剧场
B站:隐语secretflow
邮箱:secretflow-contact@service.alipay.com
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。