“隐语”是开源的可信隐私计算框架,内置 MPC、TEE、同态等多种密态计算虚拟设备供灵活选择,提供丰富的联邦学习算法和差分隐私机制。
开源项目:
https://github.com/secretflow
https://gitee.com/secretflow
🌟 演讲实录
11月25日,「隐语开源社区 Meetup·西安站」顺利举办,本文为大家带来的是蚂蚁集团车险精算平台技术专家孟宪超,在「隐语开源社区 Meetup 西安站」的分享实录。
新能源车险的挑战与应对
近些年新能源汽车发展迅猛。截至上半年新能源汽车超过1500万辆,新车销量占比超过了30%。这对于车险行业是机遇也是挑战;同样对于用户来讲,新能源车平均的出险金额比燃油车高出1000元左右,这对于新能源车的车主来说是不小的成本。
为什么新能源车会出现这样的情况?
首先因为是电车动力性能非常好,容易出现会有急启动、急刹的驾驶行为;另一方面是车本身的硬件限制导致零整比偏高。举个例子:车头大灯撞了,燃油车直接更换配件;对于新能源车情况就不同了,众多传感器安装同一个组件上,维修的话整个一块就全换了,这是新能源车本身物理特性带来的维修成本提升。另外目前市场还处于起步阶段,中小保司对于新能源车的理赔数据比较少,为了保持整体赔付成本会对价格做调整。
因此,蚂蚁保希望能够解决互联网渠道新能源车险报价高的问题,也就是从用户的视角来看,把价格降下来,同时保证保司赔付率在合理水位。为用户降价的前提,是要求蚂蚁保对用户(车)的风险区分度足够高,能够识别出一辆车的风险水平进而影响新一年投保的保费。
为提升模型区分水平我们引入了更多维度数据,通过蚂蚁平台的人车关系数据、保司历史理赔数据以及三方提供的显著特征等数据,更精准描述用户(车)的风险。这就涉及到又一个关键问题,保司、蚂蚁的数据一起建模,如何保证各自数据安全?这就是基于最核心的底层引擎——隐语。隐语隐私计算平台作为精算平台基础,保障数据在不出域前提下完成多方联合建模。我们集成了隐语作为底层引擎,去解决新能源用户投保难、投保贵的问题,这是一个非常重要的技术决策。
精算平台的演进与核心逻辑
上面提到了,我们致力于解决新能源用户投保难、投保贵的问题。回顾整个平台建设过程可以看到,整个平台经历了多次演进:一开始我们采用线下建模方式,完成联合定价业务的价值验证。在考虑同保司更深层次的合作和推广后,我们基于隐语内部的业务定制版独立部署,构建了车了险精算 1.0 平台。
隐语是一个完整的产品化平台,同时能够根据车险行业做定制解决方案。当我们同头部保司沟通交流时候,他们更希望能够在一个开放的,更加可信的环境上合作,同时结合隐语本身的开源节奏,我们打造了精算 2.0 平台。目前基于开源隐语环境,已经把整个预测路径打通,同时针对车险算子做了独立开源。
接下来我们会和隐语一起持续推进精算平台训练开源版本建设,预计在年底可以逐渐投入使用,这是我们和隐语长期合作的路径,也是我们精算平台最核心的目标。平台会逐渐从预制版本切换到开源版本,拥抱开源社区。另一方面,我们会屏蔽掉异构引擎之间的差异,最终把精算领域知识沉淀在车险精算平台之中,这是我们整个平台期待达到的效果。
这就是展示整个精算平台基于隐语的整个流程。平台是手段,我们最终的目标是提升对用户风险区分度的能力,然后给予用户更合理的价格、更合理的保费。
深度学习建模的探索
说到车险常用的建模方式,就是 GLM 模型即广义的线性模型。它相对来讲比较简单,不需要特别多的参数,几十个参数就能够把赔付率和车本身的特征做一个很好的拟合,几乎所有车险建模都会使用 GLM 模型,形式上可能会有很多变种,但内核都会基于 GLM 构建。
那么,在评估模型效果上通常会有两个指标:
- 第一个指标是极差,把选取数据经过模型进行预测后,区分用户真正的风险是否被识别出来。高风险用户会划分到高风险组,低风险用户会划分到低风险的组,他们之间的斜率值就表明整个模型的区分度。
- 第二个指标是具体的效果偏差,即真实值和预测值的平均差值,这是传统的建模和评估的方式。
为什么会探索 NN 的模型?我们希望能够融合更多的数据,包括蚂蚁数据,保司车理赔数据,三方提供的行为数据,不仅仅是静态车数据,还包括可能的时序数据。这些数据对于线性模型来讲超出了它的描述能力;另外 GLM 建模的极差水平已经到了一个阶段,所以基于以上多种考虑我们开始转向对NN建模的探索。
隐语已经提供了拆分学习的能力,所以对于使用方来讲,我们只需要关注网络结构设计、损失函数设计、怎样达到我们的偏差最小值,即精确度提升。可以不用关心整个底层的安全性细节,这部分隐语来提供能力保障。在隐语拆分学习基础上,我们根据不同保司采用不同的建模方式。对中小保司来讲,新能源车的数量比较少,会尝试迁移学习的方式,在大模型上适配保司数据。同时也会根据各保司的入模特征设计网络层数,尝试多种网络组合以确定最佳网络,达到最好的效果。
最后我们看下 NN 模型验证的结果,对于风险区分度来讲,整体提升 50%左右。NN模型能够识别出比传统 GLM 模型的准确率更好,偏差会降低更多一些。这表明NN模型对风险预估的更准确。这是我们现在探索得到的一些结果。
总结
当下我们基于隐语多方安全计算能力构建了整个车险的精算平台,多家保司在联合建模合作中已经取得很好的效果,同时也针对深度模型做了探索和验证。
接下来,我们会跟隐语持续深度合作。一方面,精算平台整体架构将会逐步迁移到开源引擎上;另一方面,我们会分场景、分阶段对深度模型进行多方论证和逐步落地,让用户体验到好的更好的车险服务。
🌟 关注 隐语secretflow B站,获取更多演讲回顾及相关资讯, 获取更多演讲回顾及相关资讯
🏠 隐语社区:
https://github.com/secretflow
https://gitee.com/secretflow
https://www.secretflow.org.cn(官网)
👇欢迎关注:
公众号:隐语的小剧场
B站:隐语secretflow
邮箱:secretflow-contact@service.alipay.com
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。