
作者|张书涵「中国人民保险集团股份有限公司博士后工作站」
文章|《中国保险》2023年第7期


数字经济时代,数据是核心生产要素,近期爆火的以ChatGPT为代表的大语言模型均需要海量数据支撑,而数据的合规流通则是其不可或缺的安全基座。保险业作为典型的数据密集型行业,近年来各业务渠道沉淀的数据体量剧增,数据流通与融合应用需求增加,数据流通的安全合规风险随之加剧。在我国网络及数据安全相关法律法规体系不断完善的大环境下,隐私计算技术能够在数据不出域的情况下将“价值”“知识”“信息”传递出去,从底层技术角度实现数据所有权与使用权的分离,有效提升数据价值的共享流通与协同应用,助力保险业数据流通的安全合规。
当前保险业数据流通存在的合规隐患1.从个人信息安全角度来看
保险业对个人信息的依赖是“生存所必需”。在保险产品开发、定价及经营管理中,需要获取包括个人身份信息、支付信息、健康数据、保单记录等信息在内的多种数据信息,以破解信息不对称问题,实现有效的风险定价及管理。例如,在汽车保险中,保险公司基于智能网联车技术获得更多基于驾驶人员个人驾驶行为的信息,以改善车险定价,促进产品创新;在健康保险中,保险公司可以利用个人体检报告信息,结合可穿戴、植入式设备,持续了解客户健康状况的变化,实现保险承保理赔模式的创新。在这些产品和服务创新过程中,所涉及的大量客户个人信息具有多样性、敏感性、精准性和高价值的特征。随着数据资产化进程推进,数据隐私泄露、数据环境污染、隐私数据贩卖等数据安全问题愈发凸显。据Verizon和IBM调查,保险等金融机构2022年内共发生2527起数据泄露事故,平均成本为597万美元。法国安盛、美国Infinity财产保险公司、南非保险服务商QSure等众多知名保险机构接连陷入信息泄露事件泥潭,为保险行业的数据安全问题敲响了警钟。
2.从跨行业信息汇聚角度来看
当前,为更加全面地了解趋向性的消费关联或特定主体的风险偏好,实现数据价值的深入挖掘,保险与税务、公积金、电力、互联网行为等不断融合汇聚,跨机构、跨系统之间的数据流通场景逐渐丰富,数据流通内涵不断延展,过程中不仅包括了数据的转移,还包括了对内外部共享数据的汇聚融合,原本由各个系统分散管控的低敏感度数据经过融合汇聚和关联分析后,可能产生新的高度敏感数据,造成更多的安全隐患。
从流通内容看,保险业数据形态从表单类的结构化数据扩展至语音、图像等非结构化复杂类型,模态的多样化和复杂化使得数据资产的定义、范围、分级分类难度更大。从流通主体看,保险业与银行业数据治理和应用最大的差别在于保险集团分业经营模式下遵循两级法人架构,而银行业经营主体多位于总部,面临的法律门槛不一样,对保险业来说数据治理障碍重重。目前各大型保险集团对数据治理的重视程度逐步提升,通过构建跨主体数据治理体系来加强数据质量与数据隐私的保障,然而在现行两级法人架构下,各子公司的数据平台建设与应用水平参差不齐,步调难以协调,整体建设缓慢,短期内难见成效。从流通方式看,保险业数据流通包含行业层面的数据开放、保险集团内部跨主体的数据共享以及跨组织生态体系内的数据交易,流通数据的主体多样、路径复杂,数据流转风险控制及权责划分难度加大。从流通形态看,长时间以来保险企业数据流通仍以数据包传输、API调用为主,安全合规的可信数据流通技术体系尚未建立健全。
隐私计算在保险业数据流通领域的应用1.隐私计算概述
隐私计算是指在保护数据本身不对外泄露的前提下实现数据分析计算的一类技术,主要包括基于密码学的多方安全计算、基于机器学习与隐私保护技术的联邦学习、基于硬件隔离的可信执行环境三种核心方法。
多方安全计算是一项基于密码学的技术手段,允许多个互不信任的参与方进行协同计算,并确保所有的参与方均无法得到除计算结果之外的其他任何信息。该方法被广泛用于联合建模、隐私查询、联合统计、数据交易等计算场景。联邦学习是一项结合加密技术的分布式机器学习框架,各参与方无须共享数据资源,在保证数据不出本地的情况下,进行待训模型的本地训练,将数据特征、模型参数等要素加密共享,实现联合建模。可信执行环境以可信硬件为载体,在中央处理器中隔离出一个独立于操作系统的机密空间,用于数据的解密计算;目前该技术的应用尚不突出,部分落地于金融机构的风控环节。
基于以上三类核心方法,隐私计算技术确保了原始数据不出库,数据价值和知识出库,解决了传统数据流通中“二次传播特性造成的数据所有者可能失去数据的管理权和监督权”的问题。
2.隐私计算保障保险业数据流通的落地实践
当前,银行、保险等金融企业有大量的内外部数据流通共享的业务需求,隐私计算技术所覆盖的业务场景包括产品的精准营销、风险控制及征信、金融监管等,实现了金融机构内外部数据的安全流通与共享,显著提升了模型的预测精度,帮助企业同时实现了降本和增效。
从保险机构业务赋能来看,隐私计算技术多用于补足客户画像标签,在联合营销、产品定价、理赔、客户服务等业务环节有广泛应用。以保险反欺诈应用场景为例,中国保险学会发布的《2019年中国保险行业智能风控白皮书》显示,全球每年约有20%—30%的保险赔款涉嫌欺诈。目前保险公司单纯依赖自身业务中积累的数据资料难以构建起全方位、精确的客户画像,无法及时、精准掌握每位客户的实际产品需求和风险偏好。例如,车险领域欺诈在保险欺诈中占比高达80%,保守估计每年涉案金额高达200亿元,但保险公司的内外部调查资源不足导致承保端风险防范能力较弱。借助隐私计算技术,在合规、安全的前提下,引入外部数据,综合判断识别投保人、被保险人以及车主等关系人是否为网约车/拼车/顺风车司机,目前多家保险公司已落地实践。更多应用场景见表1。

从保险行业监管来看,隐私计算技术促进了跨机构联盟反欺诈生态的形成。近年来,各金融保险机构纷纷建立了企业级的反欺诈体系,在机构内名单、特征数据统一共享的基础上实现业务前中后全环节防控,如基于规则模型的黑名单机制。依托隐私计算技术,行业监管领域“联盟式”反欺诈合作生态开始探索,即在保单数据无须物理集中的前提下实现多头风险的查询。同时,多家保险公司与相关监管方共同组成保险反欺诈数字联盟,参与方还可利用联邦学习等技术,更加充分、安全地共享联盟数据资源,丰富自身的反欺诈模型,从而在核保和核赔过程中建立反欺诈预警机制。
3.隐私计算基础支撑
从基础设施建设方面来看,各保险机构纷纷落地建设了一体化隐私计算平台,保障保险业务应用安全合规。中国人保于2020年开始探索隐私计算技术的试点应用,并于2022年8月上线隐私计算一体化平台。该平台利用隐私计算技术实现数据所有权与使用权分离,保障集团内数据流通安全合规,同时满足各业务板块的外部数据对接需求,为产品定价、联合风控管理等场景中的跨行业、跨机构、跨部门的数据流通、使用和共享提供底层的技术解决方案。国寿财险基于多方安全计算、联邦学习技术构建了隐私计算平台,并于2021年四季度上线。该平台支持跨企业、跨机构间基于数据隐私保护的查询及计算等任务,通过匿踪查询、联合建模、联合统计等功能,在联合营销、联合风控、信息共享、产品创新等多个保险业务场景中赋能。此外,泰康在线等公司也纷纷尝试在互联网保险这一新兴模式下搭建隐私计算平台,有力推动了保险行业的隐私计算布局和数智化数据管理体系建设。
隐私计算在保险行业未来发展存在的挑战1.隐私计算需融入多元保障体系,解决数据流通安全合规风险
在监管要求趋严背景下,保险行业数据流通安全合规内涵丰富,不仅包含数据处理、模型计算阶段的安全,还包含前端数据源的合法合规论证。
隐私计算得以发展的法律基础是匿名化要求,《个人信息保护法》指出,匿名化是个人信息经过处理无法识别特定自然人且不能复原的过程。然而实践发现,隐私计算技术本身存在匿名化漏洞,单靠隐私计算技术,无法完全解决数据合规风险。例如,参与多方使用联邦学习对用户行为进行建模时,需要将模型的梯度信息进行交换;依靠反向拟合的方法,梯度有可能被还原成原始数据,因此梯度数据严格意义上并非“匿名化处理后的信息”。因此,保险机构在进行数据处理时是否有效做到数据合规,应当结合具体应用场景、技术方案、数据授权内容等综合判断合规风险点位。
2.隐私计算需适配多方生态互联需求,探索数据要素市场参与路径
数字经济时代,各金融机构积极探索参与数据要素市场建设,数据流通需求场景正在从单一业务赋能演变为行业层面生态打通。
从需求场景来看,保险业初步具备融入到数据要素市场生态建设的必备要素,数据流通需求旺盛,但隐私计算尚在单点布局阶段,亟需探索打通多方生态的数据流通新模式。各大保险集团已纷纷开始部署企业级的数据管理平台,建立集团化的数据管理体系、统一的数据标准和应用规范,数据搜集、数据处理能力不断加强。如前分析,多家保险公司筑牢隐私计算基础设施,在联合营销、产品定价、联合风控、信息共享、产品创新等多个保险业务场景中广泛应用,但大多处于单点局部的试点阶段。仅从试点应用效果不难看出,未来保险业以数据需求方融入到数据要素市场生态、参与到数据资产交易流通环节成为了必然趋势,亟需基于隐私计算探索数据流通新模式。
从技术发展看,当前行业内隐私计算技术标准仍不统一,算法效率与行业互联互通标准是制约行业生态建设的两大瓶颈。一方面,保险公司落地的隐私计算平台多构建于大量的密码学算法之上,具有效率低下的特点。据信通院的测试结果显示,将多方安全计算应用于40万行样本900列特征的数据,其建模速度比明文计算慢数百倍,随着数据规模的增加,其劣势会更加明显,使得隐私计算技术无法拓展至一些对计算速度要求较高的场景。另一方面,隐私计算平台大多为异构闭源,系统接口、算法协议、操作流程等差异较大,原本的“数据孤岛”又演变为“计算孤岛”,导致系统重复建设以及运维成本增加、扩展性不足,技术平台间的互联互通是集团级、行业级、跨行业级的数据流通新挑战。
3.在大模型应用背景下,隐私计算需聚焦专业模型,创新应用模式
目前,各保险机构开始积极探索布局,推动AIGC(AI-GeneratedContent,人工智能内容生成)技术在多模态营销、策略推荐、智能客服等领域落地。未来,无论是大模型技术本身还是垂直领域应用,都将面临更加严峻的数据安全挑战,隐私计算和ChatGPT的结合或为破局之道。
从ChatGPT技术原理来看,隐私计算底层加密方案可用于保障专业模型迭代阶段的数据匿名化。大模型训练分为通用模型预训练与专业模型迭代两个阶段。在通用模型训练阶段中,市场上出现的大模型大多采集公开数据,数据源中的用户个人信息较少;但在专业模型迭代阶段,问答式的聊天会话功能会产生较为敏感的通信信息,其核心控制模型Transformer根据用户消息的上下文生成回复,一旦模型被攻击从而反向溯源数据库,客户的个人隐私将面临泄露风险。2022年未来区块链与隐私计算高精尖创新中心提出附带加密算子的底层加密方案(THE-X框架),首创神经网络的同态加密算子设计及密态推断方法,已在区块链技术体系“长安链”的拓展中取得了较好实验进展,而隐私计算底层加密方案与之相通。由此可见,隐私计算底层加密方案可用于保障专业模型迭代阶段的数据匿名化处理。然而,目前该方法仅取得小样本数据量下的隐私安全,未来在大数据环境下的创新应用以及商业落地仍需强大的算力、安全的隐私处理算法、明确的法律合规框架、科学的管理体系等进行支撑。