五、用生产安全的视角来思考数据安全
以上认知,我们可以用生产安全的体系映射到数据安全的技术路线来印证一下。我们可以知道生产安全的3大类别,除了外部生产环境安全外,都可以归纳出一些体系框架,如下:
5.1 针对危险设备和危险生产资料的安全体系
针对危险设备和危险生产资料的安全体系,我们1)首先需要建立一个安全的生产环境,减少高危环境引发的意外事件。2)对危险的生产资料分类存储,避免高危物质发生风险,对高危生产设备日常也需要进行管理。3)在高危生产资料运输和使用过程中,我们会研发一些降解其危险性的技术,如惰性添加剂,减少危险发生的概率。4)在高危作业操作时,我们需要严格按照安全操作的流程进行控制。5)对高危作业操作行为做到实时监控。6)提供感知技术,及时发现高危物质的泄露、感知危险环境。7)对高危生产资料的去向进行追踪和控制。
5.2 针对安全属性质量保障生产的安全体系
针对安全属性质量保障生产的安全体系,我们1)首先需要建立一个安全的生产环境,减少高危环境可能影响对安全属性质量的保障。2)对影响安全属性质量的保障的生产资料的物质进行分类(如食品安全可能是某原料的坤含量过高,高压锅易爆可能是钢铁中某杂质过高)3)针对这些影响安全属性的杂质,我们会研发一些提取或降解高危物质的技术。4)在作业操作时,我们需要严格按照保证质量的操作流程进行控制。5)对产出的阶段性产品,对留存的高危物质进行检测,同时进行安全属性的破坏性质量实验。6)对操作的过程进行记录和追踪,确保操作行为路径可溯源提供感知技术。7)对产品对外流通后的路径可追踪溯源。
5.3 作为生产安全视角的数据安全
我们把这些生产安全体系进行归总,可以看到数据安全涌现出来的很多新的方向和技术,正好映射在这些生产安全体系内。其实内在说明,从生产安全维度去看待数据安全的必要性,也可能可以指引我们去思考和创新的维度。
数据安全生产环境:
大数据分析平台安全:当数据汇集在一起分析加工时,需要一个更加可控的安全环境,来控制人为故意的或非人为故意的安全风险。原生的如HADOOP大数据分析平台这块很少有相应的安全保护体系,一些大数据平台厂商如阿里云的ODPS,增加了一些安全特性。数据的分析需要一个更安全的环境。
密文检索/同态加密:业务系统和数据越来越多存储于第三方云平台,如果只是存储还可以用加密存储,但是如果还需要在第三方平台使用和运算,该怎么办呢?通过密文检索/同态加密,在保证数据秘密性的同时还具备业务可用性。不过目前性能和支持的运算种类还需要进一步工程化改进。
多方计算:同态计算的变种;场景是如果两方都有有价值的数据,需要进行共同计算,但是互相都不希望对方拿到自己的数据,通过密文态的数据运算来实现,这里产生了很多中变形:单方计算:A有数据,B有需求,B的模型在A的数据环境里跑,这种情况A的数据无需加密,主要审计模型和模型携带出的结果信息。但工程上,多方计算并不成熟,实践中多用引入第三方信任的SGX模式替代:A和B的数据分别加密,然后加载进可信任的服务商C的具备SGX的内存设备中再解密运算,运算出结果后销毁解密数据。
隐私交集:隐私交集主要针对查询类业务,A有数据,B有查询需求,如保险公司希望在医疗数据中查找客户是否已有心脏病就诊记录。保险公司不希望自己有那些客户都被医疗数据的拥有者知道,医疗数据的拥有者也不希望被保险公司去查询到更多的用户隐私记录如具体就诊的日期医院等等。因此利用加密和集合运算,保险公司提交一批查询名单和希望查询的命中字段集合,医疗数据的拥有者控制能被查询的数据集合,通过集合运算给出交集命中部分,以此双向的保护保险公司和医疗数据的拥有者的数据。
边缘计算:由于采集会隐私数据到数据中心进行分析可能带来的隐私风险,业界正在尝试新的体系,将模型分解到客户终端的设备进行运算返回运算结果,这样减少将客户的隐私数据采集回数据中心的数据安全风险。
高敏数据生产资料存储和使用管理
数据分类&;分级:网安法都有明确的数据分级分类的要求,不过数据的种类如此之多,每个行业每个企业的差异性也很大。数据本身的分类还面临很多的挑战,但从生产安全角度去看,却是必须的一步。
数据自动化识别:有了数据的分类分级,还需要有自动化智能的数据识别能力。比如语义性和数字型的数据类别识别,从算法上还有很多难点。
数据存储安全:按照数据的类别和敏感程度,存储时需要考虑,一个是禁止中心化存储的数据或者必须要加一定措施才能中心化存储的数据,比如生物识别数据。一个是从敏感数据本身角度,应该分离不在一张表中的数据,是身份识别数据与具体的业务行为数据。当然一些敏感数据最好能加密或脱敏后存储。另外还有隐私数据授权到期后的销毁。
数据作业管理
隐私采集授权:采集个人数据时,必须获得被采集人的授权,才能采集。
数据用途合规:数据采集后,使用和处理的用途,必须符合授权约定。一个方案是将数据做好授权分析之后,根据企业数据业务的用途,从合法数据集中清洗出符合授权要求的数据,再用于业务。
细粒度权限管控:数据分析的兴起,带来了内部大量的数据使用和处理人员,对这些人能接触的数据类型、脱敏级别、许可的数据加工和运算类型(比如是否允许统计、关联),都需要进行控制。
数据发布、交换共享和出境合规:个人数据和重要数据的发布、交换共享和出境可能影响个人隐私安全和国家安全,需要按照国家相关要求要求进行作业。
数据使用、处理、运维安全和合规:数据在处理和运维中可能会遭受相关的泄露风险,需要进行控制。
数据主体权利保护:按照GDPR(其实国内个人信息安全规范也有部分),需要对个体提供很多数据主体权利保护,如知情权、控制权、更正权,需要企业通过设置特定的技术体系加以实现和保护。这样就赋予了在数据使用、处理、交换等环节的用户的控制能力,导致需要对应的生产流程去响应用户的权利主张。(比如数据在做某用途的融合时,用户提出异议,需要能快速把这个异议用户的数据从整个数据作业中抽取出来)。
高敏数据的全程监控与审计
高敏数据处理活动记录:按照GDPR和个人信息安全规范,涉及到个人数据的,需要记录下数据处理活动以用于合规审计,其实还有没有出来的重要数据的要求,也是一样。
高敏数据交换共享出境全程留痕和审计:涉及到隐私和重要数据的交换共享出境,也是需要全程留痕和审计。
高敏数据降解技术
脱敏:遮掩、去标识等脱敏技术。
差分隐私:从数据采集时,如何通过数据的失真扰动,使得采集的数据具备统计性,但无法定位到具体的个人。
K匿名:数据发布、数据使用、数据共享交换时,避免攻击者利用链接攻击(即使做了标识数据的去标识脱敏,但攻击者可以通过多个可链接的属性关联回来,比如身高、性别、区域、年龄组合在一起关联),需要对这些可链接的属性进行相关的模糊化,以减少被链接攻击的可能。
数据域:如果数据所有者,需要把数据分拆给多个不可信的第三方(最典型的是数据分析外包,为了降低风险可以找几个外包团队分拆数据和工作)作业,同时为了防止这几个第三方勾结,把各自的数据拼接回完整的数据集,需要组合数据的脱敏以及防链接攻击的算法,
高危物质或环境感知监测
未脱敏数据和脱敏强度不够感知:在高危数据作业操作中如发布、交换、出境时,能感知可能不合规的高敏数据。
敏感数据透出面风险感知:感知高敏数据的透出面(如可匿名拉取敏感数据的接口),对其进行监控。
隐私数据用途违规操作或融合感知:自动化识别复杂的数据处理过程中是否存在数据用途违规。
高敏数据泄露感知:敏感数据如果泄露到不应该有的环境中,如何快速感知到。
操作和流通可溯源性
数据血缘追踪:数据在数据存储环节(数据库、文件)的传递路径追踪。一般用于控制数据质量风险。
数据操作路径溯源:数据在使用环节(如数据库到中间件、中间件到服务接口A,服务接口A再到应用B)的路径链路。一般用于控制和数据服务相关的数据质量风险。
高敏数据去向溯源:高敏数据最后的去向,一般用于数据滥用、数据泄露事件溯源。
数据外发溯源:数据通过非在线系统的外发流转出去,数据泄露后可以追查外发途径。一般用于数据泄露事件溯源。
数据水印的研究,有别于文件水印,打在数据本体上,可以避免拷贝数据出文件的水印失效,但打在数据本体上的水印,可能会影响数据本身的使用,因此主要是研究如何不影响数据本身使用且对抗性强的水印。也可以用在很多路径追溯场景。
产品安全质量检测
产品发布时高敏数据透出脱敏质量检测
数据接口质量检测
数据抽取质量检测
5.4 总结
可以看到,很多新的数据安全技术方向面对的实际场景问题,其实是生产安全视角的问题。但整体而言,我们还缺乏颠覆性创新的技术,来解决这些问题。一个当然是对数据本身的相关技术研究很不成熟,计算机和数据科学都还很年轻,每个传统行业的生产安全体系也是经过多年研究才逐步成熟。另一个就是我们大多数的从业者,没有认知到数据安全的核心是需要一个生产安全的视角,从更加整体的视角去思考数据安全的体系。
(责任编辑:安博涛)