数据脱敏平台立项评估报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据脱敏平台立项评估报告
1.项目背景
随着IT(信息产业)行业的不断发展,技术日新月异,包括现今最流行的云和大数据,其最终目的都是为了提高信息的利用率、提高其流动性、进一步挖掘信息的价值,因此数据本身的价值越来越高。由于IT的核心是信息,因此,信息在一个企业当中越发凸显其重要性。企业和个人信息价值也随着各行业的发展而不断提升。
不管IT技术和行业如何发展,其安全问题总是如影随形。近年来数据泄漏、销售非法数据获利等事件越发频繁。虽然数据的泄漏并不一定会对企业造成直接的经济损失,但是间接损失和影响是巨大的,或流失大批量的优质客户,或需要承担法律责任。
苏州城市大脑包含城市各行各业的数据,其中涉及到大量的公民敏感信息,储藏着大量的商业价值。另一方面,云平台上的应用和服务在使用数据的过程中也存在着大量的风险。而这种风险一旦变成显示,所带来的损害是无法估量的。
数据脱敏,正如它的叫法那样,在保存数据原始特征的同时改变它的数值,从而保护敏感数据免于未经授权的访问,同时又可以进行相关的数据处理。您可以在保留数据意义和有效性的同时保持数据的安全性并遵从数据隐私规范。借助数据脱敏,信息依旧可以被使用并与业务相关联,不会违反相关规定,而且也避免了数据泄露的风险。
2.建设内容
部署专业的脱敏工具,构建安全可靠的数据安全防护系统,确保本行的企业、个人等隐私数据能有效的进行漂白处理,保障用户隐私数据的泄露风险。要求数据脱敏系统包含丰富的脱敏算法来处理测试环境中的敏感信息,同时确保个人敏感信息的有效性。要求数据脱敏系统能够依据客户的敏感信息类别规则能自动发现各个数据表格内的类别项(如:姓名、出生年月日、地址、身份证信息、电话号码、银行卡号等)中的敏感信息,保障客户生产数据在非生产环境中安全使用,防止敏感信息泄露,满足审计及监管部门要求等功能。
脱敏产品需要同时支持存量历史数据脱敏和实施新增数据的脱敏,保障相同数据在不同时间和脱敏点上得到相同的结果。数据脱敏工作涉及数据使用方及数据管理方两个角色,测试数据脱敏不仅要确保数据敏感性被去除,还要尽可能满足测试使用方的测试需求,同时还要确保其技术方案是可行且易于管理的。
综合两方面角色考虑,从高效性、有效性、真实性、稳定性及多样性五个方面提出了一种全面的测试数据脱敏评价指标体系。
●有效性
数据脱敏的最基本原则就是要去掉数据的敏感性,保障数据安全,这是对数据脱敏最基本的要求,即有效性。有效性主要从以下两个方面进行评价。
(1)相对于原有数据,脱敏后数据敏感性的去除程度。例如,对车牌号码采用置为常数的方法进行脱敏,脱敏后所有敏感的姓名数据都被置为某个没有敏感性的字符串,即数据敏感性完全去除;对客户姓名采用屏蔽若干位字符的方法(如“苏E123456”置为“苏E763245,’)进行脱敏,则脱敏后数据仍然保留了具有敏感性的姓信息,即数据敏感性部分去除。
(2)脱敏后数据可能被反推回具有敏感性原始数据的程度。采用的脱敏方法不一样,其破坏脱敏轨迹的程度也不一样,从而最终导致脱敏后数据被反推回脱敏前数据的程度也不一样。例如,对车牌号码采用置为常数的方法进行脱敏,脱敏结果不可能被反推回原始数据;对车牌号码采用按偏移值置位的方法进行脱敏,即使车牌号码及配置偏移值泄露,脱敏结果也是不可能被反推出原始数据的。
●真实性
测试数据最终是需要在测试中使用,越能真实体现原始数据特征的脱敏后数据,越能更好地满足测试工作的需求。这是从数据使用方的角度来看对测试数据脱敏的基本要求,即真实性。真实性主要从以下两个方面进行评价。
(1)相对于原有数据,脱敏后数据业务逻辑特征的保留程度。任何数据都是具备一定业务逻辑特征的,
例如客户姓名、身份证号、交易金额等数据都有明显的特征。对客户姓名采用置为常数的方法进行脱敏,脱敏后数据完全保留了客户姓名的特征;对客户姓名采用每个姓名字符的码值偏移固定值的方法进行脱敏,则脱敏后数据为乱码,完全丧失了客户姓名的特征。
(2)相对于原有数据,脱敏后数据统计分布特征的保留程度。任何数据都是具备一定统计分布特征的,
例如客户姓名数据中,有单姓多,复姓少,大姓多,小姓少,一些字符高频出现,一些字符根本不会出现等。对客户姓名采用置为常数的方法进行脱敏,脱敏后数据统计分布特征完全被破坏;对客户姓名采用按偏移值查姓名表的方法(按配置的固定偏移值选取表中假的姓名)进行脱敏,由于姓名表的数量远小于真实情况,故脱敏数据部分保留了统计分布特征;对客户姓名采用每个姓名字符的
码值偏移固定值的方法进行脱敏,则完全保留了客户姓名的特征。
●高效性
不同的测试数据脱敏方法,其实施难度是不一样的,是否能高效地完成数据脱敏,是从数据管理方的角度来看对测试数据脱敏的重要要求,即高效性。高效性主要从以下两个方面进行评价。
测试脱敏方法实施的时间开销情况。实施脱敏的时间及计算资源占用越少越好。测试脱敏方法实施的空间开销情况。实施脱敏必须的存储空间越少越好。
●稳定性
由于原始数据问存在关联性(如两个脱敏点中都有车牌号码数据,并且业务要求脱敏后的车牌号码必须一致),这要求测试数据脱敏方法需要确保对相同的原始数据,只要配置参数一定,无论脱敏多少次,结果数据都是相同的,即稳定性。
●实时性
考虑到未来脱敏后的数据主要应用于云平台进行大数据分析,针对部分业务(如实施车流量分析、城市拥堵情况预测)实时性要求较高,因此脱敏操作的执行可以通过直接嵌入数据处理流程,并提供实时调用机制,满足更高效的数据使用场景要求。