大数据隐私保护技术之脱敏技术
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术一、引言随着大数据时代的到来,数据安全和隐私保护成为了重要的关注点。
大数据平台中的敏感数据需要进行脱敏处理,以保护用户的隐私和数据安全。
本文将介绍大数据平台数据脱敏的关键技术。
二、数据脱敏的概念和目的数据脱敏是指将敏感数据转换为不具备个体识别能力的数据,以保护数据的隐私和安全。
数据脱敏的目的是在保持数据可用性的同时,最大程度地减少敏感信息的泄露风险。
三、数据脱敏的方法1. 基于规则的脱敏方法基于规则的脱敏方法是通过事先定义脱敏规则,对敏感数据进行转换。
常见的规则包括替换、加密、删除等。
例如,将身份证号码的后四位替换为“****”,将电话号码的中间四位替换为“****”。
2. 基于统计的脱敏方法基于统计的脱敏方法是通过对数据进行统计分析,对敏感数据进行含糊化处理。
常见的方法有扰动和泛化。
扰动是通过添加噪音或者随机数来改变原始数据,使得敏感信息无法被还原。
泛化是通过将数据进行聚合或者分类,减少数据的精确度,从而保护隐私。
3. 基于加密的脱敏方法基于加密的脱敏方法是使用加密算法对敏感数据进行加密,惟独授权的用户才干解密数据。
常见的加密算法包括对称加密和非对称加密。
对称加密使用相同的密钥进行加密和解密,而非对称加密使用公钥进行加密,私钥进行解密。
四、数据脱敏的关键技术1. 脱敏规则的设计脱敏规则的设计是数据脱敏的核心。
在设计脱敏规则时,需要考虑敏感数据的特点和保护需求。
例如,对于姓名字段,可以使用替换规则将真实姓名替换为随机生成的姓名;对于身份证号码字段,可以使用加密规则将身份证号码进行加密处理。
2. 数据脱敏的粒度控制数据脱敏的粒度控制是指确定脱敏操作的作用范围。
在进行数据脱敏时,需要根据实际需求和法律法规的要求,确定脱敏的粒度。
例如,对于大数据平台中的用户数据,可以对整个用户表进行脱敏,也可以只对敏感字段进行脱敏。
3. 数据脱敏的可逆性处理数据脱敏的可逆性处理是指在需要使用脱敏数据时,能够将脱敏数据还原为原始数据。
大数据隐私保护技术之脱敏技术
大数据隐私保护技术之脱敏技术数据安全是信息安全的重要一环。
当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。
他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。
许多组织在他们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意的泄露信息。
例如:1.大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升级,更新和修复。
2.在商业上保持竞争力需要新的和改进后的功能。
结果是应用程序的开发者需要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏。
3.零售商将各个销售点的销售数据与市场调查员分享,从而分析顾客们的购物模式。
4.药物或者医疗组织向调查员分享病人的数据来评估诊断效果和药物疗效。
结果他们拷贝到非生产环境中的数据就变成了黑客们的目标,非常容易被窃取或者泄露,从而造成难以挽回的损失。
数据脱敏就是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。
在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
数据脱敏系统设计的难点许多公司页考虑到了这种威胁并且马上着手来处理。
简单的将敏感信息从非生产环境中移除看起来很容易,但是在很多方面还是很有挑战的。
首先遇到的问题就是如何识别敏感数据,敏感数据的定义是什么?有哪些依赖?应用程序是十分复杂并且完整的。
知道敏感信息在哪并且知道哪些数据参考了这些敏感数据是非常困难的。
敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容在这一过程中明确,用于下面脱敏策略制定的依据。
一旦敏感信息被确认,在保持应用程序完整性的同时进行脱敏的方法就是最重要的了。
简单地修改数值可能会中断正在测试,开发或升级的应用程序。
例如遮挡客户地址的一部分,可能会使应用程序变得不可用,开发或测试变得不可靠。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术一、引言大数据平台的快速发展和广泛应用使得数据安全和隐私保护变得尤为重要。
数据脱敏是一种常用的数据保护技术,通过对敏感数据进行处理,使其在保持数据分析和应用的可用性的同时,最大程度地保护用户隐私。
本文将详细介绍大数据平台数据脱敏的关键技术。
二、数据脱敏的定义与目标数据脱敏是指对敏感数据进行加密、替换、删除等操作,以保护用户隐私和敏感信息。
数据脱敏的目标是在保持数据可用性和完整性的前提下,最大程度地减少敏感信息被泄露的风险。
三、数据脱敏的关键技术1. 数据分类与敏感度评估在进行数据脱敏之前,首先需要对数据进行分类和敏感度评估。
根据数据的敏感程度,可以确定不同的脱敏策略和措施。
常见的数据分类包括个人身份信息、银行账号、手机号码等。
2. 脱敏算法选择选择合适的脱敏算法是数据脱敏的关键。
常用的脱敏算法包括:- 替换:将敏感数据替换为特定的符号或者随机生成的数据,如将姓名替换为“*”或者将手机号码替换为随机生成的虚拟号码。
- 加密:使用加密算法对敏感数据进行加密处理,如对银行账号进行AES加密。
- 删除:直接删除敏感数据,如删除用户的身份证号码。
3. 脱敏策略与规则制定制定合理的脱敏策略和规则对于数据脱敏的效果至关重要。
脱敏策略需要考虑数据的特点、应用场景和法律法规等因素。
例如,对于医疗数据,应该采取更加严格的脱敏策略,以保护患者的隐私。
4. 数据脱敏工具的选择与应用选择合适的数据脱敏工具可以提高数据脱敏的效率和准确性。
常用的数据脱敏工具包括Apache Ranger、IBM Guardium等。
这些工具提供了丰富的功能和灵活的配置选项,可以满足不同场景下的数据脱敏需求。
5. 脱敏后数据验证与测试在进行数据脱敏之后,需要对脱敏后的数据进行验证和测试,确保脱敏结果符合预期。
验证和测试可以通过比对脱敏前后的数据统计指标、数据分布等方式进行。
6. 脱敏数据的存储和访问控制脱敏后的数据需要进行安全的存储和访问控制。
大数据隐私保护关键技术:数据脱敏、匿名化、差分隐私和同态加密 (一)
大数据隐私保护关键技术:数据脱敏、匿名化、差分隐私和同态加密 (一)随着大数据技术的发展,数据成为了推动新一轮科技革命和产业升级的基础资源。
但是,随之而来的是大量数据泄露、信息安全问题,因此,大数据隐私保护也显得尤为重要。
下面我们来介绍一下大数据隐私保护关键技术:数据脱敏、匿名化、差分隐私和同态加密。
一、数据脱敏数据脱敏是指通过一定的方式对敏感数据进行加密处理,使其难以还原为原始数据的过程。
数据脱敏可以有效地保护敏感信息不被非法获取,保障用户的隐私安全。
常见的数据脱敏技术包括数字替换、字典加密、乱序排列等。
二、匿名化匿名化是指将个人身份信息中的某些关键属性进行隐藏,使得个人身份无法被识别而达到保护个人隐私的目的。
匿名化主要通过数据加密、数据合并等方式实现,与数据脱敏不同的是,匿名化目的是使记录对应的真实个人成为不可知,而数据脱敏则只是保护个人身份不被泄露。
三、差分隐私差分隐私是一种较为先进的隐私保护技术,是在数据发布过程中降低隐私风险的方法。
其基本思想是对数据集进行一定的随机扰动,使得不同个体的数据在某种程度上变得相似,从而保护隐私。
与数据脱敏、匿名化不同,差分隐私强调在保护个人数据隐私的同时,尽量保留数据的有效性和可应用性。
差分隐私技术主要包括拉普拉斯噪声机制、指数机制等。
四、同态加密同态加密也是一种重要的隐私保护技术,是指在不破坏数据加密状态的前提下,对数据进行加密计算和查询。
同态加密技术可以在不泄露数据明文的情况下,实现加密数据的信息处理和计算,对于保护个人隐私和数据安全有着非常重要的作用。
总之,数据脱敏、匿名化、差分隐私和同态加密是大数据隐私保护的关键技术,不同的技术适用于不同的场景,而随着大数据技术的不断发展,新的隐私保护技术也在不断涌现,相信我们能够利用这些技术来更好地保障隐私安全。
数据库中的数据脱敏与隐私保护的技术与策略
数据库中的数据脱敏与隐私保护的技术与策略随着信息技术的发展和大数据的兴起,数据库的应用日益广泛,但同时也给个人隐私和数据安全带来了新的挑战。
为了保护用户的隐私,并避免敏感数据泄露,数据脱敏和隐私保护技术成为了数据库管理中不可忽视的一部分。
本文将探讨数据库中的数据脱敏与隐私保护的相关技术与策略。
一、数据脱敏技术数据脱敏是一种将敏感数据转化为对于未授权访问者不可理解的非敏感数据的技术。
常用的数据脱敏技术包括:1. 替换脱敏替换脱敏是将原始数据中的敏感部分替换为虚假的、与原始数据类型和格式相同的数据。
例如,将真实姓名替换为随机生成的假名字,将身份证号码替换为随机生成的虚拟号码。
虽然替换后的数据对于非授权访问者来说不具备敏感信息,但依旧保持了数据的格式和结构,保证了应用程序的正常运行。
2. 加密脱敏加密脱敏是将原始数据使用加密算法进行加密,只有已获授权的用户才能解密并读取真实数据。
通常采用的加密算法包括对称加密和非对称加密。
对称加密使用相同的密钥进行加密和解密,而非对称加密则使用公钥和私钥进行加密和解密操作。
加密脱敏技术保证了敏感数据在数据库中的存储和传输过程中的安全性。
3. 混淆脱敏混淆脱敏是一种将原始数据进行重组和随机化的技术。
通过改变数据的顺序、排列或引入噪声等方式,混淆脱敏可以有效隐藏数据的敏感特征。
相比于其他脱敏技术,混淆脱敏技术能够在一定程度上保留数据的实用价值,既能保护用户隐私,又满足数据分析和应用程序的需求。
二、隐私保护策略除了采取数据脱敏技术外,还可以通过其他策略加强数据库中数据的隐私保护。
以下是一些常用的隐私保护策略:1. 访问控制通过访问控制策略,可以限制对数据库中敏感数据的访问。
只有被授权的用户才能够查询和获取数据,其他非授权用户无法接触到敏感信息。
可通过角色管理、用户权限设置、安全认证等方式实现访问控制策略的应用。
2. 数据分割数据分割是将敏感数据和非敏感数据分别存放在不同的数据库表或服务器中,分散了敏感数据的存储,从而减小了敏感数据被攻击和泄露的风险。
数据隐私保护隐私加密和数据脱敏技术
数据隐私保护隐私加密和数据脱敏技术数据隐私保护: 隐私加密和数据脱敏技术随着数字化时代的到来,大量的个人和企业数据被收集和利用。
然而,这种数据收集在很多时候也引发了人们对个人隐私的担忧。
为了保护用户的个人隐私,隐私加密和数据脱敏技术应运而生。
一、隐私加密技术隐私加密技术是一种将敏感数据转换为无意义的字符序列的方法,以保护数据的机密性。
这项技术采用了加密算法,通过对数据进行加密,使得非授权用户无法理解数据的含义。
隐私加密技术可以分为对称加密和非对称加密两种类型。
对称加密算法使用相同的密钥对数据进行加密和解密。
这种算法加密速度快,适用于大规模数据的加密。
然而,由于密钥需要在加密和解密双方之间共享,因此密钥的安全性成为一个问题。
非对称加密算法使用公钥和私钥进行加密和解密。
公钥用于加密数据,而私钥用于解密数据。
这种算法安全性更高,但加密和解密速度相对较慢。
二、数据脱敏技术数据脱敏技术是指在保持数据完整性的前提下,通过对敏感数据进行变形或者替换,以降低数据的敏感性。
数据脱敏技术可以分为结构性脱敏和非结构性脱敏。
结构性脱敏是指通过调整数据的组织结构、顺序或者层次,来减少数据的敏感性。
例如,对身份证号码进行部分隐藏,只显示一部分数字,以防止身份信息被泄露。
非结构性脱敏是指将敏感数据转换为经过特定规则处理过的数据。
例如,使用模糊化技术将敏感文本转换为近似的文本,还可以使用脱敏算法将敏感数值进行统一的偏移处理。
三、隐私增强技术除了隐私加密和数据脱敏技术之外,还有一些隐私增强技术可以有效保护数据隐私。
其中最常见的是访问控制技术和数据匿名化技术。
访问控制技术是指通过权限管理和身份认证来限制对敏感数据的访问。
只有授权用户才能获得访问敏感数据的权限,其他无权用户无法获取数据。
数据匿名化技术是指将个人身份信息与个人数据分离,使得数据无法与特定个人关联起来。
这种技术在数据共享和数据分析方面非常有用,能够保护个人隐私同时促进数据的应用和利用。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术一、引言随着大数据应用的不断发展,数据安全和隐私保护变得特别重要。
在大数据平台中,数据脱敏是一项关键技术,用于保护敏感数据的隐私性和机密性。
本文将介绍大数据平台数据脱敏的关键技术,并详细解释每种技术的原理和应用场景。
二、数据脱敏的概念和目的数据脱敏是指对敏感数据进行处理,使其在保持数据完整性和可用性的同时,去除或者替换敏感信息,以保护数据的隐私性和机密性。
数据脱敏的目的是防止未经授权的人员获取敏感数据并滥用。
三、数据脱敏的关键技术1. 哈希算法哈希算法是一种将任意长度的数据映射为固定长度散列值的算法。
在数据脱敏中,哈希算法可以将敏感数据转换为不可逆的散列值,从而保护数据的隐私性。
常用的哈希算法有MD5、SHA-1等。
2. 加密算法加密算法使用密钥将明文数据转换为密文数据,惟独掌握正确密钥的人材干解密密文数据。
在数据脱敏中,加密算法可以对敏感数据进行加密处理,保护数据的隐私性。
常用的加密算法有AES、DES等。
3. 脱敏规则脱敏规则是一种根据数据的特定格式和规则对数据进行转换或者替换的方法。
例如,将手机号码的中间四位替换为星号,将身份证号码的前六位和后四位替换为星号等。
脱敏规则可以保护敏感数据的隐私性,同时保持数据的格式和结构。
4. 伪造数据伪造数据是指根据敏感数据的特点和分布规律生成与原始数据相似但不包含真实信息的数据。
例如,根据用户的购物记录生成具有相似购买行为的虚拟用户数据。
伪造数据可以用于保护敏感数据的隐私性,同时保持数据的可用性和完整性。
5. 数据屏蔽数据屏蔽是指将敏感数据从源数据中删除或者隐藏,只保留非敏感信息。
例如,在日志数据中屏蔽用户的姓名、地址等敏感信息。
数据屏蔽可以保护敏感数据的隐私性,同时保持数据的可用性和完整性。
四、数据脱敏的应用场景1. 数据共享在跨组织或者跨部门共享数据时,为了保护数据的隐私性,可以对敏感数据进行脱敏处理。
例如,在医疗领域,医院可以将患者的病历数据脱敏后与其他医院共享,以促进医疗研究和合作。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术引言概述:随着大数据时代的到来,数据安全和隐私保护成为了一个重要的问题。
在大数据平台中,数据脱敏技术被广泛应用来保护敏感数据的安全。
本文将介绍大数据平台数据脱敏的关键技术。
一、数据脱敏技术的概念和作用1.1 数据脱敏的定义数据脱敏是一种通过对敏感数据进行处理,使其在保留原有数据结构和特征的同时,削减或者隐藏敏感信息的技术。
1.2 数据脱敏的作用数据脱敏可以有效保护敏感数据的安全,防止数据泄露和滥用。
通过脱敏处理,可以降低数据的敏感度,使得数据在共享和使用过程中更加安全可靠。
1.3 数据脱敏的应用场景数据脱敏广泛应用于金融、医疗、电商等领域。
例如,在金融领域,银行需要共享数据给第三方合作火伴进行风险评估,但又不能暴露客户的敏感信息,这时就需要使用数据脱敏技术。
二、数据脱敏的常用方法2.1 替换方法替换方法是指将敏感数据替换为与之具有相同格式和特征的伪数据。
常见的替换方法包括随机替换、固定替换和字典替换。
2.2 删除方法删除方法是指直接删除敏感数据或者将其部份内容删除。
常见的删除方法包括全删除、部份删除和屏蔽删除。
2.3 加密方法加密方法是指对敏感数据进行加密处理,惟独具有解密密钥的人材干还原数据。
常见的加密方法包括对称加密和非对称加密。
三、数据脱敏的挑战和解决方案3.1 数据脱敏的挑战数据脱敏面临着数据准确性、数据关联性和性能问题等挑战。
在脱敏过程中,需要确保脱敏后的数据仍具有一定的准确性,同时还需要保持数据之间的关联性。
此外,数据脱敏还需要在保证数据安全的前提下,尽可能减少对性能的影响。
3.2 数据脱敏的解决方案为了解决数据脱敏的挑战,可以采取以下措施。
首先,需要制定脱敏策略,明确敏感数据的范围和脱敏级别。
其次,选择合适的脱敏方法,根据实际需求和数据特点进行选择。
最后,进行脱敏效果评估和性能测试,确保脱敏后的数据满足要求。
四、数据脱敏的未来发展趋势4.1 自动化脱敏未来的数据脱敏技术将更加智能化和自动化,能够根据数据的特征和要求自动选择合适的脱敏方法,并进行脱敏处理。
大数据隐私保护中的数据脱敏技巧
大数据隐私保护中的数据脱敏技巧随着大数据时代的到来,数据隐私保护变得尤为重要。
在处理大规模数据时,为了保护用户的隐私,数据脱敏技巧成为一种重要的措施。
数据脱敏技术可以对敏感数据进行处理,使其不能够直接或间接地识别出个人身份。
在本文中,我们将介绍几种常见的数据脱敏技巧。
首先,最常见的数据脱敏技术之一是数据替换。
该技术通过将原始数据替换为虚拟数据(如随机生成的数字或字母)来保护用户隐私。
例如,对于身份证号码,可以使用一个随机生成的ID来替换每个实际的身份证号码。
这种方法可以有效地隐藏原始数据,但同时也可能导致数据的可用性降低。
其次,数据加密是另一种常见的数据脱敏技术。
在数据加密中,使用密钥将原始数据转换为加密格式,只有授权的人才能解密并还原数据。
常见的数据加密算法包括对称加密和非对称加密。
对称加密使用相同的密钥进行加密和解密,而非对称加密使用不同的密钥进行加密和解密。
数据加密可以提供较高的数据安全性,但也会增加计算和处理时间。
另一种常见的数据脱敏技巧是数据扰动。
数据扰动通过对原始数据进行微小的随机变化来保护隐私。
这种方法可以根据需求进行灵活调整,以平衡数据的可用性和隐私保护的要求。
例如,对于年龄数据,可以在实际年龄上加上一个随机的偏移量,从而隐藏个体的真实年龄。
数据扰动在一定程度上保护了隐私,但也有可能导致数据的准确性降低。
此外,数据一致性算法也是一种常用的数据脱敏技巧。
在这种方法中,数据被划分为多个小块,每个小块中的数据被加工处理后重新组合。
这样可以确保原始数据的一致性被保留,同时也隐藏了个体数据。
例如,一个人的姓名可以被拆分为名字和姓氏,然后进行重新组合,以确保姓名的一致性,同时保护个体隐私。
最后,数据屏蔽是一种将原始数据转换为分组数据的脱敏技术。
在数据屏蔽中,数据被分组成不同的类别,以保护个体隐私。
例如,对于地理位置数据,可以将数据屏蔽为较大的地理区域,而不是精确到个体所在的位置。
这种方法在保护隐私的同时,仍然保持了数据的可用性。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术一、引言随着大数据应用的快速发展,数据安全和隐私保护问题日益凸显。
在大数据平台中,数据脱敏是一项关键技术,用于保护敏感数据的隐私,同时保持数据的可用性和可分析性。
本文将详细介绍大数据平台数据脱敏的关键技术及其实现原理。
二、数据脱敏的概念数据脱敏是指对敏感数据进行处理,以使其无法直接或者间接地与个人身份、敏感信息等关联起来,从而保护数据的隐私。
数据脱敏可以通过多种方法实现,包括替换、加密、删除等。
三、数据脱敏的关键技术1. 替换技术替换技术是最常用的数据脱敏技术之一。
它通过将敏感数据替换成伪造的数据,以保护原始数据的隐私。
常见的替换技术包括:- 随机替换:将敏感数据替换为随机生成的数据,如将真实姓名替换为随机生成的姓名。
- 字典替换:使用字典表将敏感数据替换为预先定义的伪造数据,如将手机号码替换为预先定义的伪造手机号。
- 掩码替换:将敏感数据的一部份替换为特定的符号或者字符,如将信用卡号替换为**** **** **** 1234。
2. 加密技术加密技术是另一种常用的数据脱敏技术。
它通过对敏感数据进行加密,惟独拥有相应解密密钥的人材干还原数据。
常见的加密技术包括:- 对称加密:使用相同的密钥进行加密和解密,如AES(高级加密标准)算法。
- 非对称加密:使用公钥进行加密,私钥进行解密,如RSA算法。
- 哈希加密:将敏感数据通过哈希算法转换为固定长度的密文,无法还原为原始数据。
3. 删除技术删除技术是指直接删除或者屏蔽敏感数据,以保护数据的隐私。
常见的删除技术包括:- 数据屏蔽:将敏感数据的一部份或者全部屏蔽,如将身份证号码的后四位屏蔽为****。
- 数据截断:删除敏感数据的一部份,如将银行卡号的后八位删除。
四、数据脱敏的实现原理数据脱敏的实现原理可以通过以下步骤进行:1. 数据识别:确定敏感数据的类型和位置,如身份证号码、手机号码等。
2. 数据分类:根据敏感数据的级别和处理需求,将数据分为不同的分类,如高、中、低级别。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术引言概述:在当前大数据时代,数据的安全性和隐私保护成为了重要的关注点。
为了保护敏感数据的安全,大数据平台需要采用数据脱敏技术。
本文将介绍大数据平台数据脱敏的关键技术,并分为五个部份进行详细阐述。
一、数据脱敏的概念1.1 数据脱敏的定义1.2 数据脱敏的目的1.3 数据脱敏的分类二、数据脱敏的方法2.1 字段级脱敏2.1.1 数据加密2.1.2 数据替换2.1.3 数据隐藏2.2 行级脱敏2.2.1 数据扰乱2.2.2 数据抽样2.2.3 数据切割2.3 数据脱敏的选择三、数据脱敏的算法3.1 哈希算法3.1.1 MD5算法3.1.2 SHA算法3.1.3 HMAC算法3.2 加密算法3.2.1 对称加密算法3.2.2 非对称加密算法3.2.3 混合加密算法3.3 数据脱敏算法的比较四、数据脱敏的实施4.1 数据脱敏的流程4.1.1 数据分类和分级4.1.2 数据脱敏策略的确定4.1.3 数据脱敏的实施4.2 数据脱敏的工具4.2.1 开源脱敏工具4.2.2 商业脱敏工具4.2.3 自定义脱敏工具4.3 数据脱敏的注意事项五、数据脱敏的应用5.1 金融行业5.1.1 个人账户信息脱敏5.1.2 交易数据脱敏5.1.3 风险评估数据脱敏5.2 医疗行业5.2.1 患者隐私数据脱敏5.2.2 医疗记录脱敏5.2.3 医学研究数据脱敏5.3 电商行业5.3.1 用户个人信息脱敏5.3.2 交易记录脱敏5.3.3 评价数据脱敏结论:数据脱敏是大数据平台中保护敏感数据安全和隐私的重要技术。
本文详细介绍了数据脱敏的概念、方法、算法、实施和应用。
在大数据时代,合理使用数据脱敏技术,能够有效保护用户隐私,提高数据安全性,推动大数据应用的发展。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术一、背景介绍在大数据时代,数据安全和隐私保护是亟待解决的重要问题。
大数据平台中包含着大量敏感信息,如个人身份信息、银行账号等,如果这些数据泄露或者被滥用,将对个人和企业造成巨大的损失。
因此,数据脱敏技术成为保护数据安全和隐私的重要手段。
本文将详细介绍大数据平台数据脱敏的关键技术。
二、数据脱敏技术的定义和作用数据脱敏是指将敏感数据中的关键信息替换为虚拟数据或者经过加密处理的数据,以保护数据的隐私和安全。
数据脱敏技术在大数据平台中起到以下作用:1. 保护个人隐私:通过脱敏技术,可以有效隐藏个人身份信息,保护用户隐私。
2. 遵守法律法规:数据脱敏可以匡助企业遵守相关的法律法规,如个人信息保护法等。
3. 降低数据泄露风险:脱敏后的数据即使泄露,也无法还原出原始数据,从而降低了数据泄露的风险。
三、数据脱敏的关键技术1. 哈希算法哈希算法是一种将任意长度的数据映射为固定长度哈希值的算法。
在数据脱敏中,可以使用哈希算法将敏感数据转换为不可逆的哈希值,从而保护数据的隐私。
常用的哈希算法有MD5、SHA-1等。
2. 加密算法加密算法是将原始数据通过密钥进行加密,惟独拥有正确密钥的人材干解密还原出原始数据。
在数据脱敏中,可以使用对称加密算法或者非对称加密算法对敏感数据进行加密处理。
常用的对称加密算法有AES、DES等,非对称加密算法有RSA等。
3. 脱敏规则脱敏规则是根据数据类型和数据需求制定的一系列规则,用于指导数据脱敏的具体操作。
常见的脱敏规则包括:- 随机替换:将敏感数据随机替换为虚拟数据,如将手机号码替换为随机生成的手机号码。
- 掩码处理:对敏感数据进行部份隐藏,如将银行卡号的前几位显示,后几位用星号代替。
- 字段删除:删除敏感字段,如删除身份证号码字段。
- 数据截断:对敏感数据进行截断处理,只保留部份信息,如只保留姓名的首字母。
4. 脱敏策略脱敏策略是根据具体业务需求和法律法规制定的数据脱敏方案。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术概述:大数据平台的快速发展和广泛应用,给数据隐私和安全带来了新的挑战。
为了保护敏感数据的隐私,数据脱敏成为了一项关键技术。
本文将介绍大数据平台数据脱敏的关键技术,包括数据分类、脱敏算法、脱敏策略以及脱敏效果评估等方面。
一、数据分类:在进行数据脱敏之前,首先需要对数据进行分类。
常见的数据分类包括个人身份信息、财务数据、医疗健康数据等。
根据不同的数据分类,可以采用不同的脱敏算法和策略。
二、脱敏算法:1. 替换算法:将敏感数据替换为符合规则的虚拟数据。
例如,将手机号码替换为随机生成的虚拟手机号码。
2. 加密算法:对敏感数据进行加密处理,只有授权的用户才能解密。
常用的加密算法包括AES、RSA等。
3. 掩码算法:对敏感数据进行部分隐藏,只显示部分信息。
例如,将银行卡号的前几位和后几位显示,中间部分用*代替。
4. 混淆算法:对敏感数据进行乱序处理,使其难以还原。
例如,将姓名的字母顺序打乱。
三、脱敏策略:1. 全局脱敏:对整个数据集进行脱敏处理,适用于不需要保留原始数据的场景。
2. 部分脱敏:只对敏感数据进行脱敏处理,保留非敏感数据的原始值。
适用于需要保留数据结构和分析需求的场景。
3. 动态脱敏:根据用户权限和需求,动态选择脱敏策略。
例如,管理员可以查看原始数据,而普通用户只能查看脱敏后的数据。
四、脱敏效果评估:脱敏后的数据需要经过效果评估,以确保脱敏后的数据仍能满足分析和应用需求,同时保护了隐私。
评估方法包括:1. 数据可用性评估:评估脱敏后数据的可用性,是否满足分析和应用需求。
2. 隐私保护评估:评估脱敏后数据的隐私保护程度,是否能有效保护敏感信息。
3. 数据质量评估:评估脱敏后数据的质量,包括准确性、完整性等指标。
五、应用案例:1. 金融行业:对客户的财务数据进行脱敏,保护客户隐私,同时满足风险评估和数据分析需求。
2. 医疗健康行业:对患者的个人身份信息和病历数据进行脱敏,保护患者隐私,同时支持医疗研究和数据挖掘。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术一、引言随着大数据时代的到来,大数据平台的应用越来越广泛。
然而,大数据平台所处理的数据往往包含大量的敏感信息,如个人身份信息、银行账号等,这些数据的泄露可能会带来严重的隐私和安全问题。
因此,对大数据平台中的敏感数据进行脱敏处理是非常重要的。
本文将介绍大数据平台数据脱敏的关键技术。
二、数据脱敏的概念数据脱敏是指对敏感数据进行一系列的处理,使其在保持数据格式和结构的同时,去除或者替换掉敏感信息,以保护数据的隐私和安全。
数据脱敏的目标是在不影响数据的可用性和分析结果的准确性的前提下,最大限度地保护数据的隐私。
三、数据脱敏的关键技术1. 哈希算法哈希算法是一种将任意长度的数据映射为固定长度哈希值的算法。
在数据脱敏中,可以使用哈希算法对敏感数据进行脱敏处理。
具体做法是将原始数据通过哈希算法转换为哈希值,然后将哈希值替换原始数据。
由于哈希算法是不可逆的,即无法从哈希值还原出原始数据,因此可以保护数据的隐私。
2. 加密算法加密算法是将明文数据转换为密文数据的算法。
在数据脱敏中,可以使用加密算法对敏感数据进行脱敏处理。
具体做法是将原始数据通过加密算法加密,然后将密文数据替换原始数据。
惟独拥有解密密钥的人材干将密文还原为明文,因此可以保护数据的隐私。
3. 替换算法替换算法是将敏感数据替换为特定的符号或者伪造的数据的算法。
在数据脱敏中,可以使用替换算法对敏感数据进行脱敏处理。
具体做法是将原始数据中的敏感信息替换为符号或者伪造的数据。
例如,将身份证号码中的数字替换为星号,将姓名替换为随机生成的姓名等。
4. 数据掩码数据掩码是一种将敏感数据部份隐藏起来的算法。
在数据脱敏中,可以使用数据掩码对敏感数据进行脱敏处理。
具体做法是将敏感数据的一部份用特定的符号或者伪造的数据进行覆盖,只显示部份数据。
例如,将手机号码的后四位用星号掩盖,只显示前面的几位数字。
5. 混淆算法混淆算法是一种通过对数据进行扰动来保护数据隐私的算法。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术一、引言随着大数据时代的到来,数据安全和隐私保护问题日益凸显。
在大数据平台中,由于数据的规模庞大和多样性,数据脱敏成为了一项重要的技术。
本文将探讨大数据平台数据脱敏的关键技术,包括数据脱敏的定义、脱敏方法、脱敏算法以及脱敏效果评估等方面。
二、数据脱敏的定义数据脱敏是指对敏感数据进行处理,以保护数据的隐私和安全。
脱敏后的数据可以在非敏感场景下使用,同时不会暴露个人隐私信息。
数据脱敏的目标是在保持数据的可用性和有效性的同时,最大限度地降低数据泄露的风险。
三、数据脱敏的方法1. 基于规则的脱敏方法:基于规则的脱敏方法是根据预定义的规则对数据进行脱敏处理。
常见的规则包括替换、截断、加密等。
例如,将手机号码的前三位和后四位替换为“*”来保护用户隐私。
2. 基于加密的脱敏方法:基于加密的脱敏方法使用加密算法对敏感数据进行加密处理,惟独授权用户才干解密并访问原始数据。
常见的加密算法包括对称加密算法和非对称加密算法。
3. 基于生成算法的脱敏方法:基于生成算法的脱敏方法通过生成符合原始数据分布特征的合成数据来代替原始数据。
生成算法可以根据数据的统计特征和分布规律生成合成数据,从而保护原始数据的隐私。
四、数据脱敏的算法1. 替换算法:替换算法是将敏感数据替换为虚拟数据,例如将姓名替换为随机生成的姓名,将地址替换为虚拟地址等。
替换算法可以保持数据的格式和结构,但可能无法保证数据的可用性。
2. 加密算法:加密算法使用密钥对敏感数据进行加密,惟独持有正确密钥的用户才干解密数据。
常见的加密算法包括AES、RSA等。
加密算法可以提供较高的数据安全性,但解密过程可能会增加计算开消。
3. 扰动算法:扰动算法通过对敏感数据添加随机噪声来实现脱敏。
例如,对数值型数据添加随机数或者对分类数据进行随机排序。
扰动算法可以在一定程度上保护数据的隐私,但可能会降低数据的准确性。
五、脱敏效果评估评估数据脱敏效果的指标包括数据的可用性、隐私保护程度和数据的准确性。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术一、引言随着大数据时代的到来,大数据平台的应用越来越广泛。
然而,随之而来的是对数据隐私和安全的关注。
为了保护用户的隐私和敏感信息,数据脱敏成为了大数据平台中的关键技术之一。
本文将详细介绍大数据平台数据脱敏的关键技术和标准格式。
二、数据脱敏的定义和目的数据脱敏是指对敏感数据进行处理,使其无法直接或间接地识别出个人身份或敏感信息。
其目的是保护数据的隐私和安全,同时确保数据的可用性和价值。
三、数据脱敏的关键技术1. 哈希算法哈希算法是一种将任意长度的数据映射为固定长度哈希值的算法。
在数据脱敏中,可以使用哈希算法对敏感字段进行替换,以达到隐藏原始数据的目的。
常用的哈希算法有MD5、SHA-1等。
2. 加密算法加密算法是将明文数据通过特定的密钥转化为密文的算法。
数据脱敏中,可以使用加密算法对敏感数据进行加密,只有拥有密钥的人才能解密得到原始数据。
常用的加密算法有AES、RSA等。
3. 脱敏规则脱敏规则是指根据具体需求制定的数据脱敏策略。
脱敏规则可以包括对字段的替换、截取、掩码等操作。
例如,对手机号码进行脱敏时,可以将中间四位数字替换为星号。
4. 保留数据关联性在数据脱敏过程中,需要保留数据之间的关联性,以确保数据的可用性和价值。
例如,在脱敏过程中,可以对多个字段进行联合脱敏,保持数据之间的关联关系。
5. 数据脱敏的层级数据脱敏可以根据不同的需求和场景进行层级划分。
常见的层级包括全局层级、应用层级和用户层级。
全局层级是对整个数据集进行脱敏,应用层级是对特定应用的数据进行脱敏,用户层级是对特定用户的数据进行脱敏。
四、数据脱敏的标准格式数据脱敏的标准格式可以按照以下结构进行编写:1. 引言:对数据脱敏的定义和目的进行简要介绍。
2. 技术介绍:详细介绍数据脱敏的关键技术,包括哈希算法、加密算法、脱敏规则、保留数据关联性和数据脱敏的层级等。
3. 实施步骤:描述数据脱敏的实施步骤,包括数据预处理、选择合适的脱敏技术、制定脱敏规则、实施脱敏和验证脱敏效果等。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术一、背景介绍随着大数据技术的快速发展,大数据平台的应用越来越广泛。
然而,随之而来的数据安全问题也变得日益突出。
为了保护用户的隐私和敏感信息,数据脱敏技术逐渐成为大数据平台中的重要环节。
本文将详细介绍大数据平台数据脱敏的关键技术。
二、数据脱敏的概念和意义数据脱敏是指通过一系列的技术手段,对敏感数据进行处理,使其无法被识别和还原,从而保护用户的隐私和敏感信息。
数据脱敏的主要目的是降低数据泄露的风险,确保数据在传输、存储和处理过程中的安全性。
三、数据脱敏的关键技术1. 数据分类和敏感度分级在进行数据脱敏之前,首先需要对数据进行分类和敏感度分级。
不同类别和敏感度的数据需要采用不同的脱敏方法和措施。
常见的数据分类包括个人身份信息、金融数据、医疗数据等,而敏感度分级可以根据数据的重要性和对隐私的影响程度进行划分。
2. 脱敏算法选择选择合适的脱敏算法是数据脱敏的关键一步。
常见的脱敏算法包括替换、加密、扰动等。
替换算法是将原始数据替换为模拟数据,保持数据的格式和结构不变;加密算法是对原始数据进行加密处理,只有授权的用户才能解密;扰动算法是通过添加噪音或者进行随机化处理,使得原始数据无法被还原。
3. 脱敏规则定义和应用脱敏规则是指根据数据分类和敏感度分级,定义不同的脱敏策略和操作。
脱敏规则需要考虑数据的特点和业务需求,确保脱敏后的数据能够保持一定的可用性和有效性。
例如,对于个人身份信息,可以采用部分脱敏的方式,保留部分信息的可读性,同时隐藏敏感部分。
4. 脱敏效果评估和测试在实施数据脱敏之后,需要对脱敏效果进行评估和测试。
评估的主要目的是检查脱敏后数据的安全性和可用性,确保脱敏后的数据仍然满足业务需求。
测试过程中需要模拟真实的数据使用场景,验证脱敏后数据的正确性和一致性。
5. 数据脱敏的自动化和可扩展性随着大数据平台中数据量的不断增加,手动进行数据脱敏变得困难且低效。
因此,实现数据脱敏的自动化和可扩展性成为关键技术。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术一、引言随着大数据时代的来临,大数据平台的应用越来越广泛。
然而,随之而来的数据安全和隐私保护问题也日益突出。
为了保障数据的安全性,数据脱敏技术成为大数据平台的一个关键技术。
本文将详细介绍大数据平台数据脱敏的关键技术。
二、数据脱敏概述数据脱敏是指对敏感数据进行处理,使其在保持数据的可用性的同时,削弱数据的敏感性,以保护数据的安全性和隐私。
在大数据平台中,数据脱敏通常包括对个人身份信息、银行账号、手机号码等敏感数据进行处理,以防止数据泄露和滥用。
三、数据脱敏关键技术1. 数据加密数据加密是数据脱敏的一种基本技术手段。
通过对敏感数据进行加密,可以确保数据在传输和存储过程中的安全性。
常用的加密算法有对称加密算法和非对称加密算法。
对称加密算法使用相同的密钥进行加密和解密,而非对称加密算法使用公钥和私钥进行加密和解密。
2. 数据脱敏算法数据脱敏算法是指对敏感数据进行处理,使其难以还原出原始数据。
常用的数据脱敏算法有:- 替换算法:将敏感数据替换为伪造的数据,如将姓名替换为随机生成的姓名。
- 哈希算法:将敏感数据通过哈希函数进行转换,使其成为固定长度的字符串,不可逆转。
- 掩码算法:对敏感数据进行部份隐藏,如只显示手机号码的前三位和后四位。
- 加盐算法:在数据脱敏过程中,引入随机的盐值进行加密,增加破解的难度。
3. 数据分区与权限控制数据分区和权限控制是大数据平台中保护数据安全的重要手段。
通过将数据分为多个区域,并对每一个区域设置不同的权限,可以实现对不同用户的数据访问控制。
同时,还可以对不同的数据进行不同级别的脱敏处理,以满足不同用户对数据的需求。
4. 脱敏策略管理脱敏策略管理是指对数据脱敏过程中的策略进行管理和控制。
包括对不同类型的敏感数据制定不同的脱敏策略,对脱敏结果进行评估和监控,及时调整脱敏策略以满足数据安全和隐私保护的需求。
5. 数据脱敏效果评估数据脱敏效果评估是指对脱敏过程中的数据安全性和隐私保护效果进行评估。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术1. 引言大数据平台的快速发展和广泛应用使得数据安全和隐私保护变得尤其重要。
数据脱敏是一种常用的数据安全技术,用于保护敏感数据的隐私。
本文将介绍大数据平台数据脱敏的关键技术,包括数据脱敏的概念、常见的数据脱敏方法以及数据脱敏的应用场景。
2. 数据脱敏的概念数据脱敏是指对敏感数据进行处理,使得数据再也不能够直接或者间接地与个人身份、敏感信息等关联起来。
数据脱敏的目的是保护数据的隐私,防止数据泄露和滥用。
数据脱敏通常包括对数据进行加密、替换、删除或者扰乱等处理,以保证数据的安全性。
3. 常见的数据脱敏方法3.1 字段加密字段加密是指对敏感数据字段进行加密处理。
常见的加密算法包括对称加密算法和非对称加密算法。
对称加密算法使用相同的密钥进行加密和解密,而非对称加密算法使用公钥进行加密,私钥进行解密。
字段加密可以保证数据在存储和传输过程中的安全性。
3.2 字段替换字段替换是指将敏感数据字段替换为具有相同数据类型和格式的伪造数据。
常见的字段替换方法包括随机替换、规则替换和字典替换。
随机替换是将敏感数据字段替换为随机生成的数据;规则替换是根据特定规则将敏感数据字段替换为固定的数据;字典替换是将敏感数据字段替换为预先定义的数据字典中的数据。
3.3 字段删除字段删除是指将敏感数据字段从数据集中彻底删除。
字段删除可以确保敏感数据不被存储和使用,从而保证数据的安全性。
但需要注意的是,在删除敏感数据字段之前,需要对数据进行备份和记录,以便日后的数据分析和使用。
3.4 字段扰乱字段扰乱是指对敏感数据字段进行随机的数据变换。
常见的字段扰乱方法包括数据混淆、数据交换和数据重排。
数据混淆是指将敏感数据字段进行随机的数据变换,使得原始数据无法被还原;数据交换是指将不同的敏感数据字段进行交换,使得数据之间的关联关系被破坏;数据重排是指对敏感数据字段进行随机的排序,使得数据的顺序被打乱。
4. 数据脱敏的应用场景4.1 数据共享在大数据平台中,不同的组织和部门需要共享数据进行分析和决策。
大数据平台数据脱敏关键技术
大数据平台数据脱敏关键技术概述:大数据平台的数据脱敏是为了保护敏感数据,确保数据在处理和传输过程中不会被非授权人员访问或泄露。
本文将介绍大数据平台数据脱敏的关键技术,包括数据脱敏的定义、脱敏方法的分类、常用的脱敏算法以及脱敏效果的评估方法。
一、数据脱敏的定义:数据脱敏是指将敏感数据中的关键信息以一定规则进行替换或修改,使得敏感数据无法直接关联到具体的个人或实体。
脱敏后的数据仍然具有一定的可用性,以满足数据分析和处理的需求。
二、脱敏方法的分类:1. 哈希脱敏:哈希脱敏是将敏感数据通过哈希算法进行转换,输出一个固定长度的哈希值。
常用的哈希算法有MD5、SHA-1等。
哈希脱敏可以保证相同的敏感数据脱敏后得到相同的哈希值,但无法逆向还原敏感数据。
2. 加密脱敏:加密脱敏是使用加密算法对敏感数据进行加密,只有掌握密钥的人才能还原出原始数据。
常用的加密算法有对称加密算法和非对称加密算法。
对称加密算法如AES、DES等,非对称加密算法如RSA等。
3. 替换脱敏:替换脱敏是将敏感数据中的关键信息替换为符合规则的其他值,如将身份证号的后几位替换为固定的字符。
替换脱敏可以保留数据的格式和结构,但可能会导致数据的可用性下降。
4. 脱敏策略脱敏:脱敏策略脱敏是根据预先定义好的脱敏策略对敏感数据进行脱敏,如将手机号码的前三位和后四位保留,中间的数字用星号代替。
脱敏策略脱敏可以根据需求灵活定义脱敏规则。
三、常用的脱敏算法:1. 身份证号脱敏:身份证号是一种常见的敏感数据,常用的脱敏方法是将身份证号的前面几位保留,后面几位用星号代替。
2. 手机号脱敏:手机号是另一种常见的敏感数据,常用的脱敏方法是将手机号的前三位和后四位保留,中间的数字用星号代替。
3. 邮箱地址脱敏:邮箱地址是常见的敏感数据,常用的脱敏方法是将邮箱地址的前面几个字符保留,后面的字符用星号代替。
4. 银行卡号脱敏:银行卡号是非常敏感的数据,常用的脱敏方法是将银行卡号的前几位和后几位保留,中间的数字用星号代替。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据隐私保护技术之脱敏技术
数据安全是信息安全的重要一环。
当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。
他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。
作者:佚名来源:FreeBuf|2016-11-22 09:40
收藏
分享
前言
这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。
介绍
随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息保护方面的难题,即如何在实现大数据高效共享的同时,保护敏感信息不被泄露。
数据安全是信息安全的重要一环。
当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。
他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。
许多组织在他们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意的泄露信息。
例如:
1.大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升级,更新和修复。
2.在商业上保持竞争力需要新的和改进后的功能。
结果是应用程序的开发者需要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏。
3.零售商将各个销售点的销售数据与市场调查员分享,从而分析顾客们的购物模式。
4.药物或者医疗组织向调查员分享病人的数据来评估诊断效果和药物疗效。
结果他们拷贝到非生产环境中的数据就变成了黑客们的目标,非常容易被窃取或者泄露,从而造成难以挽回的损失。
数据脱敏就是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。
在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
数据脱敏系统设计的难点
许多公司页考虑到了这种威胁并且马上着手来处理。
简单的将敏感信息从非生产环境中移除看起来很容易,但是在很多方面还是很有挑战的。
首先遇到的问题就是如何识别敏感数据,敏感数据的定义是什么?有哪些依赖?应用程序是十分复杂并且完整的。
知道敏感信息在哪并且知道哪些数据参考了这些敏感数据是非常困难的。
敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容在这一过程中明确,用于下面脱敏策略制定的依据。
一旦敏感信息被确认,在保持应用程序完整性的同时进行脱敏的方法就是最重要的了。
简单地修改数值可能会中断正在测试,开发或升级的应用程序。
例如遮挡客户地址的一部分,可能会使应用程序变得不可用,开发或测试变得不可靠。
脱敏的过程就是一个在安全性和可用性之间平衡的过程。
安全性是0%的系统中,数据不需要进行脱敏,数据库中都是原来的数据,可用性当然是100%;安全性是100%的系统中,大概所有的数据全都存一个相同的常量才能实现。
所以需要选择或设计一种既能满足第三方的要求,又能保证安全性的算法就变得特别重要了。
选定了敏感数据和要施加的算法,剩下的就是如何实现了,在什么过程中进行脱敏呢?
难题的解决方案
1.如何识别敏感数据
现在有两种方式来识别敏感数据。
第一种是通过人工指定,比如通过正则来指定敏感数据的格式,Oracle公司开发的Oracle Data Masking Pack中就使用了这一种方法来指定。
第二种方式就是自动识别了,在文献[2]中,作者给出了基于数据特征学习以及自然语言处理等技术进行敏感数据识别的自动识别方案(没有具体的实现,只提出了模型)。
具体的实现在gayhub上找了一个java实现的工程,chlorine-finder,看了下源码具体原理是通过提前预置的规则来识别一些常见的敏感数据,比如信用卡号,SSN,手机号,电子邮箱,IP地址,住址等.
2.使用怎样的数据脱敏算法
在比较常见的数据脱敏系统中,算法的选择一般是通过手工指定,像Oracal的数据脱敏包中就预设了关于信用卡的数据选择什么算法进行处理,关于电话的数据怎么处理,用户也可以进行自定义的配置。
脱敏方法现在有很多种,比如k-匿名,L多样性,数据抑制,数据扰动,差分隐私等。
k-匿名:
匿名化原则是为了解决链接攻击所造成的隐私泄露问题而提出的。
链接攻击是这样的,一般企业因为某些原因公开的数据都会进行简单的处理,比如删除姓名这一列,但是如果攻击者通过对发布的数据和其他渠道获得的信息进行链接操作,就可以推理出隐私数据。
k-匿名是数据发布时保护私有信息的一种重要方法。
k-匿名技术是1998 年由Samarati和Sweeney提出的,它要求发布的数据中存在至少为k的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私, k-匿名通过参数k指定用户可承受的最大信息泄露风险。
但容易遭受同质性攻击和背景知识攻击。
L-多样性
L多样性是在k-匿名的基础上提出的,外加了一个条件就是同一等价类中的记录至少有L个“较好表现”的值,使得隐私泄露风险不超过1/L,”较好表现“的意思有多种设计,比如这几个值不同,或者信息熵至少为logL等等..
但容易收到相似性攻击。
数据抑制
数据抑制又称为隐匿,是指用最一般化的值取代原始属性值,在k-匿名化中,若无法满足k-匿名要求,则一般采取抑制操作,被抑制的值要不从数据表中删除,要不相应属性值用“ ** ”表示。
1. >>> s = "CREDITCARD">>> s[-4:].rjust(len(s), "*")'******CARD'
数据扰动
数据扰动是通过对数据的扰动变形使数据变得模糊来隐藏敏感的数据或规则,即将数据库D 变形为一个新的数据库D′ 以供研究者或企业查询使用,这样诸如个人信息等敏感的信息就不会被泄露。
通常,D′ 会和 D 很相似,从D′ 中可以挖掘出和D 相同的信息。
这种方法通过修改原始数据,使得敏感性信息不能与初始的对象联系起来或使得敏感性信息不复存在,但数据对分析依然有效。
Python中可以使用faker库来进行数据的模拟和伪造。
1. from faker import Factory
2.
3. fake = Factory.create()
4.
5. fake.country_code()# 'GE'fake.city_name()# '贵阳'fake.street_address()# '督路l
座'fake.address()# '辉市哈路b座 176955'fake.state()# '南溪区
'fake.longitude()# Decimal('-163.645749')fake.geo_coordinate(center=None, r
adius=0.001)# Decimal('90.252375')fake.city_suffix()# '市
'titude()# Decimal('-4.0682855')fake.postcode()# '353686'fake.building_
number()# 'o座'fake.country()# '维尔京群岛'fake.street_name()# '姜路'
相关技术有:一般化与删除,随机化,数据重构,数据净化,阻碍,抽样等。
差分隐私
差分隐私应该是现在比较火的一种隐私保护技术了,是基于数据失真的隐私保护技术,采用添加噪声的技术使敏感数据失真但同时保持某些数据或数据属性不变,要求保证处理后的数据仍然可以保持某些统计方面的性质,以便进行数据挖掘等操作。
差分隐私保护可以保证,在数据集中添加或删除一条数据不会影响到查询输出结果,因此即使在最坏情况下,攻击者已知除一条记录之外的所有敏感数据,仍可以保证这一条记录的敏感信息不会被泄露。
想要体验的同学可以去Havard的Differential Privacy实验室,他们做了一个DP的原型实现.
想要详细了解的同学可以看一下知乎上的这个问题<点击文末阅读原文查看链接>
关于动态脱敏系统的实现,现在一般有两种,一种是重写数据库程序代码,在权限判决后对请求语句进行重写,从而查询数据;另一种是用户的sql语句通过代理后,代理会对其中关于敏感信息的部分进行语句的替换,并且在返回时会重新包装为与原请求一致的格式交给用户。
总结。