大数据差分隐私保护解决方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析作为挖掘的主要工具之一,学者纷纷尝试将其与差分隐私技术进行联合,比如Blum[14]等人在2005年发表并实现在SuLQ平台上进行差分隐私K-means算法(Differential PrivacyK-means Algorithm,DPK-means);2007年Nissim[15]等人发表了一种PK-means算法使聚类最终结果符合差分隐私保护定义,同时文献中提出了如何计算误差下界和算法中目标函数敏感度的具体过程;国内,李杨等人提出一种改进算法,该算法在符合差分隐私保护定义的条件下,将数据集进行均分为 个子集合后加噪计算初始中心点,这种改进方式确实使聚簇结果的可用性得到了提升。
大数据差分隐私保护解决方案
大数据差分隐私保护解决方案
第1章绪论
1.1方案背景及意义
如今的丰富数据的积累得益于信息化和互联网的发展,人们可以通过互联网自由进行交流,购物等一系列操作行为,这些操作行为每时每刻都在产生数据,同时各种信息系统平台中存储并积累了丰富的数据,比如医院患者的诊断数据,电子商务公司的客户在线交易数据等。现如今的大数据时代,丰富的数据中包含着众多有价值的信息,尤其对于商业领域而言获取这些信息是十分必要的。无论是政府、企业,还是个人均可通过记录和收集来获取有价值的信息,而获取的手段之一就是数据挖掘,因此本文将隐私保护的重点放在大数据中的数据挖掘中。
数据挖掘是指通过算法从大量数据中搜索隐藏的众多信息,可从数目巨大、更新迅速、属性多样的大数据中得到有价值的信息并将其应用于决策分析,比如电子商务公司可根据人们的交易记录进行数据挖掘,可以得到不同区域人们的购买水平以及对不同产品的需求,有利于更好制定销售策略。但是不能忽略的是数据挖掘的目标数据集中包含了一些隐私信息,例如医疗患者数据、家庭住址、密码等,这些信息的泄露给个人、社会都会带来恶劣的影响。随着信息技术的蓬勃发展,涉及隐私泄露的事件已经发生多起,比如90年代中期美国Massachusetts当局的雇员医疗数据被泄露、近几年比如2016年美国有线电视公司Time Warner中近32万左右的用户个人信息被盗(包含用户的邮箱和密码记录)等。故而数据挖掘中产生的隐私数据泄露是亟待处理的关键性问题。虽然数据挖掘中隐藏了隐私泄露的问题,但是根据Ylindell和Bpinka[1]在2000年发表的文章中关于隐私保护立场的调查结果:若数据搜集者可以保障被调查者自身的隐私数据的安全性,过半网友愿意参加调查同时分享自身可提供的真实信息。所以若想成功解决数据挖掘中的隐私泄露问题,就是要在挖掘过程中选择合适的隐私保护技术,使其尽量避免隐私数据被挖掘者泄露的同时,又能够保证挖掘结果的准确性。
数据挖掘可由多种方法实现,其中一种常用的分析方法就是聚类。聚类分析就是在没有已知条件的情况下,将众多无规律、离散的数据记录依据各自具有的特性划分到与其特性近似的聚簇中。目前数据挖掘范围内已有的涉及隐私保护方面的算法重点在分类和关联规则上,且差分隐私保护的方案在初期阶段,因而将上述两者结合进行方案分析的相对较少。
有关保护隐私的问题最早在20世纪70年代末被提出[2],此后众多学者陆续地研发出许多隐私保护的模型。在当前已有的隐私保护模型中,K-匿名[3]模型及在相同理论基础上的一些扩展模型是被大量方案和普遍应用的。但是上述隐私保护模型中存在两个问题:(1)这些模型具有背景相关依赖性,即该模型假定了某一攻击模型或者攻击者所具备的相关知识;(2)这些模型普遍缺少较为严格的数学方法来说明隐私保护水平的高低,若是该类模型中的某些参数变化,分析并评价其隐私保护水平将十分困难[4]。而2006年时由Dwork发表文献[5]中定义的差分隐私保护(Differential Privacy,DP)方法很好的解决了这两个问题。
近年来的方案使得差分隐私的理论不断完善和发展,并在多个领域有所应用,同时,这也是一个相对年轻的方案领域,在理论和应用上都存在难点和需要继续深入探讨的领域。1.3方来自内容1.3.1实验方案设计
课题方案内容是大数据平台中差分隐私保护方案设计与实现,差分隐私技术的出现解决了传统隐私保护模型中存在的两大缺陷,首先,差分隐私保护假设攻击者可拥有最全面的背景知识,在该假设下算法将不必要对攻击者可能拥有的背景知识加以考虑,因为任意一个攻击者具有的背景知识不可能比最大背景更加丰富。其次它具有牢固的数学基础,具备严格的数学定义和定量分析的方法,能使不同隐私预算下被处理数据集所具备的隐私保护水平可以相互进行比较。因此差分隐私被迅速认可并应用。
本文方案大数据平台上的差分隐私保护,着重于大数据中的数据挖掘领域,将聚类分析中最经典的K-means算法与差分隐私保护结合,并将其实施于Hadoop平台中,力求设计的方案在聚类结果准确性和安全性可达到一定平衡。
1.2国内外方案现状
根据保护隐私使用的技术方法进行分类,数据挖掘中常用的隐私保护主要可分为数据加噪、匿名发布和加密这几类[6]。以上三者中各自存在牺牲数据准确性、需较大内存、易泄露等不足。方案者为了降低这些不足,Agrawal[7]等于2000年发表了一种将分类树构建于已加噪数据上的算法,该算法在最大程度上保障了分类结果的准确;Sweeney[8]等于2002年提出K-匿名算法,将数据记录中的敏感信息采用匿名化技术进行处理以达到保护隐私的目的。迄今为止,K-匿名模型及在相同理论基础上的一些扩展模型是被大量方案和普遍应用的,然而正如上节中提到的,这些算法模型中不可避免地存在要假定攻击者具备的背景知识及所对应的攻击算法,并且不能通过设置参数值的不同来较严格地分析隐私保护的程度这两个缺陷,故而由Dwork提出的差分隐私保护方法迅速得到了学界的认可而且广泛应用。在此之后Dwork又相继在几个文献[9,10]中补充并完善该方法,提出了该理论的实现机制拉普拉斯机制(LaplaceMechanism,LM)和指数机制(ExponentialMechanism,EM)和隐私预算参数 选取的两种方法,同时针对流数据和连续观测中存在的差分隐私保护问题,提出在此基础上隐私保护水平更强的泛隐私(Pan-Privacy)理论;Li[11]等人在2011年构造了一种新型模型,他们将K-匿名算法与差分隐私保护技术进行联合,并将其应用在微数据的发布,取得较好效果;国内,李杨[12]和张啸剑[13]等人就国内外近几年的涉及差分隐私保护方面的成果进行总结,说明其将来的方案方向。
相关文档
最新文档