PINQ下K―means的差分隐私保护研究
支持差分隐私保护及离群点消除的并行K-means算法

————————————————————————————————————————————————支持差分隐私保护及离群点消除的并行K-means算法作者樊一康,刘建伟机构北京航空航天大学电子信息工程学院DOI 10.3969/j.issn.1001-3695.2017.12.0825基金项目国家自然科学基金资助项目(61272501)预排期卷《计算机应用研究》2019年第36卷第6期摘要针对大数据环境下聚类分析的隐私保护问题,基于MapReduce计算框架,提出了一种并行化的支持差分隐私保护和离群点消除的K-means算法。
算法并行地计算数据集中各点间的欧氏距离矩阵与最近邻超球半径以导出离群点的判定阈值,并在此基础上完成差分隐私保护下的初始聚类中心选取和并行聚类过程。
理论分析证明整个算法满足ε-差分隐私保护,实验结果说明该算法在隐私保护的有效性,聚类结果的可用性以及执行效率等方面取得了很好的平衡,相比于同类算法有较优的表现。
关键词K-均值聚类;离群点消除;差分隐私;MapReduce作者简介樊一康(1992-),男,硕士,主要研究方向为信息安全、数据挖掘;刘建伟(1964-),男(通信作者),教授,博士,主要研究方向为信息安全、网络安全、密码学(liujianwei@).中图分类号TP309.2访问地址/article/02-2019-06-036.html投稿日期2017年12月27日修回日期2018年2月27日发布日期2018年3月16日引用格式樊一康, 刘建伟. 支持差分隐私保护及离群点消除的并行K-means算法[J/OL]. 2019, 36(6).[2018-03-16]. /article/02-2019-06-036.html.第36卷第6期 计算机应用研究V ol. 36 No. 6 优先出版Application Research of ComputersOnline Publication——————————收稿日期:2017-12-27;修回日期:2018-02-27 基金项目:国家自然科学基金资助项目(61272501)作者简介:樊一康(1992-),男,硕士,主要研究方向为信息安全、数据挖掘;刘建伟(1964-),男(通信作者),教授,博士,主要研究方向为信息安全、网络安全、密码学(liujianwei@ ).支持差分隐私保护及离群点消除的并行K-means 算法 *樊一康,刘建伟†(北京航空航天大学 电子信息工程学院, 北京 100191)摘 要:针对大数据环境下聚类分析的隐私保护问题,基于MapReduce 计算框架,提出了一种并行化的支持差分隐私保护和离群点消除的K-means 算法。
敏感数据隐私保护中的差分隐私技术研究

敏感数据隐私保护中的差分隐私技术研究随着移动互联网和大数据时代的到来,人们习惯于使用各种数字应用程序,以便方便地交换和共享敏感数据,例如医疗报告、财务数据和个人位置等。
这类数据泄露会对个人权利造成伤害,并且会威胁国家安全。
因此,实现数据隐私保护是当今数字领域的一项重要工作。
对于敏感数据,差分隐私技术是目前广泛应用的一种数据隐私保护方法。
一、差分隐私技术的概念差分隐私技术是用于保护隐私的计算方法,它的基本思想是在计算时向原始数据中添加一些噪声,以便隐藏原始数据的具体值,从而保护隐私。
这种技术对于数据的隐私保护尤其重要,因为它可以保护原始数据中的一些关键信息,例如个人身份、位置、收入等,而仍然允许统计分析塑造数据,洞悉数据中存在的真实模式或趋势。
二、差分隐私技术的应用差分隐私技术应用广泛,例如移动设备位置隐私保护、医疗数据隐私保护、社交网络数据隐私保护等领域。
1. 移动设备位置隐私保护在传统方法中,追踪移动设备位置需要通过使用设备的GPS,这也意味着可以通过广告公司、黑客或其他第三方追踪用户的身份和行为。
差分隐私技术解决了这一问题,它通过向采集的位置数据添加一些噪声,从而掩盖了用户的真实位置,仍然能够实现移动网络覆盖率和用户定位等服务。
2. 社交网络数据隐私保护社交网络是一个重要的数据共享平台,它允许社交网络用户分享他们的个人信息、交友、留言、喜好等数据。
但是,这些数据也可能被第三方和广告公司获取,这会威胁用户的身份安全。
差分隐私技术可以用于对社交网络数据进行匿名化处理,从而防止这些数据被未经授权的个人或组织获取。
3. 医疗数据隐私保护在医疗领域,医疗保健提供者和提供商需要收集和共享大量的高度敏感的患者数据,但是这些数据的存储和共享有可能泄露患者的隐私。
差分隐私技术可以使用加入符合随机分布的噪声对医疗数据中患者隐私进行保护,同时也可以保护医生对患者数据的访问,这样可以在保护隐私的前提下,依然提供有效的医疗服务。
基于改进的k-means差分隐私保护方法在位置隐私保护中的应用

基于改进的k-means差分隐私保护方法在位置隐私保护中的应用齐晓娜;王佳;徐东升;张宇敬;郭佳;刘阳【摘要】针对k-means差分隐私聚类结果的可用性较差的问题,依据LBS的数据采集特点对k-means算法进行了改进.仿真实验证明:在LBS隐私保护方面,提出的改进k-means聚类方法在聚类结果的匿名性方面相对普通差分隐私k-means聚类方法有一定程度的提高.%In view of the poor availability of k-means differential privacy clustering results,the k-means algorithm is improved on the basis of the characteristics of the data acquisition of LBS.Proved by simulation experiment,The new k-means clustering method proposed in this paper had a certain degree of improvement in the anonymity of clustering results than the ordinary differential privacy k-means clustering method in terms of LBS privacy protection.【期刊名称】《河北大学学报(自然科学版)》【年(卷),期】2018(038)003【总页数】6页(P315-320)【关键词】k-means;聚类;差分隐私;位置隐私保护【作者】齐晓娜;王佳;徐东升;张宇敬;郭佳;刘阳【作者单位】河北金融学院信息管理与工程系,河北保定071051;河北金融学院实验教学中心,河北保定071051;河北软件职业技术学院计算机应用工程系,河北保定071000;河北金融学院信息管理与工程系,河北保定071051;河北金融学院信息管理与工程系,河北保定071051;河北金融学院信息管理与工程系,河北保定071051【正文语种】中文【中图分类】TP309随着移动互联时代和大数据时代的来临,基于位置的服务(LBS)也从最早的纯军事应用迅速普及到商业和民用领域,利用全球定位系统(GPS)和运营商通信网络所获取的位置精度越来越高.LBS的普及极大扩展了商业机构开展商业服务的方式并方便了普通民众的日常生活,在LBS中,民众作为服务的需求方,需要把自己当前的位置数据提交到LBS提供者的服务器来进行相关信息的查询,例如:距最近的前20个外卖餐厅、3公里范围内的某公司加油站等,其服务模式如图1所示. LBS的广泛应用也带来了一系列问题,其中广受关注的是位置隐私保护问题.攻击者可以在终端设备、通信网络、LBS服务器3个位置发起攻击,持续地获取用户的位置隐私数据,在拥有大量历史数据的基础上利用数据挖掘的方法可进一步推断用户的其他关键隐私数据,如:家庭地址、身份信息、行为动向、兴趣爱好、经济状况等隐私,最终导致用户隐私的全面泄漏.对于终端设备和通信网络攻击的防范可通过传统的信息安全方法,如加密、摘要、签名、入侵检测等方法,但对于不可信的LBS提供者未经授权的访问和使用用户位置隐私这种威胁,目前尚无完善和可靠的防范方法[1].因此,针对不可信LBS提供者恶意收集用户位置隐私数据的防范研究日益增多.研究的目的在于如何在保护用户位置隐私安全和充分享受LBS便利性之间找到平衡[2-3].1 位置隐私保护方法针对目前的研究来看,位置隐私保护方法主要分为2大类,包括位置信息扭曲法和位置信息加密法[4].其中基于位置信息扭曲的位置隐私保护是指用户接受LBS并提供位置信息时提前对要提交的时空信息进行修改,使LBS服务器获得的用户位置信息模糊化.由于发送给LBS 服务器的位置信息已经经过扭曲,所以会导致LBS服务质量有所下降,因此该方法必须在隐私保护水平和服务质量损失之间进行一定的权衡.在这类方法中,较好的是差分隐私保护.差分隐私保护对攻击者所掌握的背景知识不敏感,可以有效地防止掌握了大量背景知识的攻击者的攻击[5-6].另外一类位置隐私保护方法主要基于加密方法,这种方法通过加密技术使用户提交的位置信息和查询信息相对于LBS服务器不可见,阻断了用户和LBS服务器之间的信息交互,最终保护用户位置隐私的安全.这类方法的主要问题在于效率和可用性,能提供完整私密性的高效加密方法并不存在.对2种方法进行比较,通过增加查询数据对用户信息进行扭曲和泛化的方法技术实现较为简单,效率高,但存在着服务质量和隐私保护水平之间的权衡问题.基于加密技术的位置隐私保护方法能够保证更好的隐私安全性,但软硬件的复杂性较高,CPU和网络带宽的开销很大,不具备可用性.因此,进行位置信息扭曲来实现位置隐私保护的方法是目前学术领域研究的热点,这种方法通过在终端设备、设备组或可信匿名服务器对用户将要提交的精确位置数据进行一定的变换,防止不可信的LBS服务器获取用户的完全数据,同时对查询结果进行精炼,尽可能保证用户获得的服务质量不受损失,其具体过程如图2所示.匿名处理模块进行位置信息处理所采用的主要方法包括用户身份变换与隐藏、添加随机化的位置干扰信息、扰乱查询时的时间和空间信息使用户数据模糊化等[7-8].图1 LBS服务的一般架构Fig.1 General architecture of LBS services图2 基于模糊泛化的位置信息匿名处理过程Fig.2 Anonymous processing of location information based on Fuzzy generalization2 结合差分隐私保护的k-means泛化方法2.1 差分隐私保护方法差分隐私保护方法针对拥有背景知识的攻击者具有很好的防范效果,这种方法即使攻击者已经获得了除目标记录外的其他数据,也没有办法挖掘出目标记录中的敏感信息.差分隐私保护的核心是通过添加随机噪声来使关键数据失真,同时还能够保证数据的部分属性或统计特性不变,最大化的减少服务质量的损失.采用差分隐私保护后,目标记录的存在与否对于查询结果不会产生任何影响,这使得攻击者或不可信LBS服务器不能够通过数据挖掘的方法利用已知信息推断用户的真实信息[9].差分隐私保护的关键原理如下:定理1 定义数据集D1和D2,这2个数据集最多相差1个数据记录,Rand(K)指定了随机数K所能达到的界限,Pr[Eve]用来确定发生的某事件Eve遭受隐私泄漏的可能性,若随机获得的K能够提供ε-差分隐私保护,则在S⊆Rand(K)中,Pr[K(D1)∈S]≤exp(ε)×Pr[K(D2∈S],其中隐私泄漏的风险由随机数K值所决定,随机数K的确定与恶意第三方所具有的先验知识无关.定义1 对于函数f∶D→R,f的敏感度定义为Δf=maxD1,D2‖f(D1)-f(D2)‖,其中数据集D1和D2这2个数据集最多相差1个数据记录.定理2 假设存在一个LBS查询函数s和一个数据集合U,查询结果为s(U),可以在s(U)上加入精心选取的随机干扰数据来保护位置隐私.由该函数所得出的响应值为满足ε-差分隐私保护.设拉普拉斯随机干扰函数Lap(b)=exp(-|x|/b)呈标准差为的对称指数分布,其中b=Δf/ε,则其概率密度函数可以定义为p(x)=exp(-|x|/b)/2b,累积分布函数为D(x)=(1/2)(1+sgn(x)(1-exp(|x|/b))).该随机干扰函数的概率密度分布如图3所示. 图3 拉普拉斯随机干扰函数的概率密度分布Fig.3 Probability density distribution of Laplasse random interference function2.2 使用差分隐私保护的k-means位置泛化匿名算法在利用k-means聚类算法进行位置泛化时,简单地通过欧氏函数计算每个距离当前用户位置最近的聚类中心很容易遭到数据挖掘攻击进而泄漏位置隐私.因此必须将k-means聚类算法与差分隐私保护方法结合使用才有更好的效果[10-11].在计算某一类用户集合的位置聚合点时需要用该用户集合内的所有位置之和除以用户数目.所以,只要使用近似的发布位置之和和近似的用户集合元素数目就不会发生位置隐私泄漏.结合差分隐私保护方法的k-means位置泛化流程如下.首先输入k个位置p1、p2、…、pk,这些位置为包含了当前用户位置的k个合理用户请求.从k个位置中随机选择n个点u1、u2、…、un,返回空间内n个添加了噪声的新位置u1′、u2′、…、un′作为初始中心位置,接着按照下面2步进行循环迭代:1)通过距离计算将每个样本位置pi聚类到最近的中心点uj′,此时将样本集合{pi}划分成n个部分s1、s2、…、sn.2)对于1≤j≤n,计算集合Sj内位置坐标之和sum=∑i∈sjpi和用户集合中的元素数量num=|Sj|,分别添加干扰数据得到sum′和num′,更新un″=sum′/num′作为用户集合Sn的新位置中心.所添加的噪声函数为Lap(b)=exp(-|x|/b),其中b=Δf/ε.循环迭代结束的条件是集合的划分情况不再变化或者达到了指定的迭代次数.最终将用户位置所属的聚类集合中选出k个用户位置作为请求参数提交到LBS服务器获取服务.3 改进的k-means位置泛化匿名算法使用差分隐私保护的k-means位置泛化匿名算法虽然可以满足位置隐私保护的泛化和扰动需求,却也存在一些不足之处:第一,聚类数量k的选取问题,不同的k 值对聚类结果有着直接的影响,k值过大或过小都会间接影响到LBS服务质量,事先由人工方法确定k值非常困难;第二,对于初始中心位置的选择也非常重要,随机化的初始中心位置必然会导致算法的不稳定,进而导致LBS服务质量的不稳定同时还会向攻击者透露更多辅助信息;第三,无法对运动轨迹予以保护,有些位置之间看似距离很近,而实际的运动趋势相差很远,合理的度量k-means算法中的距离和轨迹的关系对位置隐私的防护效果和LBS服务质量都会产生积极影响.对于这些缺陷,本文结合位置隐私数据的特征对基本的k-means位置泛化匿名算法进行一定程度的修正,以运动轨迹作为聚类数据进行聚类,以此提高位置隐私保护算法的运行速度、智能化水平以及LBS服务的精度和稳定性.3.1 最佳聚类数量的确定合适的聚类数量决定了用户划分集合的隐匿能力,确定一片区域中所有用户聚类个数的核心是对用户划分结果的有效性进行评估,在基于位置的聚类中,较好的有效性评价方法是评价聚类结果中类内的内聚性和类间的耦合性.其中内聚性衡量了类内各用户位置或运动轨迹的相似度,而耦合性则展示了不同的类(用户划分)之间的相关性,最终通过内聚性和耦合性的相互作用得到聚类结果的评价指标.评价函数的定义如下所示Weight(k)=Intra(k)×Inter(k),其中在上述公式中,k表示最终确定的用户集合个数;N表示用户的总数量;n表示每条用户运动轨迹的采样时间;xj表示每一类中的第j条运动轨迹;z表示用户划分之后每一类的位置中心;i=1、2、…、k-1;j=i+1、i+2、…、k.3.2 初始聚类中心的选择在经典k-means位置隐私保护算法中,初始聚类中心是从n个位置中随机选择的,这导致多次相同位置的查询会向攻击者透露更多的信息,同时也会导致LBS服务质量的不稳定.在本文中采用四分法对整个查询区域进行切割获取样本,根据取样用户位置的分布特点,将样本用户中所有真实位置的中心作为聚类中心,取代随机确定初始聚类中心的方法,可以提高聚类结果的稳定性和LBS服务的准确性,同时尽可能少的向攻击者透露信息,保证用户的位置隐私不被泄漏.3.3 距离计算方法的改进为了更好地体现不同用户的位置变化特点,考虑运动轨迹依据时间的变化,提出运动活跃度的概念,并将运动活跃度作为核心参数参与到距离运算中,强化用户位置变化特征对聚类结果的影响,以期待能充分利用用户的运动趋势信息来获得更好的匿名用户集合.改进的k-means位置信息聚类算法将运动活跃度和传统欧氏距离相结合作为k-means算法中的距离参数的计算依据,完成以用户距离和运动趋势为依据的用户聚类.运动活跃度计算方法和距离计算方法为Distance(i)=|pos(i,t)-pos(z,t)|×|ChangeRate(i)-ChangeRate(z)|,其中,pos(i,t)表示用户i在时刻t的位置坐标,n表示当前计算范围内的用户数量,ChangeRate(i)揭示了用户i相对于范围内其他所有用户的运动活跃水平.Distance(i)表示加入运动活跃度ChangeRate后,用户i和聚类中心z的“距离”.4 实验结果及分析实验的主要关注目标为用户在获取LBS服务的过程中位置隐私安全度、服务结果的精确性以及LBS服务的响应时间这3个指标的变化.实验在模拟数据集上进行,通过与经典k-means位置隐私保护算法进行指标对比来验证本文所用方法的性能. 算法采用Python语言实现,在windows7 sp1 64bit系统上运行,所使用的计算机硬件为3.3 Ghz intel i5处理器、8 GB内存空间.以Thomas Brinkhoff路网数据产生器作为模拟数据集进行使用,选择Oldenburg的道路交通网作为数据源进行移动用户数据的生成.图4 服务精度对比Fig.4 Comparison of service precision在模拟数据的生成方面,随机生成500个用户作为已有的查询位置,匿名参数取值为5、10、15、20、25.为了检验改进k-means的差分隐私位置保护算法的位置隐私保护能力,实验依据Oldenburg道路交通网所产生的移动用户数据,对比了改进k-means的差分隐私位置保护算法和经典k-means差分隐私位置保护算法的查询结果数量,如图4所示.从图4中可见随着匿名数量的增加,改进方法的查询结果数量显著少于经典方法,即查询结果的精度优于经典方法.匿名成功率指的是匿名区域内用户个数满足匿名度k所占系统中全部用户的比例.在匿名成功率方面,相对于经典k-means差分隐私位置保护算法,改进方法的匿名效果有一定改善,这得益于改进方法中对k-means聚类算法初始聚类中心生成和距离度量的重新定义.具体效果如图5所示.由图5中可知改进的匿名方法的隐私保护成功率更高,隐私保护效果更好.LBS服务响应时间指的是从用户提出LBS服务请求到查询结果返回到用户端所经过的全部时间.改进方法与经典方法的对比结果如图6所示.从图6中可知,聚类范围越大响应时间越长,这是由于随着聚类范围的增大,查询区域也会随之增大,LBS服务器所需要处理和产生的结果也会增加,导致响应时间的增加.在响应时间方面,由于k-means算法的改进点仍需大量计算,所以相对于经典方法而言,改进方法的响应时间有一定程度的增加,对于响应时间增加的问题,仍需进行进一步的研究来优化.图5 匿名成功率对比Fig.5 Comparison of the anonymous success rate图6 服务响应时间对比Fig.6 Comparison of service response time5 结束语与现有的位置隐私保护方法相比,改进k-means的差分隐私保护方法在随机噪声可用性和隐私保护水平这2方面有着较好的平衡.一方面,利用差分隐私保护的方法可以抵御具有先验知识的攻击者的位置隐私攻击,另一方面结合k-means聚类算法可以更好地归纳用户的位置特点和轨迹特点,形成聚类,有效地提高匿名效果.在下一步的工作中,除继续优化算法,降低算法复杂度提高算法可用性外,仍需将研究重点放在维持位置隐私保护水平不变的情况下提升随机噪声的合理性,即进一步提高LBS的服务质量.参考文献:[1] 李婕,白志宏,于瑞云,等.基于PSO优化的移动位置隐私保护算法[J/OL].计算机学报,2017:1-15.LI J, BAI Z H, YU R Y, et al. Mobile location privacy protection algorithm based on PSO optimization[J/OL]. Chinese Journal Of Computers, 2017:1-15.[2] 王玲玲,马春光,刘国柱.基于位置服务的隐私保护机制度量研究综述[J].计算机应用研究,2017,34(03):647-652. DOI: 10.3969 / j.issn.1001-3695.2017.03.002. WANG L L, MA C G, LIU G Z. Survey on metrics for location-based privacy protection mechanisms[J].Application Research of Computers,2017,34(03):647-652. DOI: 10.3969 / j.issn.1001-3695.2017.03.002.[3] 张学军,桂小林,伍忠东.位置服务隐私保护研究综述[J].软件学报,2015,26(9):2373-2395. DOI: 10.13328/ki.jos.004857.ZHANG X J, GUI X L, WU Z D. Privacy preservation for location-based services: A survey[J].Journal of Software, 2015,26(9):2373-2395. DOI: 10.13328/ki.jos.004857.[4] 许明艳,赵华,季新生.位置服务隐私保护技术研究综述[J].信息工程大学学报,2015,16(5):543-551. DOI: 10.3969 / j.issn.1671-0673.2015.05.006.XU M Y , ZHAO H ,JI X S. Survey of location privacy protection technology[J].Journal of Information Engineering University,2015,16(5):543-551. DOI: 10.3969 / j.issn.1671-0673.2015.05.006.[5] 李杨,温雯,谢光强.差分隐私保护研究综述[J].计算机应用研究,2012,29(9): 3201-3205+3211. DOI:10.3969/j.issn.1001-3695.2012.09.001.LI Y, WEN W, XIE G Q. Survey of research on differentialprivacy[J].Application Research of Computers, 2012,29(9):3201-3205+3211.DOI:10.3969 / j.issn.1001-3695.2012.09.001.[6] 杨晓晖,朱烨,胡倩茹.基于SpaceTwist改进的位置隐私保护方法[J].河北大学学报(自然科学版),2017,37(3):287-293.DOI:10.3969/j.issn.1000-1565.2017.03.011.YANG X C, ZHU Y, HU Q R. Improved location privacy protection method based on SpaceTwist[J].Journal of Hebei University(Natural Science Edition), 2017,37(3):287-293. DOI:10.3969/j.issn.1000-1565.2017.03.011.[7] 赵大鹏,宋光旋,靳远远等.基于查询概率的位置隐私保护方法[J].计算机应用,2017,37(2):347-351+359. DOI: 10.11772 /j.issn.1001-9081.2017.02.0347. ZHAO D P, SONG G X, JIN Y Y, et al. Query probability-based location privacy protection approach[J]. Journal of Computer Application,2017,37(2):347-351. DOI:10.11772/j.issn.1001-9081.2017.02.0347.[8] 张红斌.公共网络用户隐私保护位置优化识别仿真[J].计算机仿真,2017,34(2):330-333.ZHANG H B. Public network user privacy protection location optimization identification simulation[J]. Computer Simulation,2017,34(2):330-333. [9] 熊平,朱天清,王晓峰.差分隐私保护及其应用[J].计算机学报,2014,37(1):101-122.DOI:10.3724/SP.J.1016.2014.00101.XIONG P, ZHU T Q, WANG X F. A survey on differential privacy and applications[J]. Chinese Journal of Computers,2014,37(1):101-122. DOI:10.3724/SP.J.1016.2014.00101.[10] 李灵芳. 基于差分隐私的k-means聚类分析[D].成都:西南交通大学,2016.LI L F. The analysis of k-means clustering with differentialprivacy[D].Chengdu:Southwest Jiaotong University,2016.[11] 李杨,郝志峰,温雯,等.差分隐私保护k-means聚类方法研究[J].计算机科学,2013,40(3):287-290.LI Y, HAO Z F, WEN W,et al. Research on differential privacy preserving k-means clustering[J]. Computer Science, 2013,40(3):287-290.。
基于拉普拉斯机制的差分隐私保护kmeans聚类算法研究

■doi :10.3969/j.issn.1671-1122.2019.02.0064〇19年第2期n C t in f o s e c u r it y技术研究_基于拉普拉斯机制的差分隐私保护A:-means++聚类算法研究------------------------------傅彦铭,李振铎--------------------------------(广西大学计算机与电子信息学院,广西南宁530004)摘要:Pmeans++聚类算法是为了解决灸-m eans聚类算法的准确度受其初始中心 点选取的影响较大的问题而提出的,在聚类过程中,需要对相关的隐私数据提供保护。
差分隐私模型定义了一种具有最大背景知识假设的攻击模型,并且能对隐私保护强度进行量化分析。
文章提出一种基于拉普拉斯机制的差分隐私保护)t-mea nS++聚类算法(DPk-means++聚类算法),在初始化选取中心点和迭代求均值中心点的过程中,分别根据拉普拉斯机制添加嗓声,解决了A:-means++聚类算法随机选取初始化中心点隐私泄露的问题和迭代求簇心隐私泄露问题。
通过实验分别对隐私预算动态变化对比及聚类准确性结果进行分析,DPk-meam+十聚类算法能够在隐私预算参数范围内且保证聚类准确性的前提下,实现对数据隐私提供不同级别的保护。
关键词:差分隐私保护;拉普拉斯机制;h m e a n s++;聚类中图分类号:T P309文献标识码:A文章编号:1671-1122(2019)02-0043-10中文引用格式:傅彦铭,李振铎.基于拉普拉斯机制的差分隐私保护i-means+十聚类算法研究[J].信息 网络安全,2019, 19 ( 2): 43-52.英文引用格式:FU Yanming, LI Zhenduo. Research on 免-means++ Clustering Algorithm Based on Laplace Mechanism for Differential Privacy Protection[J]. Netinfo Security, 2019,19(2): 43-52.Research on A:-means++ Clustering Algorithm Based on LaplaceMechanism for Differential Privacy ProtectionF U Y a n m i n g, L I Z h e n d u o{School of C omputer and E lectronic Information^ Guangxi University 9 Nanning Guangxi 530004, China)Abstract: T h e^-m e a n s++ clustering algorithm is proposed to solve the p r o b l e m that the accuracy of the k-m em s clustering algorithm is greatly affected b y the selection of its initialcenter point. In the clustering process, the related private data needs to b e protected. T h edifferential privacy m o d e l defines an attack m o d e l with the largest b a c k g r o u n d k n o w l e d g ea n d can quantify the privacy protection strength. This paper proposes a ^-m e a n s++clusteringalgorithm ba s e d o n Laplace m e c h a n i s m for differential privacy protection (D P k-m e a n s++clustering algorithm), a n d in the process of initializing the selected center point a n d iteratingthe m e a n center point, the noise is a d d e d according to the Laplace m e c h a n i s m, a n d the收稿日期:2018-12-20基金项目:国家自然科学基金[61662004]作者简介:傅彦铭(1976—),男,广西,副教授,博士,主要研究方向为人工智能与信息安全;李振铎(1990—),男,河南,硕士研究生,主要研究方向为人工智能与信息安全。
数据隐私保护中的差分隐私算法研究与改进

数据隐私保护中的差分隐私算法研究与改进随着互联网的普及和数据的大规模应用,数据隐私保护的重要性日益凸显。
在数据分析和挖掘过程中,个人隐私的暴露已成为一个亟待解决的问题。
为了解决隐私泄露问题,差分隐私算法应运而生。
本文将探讨数据隐私保护中的差分隐私算法研究与改进。
差分隐私是一种在数据处理过程中保护个人隐私的方法。
其核心思想是在保证数据分析结果的准确性的同时,通过添加噪声或修改原始数据来保护个体隐私。
差分隐私算法的目标是使分析结果不受特定个体数据的影响,从而防止通过对数据集的分析来推断出特定个体的隐私信息。
差分隐私算法的研究主要集中在两个方面:噪声注入和数据发布。
在噪声注入方面,主要有拉普拉斯噪声和指数机制两种常用的方法。
拉普拉斯噪声是一种加性噪声,在差分隐私中被广泛应用。
指数机制则是一种基于概率模型的方法,通过引入概率权重来进行隐私保护。
在数据发布方面,研究者们在差分隐私保护的前提下,对发布的数据进行一定的改动,保护个体隐私的同时尽量保持数据的可用性。
然而,当前的差分隐私算法仍然存在一些问题和挑战,需要进一步研究和改进。
首先,现有算法在数据分析结果的准确性和隐私保护程度之间存在一定的权衡。
过度的噪声注入可能会导致分析结果的不准确性,而保护隐私的不足可能会导致隐私泄露。
因此,如何在保证数据准确性的前提下提高隐私保护程度是一个需要解决的问题。
其次,当前的差分隐私算法在处理非均匀数据分布时存在一定的问题。
由于不同个体的数据分布可能存在差异,一些数据项的频次较高,而另一些数据项的频次较低。
在这种情况下,传统的差分隐私算法可能会导致信息损失和隐私保护不足。
因此,对于非均匀数据分布的处理仍然是一个待解决的问题。
另外,差分隐私算法在处理时间序列数据和多维数据时存在一定的挑战。
时间序列数据具有时序性和相关性,传统的隐私保护方法可能无法满足其特点。
而对于多维数据,差分隐私算法面临着隐私泄露和数据可用性之间的权衡。
如何在保护隐私的同时有效地处理时间序列数据和多维数据是一个需要进一步研究的问题。
基于差分隐私的RDPk—means聚类方法

基于差分隐私的RDPk—means聚类方法作者:马哲鹿方凯来源:《软件导刊》2018年第08期摘要:为解决k-means聚类算法在聚类过程中隐私泄露风险,在满足ε-差分隐私保护前提下,提出一种隐私保护的RDPk-means聚类方法。
该方法与传统随机选取初始点方式不同,采取基于网格密度的方式选取初始聚类中心,并在UCI数据集中进行有效性验证。
采用543条数据生成2个聚类簇和19 020条数据生成3个聚类簇分别进行实验。
结果表明,该聚类方法在不同的数据规模和维数情况下可以很好地保护数据隐私,能保证聚类结果的可用性。
关键词:k-means算法;差分隐私;隐私保护DOIDOI:10.11907/rjdk.181386中图分类号:TP309文献标识码:A 文章编号:1672-7800(2018)008-0205-03英文摘要Abstract:In order to solve the risk of privacy leakage in the clustering process of k-means clustering algorithm,under the premise of satisfying ε-difference privacy protection,this paper proposes a privacy-preserving RDPk-means clustering method.This method is different from the traditional random selection of initial points and it is based on the grid density approach to select the initial poly Class Center to verify validity in UCI's real data set.Two experiments were performed using 543 data sets to generate 2 clusters and 19,020 data sets to generate 3 clusters.The experimental results show that the proposed clustering method can still protect data privacy with different data sizes and dimensions,and also guarantee the availability of clustering results.英文关键词Key Words:k-means algorithm; differential privacy; privacy protect0 引言大数据时代,随着数据量的急剧增长,全球范围内出现了对信息隐私的担忧[1]。
一种改进的基于差分隐私的k-means聚类算法

第 18 卷 第 8 期 第 82期019 年 8 月
Abstract:Clustering analysis is a outstanding branch in data mining and machine learning,which has a wide range of applications, but it is scary to users against an ocean of sensitive information leakage in the process of clustering analysis. Therefore,how to achieve clustering analysis privacy protection is crucial. Generally,the traditional k-means clustering algorithm based on differential privacy (DP)has the problem of high sensitivity to abnormal points due to the existence of initial center blind choice,resulting in data privacy protection and low the cluster availability. In order to solve above problems,this paper proposes an improved DPk-means clustering al⁃ gorithm to improve the availability. Meanwhile,we have carried on the theoretical analysis and experiments. Theoretical analysis indi⁃ cates that the improved k-means algorithm is superior to other clustering algorithms under the same privacy budget. Under the same pri⁃ vacy parameters of the same data set,in terms of data availability,the algorithm is nearly five percentage points higher than the tradi⁃ tional algorithm. Key Words:differential privacy;k-means clustering;privacy protection
隐私保护中的差分隐私技术应用研究

隐私保护中的差分隐私技术应用研究现如今,数据分析一直是人工智能和大数据时代最为重要的领域。
相较于传统的数据分析方法,新兴的数据分析技术依赖于庞大的数据来源,例如深度学习需要海量的数据进行模型的训练。
然而,随着数据来源的增多,数据泄露和隐私的泄漏问题也日益成为数据分析领域的重要难题,为此,科学家们将目光投向了全新的隐私保护技术——差分隐私。
差分隐私,即不与个体相关的隐私技术,通过人工加噪来保护个人隐私,在数据发布过程中增加一定的随机性,使得发布数据与个人对应的概率大大降低,从而达到保护隐私的目的。
实现差分隐私有多种方法,其中一种常见的方法便是拉普拉斯机制。
拉普拉斯机制是一种概率性隐私保护算法,它通过对原始数据添加服从拉普拉斯分布的噪音实现差分隐私。
噪音的量取决于保密性要求的大小,即如果需要更严格的隐私保护,那么就需要更大的噪音量。
在这种算法下,差分隐私机制可以在保护个人隐私的同时,允许研究人员获得数据的某些特征。
因此,可以有效地支持这些数据进行分析,同时保护个人隐私,避免数据泄露。
在差分隐私的保护下,个人隐私得以得到充分的保护和传输,但同时也给数据分析带来一定的挑战。
加入的噪音可能会影响分析的输出结果和精确度,而噪音量与隐私保护水平的调节也需要学习者有一定的专业技能。
与传统的隐私保护方案相比,差分隐私近几年来在实践中得到了越来越多的应用。
例如,在医疗卫生领域,医学研究人员需要获取离散化的数据来分析疾病发病率和预测模型。
而差分隐私通过添加噪音,可以确保数据是难以在规定的范围内再重新管理、分析和使用的。
在日常的智能家居使用中,差分隐私技术还可以保护用户数据,实现用户数据匿名化,其适用性非常强。
当然,随着人工智能和大数据的不断发展,隐私保护的需求也越来越强烈。
如何更好地平衡隐私保护和数据分析的需求,如何用更好的方式保证隐私的安全,这些都是未来数据分析领域需要解决的一些关键问题。
相信在差分隐私技术的持续优化下,数据分析和隐私保护领域都有望快速发展,为人工智能和大数据时代打下坚实的基础。
大数据隐私保护中的差分隐私技术研究

大数据隐私保护中的差分隐私技术研究随着互联网与人工智能技术的迅速发展,大数据已经成为人们生活中不可或缺的一部分。
然而,大数据的快速增长也带来了隐私泄露的风险。
在这种情况下,保护个人隐私已经成为一个极其重要的问题。
差分隐私技术是一种保护大数据隐私的有效方法,本文将探讨差分隐私技术的原理、应用和挑战。
一、差分隐私技术的原理差分隐私技术是一种保护隐私的方法,它通过添加噪声来保护用户的隐私。
具体来说,差分隐私技术引入了一定的随机性,使得对于某个特定的个体数据,无法确定它是由谁提供的。
简言之,差分隐私技术的原理是,在数据集中添加一些噪音来模糊数据以保护隐私。
二、差分隐私技术的应用差分隐私技术可以广泛应用于大数据保护中,以下是其中几个应用场景:1.医疗保护现在,越来越多的医疗数据被数字化并用于研究和分析,然而这些数据可能包含大量敏感信息。
通过使用差分隐私技术,研究人员可以对医疗研究数据进行分析,而不必担心泄露患者的信息的风险。
2.金融保护金融机构存储许多敏感数据,如客户姓名、电话、地址、社会安全号码等。
这些数据若被泄露,将可能导致严重的后果。
通过使用差分隐私技术,可以保护客户隐私,保证数据安全。
3.社交网络保护随着社交网络变得越来越流行,其所产生的数据随之增长。
这些数据包括个人信息和行为记录等,因此,保护社交网络中用户的隐私变得尤为重要。
差分隐私技术可以减少用户信息的泄露风险,提高用户的隐私保护。
三、差分隐私技术的挑战尽管差分隐私技术通过为数据添加噪音来提高数据的隐私保护性,但它也带来了一些挑战,以下是其中几个挑战:1.差分隐私与数据准确性的权衡为了保护用户的隐私,使数据不可被唯一地标识,差分隐私技术必须添加一定的噪音。
然而,这种噪音也会对数据准确性造成影响。
因此,在使用差分隐私技术时,需要在保护隐私和确保数据准确性之间进行权衡。
2.差分隐私保护的微观数据的应用差分隐私技术对于大规模数据集的保护是非常有效的。
数据隐私保护中的差分隐私技术研究

数据隐私保护中的差分隐私技术研究随着互联网和大数据时代的到来,数据隐私保护成为了一个日益重要的议题。
为了保护个人的隐私权益,研究者们提出了各种各样的隐私保护技术。
其中,差分隐私技术备受关注,因其在保护数据隐私的同时,又能有效地利用数据进行分析。
本文将从差分隐私技术的概念、应用场景以及研究进展三个方面进行探讨。
一、差分隐私技术的概念差分隐私(Differential Privacy)是由密歇根大学的Cynthia Dwork等人于2006年提出的一种隐私保护概念。
简单来说,差分隐私的目标是通过向原始数据添加一定的随机噪声,使得针对个别数据的攻击变得困难,从而保护用户的隐私。
换言之,差分隐私不是针对具体的个人数据,而是针对整个数据集的保护。
二、差分隐私技术的应用场景差分隐私技术具有广泛的应用场景。
首先,差分隐私可应用于个人隐私保护。
比如,在社交网络中,通过使用差分隐私技术,可以保护用户的个人信息不被恶意获取。
其次,差分隐私还可以应用于数据共享与合作。
在数据共享场景中,通过差分隐私技术,可以使得数据拥有者将其数据分享给他人,而不用担心隐私泄露。
此外,差分隐私还可应用于机器学习和数据挖掘等领域,通过保护个体数据的隐私,实现数据的有效分析和模型的训练。
三、差分隐私技术的研究进展在差分隐私技术的研究中,涌现出了许多有价值的成果。
首先,针对差分隐私噪声的选择和添加,研究者们提出了各种不同的方法。
例如,使用拉普拉斯噪声、指数机制、哈密顿机制等方式添加噪声。
其次,为了提高数据利用率和查询效果,研究者们提出了差分隐私发布算法。
这些算法能够在保护隐私的同时,尽可能最大限度地保留数据特征,实现有效的数据发布和查询。
此外,对于差分隐私技术的评估和量化,也是研究的重要方向之一。
研究者们提出了差分隐私泄露风险和隐私损失的度量方法,以便评估差分隐私技术的有效性和可行性。
在差分隐私技术的研究中,也存在一些挑战和亟待解决的问题。
首先,如何在满足隐私保护要求的前提下,提高数据的可用性和数据利用率仍然是一个重要的问题。
基于差分隐私的K-means算法优化研究综述

基于差分隐私的K-means算法优化研究综述
孔钰婷;谭富祥;赵鑫;张正航;白璐;钱育蓉
【期刊名称】《计算机科学》
【年(卷),期】2022(49)2
【摘要】差分隐私K-means算法(Differential Privacy K-means Algorithm,DP K-means)作为一种基于差分隐私技术的隐私保护数据挖掘(Privacy Preserving Data Mining,PPDM)模型,因简单高效且可保障数据的隐私而备受研究者的关注。
文中首先阐述了差分隐私K-means算法的原理、隐私攻击模型,以分析算法的不足。
然后从数据预处理、隐私预算分配、聚簇划分等3个角度讨论分析DP K-means
算法改进研究的优缺点,并对研究中的相关数据集和通用评价指标进行了总结。
最
后指出DP K-means算法改进研究中亟待解决的挑战性问题,并展望了DP K-means算法的未来发展趋势。
【总页数】12页(P162-173)
【作者】孔钰婷;谭富祥;赵鑫;张正航;白璐;钱育蓉
【作者单位】新疆大学软件学院;新疆维吾尔自治区信号检测与处理重点实验室;新
疆大学软件工程重点实验室
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于改进的k-means差分隐私保护方法在位置隐私保护中的应用
2.基于距离与误差平方和的差分隐私K-means聚类算法
3.一种改进的基于差分隐私的k-means聚类算法
4.基于相对熵和K-means的形状相似差分隐私轨迹保护机制
5.基于差分隐私的隐私保护数据发布研究综述
因版权原因,仅展示原文概要,查看原文内容请购买。
差分隐私保护k-means聚类方法研究

万方数据万方数据万方数据万方数据差分隐私保护k-means聚类方法研究作者:李杨, 郝志峰, 温雯, 谢光强, LI Yang, HAO Zhi-feng, WEN Wen, XIE Guang-qiang作者单位:李杨,谢光强,LI Yang,XIE Guang-qiang(广东工业大学自动化学院,广州510006;广东工业大学计算机学院,广州510006), 郝志峰,温雯,HAO Zhi-feng,WEN Wen(广东工业大学计算机学院 广州510006)刊名:计算机科学英文刊名:Computer Science年,卷(期):2013,40(3)被引用次数:2次1.Blum A;Dwork C;McSherry F Practical Privacy:The SuLQ Framework 20052.Dwork C Differential Privacy 20063.Dwork C Differential Privacy:A Survey of Results 20084.Dwork C The Differential Privacy Frontier 20095.Dwork C Differential Privacy in New Settings 20106.Dwork C A Firm Foundation for Private Data Analysis 2011(01)7.Dwork C The Promise of Differential Privacy A Tutorial on Algorithmic Techniques 20118.Agrawal R;Strikant R Privacy-preserving data mining 20009.Sweeney L K-anonymity:A Model for Protecting Privacy 2002(05)10.Lindell Y;Pinkas B Privacy preserving data mining 200011.杨维嘉在数据挖掘中保护保护隐私信息的研究[学位论文] 200912.Fienberg S E;Mclntyre J Data swapping:Variations on a theme by Dalenius and Reiss 200413.Kifer D;Gehrke J Injecting utility into anonymized data-sets 200614.Agrawal R;Srikant R Privacy preserving data mining 200015.Du W;Zhan Z Using randomized response techniques for privacy-preserving data mining 200316.Clifton C;Kantarcioglou M;Lin X Tools for privacy pre serving distributed data mining 2002(02)17.Oliveira S R M;Zaiane O R Achieving privacy preservation when sharing data for clustering 200418.Mukherjee S;Chen Zhi-yuan;Gangopadhyay A A privacy preserving technique for Euclidean distance-based mining algorithms using Fourier-related transforms 2006(04)19.Parameswaran R;Blough D M Privacy preserving data obfuscation for inherently clustered data[外文期刊] 2008(01)20.崇志宏;倪巍伟;刘腾腾一种面向聚类的隐私保护数据发布方法[期刊论文]-计算机研究与发展 2010(12)21.Witten I H;Frank E Data Mining:Practical Machine Learning Tools and Techniques 200522.van Rijsbergen C J Information Retrieval(2nd edition) 19791.李杨.郝志峰.肖燕珊.袁淦钊.谢光强差分隐私DPE k-means数据聚合下的多维数据可视化[期刊论文]-小型微型计算机系统 2013(7)2.李杨.郝志峰.肖燕珊.袁淦钊.谢光强差分隐私DPE k-means数据聚合下的多维数据可视化[期刊论文]-小型微型计算机系统 2013(7)引用本文格式:李杨.郝志峰.温雯.谢光强.LI Yang.HAO Zhi-feng.WEN Wen.XIE Guang-qiang差分隐私保护k-means聚类方法研究[期刊论文]-计算机科学 2013(3)。
数据隐私保护中的差分隐私算法研究与分析

数据隐私保护中的差分隐私算法研究与分析随着互联网和大数据技术的迅速发展,个人隐私问题愈发引起人们的关注。
隐私泄露不仅可能导致个人利益受损,还可能对个人权益产生严重的负面影响。
因此,保护数据隐私成为了当代社会亟待解决的问题之一。
差分隐私作为一种重要的数据隐私保护方法,近年来受到了广泛的关注。
本文将对差分隐私算法进行深入研究与分析,探讨其在数据隐私保护中的优势、特点以及应用场景。
首先,我们需要明确差分隐私的定义。
差分隐私是一种通过添加噪声来保护个人隐私的方法。
其核心思想是在原始数据中引入一定程度的扰动,使得个体的敏感信息无法完全被获取,从而保护数据的隐私。
相比传统的加密和脱敏等方法,差分隐私具有一系列优势和特点。
首先,差分隐私可以提供数学上严格的隐私保护证明,可以确保在已知的背景知识下,攻击者无法还原出精确的个体信息。
其次,差分隐私可以适用于各种数据类型和分析任务,涵盖了广泛的场景和应用。
另外,差分隐私可以兼顾数据利用效率和隐私保护需求之间的平衡,提供了更高的灵活性。
在研究和分析差分隐私算法时,需要考虑以下几个关键问题。
首先是噪声的引入方式。
差分隐私算法通过引入噪声来保护数据隐私,而噪声的引入方式会直接影响隐私保护的效果。
现有的差分隐私算法主要可以分为基于加噪的方法和基于隐私预算的方法。
前者是在原始数据上添加噪声,使攻击者无法还原个体隐私;后者是根据隐私预算来控制噪声大小,从而平衡数据利用效率和隐私保护程度。
其次是隐私泄露风险的度量。
在差分隐私研究中,需要对隐私泄露风险进行量化分析,以评估隐私保护算法的效果。
常用的指标包括信息熵、互信息和隐私预算等。
另外,多维数据隐私保护问题也需要引起注意。
现实中的数据往往具有多个属性,传统的差分隐私算法可能难以针对多维数据提供有效的隐私保护。
因此,需要针对多维数据隐私提出相应的差分隐私算法和机制。
在实际应用中,差分隐私算法具有广泛的应用场景。
一方面,差分隐私可以应用于数据发布场景。
融合聚类与差分隐私的位置隐私方法研究

1引言传感器和移动设备的快速发展在市场上为用户提供了广泛的选择,便利了用户的生活。
然而,这些设备的处理和存储能力会导致用户一些隐私信息的泄漏。
例如使用基于位置的服务LBS 会获取用户的位置信息[1]。
用户将准确的位置信息上传到LBS 以获得相应的服务,但上传未经处理的位置数据将直接导致用户隐私信息泄露。
订外卖、外出交通或与其他用户会面,必须将他们的位置发布到LBS 服务器,这些被收集的位置信息将有可能会暴露有关用户的一些基本信息,利用这些信息,广告商可以推送广告,犯罪分子也可能进行犯罪活动[2]。
用户一些敏感位置信息的泄露可能对其造成大量损失,保护用户的信息安全,建立安全有效的模型已经成为当前研究的重点。
关于LBS 隐私保护方案国内外已经有大量研究成果[3-6]。
Song 等人提出了一种基于双线性配对理论和k-匿名性的改进隐私保护方案,根据位置信息选择最佳假位置,从而实现隐私保护[7]。
随后,Zhang 等人提出了一种新的基于地理语义的位置隐私保护方法,同时满足k-匿名性,其中使用最大和最小距离多中心聚类算法构建候选集,并根据其语义相似性生成虚拟位置结果集[8]。
然而l-多样性和k-匿名的概念受到数据分布和背景知识攻击的极大限制,因此隐私保护的程度无法得到很好的保证。
除上述方法外,LBS 隐私保护结构主要包括位置树结构、马尔可夫模型和聚类。
位置树的主要思想是根据一定的规则构造树结构,引用前缀树和差分隐私来保护轨迹数据隐私,树的节点用于存储轨迹段[9]。
马尔可夫模型主要用于模拟用户实际位置之间的时间相关性,并根据每个位置的转移概率预测下一个可能的位置[10]。
聚类可以展现用户在一定时间内的活动规则,去除访问频率较低的位置,因此具有很高的灵活性。
Tareqd 等人提出了一种基于密度网格的在线数据流聚类方法,采用基于网格的方法来减少距离函数的调用次数,从而提高聚类质量[11]。
Sabarish 等人提出了一种基于图形的轨迹数据表示模型,使用基于边和顶点的测量方法计算轨迹之间的相似度,并基于路径对相似轨迹进行聚类和识别从而对位置隐私提供了隐私保障[12]。
一种改进的面向差分隐私保护的k-means聚类算法

算法语言
信息与电脑 China Computer & Communication
2019 年第 14 期
更新中心点的过程,具体步骤为如下。
Step1:初始化 k 个簇中心 C={c1,c2,…,ck};
Step2:分别计算原始数据集中的各个样本 xi 到各簇中心
的距离,将样本划分到与其距离最小的簇中心所对应的类 ci;
Gr A( D) ∈CA≤eε Gr A( D′) ∈CA
(1)
则称算法 A 提供 ε- 差分隐私保护,其中参数 ε 称为隐私
保护预算 [5]。
2 k-means 聚类算法中的隐私泄露
目的,即使攻击者掌握足够的背景知识(除目标记录外的信
k-means 聚类算法的原理是基于距离完成聚类,核心思
息),也无法通过背景知识间接推测目标信息,从而保证用 想是找到 k 个簇中心点,将数据集中的各数据点划分到聚类
保障用户隐私安全。人们往往采用数据匿名处理方法解决隐 合 GA,对于任意两个邻近数据集 D、D' 和 GA 的环境下,大数据平台具 CA,若算法 A 满足式(1),即:
有开放性,攻击者易通过平台获取攻击背景知识,即使攻击 者无法获取数据集中的目标信息,也可以通过背景知识间接 分析目标信息,达到窃取用户隐私信息的目的。此背景下, Dwork 提 出 了 差 分 隐 私(Differential Privacy,DP) 保 护 的 概念 [2]。其原理是通过数据添加噪声的方式达到保护隐私的
Key words: privacy protection; differential privacy; k-means; clustering algorithm
0 引言
数据隐私保护中的差分隐私技术研究进展

数据隐私保护中的差分隐私技术研究进展随着信息技术的快速发展,我们生活中产生的数据越来越多。
然而,数据的大规模收集和使用也引发了人们对个人隐私的担忧。
为了保护个人隐私,差分隐私技术应运而生。
本文将探讨数据隐私保护中的差分隐私技术的研究进展。
差分隐私技术是一种通过在数据处理过程中引入噪声来保护个人隐私的方法。
其核心思想是在对数据进行处理之前,对原始数据进行一定程度的扰动,以保护个人的隐私信息。
差分隐私技术在保护数据隐私的同时,也能保持数据的有效性和可用性。
近年来,差分隐私技术在数据隐私保护领域得到了广泛应用和研究。
首先,差分隐私技术在数据发布方面有了重要的突破。
传统的数据发布方法往往会暴露个人的敏感信息,而差分隐私技术通过引入噪声,可以在一定程度上保护个人的隐私。
例如,在医疗领域,研究人员可以利用差分隐私技术对患者的医疗数据进行处理,以便进行疾病研究,同时保护患者的隐私。
其次,差分隐私技术在数据分析领域也有了重要的应用。
在数据分析过程中,研究人员通常需要对大量的数据进行处理和分析。
然而,这些数据中可能包含了个人的隐私信息。
差分隐私技术可以通过引入噪声,使得数据分析结果不会泄露个人的隐私信息。
这为数据分析提供了更多的可能性,同时也保护了个人的隐私。
此外,差分隐私技术在机器学习领域也得到了广泛的研究和应用。
在机器学习中,模型的训练通常需要大量的数据。
然而,这些数据中可能包含了个人的隐私信息。
差分隐私技术可以在模型训练过程中引入噪声,以保护个人的隐私。
同时,研究人员也通过改进差分隐私技术,使得在保护隐私的同时,模型的准确性和效果也能得到保持。
然而,差分隐私技术仍然存在一些挑战和问题。
首先,如何确定合适的噪声大小是一个关键问题。
噪声大小的选择需要在保护隐私和保持数据有效性之间进行权衡。
其次,差分隐私技术在处理高维数据和复杂数据结构时面临着挑战。
如何在这些情况下有效地应用差分隐私技术是一个需要解决的问题。
此外,差分隐私技术的计算成本也较高,如何在保证隐私的同时提高计算效率也是一个研究方向。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
PINQ下K―means的差分隐私保护研究
摘要:差分隐私保护是Dwork提出的基于数据失真技术的一种新的隐私保护模型,由于其克服了传统隐私保护需要背景知识假设和无法定量分析隐私保护水平的缺点,近年来迅速成为隐私保护领域研究热点。
PINQ是最早实现差分隐私保护的交互型原型系统。
介绍了差分隐私保护相关理论基础,分析了PINQ框架的实现机制。
以PINQ中差分隐私保护下K-means聚类实现为例,研究了差分隐私在聚类中的应用。
仿真实验表明,在不同的隐私预算下,实现的隐私保护级别也不同。
关键词:K-means;数据失真;差分隐私;PINQ
DOIDOI:10.11907/rjdk.161175
中图分类号:TP309文献标识码:A文章编号:1672-7800(2016)006-0204-05
参考文献:
[1]周水庚,李丰,陶宇飞,等.面向数据库应用的隐私保护研究综述[J]. 计算机学报,2009,32(5):847-861.
[2]李杨,温雯,谢光强. 差分隐私保护研究综述[J].计算机应用研究,2012,29(9):3201-3205.
[3]MCSHERRY F. Privacy integrated queries[C].In Proc. ACM SIGMOD International Conference on Management of Data,
2009.
[4]MOHAN P,THAKURTA A,SHI E,et al. GUPT:privacy preserving data analysis made easy[C].Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. ACM,2012:349-360.
[5]ROY I,SETTY S T V,KILZER A,et al. Airavat:security and privacy for mapreduce[J]. Usenix Org,2010:297-312.
[6]DWORK C. A firm foundation for private data analysis[J]. Communications of the Acm,2011,54(1):86-95.
[7]DWORK C,MCSHERRY F,NISSIM K,et al. Calibrating noise to sensitivity in private data analysis[M]. Theory of Cryptography,Springer Berlin Heidelberg,2006:265-284.
[8]FRIEDMAN A,SCHUSTER A. Data mining with differential privacy[C].Acm Sigkdd International Conference on Knowledge Discovery & Data Mining,2010:493-502.
[9]MCSHERRY F D. Privacy integrated queries:an extensible platform for privacy-preserving data analysis[J]. Proc,2011(1):26-30.
[10]BLUM A,DWORK C,MCSHERRY F,et al. Practical privacy:the sulq framework[J]. In PODS ’05:Proceedings of the twenty-fourth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems,2005(6):128-138.
[11]DWORK C. A firm foundation for private data analysis[J]. Communications of the Acm,2011,54(1):86-95.
[12]STEINBACH M,GEORGE. Karypis and vipin kumar 2000,a comparison of document clustering techniques[J]. Kdd Workshop on Text Mining,2000(3):123-130.
[13]李杨,郝志峰,温雯,等. 差分隐私保护k-means 聚类方法研究[J]. 计算机科学,2013,40(3):287-290.
[14]张啸剑,王淼,孟小峰. 差分隐私保护下一种精确挖掘top-k频繁模式方法[C].第30届中国数据库学术会议,2013.
[15]熊平,朱天清,金大卫. 一种面向决策树构建的差分隐私保护算法[J]. 计算机应用研究,2014,31(10):3108-3112.
[16]ANIL K,JAIN. Data clustering:50 years beyond
K-means [J]. Pattern Recognition Letters,2010,31(8):651-666.。