社会网络中基于集合枚举树的k匿名方法
社会网络中基于集合枚举树的k匿名方法
优先出版 计 算 机 应 用 研 究 第32卷--------------------------------基金项目:国家自然科学基金(61170121)作者简介:卢惠林(1962-),男,黑龙江哈尔滨人,硕士,研究员级高工,主要研究方向为社会网络、数据挖掘、传感网以及数据库等.社会网络中基于集合枚举树的k 匿名方法卢惠林1, 2(1.哈尔滨工业大学 计算机学院 黑龙江 哈尔滨 150001;2.金陵科技学院 计算机学院,江苏 南京 211169) 摘 要:K 匿名方法是一种重要的数据隐私保护方法。
在应用k 匿名方法保护社会网络中用户的隐私时,现有的方法对社会网络的结构进行匿名化处理,当攻击者了解了网络的文本信息后可以很容易识别出用户的身份等隐私信息。
为此,本文提出一种包含结构和文本的k 匿名方法。
该方法在采用传统的节点度匿名化的基础上,将社会网络中的文本信息分成不同的值域,对每一个值域构建一个全局的层次结构树,对所有的值域采用集合枚举树来优化文本标记泛化时的信息丢失,并针对集合枚举树的特征提出了三种剪枝方法。
实验表明,本文提出的k 匿名方法在实现了社会网络的结构和文本匿名化的同时具有较低额开销。
关键词:社会网络;k 匿名;隐私保护;剪枝策略 中图分类号:TP391 文献标志码:ASet-enumeration tree based k -anonymity approach in social networksLU Hui-lin 1 2(1. School of Computer Science & Technology, Harbin Institute of Technology, Harbin 150001, China; 2. School of Computer Science & Technology, Jinling Institute of Technology, Nanjing 211169, China )Abstract: k -anonymity is an important approach for protecting users’ privacy. While protecting user’s privacy in Social Networks, current approaches usually anonymize the structure of Social Networks, and when attackers know more about the text of network, they can easily recognize users’ identification. In order to solve this problem, this paper proposes a k -anonymity approach containing both structure and text in a Social Network. Based on traditional k-anonymity approach for structure, the proposed approach classifies text in edges into different domains, constructs a global hierarchy tree for each domain, applies set-enumeration tree for all domains to optimize the information loss while generating text notations, and proposes three pruning strategies according to attributes of the set-enumeration tree. The experiments show that, the proposed k -anonymity approach has low execution cost while implementing the k -anonymity approach containing structure and text in Social Networks. Key Words: social network; k -anonymity; privacy protection; pruning strategy0 引言随着在线社会网络的发展,服务提供商收集了大量的用户社会网络信息,这些信息包括用户画像,用户间的连接关系及内容[1]。
基于并行聚类的物联网k-匿名算法
( S c h o o l o f C o mp u t e r a n d E l e c t r o n i c I n f o r ma t i o n , Gu a n g x i U iv n e r s i t y , N a n n i n g 5 3 0 0 0 4 ,C h i n a )
c l u s t e r e d i n p a r a l l e l s u c h t h a t t h e d a t a or f mu l t i p l e n o d e s a r e c o n t a i n e d i n t h e e q u i v a l e nc e c l a s s ,t he d a t a wi t h s p e c i i f c l o c a t i o n i n f o r ma t i o n wi l l b e d i v i d e d i n t o d i f f e r e n t e q u i v a l e n c e c l a s s e s t o f u z z y t h e i r s p e c i ic f l o c a t i o n i n f o r ma t i o n, t he l a b e l l a y o u t c h a r a c t e r i s t i c s i s e l i mi n a t e d, a n d a k - a n o n y mi t y a l g o r i h m f t or pr i v a c y p r o t e c t i o n i n I n t e r n e t o f hi t n g s i s d e s i g n e d . Th e e x p e r i me n t a l r e s u l t s s h o w t h a t he t p r e s e n t e d a l g o r i t hm c a n e f f e c t i v e l y pr o t e c t t he p r i v a c y o f d a t a a n d i mp r o v e d a t a s e c ur i t y i n p r e mi s e o f e n s u in r g d a a t a v a i l a b i l i t y i n[ n t e r n e t o f t h i n g s .
基于两次聚类的k_匿名隐私保护
子集 Q I = ( A i1 , …, A ik ) ( 1 ≤ i1 < … < ik ≤ n ) , 这些属性与外部信息连接能标识隐私信息 。
i m ≤ n ) , 如果对 T 中的任一元组 t, 都至少存在其他的 k - 1 个元组 t 1 , …, tj ( j ≥ k - 1 ) 在 Q I 上与 t具有
174
吉 林 大 学 学 报 (信 息 科 学 版 )
第 27 卷
取。 基于上述想法 , 笔者提出了一种通过两次聚类实现 k 2 匿名的隐私保护方法 。为了度量准标识符对 敏感属性的影响 , 提出了影响矩阵的概念 ; 研究了基于影响矩阵的背景知识聚类算法 ( C luB K: C luste2 ring of B ackground Know ledge ) ; 提出了 k 2 匿名聚类算法 ( C luKA: Clustering for k 2 Anonym ity) , 将准标识 符对敏感属性影响相近的元组进行聚类 , 以达到 k 2 匿名效果 ; 在公开数据集上进行了测试 , 结果表明 , 该法具有良好的隐私保护效果 。
Abstract: k 2anonym ity is a current hot spot for p rivacy p reservation. The existing k 2anonymous methods ignored the quasi2identifier’ s different influences on the sensitive attributes and clustered the tup les only, which caused much information loss while publishing the data. To cope w ith this p roblem , a novel k 2anonym ity via t w ice clus2 tering and the concep t of influence matrix to exp ress the quasi2identifier’ s influences on different sensitive at2 tributes are p roposed. The clustering techniques over influence m atrix are investigated and the tup les w ith near influences on the sensitive attributes are clustered to achieve k 2anonym ity . The experim ental results show that the p roposed methods are effective and feasible to p rivacy p reservation. methods have less average equivalence class size and less run tim e. Key words: k 2anonym ity; p rivacy p reservation; data security; clustering Compared w ith basic k 2anonym ity, the
K-匿名隐私保护相关技术的研究
K-匿名隐私保护相关技术的研究【摘要】在数据发布领域,k-匿名技术是一种简单有效的隐私数据保护技术。
因此国内外专家学者们对匿名化技术开展了广泛深入的研究工作以寻求防止或减少隐私泄露的有效方法。
本文根据已有的一些研究结论,阐述了匿名化技术的一般概念、匿名化原则、匿名化方法和匿名化度量等方面,并且介绍了两种经典的匿名化算法。
【关键词】数据发布;匿名化技术;k-匿名1.引言计算机处理能力、存储技术及网络技术的快速发展,信息技术在组织中发挥的作用日益增加,一方面,使得信息共享较之以前来得更为容易和方便,以数据库为基础的应用系统成为经济、金融、医疗等领域的信息基础设施,大大地提高了组织的信息化程度;但是另一方面,这也使得数据库系统面对更多的安全威胁,随之产生的隐私信息泄露现象屡见不鲜,越来越多的因故意或疏忽造成的数据泄露的例子,使人们对数据库中的隐私保护问题日益重视。
信息化过程中如何在实现有效的信息共享的同时,有效地保护私有敏感信息不被泄漏,已成为信息安全领域一个活跃的研究方向。
Cox在1980年最先提出使用匿名的方法实现隐私保护,1986年Dalenius在针对人口普查记录集的隐私保护应用了匿名技术。
自从匿名化概念提出以来,很多国内外的学者对匿名化技术开展了广泛的研究。
例如L.Sweeney提出了一种用来保护私有信息的k-匿名模型[1]。
Ji-Won Byun,Ashish Kamra,Elisa Bertino,and Ninghui Li在2007年提出了基于聚类的高效k-匿名话算法[2]。
在这篇文章中提出,k-匿名问题不需要有簇的数量的限制,但是每个簇中至少含有k条记录,所以,提出可以把k-匿名问题当作聚类问题,被称为k-member clustering problem。
现在生活中,人们都很注重隐私保护,尤其像是在医院和银行这种场合,大多数人可能并不愿意让别人知道自己的具体情况,所以怎样既可以做到不泄漏个人的隐私,又可以利用医院和银行中的个人信息做科学研究,这种问题正是我们研究匿名发布信息的重要意义所在。
一种新型k匿名隐私保护算法
wi e a aged ts t. ec o eb s q i ln eca sfre c tpl d e a d l i d i o m ain ls.W eu e t s r llr aa es W h s e te uvae c ls o a h ea d d n i t r to o s h i u m e nf sd
A b tac:I i p 5w eddrs ac o rv c rtcini aa esp bl h d W ea ay e lsi -no y i s r t nt s h pa e i e rhf r i a yp oe t d ts t u i e . n lz dca sck a n m t e p o n s y
第2 次 计 机 全 术 流 《 皇 / 2 2 第 8 7 全国 算 安 学 交 会 § / ( 年 0 】 1 期
■ d i1 9 9js n1 7 —1 2 2 1 80 9 o : 03 6 / i 6 11算法
刘 斐 , 樊华 ,金 松 昌 , 贾焰
(国防科技 大 学计 算机 学院 , 湖南长 沙 4 0)3) 1{ 7
摘 要 :文章针 对公 开数据 集上 的 隐私数据保 护展 开研 究 ,分析 了经典 的 k匿名 算法在 处理连 续发 布的
数 据 集时存在 的不 足 ,在 新的应 用场 景下 对其进行 改进 。文章 提 出的算 法通过 增量 式的数据 处理技 术减 少了
LI F i F U e 。 AN a JN o g c a g JA n Hu , I S n —h n , I Ya
( c o l C m u r c neN t n l n esy f e neT h o g, hn s a u a 10 3 C i S h o o o p t S i c, ai a U i r t o D f s e n l yC ag h H n n4 0 7, h a) f e e o v i e c o n
k-匿名算法
k-匿名算法30 November 201918:31⼈类历史上,除了计算机外从没有⼀项技术可以在短短的⼏⼗年间,能够全⽅位的影响整个社会的各个领域。
技术的发展,少不了许多代⼈为之的努⼒。
⽆论是在计算机硬件上,还是在实现的算法上,这其中有着⼤量⾮常精巧的设计,在后⾯的⽂章中,将会不定期的把这些知识展现出来。
这次介绍⼀个在隐私保护领域常⽤的模型,K-匿名。
背景随着⼤数据分析技术的迅猛发展,研究者以及各个商业公司迫切的需要从⼤数据中挖掘出有价值的信息。
要想从⼤数据中挖掘信息,⾸先要有⾜够的可公开的数据,但是当⼤规模数据拥有者⽐如医院、政府、⼤数据公司等,对外发布数据时,不可避免的会涉及到公民的隐私问题。
如果最⼤限度的保护公布数据的统计特征,⼜不泄露公民的隐私显得格外重要。
分析表1是某医院数据库中存储的⼀张病历表。
⼀共有7个属性,分别为⽤户识别号tId、姓名name、省份province、年龄age、性别sex、所患疾病disease、邮编zip。
表1 医院病历表这⼀张表医院是不能直接⽤于发布出去的,⾄少也要把病⼈的姓名删掉然后再发布。
在这张表⾥,病⼈的姓名是病⼈的标识符,如果有⾝份证号的话,也是属于标识符。
标识符就是能够唯⼀标识病⼈⾝份的属性。
对于标识符通常采⽤的是隐匿处理的⽅式(删除、屏蔽或加密)。
那么我们假设医院将表1进⾏了发布,为了保护病⼈的隐私,将姓名这⼀属性删除掉了。
在这张表⾥,除了有标识符外,还有⼀些属性是准标识符。
准标识符指的是那些介于标识符与⾮敏感属性之间的⼀些属性,这些属性通过与其它的数据表进⾏结合(链接攻击),也能够识别出病⼈的具体信息。
在表1中姓名、省份、年龄、性别、邮编都可以看成准标识符。
链接攻击链接攻击是从发布的数据中获取隐私信息最常⽤的攻击⽅法。
攻击者利⽤从别处获得的数据,和本次发布的数据进⾏链接,从⽽推测出病⼈的隐私信息。
例如,攻击者从别处获得了该区域的选民信息表。
该选民信息表中并没有涉及个体的隐私信息。
基于K-匿名技术的隐私保护研究
论文作者签名:
日ቤተ መጻሕፍቲ ባይዱ:
年
月
日
指导教师签名:
日期:
年
月
日
杭州电子科技大学硕士学位论文
摘
要
随着电子信息技术、数据挖掘技术以及移动定位技术的发展,同时获取大量的信息成为 了可能。但人们在享受随意搜寻信息服务的同时,也面临着自身隐私泄露的危险。K- 匿名 (K-anonymity)技术作为数据与位置隐私保护的一种常用技术,能满足数据发布以及位置服务 (Location-based Service,LBS)中的隐私保护需求。在数据发布中,K-匿名技术通过牺牲原 始数据的质量来换取对数据隐私的保护;在位置服务中,K-匿名技术通过模糊化用户的位置 信息来达到隐私保护的目的。一个性能优异的 K-匿名算法能避免用户在数据发布、位置服务 中因隐私泄露而遭受到不必要的损失,因此,研究 K-匿名技术具有重要的理论价值及实际意 义。 论文围绕 K-匿名技术,从数据发布与位置服务的隐私保护两个方面展开研究,深入分析 了现有的 K-匿名技术以及 K-匿名技术可能存在的攻击,并在此基础上提出两个新的 K-匿名 算法,所做的主要工作以及成果具体如下: 1. 详细介绍 K-匿名技术的概念、特点、可能存在的攻击、研究现状以及研究热点,并 对 K-匿名技术的常用实现方法以及常用的匿名性度量的方法做了深入研究。 2. 在研究最大距离平均向量(Maximum Distance Average Vector,MDAV)算法的基础 上,提出了一种适用于动态数据发布的隐私保护算法,解决了传统匿名算法不适用于动态数 据发布场景的问题。 该算法继承了 MDAV 算法以距离为导向的思想。文章给出了非数值属性 间距离的具体计算方法,并通过计算出的距离大小来衡量属性间相似程度的强弱。在计算距 离的过程中,不仅考虑了属性间的层次关系,还考虑到属性在整个数据集出现的频度特性, 这些考虑能从整体上较好地衡量非数值属性间的联系。 3. 针对传统位置匿名方法中存在的查询结果不精确、通信开销较大等不足,提出了一种 基于分散子匿名区域的位置隐私保护算法,算法将一个传统的匿名区域分散成几个分散的子 匿名区域,并用子匿名区域的中心代替子匿名区域内用户的真实位置来向服务器发起查询服 务。与传统的匿名方法相比,该匿名方法能得到精确的查询结果并且能较大程度地减小通信 量。 4. 采用熵理论对提出的位置匿名算法进行评估。 以用户隐私泄露的概率为事件发生的概 率,计算出熵,使用计算出的熵来衡量算法的隐私保护程度,熵值越大,则隐私保护程度越 高。 关键词:K-匿名,位置服务,熵,微聚集,隐私度
基于节点分类的k度匿名隐私保护方法
2020 年 3 月March 2020第46卷第3期Vol. 46 No. 3-网络空间安全-计算机工程CompuWr Engine e nng文章编号:1000-3428(2020)03-0138-06文献标志码:A中图分类号:TP393基于节点分类的k 度匿名隐私保护方法金叶,丁晓波,龚国强,吕科(三峡大学计算机与信息学院,湖北宜昌443002)摘要:针对传统k 度匿名隐私保护方法严重破坏图结构和无法抵抗结构性背景知识攻击的问题,提岀改进的k 度匿名隐私保护方法#引入社区的概念,将节点划分为社区内节点和连接社区的边缘节点两类,通过区分不同节点的重要 性,实现社区内节点的度匿名和边缘节点的社区序列匿名,从而完成整个社交网络的k 度匿名#实验结果表明,该方法可降低数据实用性损失,抵抗以节点的度和节点所在社区关系为背景知识的攻击,提升隐私保护力度# 关键词:社交网络;隐私保护;边缘节点;k 度匿名;社区开放科学(资源服务)标志码(OSID ):中文引用格式:金叶,丁晓波,龚国强,等.基于节点分类的k 度匿名隐私保护方法:J ).计算机工程,2020,46 ( 3 ):138-143.英文引用格式:JIN Ye ,DING Xiaobo ,GONG Guoqiang ,c t al. Privacy pro*c/on method for k de g rec anonymity base don nodc classification ( J ] . Compu*r Enginecring ,2020,46 (3 ) : 138-143.Privacy Protection Method for k Degree Anonymity Based on Node ClassificationJIN Ye ,DING XOobo ,GONG Guoqwng ,LU Ke( Co l g of Comput r and Information T chnology , ChinaThr Gorg sUniv rsity , Yichang , Hub i 443002, China )+ Abstract] Existing k dc g rec anonymous privacy pro*ction methods usu/ly damage the graph stmcture significantly and cannot m t i st structural background knowledge attacks. To addre t s the problem ,this paper propose t an improved k de g re c anonymous privacy protction m thod.Th m thod introduc sth conc pt of community , and divid snod sinto two typ s which including nod sin th community and dg nod s that conn ct communiti s. Th importanc ofnod sis di f r ntiat d , and th d gr anonymity ofth nod sin th community and th community s qu nc anonymity ofth c d gc node t are impOmc n /d ,thereb y the k de g re c anonymity of the c n tire social ne t work O completed. Exp e r i me n t ai re s uits show that the proposed method re d ucc t the prac/cal los s of data ,and can re t i st attacks that take node degrec and community relationship as background knowledge. Thus ,privacy pro*ction it enhanced.+ Key words ] social network ; privacy protection ; edge node ; k degree anonymity ; community DOI : 10. 19678/j. issn. 1000-3428.00544070概述随着互联网技术的发展,许多移动应用系统和 线上交流平台不断出现,形成多种类型的社交网络, 如微信、QQ 、新浪微博、Facebook 、Twiker 等⑴,这些 社交平台拥有上亿的用户并产生海量数据,通过对 网络中产生的海量数据分析和研究,可以识别出人 们的身份、联系方式等隐私信息,因此针对社交网络 数据的保护已经变得至关重要(2]。
一种基于分类器的社交网络去匿名方法
点 匹配问题 ,然后把 网络 结构 的特征 ( 如节点度 中心性 、 中介 中心性、亲近 中心性 、特征 向量 中心性 )作为节点特征
向 量训 练 分 类 器 。最 后 ,根 据 训 练 后 分 类 器 的判 定 结 果 , 方 法 实现 两 个 网络 节 点 间 的 匹 配 , 完成 了去 匿名 测 试 过 程 。
用于其它类型 的社交 网络 ;其次 ,还有工作【 7 对 者是 否属 于 同一节 点 ,从 而实 现社 交 网络 节点 去 匿 于攻击者的先验知识要求较高,如假定攻击者事先 名化过 程 。
[ 收 稿 日期 】2 0 1 7 — 9 — 3 0
[ 基 金项 目]广东省 自然 基金资助项 目 ( 2 0 1 5 A 0 3 0 3 1 0 4 9 2);深圳 市基础研究项 目 ( J C Y J 2 0 1 6 0 3 0 1 1 5 2 1 4 5 1 7 1 );河 南省科技厅科技攻
( 1 . 深圳信息职业技术学 院计算机学院, 广东 深圳 5 1 8 1 7 2 ;2 . 解放军信息工程大学数学工程与先进计算国家重点实验室 ,
河南 郑州 4 5 0 0 0 1 ;3 .  ̄ P g ' l ' l 轻工业学 院计 算机与通信工程学院 ,河南 郑州 4 5 0 0 0 2)
摘 要 : 为保 护 社 交 网络 用 户 隐私 ,验 证 社 交 网络提 供 商 对 社 交数 据 进 行 匿 名保 护 的 有 效性 , 本 文提 出 了一 种 基
于 随机 森 林 分 类 器的 社 交 网络 去 匿名 方 案 。首 先 , 方 法将 社 交 网络 的 去 匿 名 问题 转 化 为辅 助 网络 与 匿名 网络 之 间的 节
文献 标 识 码 :A
K匿名的隐私保护算法的初步学习
K匿名的隐私保护算法的初步学习一.LBS先看看什么是LBSoLBS是基于位置的服务,它是通过电信移动运营商的无线电通讯网络(如GSM 网、CDMA网)或外部定位方式(如GPS)获取移动终端用户的位置信息(地理坐标,或大地坐标),在地理信息系统(外语缩写:GIS、外语全称:Geographic Information System)平台的支持下,为用户提供相应服务的一种增值业务。
(百度百科)LBS的作用是根据无线信号或有线网络对用户位置进行确定,并提供相应服务。
可以举几个例子:1. 例如我在秦皇岛和太原因为上学和放假的原因而变换了上网环境,上网的IP(不管是静态动态IP还是拨号),网上的天气预报会改变预报的城市,百度推送的广告(有关位置的)会相应改变,qq登陆会显示异地登陆等等。
2. 打开手机地图类的APP,能够得到“我的位置”的信息,如果GPS是开着的,一般定位比较准确,否则可能有偏差,例如你在街道上,显示你的位置在附近一个建筑物里,通常是你连接了这栋楼的基站得到的反馈。
问题在于位置信息在LBS下容易泄露,对个人的隐私造成危害。
所以要对地址信息进行加密,最好的方法就是使用虚拟位置信息,但是虚拟位置信息的生成有一些问题,例如用于生产虚拟位置的服务器被控制,或者生成虚拟位置的规则不合适,生成的位置在山脉,湖泊,河流等等不符合逻辑的位置, 可以被简单的规则过滤掉等。
二.K•匿名2.1数据挖掘带来的挑战随着Internet技术、大容量存储技术和数据处理技术的迅猛发展以及数据共享范围的逐步扩大,数据的自动收集和发布越來越方便。
然而,在数据发布过程中隐私泄露问题也日益突出,因此实施隐私保护就显得尤为重要。
数据发布中隐私保护对象主要是用户敏感数据与个体身份之间的对应关系。
通常使用删除标识符的方式发布数据是无法真正阻止隐私泄露的,攻击者可以通过链接攻击获取个体的隐私数据。
我曾经学习了部分机器学习的算法,例如SVM,可以根据挖掘到一个人的信息,将每一个信息作为一个维度,在大量数据的情况下,可以学习出分割函数,建立超平面,从而进行分类,将其归入某一类人里。
基于珂朵莉树算法的数据匿名技术研究
基于珂朵莉树算法的数据匿名技术研究数据匿名技术是一项可以保护个人隐私的重要技术,它的应用范围广泛,包括医疗、金融、电商等领域。
而在实际应用中,我们常常需要对数据进行处理,如去重、聚合、分组等操作,这些操作可能会导致数据的敏感信息暴露,因此需要采取一定的数据匿名化技术来保护数据的隐私。
其中,珂朵莉树(K-D Tree)算法是一种十分重要的数据结构和算法,在数据匿名化技术中也得到广泛应用。
这篇文章将从珂朵莉树算法的原理入手,逐步介绍基于珂朵莉树算法的数据匿名技术。
一、珂朵莉树算法原理珂朵莉树,又称K-D Tree,是一种多维数据结构,用于对数据进行高效的检索操作。
它是一种二叉搜索树(Binary Search Tree)的变种,以二维空间为例,每个节点代表一个矩形区域,左子树代表左下方区域,右子树代表右上方区域。
珂朵莉树的构建过程非常简单,具体步骤如下:1. 选择一个数据维度作为分割维度。
2. 计算数据在这个维度上的中位数,以此中位数为分割平面,将数据分成两个子集。
3. 递归构建左子树和右子树,每次选择不同的分割维度,直到数据中只剩下一个元素。
当需要对数据进行检索时,珂朵莉树可以高效地定位到包含目标数据的节点,从而快速找到目标数据。
珂朵莉树有一些具有优化性质的变体,比如球树、RKD树等,它们针对不同的应用场景有不同的优劣之处。
二、数据匿名化技术数据匿名化技术是指在保持数据有效性的前提下,对数据进行一定程度的扰动和转换,以达到对原始数据进行隐私保护的目的。
对于数据匿名化技术,我们常见的有一些方法,如一致性哈希算法、拉普拉斯噪声算法、差分隐私算法等,它们在不同的场景下有着不同的应用。
其中,基于珂朵莉树算法的数据匿名化技术是一种非常有效的方法,它可以有效地减小数据扰动的误差,同时保护数据的隐私。
三、基于珂朵莉树算法的数据匿名化技术研究在基于珂朵莉树算法的数据匿名化技术中,我们通常采用的是采样加密法,它可以将原始数据按照一定规则映射到珂朵莉树上,然后对映射后的数据进行采样和加密处理,最后输出扰动后的数据结果。
社交网络中的社群发现算法综述与分析
社交网络中的社群发现算法综述与分析社交网络的兴起为人们提供了交流、分享和交互的平台,使得社交网络成为了人们日常生活中不可或缺的一部分。
然而,随着社交网络的迅速发展和用户规模的增加,社交网络中的信息过载和社群发现问题变得日益复杂和关键。
社群发现是指在社交网络中识别出具有一定内在联系和共同特征的群体或者社群。
社群发现算法能够帮助我们理解社交网络中的群体结构、发现潜在的社交关系和揭示隐藏的信息。
本文将对社交网络中的社群发现算法进行综述和分析,从传统方法到最新的进展进行探讨。
1. 节点聚类方法节点聚类方法是社群发现算法中最常用的方法之一。
该方法基于节点之间的相似度或者距离度量,通过将相似的节点聚类在一起来发现社群。
其中,谱聚类算法是一个经典的节点聚类方法,该算法利用图论中的拉普拉斯矩阵对节点进行聚类,能够较好地发现社群和噪声节点。
另外,基于密度的聚类算法,如DBSCAN算法、OPTICS算法等也被广泛应用于社群发现中。
2. 边界划分方法边界划分方法是另一类常用的社群发现算法。
该方法通过划定社群(社区)的边界,将网络划分为若干个不相交的社群。
其中,Girvan-Newman算法是一个经典的边界划分算法,该算法通过不断删除网络中的边来寻找最优的划分,但该算法计算复杂度较高。
另外,基于模块性的社群发现算法,如Louvain算法,在大规模网络中具有较高的效率和可扩展性。
3. 层次聚类方法层次聚类方法将社群发现问题转化为树的切分问题,将网络分层表示,以便捕捉社群结构的层次性。
经典的层次聚类算法包括谱分裂算法和自底向上的凝聚层次聚类算法。
这些算法能够从不同的层次上发现社群,使得社群结构更加清晰。
4. 基于优化的方法基于优化的方法通过定义特定的目标函数来发现社群结构,使得社群内连边紧密,社群间连边稀疏。
其中,模块性最大化算法是一种经典的基于优化的方法,该算法通过优化网络的模块性指标来划分社群。
此外,一些启发式算法,如遗传算法、蚁群算法等也被应用于社群发现中。
K均值算法在社交网络分析中的使用教程
K均值算法在社交网络分析中的使用教程社交网络分析是一种通过分析人们在社交网络上的行为和关系来提取有用信息的方法。
在这个信息爆炸的时代,社交网络分析变得越来越重要。
K均值算法是一种无监督学习算法,可以用来对社交网络中的用户或者群体进行分类和聚类。
本文将介绍K均值算法在社交网络分析中的使用方法。
一、数据收集与准备首先,我们需要收集社交网络数据。
这些数据可以是用户之间的关系,比如好友关系、关注关系等,也可以是用户的行为数据,比如发帖、评论、点赞等。
收集到数据后,我们需要对数据进行清洗和预处理,去除不必要的信息,处理缺失值和异常值。
二、特征选择与提取在进行K均值算法之前,我们需要选择合适的特征来描述用户或者群体。
在社交网络分析中,常用的特征包括用户的社交行为、兴趣爱好、地理位置等。
特征选择的好坏直接影响到算法的效果,因此需要认真对待。
三、算法实现与调参接下来,我们可以使用Python或者R等编程语言来实现K均值算法。
在实现算法的过程中,需要注意参数的选择和调整。
K均值算法中的K值选择对结果的影响非常大,需要经过多次实验来选择合适的K值。
四、聚类结果分析当算法运行结束后,我们可以对聚类的结果进行分析。
通过对不同类别的用户或者群体进行比较,可以得到一些有意义的结论。
比如,哪些用户更容易成为“意见领袖”,哪些群体更有影响力等。
五、优缺点及改进最后,我们可以对K均值算法在社交网络分析中的使用进行总结。
K均值算法的优点是简单易用,计算速度快,适用于大规模数据;缺点是对初始值敏感,对异常值敏感,聚类数K需要预先指定。
在实际应用中,可以结合其他算法来改进K 均值算法的效果。
总之,K均值算法在社交网络分析中有着广泛的应用前景。
通过合理的数据收集和特征选择,以及合适的参数调整和结果分析,可以得到对社交网络有用的信息。
希望本文对K均值算法在社交网络分析中的使用有所帮助。
基于两次聚类的k-匿名隐私保护
基于两次聚类的k-匿名隐私保护
李太勇;唐常杰;吴江;周敏
【期刊名称】《吉林大学学报(信息科学版)》
【年(卷),期】2009(027)002
【摘要】已有的k-匿名方法忽视了准标识符对不同敏感属性的影响且只考虑了对元组本身的聚类,在数据发布时造成了较大的信息损失.为此,提出一种通过两次聚类实现k-匿名的隐私保护方法.给出了影响矩阵的概念,用来描述准标识符对敏感属性的影响,研究了影响矩阵聚类技术,对敏感属性影响相近的元组进行聚类,实现k-匿名效果.实验验证结果表明,该方法具有良好的隐私保护效果,相对于基本k-匿名方法,该方法具有更小的平均等价类大小和更少的运行时间.
【总页数】6页(P173-178)
【作者】李太勇;唐常杰;吴江;周敏
【作者单位】西南财经大学,经济信息工程学院,成都,610074;四川大学,计算机学院,成都,610065;四川大学,计算机学院,成都,610065;西南财经大学,经济信息工程学院,成都,610074;四川大学,计算机学院,成都,610065;中国民航飞行学院,计算机学院,四川,广汉,618307
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.FVS k-匿名:一种基于k-匿名的隐私保护方法 [J], 王良;王伟平;孟丹
2.基于时空K-匿名的隐私保护持续改进DLP算法研究 [J], 谢奇爱
3.基于k-匿名的隐私保护计算卸载方法 [J], 赵星;彭建华;游伟;陈璐
4.基于约束聚类的k-匿名隐私保护方法 [J], 吴梦婷;孙丽萍;刘援军;胡朝焱;赵延年;罗永龙
5.基于博弈论与区块链融合的k-匿名位置隐私保护方案 [J], 杨少杰;郑琨;张辉;张光华
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于分类器的社交网络去匿名方法
一种基于分类器的社交网络去匿名方法胡光武;张平安;马江涛【摘要】为保护社交网络用户隐私,验证社交网络提供商对社交数据进行匿名保护的有效性,本文提出了一种基于随机森林分类器的社交网络去匿名方案.首先,方法将社交网络的去匿名问题转化为辅助网络与匿名网络之间的节点匹配问题,然后把网络结构的特征(如节点度中心性、中介中心性、亲近中心性、特征向量中心性)作为节点特征向量训练分类器.最后,根据训练后分类器的判定结果,方法实现两个网络节点间的匹配,完成了去匿名测试过程.利用真实的学术社交网络数据进行了方案评估,结果表明本文提出的方法优于已有方案,在0.5%假阳性率的情况下仍能实现81%的社交网络节点去匿名化效果.【期刊名称】《深圳信息职业技术学院学报》【年(卷),期】2017(015)003【总页数】6页(P6-11)【关键词】社交网络;去匿名;节点匹配;社交网络结构【作者】胡光武;张平安;马江涛【作者单位】深圳信息职业技术学院计算机学院, 广东深圳 518172;深圳信息职业技术学院计算机学院, 广东深圳 518172;解放军信息工程大学数学工程与先进计算国家重点实验室, 河南郑州 450001;郑州轻工业学院计算机与通信工程学院,河南郑州 450002【正文语种】中文【中图分类】TP311.13社交网络(Social Network,SN),如新浪微博、人人、Facebook等每天产生了用户大量的真实数据,包括用户简介、好友关系以及日常生活细节等。
因此社交网络数据常被第三方获取,用于精准营销、学术研究以及公开竞赛[1-3]等活动。
用户真实数据被利用的现象频发,引发了公众对社交网络提供商泄露用户隐私的担忧。
尽管社交网络提供商向第三方发布社交数据时,通常会简单地消除用户ID等信息,然而这些操作对于保护用户的隐私还远远不够[4]。
因此,社交网络提供商发布社交网络数据之前的隐私保护方法,引起了研究人员和社交网络供应商的极大关注[5]。
基于k-度匿名的社会网络隐私保护方法
基于k-度匿名的社会网络隐私保护方法龚卫华;兰雪锋;裴小兵;杨良怀【摘要】针对当前社会网络的匿名化隐私保护方法存在信息损失量巨大、网络关系结构被改变严重等问题,提出一种保持网络结构稳定的k-度匿名隐私保护模型SimilarGraph,运用动态规划方法对社会网络按照节点度序列进行最优簇划分,然后采用移动边操作方式重构网络图以实现图的k-度匿名化。
区别于传统的数值扰乱或图修改如随机增加、删除节点或边等方法,该模型的优势在于既不增加网络边数和节点数,也不破坏网络原有连通性和关系结构。
实验结果表明,SimilarGraph匿名化方法不仅能有效提高网络抵御度属性攻击的能力,并且还能保持网络结构稳定,同时具有较理想的信息损失代价。
%To preserve the privacy of social networks,most existing methods are applied to satisfy different anonymity models,but some serious problems are involved such as often incurring large information losses and great structural modifi-cations of original social network after being anonymized.Therefore,an improved privacy protection model called Similar-Graph is proposed,which is based on k-degree anonymous graph derived from k-anonymity to keep the network structure sta-ble.Where the main idea of this model is firstly to partition network nodes into optimal number of clusters according to de-gree sequences based on dynamic programming,and then to reconstruct the network by means of moving edges to achieve k-degree anonymity with internal relations of nodes considered.To differentiate from traditional data disturbing or graph modif-ying method used by adding and deleting nodes or edges randomly,the superiority of ourproposed scheme lies in which nei-ther increases the number of nodes and edges in network,nor breaks the connectivity and relational structures of original net-work.Experimental results show that our SimilarGraph model can not only effectively improve the defense capability against malicious attacks based on node degrees,but also maintain stability of network structure.In addition,the cost of information losses due to anonymity is minimized ideally.【期刊名称】《电子学报》【年(卷),期】2016(044)006【总页数】8页(P1437-1444)【关键词】社会网络;隐私保护;k-度匿名;信息损失【作者】龚卫华;兰雪锋;裴小兵;杨良怀【作者单位】浙江工业大学计算机科学与技术学院,浙江杭州310023;浙江工业大学计算机科学与技术学院,浙江杭州310023;华中科技大学软件学院,湖北武汉430074;浙江工业大学计算机科学与技术学院,浙江杭州310023【正文语种】中文【中图分类】TP309.2近年来,社会网络的流行已深刻地改变了人们的日常生活和交流方式,国内外著名社交网站如Facebook、QQ、人人网等注册用户数量不断攀升,以Facebook为例,用户总数在2013年已突破10亿,其中包含1500亿条朋友链接,这些社会网络数据蕴含巨大的商业价值和应用前景,例如可促进广告、游戏、零售等业务迅速增长.然而,人们在使用基于社会网络的应用同时面临着严重的隐私信息泄露和恶意攻击问题.因此,研究社会网络的隐私保护技术显得尤为重要.社会网络属于复杂网络的研究范畴,关注的是社会个体及个体间的互动和联系,同样具有“小世界”现象和幂律分布特征[1~3],但这使得社会网络所包含的2类重要隐私信息(节点属性数据和关系数据)极易遭受节点度攻击、链接攻击等结构化攻击.目前针对社会网络的隐私保护问题已取得一些研究成果,如从节点属性数据角度出发的隐私保护类似于数据发布研究中的隐私保护方法[4~6],侧重保护标识或敏感属性如姓名、电话、地址等,常采用已比较成熟的数据泛化[7~10]、扰动[5,11]或添加噪声节点[12]等方法.而针对关系数据的隐私保护则是亟待人们深入探索的研究热点,通常被建模为图数据并采用数值扰乱法或图修改法如随机增加、删除节点或边[13],以及修改边权重值[14]来实现隐私保护.总体上看,现有的社会网络隐私保护方法大多基于如何实现各种匿名化模型如节点k-匿名、子图k-匿名等[15],但他们都面临由于匿名化而带来巨大的信息损失问题,甚至还会严重破坏社会网络关系结构,显著降低了网络数据的效用.本文针对社会网络中关系数据这类隐私对象提出一种改进的基于图的k-度匿名模型SimilarGraph,该模型首先运用动态规划思想进行基于节点度的最优簇划分,然后,通过移动边方式重构网络图实现图的k-度匿名化.该方法不仅能克服传统匿名化算法所存在严重的信息损失缺点,还有效保持了社会网络原有连通性和内在关系结构稳定,并提高了抵御度属性攻击的能力.目前,现有针对网络关系数据的隐私保护研究大多数都采用匿名化模型来防止隐私信息泄露和恶意攻击,其主要途径有基于聚类方法和图修改方法.基于聚类的匿名化方法是先对节点、边或两者同时聚类成簇,然后通过泛化方式来达到匿名化效果.文献[16]提出将网络中相似节点聚合为一簇,每个簇所包含的节点数≥k,这样使得攻击命中率降为1/k.Campan等[8]采用贪心策略对网络中属性相似的节点进行聚类并使用边泛化方法实现k匿名的网络,该方法考虑了匿名化过程中的信息损失问题.文献[17]对加权无向网络采用节点聚类和边聚类相结合的泛化方式实现k-匿名模型,但缺点是严重改变了网络结构,同时还降低了匿名化后的网络数据效用.近年来,采用图修改方法实现网络匿名化已成为国内外研究者关注的热点,Liu等[18]提出图的k-度匿名概念,即要求图中任一顶点都至少有k-1个顶点与其度数相同,并运用贪心策略采用增加边的方式来实现匿名图,以抵御节点度属性攻击,该方法虽然考虑了图修改的最小代价问题,但破坏了网络连通性使得网络内在关系结构发生重大变化.Yuan[19]和Zhou[20]都针对具有节点属性标签的社会网络提出了k-度-l多样化匿名模型,该模型在k度匿名的基础上要求相同度数的k个节点必须有l种不同标签,并通过增删边和添加噪声节点的方法实现属性匿名,但他们都没有考虑匿名化所造成的信息损失影响.Zheleva等[21]将关系边区分为敏感边和非敏感边并提出通过删除敏感边的方式实现图的匿名化,以防止链接再识别攻击,其不足之处在于数据匿名化的效用由删除边的数量多少决定,缺乏对信息损失量的考虑,严重破坏原有网络的连通性.此外,Zou等[22]运用图同构理论提出k-同构匿名模型防御结构化攻击,要求网络任一子图至少有k-1个与其同构的子图,其缺点是同构图的匹配和重构造代价较大,特别是图转化时需要复制边的操作破坏了原有网络的结构特性.综上所述,基于聚类的匿名模型由于泛化后存在严重的信息损失问题,导致网络结构发生巨大变化,数据效用急剧降低.而针对图数据修改或转化的匿名化方法大多都采用添加、删除节点或边以及子图同构等扰动方式实现k-度匿名,但这种图随机修改策略忽略了社会网络内在结构特性,仍无法克服较大的信息损失问题.为此,本文提出的隐私保护模型SimilarGraph与传统的数值扰乱或图修改方法不同之处在于采用移边方式替代随机增、删节点或边等操作,并能在网络节点数和边数都保持不变条件下以最小的信息损失代价移动关系边实现网络的k-度匿名化,因而既不损害社会网络原有连通性和关系结构,还有效提高了抵御度属性攻击的能力.为了便于研究,本文将社会网络建模为无权无向图G=(V,E),其中V表示为社会网络中的节点集,E表示节点间的关系边集,且E⊆V×V.一般情况下,图中节点及其关系极易受到节点度攻击、链接攻击等结构化攻击,因此,实现图中节点及关系边的匿名化是一种重要的隐私保护方法,下面先给出一些基本定义.定义1 图的k-度匿名模型:给定图G′=(V′,E′),∀∃m(m≥k-1)个节点的度数与相等,则称该图G′满足k-度匿名模型,其中表示节点的度数.图的k-度匿名借鉴了传统数据表中的k-匿名思想[11],使得图中节点间关系及其度分布趋于同构,这将有效降低结构化攻击的概率,至少小于等于1/k.从另一角度看,社会网络可看成由若干子图构成,每个子图都满足k-度匿名模型,这样得出网络的k-度匿名概念.定义2 网络的k-度匿名化:将社会网络图G=(V,E)中的节点按照度数划分成若干簇},其中任意簇都是一个满足k-度匿名的子图,即且Dg(vm1)=…=Dg(vmj).由定义2可知,社会网络被划分成满足k-度匿名的各簇实际上可称为匿名簇,同一簇内的节点都具有相同的度属性,而不同的匿名簇间满足不同的k-度匿名要求.对于相同簇中的节点由于具有同构特征而不易受攻击,并且如果簇越大、簇数量越多,其遭受攻击的难度也越大.因此,当社会网络被划分成满足定义2的m个簇时,受到恶意攻击的概率将进一步下降到1/(m·k).为了便于社会网络按照节点度特征划分成各匿名簇,下面给出基于递减度的序列结构.定义3 递减度的节点序列Sq(〈v1...vi〉):如果网络图G的节点集V={v1, (vi)中所有节点按照递减度的偏序关系排列,即满足Dg(v1)≥…≥Dg(vi),则该递减度节点序列表示为Sq(〈v1…vi〉).根据定义3,如果节点序列Sq(〈v1…vi〉)中所有节点的度数都相等,并且序列的节点数|Sq|≥k,则该序列Sq可看作一个符合k-匿名要求的簇序列.当社会网络节点被划分到不同的簇序列时,为了满足簇的匿名度要求,节点需要通过删除或增加边来改变原先节点度数,而节点度变化会随之影响网络原有结构,因此,本文给出簇的信息损失量定义.定义4 簇的信息损失量):当节点序列Sq(〈v1…vi〉)被划分成满足某个k-度匿名的簇序列时,簇内每个节点匿名化前后的度变化之和称为簇序列的信息损失量I,即为:其中,Dg(vi)表示节点vi匿名化前的度数,而)表示簇序列的匿名化度数,等于簇内所有节点度的平均值即这里表示簇的节点数.定义4中,簇的信息损失量衡量了单个匿名簇内节点度变化对网络原有结构造成的影响程度.在此基础上,可进一步通过累加所有匿名簇的信息损失量获得整个社会网络匿名化的信息损失代价,即原始网络G与匿名网络G′间的节点度变化量为:I(G′/G)定义5 信息损失率(R):满足k-度匿名的社会网络G′的信息损失量与其原始网络G中总度数的比值称为信息损失率:式(3)中,I(G′/G)表示整个社会网络匿名化的信息损失量,由式(2)计算;而对于原始网络G的节点总度数,由图的握手定理可得:当网络G的边数为|E|时,其总度数和为2|E|.针对建模成图结构的社会网络,本文提出基于移边操作的k-度匿名隐私保护方法,基本思路是将整个匿名化过程分为两个步骤:(1)基于度的最优簇划分;(2)移边操作重构网络图实现k-度匿名化.4.1 基于度的最优簇划分最优簇划分是以信息损失量最小化代价为目标对网络节点进行簇划分,并确定簇内每个节点满足k-度匿名的度数.为了实现该目标,本文先将社会网络G=(V,E)中节点集V按照定义3排序成递减度序列形式:当i<j时然后基于节点度划分成m个匿名簇,并使其满足定义2中的k-度匿名要求,这样匿名簇的度序列转变为如下结构:可以看出,对整个社会网络节点的簇划分等价于递减度序列的簇划分,并且要求信息损失量最少.我们采用动态规划方法对递减度序列结构Sq进行簇划分,动态规划特别适合具有重叠子过程的多阶段决策问题,要求出一个过程的最优解必须求出其子过程的最优解,这样逐步递推直到求出整个过程的最优解.因此,本文提出最优簇划分的代价函数如式(4)所示.,约束为式(4)中,(〈vt+1…vn〉)表示子序列的最优簇划分代价即最小信息损失量,而I(〈v1…vt〉)则表示簇序列的信息损失量,可根据式(1)计算.式(5)中,(〈vi…vn〉)为终端条件,表示从vn开始向前划分的子簇序列的最小代价.(〈vi…vn〉)表示该子簇序列的平均度,而Dg(vm)表示匿名前的节点度数.综合式(4)和式(5),当序列Sq(〈v1…vn〉)中n<2k时,无法再划分成满足k-度匿名要求的子簇,因而整个序列将自成一簇;当序列Sq(〈v1…vn〉)中n≥2k时,整个序列的子簇划分候选方案共有n-2k+1种,而其中每种候选子簇〈vt+1…vn〉的划分又是一个递归调用,其最小划分代价(〈vt+1…vn〉)则需由终端状态开始逆向递推计算,直至获得所有候选方案的最优划分结果.然后,再将该序列的最小划分代价与其单独成簇时的信息损失量比较.基于该过程,最优簇划分算法的具体实现见算法1.算法1 最优簇划分算法输入:网络图G中的节点递减度序列Sq(v1,v2,…,vn),匿名k度值.输出:最优匿名簇Sq′的划分序列号t1,…,tm.1. if n<2k then2. return簇序列Sq′(v1,v2,…,vn);3. else //对于n≥2k情况4. for i=n-k+1 to k do5. if i>n-2k+1 then //当n-2k+1<i≤n-k+1时6. for m=i to n do7.8. endfor9. elseif i>k then //当k<i≤n-2k+1时10. 由式(1)计算I(〈vi…vn〉);11. endif12. endfor13. for t=k to n-k do14. 由式(1)计算I(〈v1…vt〉);15. 递归调用函数Min-IL获得子簇最小划分代价16. endfor17. 由式(4)选取最优簇划分,如果小于则t1=t,否则t1=118. return最优簇序列Sq′的划分序号[t1,…,ti];19. endif算法1中,步骤4~12计算子序列Sq(〈vi…vn〉)终端状态下的最小划分代价以及其单独成簇时的信息损失量,步骤13~17则从整个序列Sq(〈v1…vn〉)的n-2k+1种候选划分方案中选取最小划分代价,其中步骤15通过递归函数Min-IL实现最优的子簇划分目标,即.4.2 网络图重构算法经过最优簇序列划分后,网络图中每个节点将获得实现k-度匿名化所属簇的平均度数.本文采用移边方式实现匿名化操作,即将高于簇平均度的节点上的边移动到低于簇平均度的节点上.实际上,移边操作可等价于先删除边再增加边这两步原子操作,成功的移边操作应使其两端节点都同时满足度匿名的变化方向.假设任意节点vi的现有度数Dg与其所属匿名簇cl的平均度数之间的关系函数γ(vi)如式(6):对于网络中的任意边来说,其两端节点vi和vj的函数γ状态共同决定了该边是否符合增删操作要求,如图1所示6种状态,除了图1(f)中边上两端节点都已满足匿名化要求外,剩余5种情况图1(a)~(e)都需要通过增删边来改变节点度数.不难得知,由于图1(b)、(c)和(e)都至少有一端存在度关系“<”,因而不满足移边操作中需先删除边的前提条件,而只有图1(a)和(d)满足该前提条件,且节点度符合匿名变化方向.为了保持图结构的连通性,移边操作中的删除边与增加边间存在必要的关联条件是这两条边的端点在图中体现互为连通邻居.具体地,针对图1(a)和图1(d)的移边方法分别对应图2(a)和图2(b),图中移边的先后步骤等于①删除边+②增加边(虚线表示).图2(a)中新增边的两节点vp和vq分别是被删边上节点vi和vj的连通邻居,并且都有增加节点度要求.而图2(b)中为了维持被删边上的节点vj度不变的要求,新增边的一端必须从vj出发,而另一端则是vi中需增加节点度的连通邻居.为了实现基于移边的网络图匿名化,本文给出满足k-度匿名的重构网络图算法2,算法中假设已知原始图中各节点vi的度数Dg(vi).算法2 重构网络图算法输入:原始网络图G=(V,E)和划分匿名簇CL的平均度输出:重构后的k-度匿名网络图G′1. for each edge(vi,vj)∈E do2.3. for vp∈N (vi的连通分量) do4.5. for vq∈N (vj的连通分量) do6.7. {删除edge(vi,vj)后两端节点度-1;8. 增加edge(vp,vq)后两端节点度+1;}9. endif10. endfor11. endif12. endfor13.14. for vp∈N(vi的连通分量) do15.16. {删除edge(vi,vj)后节点Dg(vi)-1;17. 增加edge(vp,vj)后节点Dg(vp)+1;}18. endif19. endfor20. endif21. endfor22. return重构后的网络G′本文采用CA-GrQc数据集构建社会网络进行实验与分析,该数据集包括5242个节点,14496条无向边,度分布服从幂律分布.为了便于实验比较和说明,我们将第4节所提出的社会网络基于图的k-度匿名隐私保护方法称为SimilarGraph模型,算法代码用Python编程实现,实验环境为Intel(R) CoreTM i5 CPU 2.3GHz,4GB内存,操作系统为Windows7.实验方法是先由算法1对原始网络数据集进行最优的k-度匿名簇划分,再用算法2进行移边操作来重构匿名化的网络图,然后采用Gephi工具对其可视化并对比网络匿名化前后节点度变化及分布特征.图3(a)展示了原始社会网络的节点度分布图,节点度数越多则呈现越大,图中共标注了8种度区间的节点分布情况.图3(b)则显示当k=50时匿名化网络的分布图,其度特征明显下降,节点共被划分成21个簇,与图3(a)对比后发现,原始社会网络中节点度大于70的显著节点只有4个,对其成功攻击的概率有1/4,而在匿名后的图3(b)中,至少有50个以上节点与其相似,这样攻击概率便降至1/50以下. 图4显示了不同匿名k值下社会网络度的幂律分布规律,图中k=0时表示原始社会网络的度服从幂律分布,其度数介于10到80之间的节点分布不均匀且同构节点数偏少,度数大的节点最容易遭受攻击,而实现不同k-度匿名化后的网络度分布虽然也满足幂律特征,但其结构趋于均匀,最大节点度数随着匿名k值增大而逐渐减少,节点聚集特性也越明显,特别是当k值越大时匿名网络中节点度大于10以上的同构节点数越多,这样大大增加了针对网络度属性攻击的难度.下面,将本文提出的模型SimilarGraph与经典的k-度匿名方法SuperGraph[18]和最近Yuan等[19]提出的模型KDLD进行各项实验指标对比,三者区别在于SimilarGraph采用移边方法而SuperGraph则采用随机增加边方式实现网络匿名化,对于KDLD则是通过增加噪声节点来实现k-度匿名化.图5比较了三种方法在实现不同k-度匿名化网络过程中发生边移动、增加或因噪声节点而增加边的变化数量,当匿名k值增大时,SimilarGraph实现匿名化所需移动的边数增长较小且比较平稳,而SuperGraph所需改变的边数从222增加到2675条,KDLD也与其较一致,增长幅度都很显著.总体上看,SimilarGraph的边变化数远小于SuperGraph和KDLD.图6进一步统计了三种方法实现匿名化后带来的信息损失率结果,该指标由式(3)计算.图6中SimilarGraph在实现不同k值匿名化网络时由移边操作所引起的信息损失率非常小,而SuperGraph和KDLD两者都增加了大量边而造成较大的信息损失率且增长趋势较明显,由此可见,SimilarGraph方法具有最理想的移边代价.另外,为了对比网络匿名化前后的结构特性变化,图7、图8和图9分别给出了三种方法在不同k-度匿名化网络中的聚类系数(CC)、节点平均度和平均路径长度(APL)等指标结果,图中用虚线表示了原始网络的相关指标值,它不随匿名k值而变化.由图7可知,KDLD方法当k在50~70区间时由于增加了一些噪声节点以及需增加、删除相关边,导致其CC指标出现较明显的先升后降趋势,整体网络结构变化较大,表现不稳定,而SuperGraph方法随k值增大而所增边数越多造成CC指标逐渐下降.总体上看,本文的SimilarGraph方法在不同k值下一直最接近于原始网络的聚类系数值,对匿名化后的网络结构影响最小.图8中当匿名k值增大时,SimilarGraph产生的匿名化网络中节点平均度数与原始网络基本相同,而KDLD方法使得不同k值匿名化的网络节点平均度逐渐下降,对网络结构影响较小,SuperGraph则使匿名后的节点平均度增幅较大,表明该匿名方法比较严重地破坏了原始网络结构.图9比较了网络匿名化前后的平均路径长度(APL)指标,三者之中本文的SimilarGraph表现最好,该方法使得匿名化的网络APL在不同k值下都保持较小幅的下降且比较平稳,而KDLD在匿名化后由于增加了一些噪声节点导致APL指标有小幅度上升,SuperGraph则采用随机增加边方式引起匿名化网络的APL指标有较大的下降.由此表明,SimilarGraph能保持比较稳定的网络内在关系结构. 最后,由于本文实验所选取的数据集CA-GrQc中节点无属性标签,因此,KDLD 模型无法在相同条件下与SimilarGraph和SuperGraph比较抗恶意攻击能力,图10和图11分别对比了SimilarGraph和SuperGraph两种方法在不同k-度匿名值下的网络划分簇数量和遭受度攻击的平均概率.从图10统计的匿名簇数量对比来看,当匿名k值增大时,SimilarGraph和SuperGraph两者在实现匿名化网络时所划分的簇数量都是逐渐减少且大致接近.另一方面,图11中的平均攻击概率等于对所有簇节点攻击的概率平均值,概率值越小表示匿名化网络抵御节点度攻击的能力越强,由图11结果可知,两种方法都使得匿名化网络遭受度攻击的概率大大减小,而SimilarGraph抵御恶意攻击的能力总体上优于SuperGraph.现有社会网络的隐私保护方法普遍存在比较严重的信息损失,以及匿名化后网络结构特征发生巨大改变的问题.针对这些不足,本文提出一种保护社会网络关系数据的k-度匿名模型SimilarGraph,该模型先从网络节点度序列出发运用动态规划方法进行最优簇划分,然后,采用移动边方式对网络进行扰动,并进一步重构网络实现基于图的k-度匿名化的隐私保护.最后,采用CA-GrQc数据集构建社会网络进行实验与分析,各项实验结果表明SimilarGraph方法能在网络节点数和边数都保持不变条件下以最小的信息损失代价移动关系边实现网络的k-度匿名化,克服了传统匿名化算法存在严重的信息损失缺点,而且还有效保持了社会网络结构和内在联系的稳定,同时提高了网络抵御度属性攻击的能力.限于篇幅,我们下一步研究工作是改进本文所提出的匿名化模型实现并行化以求改变全局优化过程计算复杂的局面,并考虑在更大的实际网络数据集上进行实验验证其有效性.龚卫华男,1977年生于湖北武汉,博士,现为浙江工业大学计算机学院副教授.主要研究方向:数据挖掘、社会网络、大数据计算等.E-mail:***************兰雪锋男,1990年生于浙江丽水,浙江工业大学硕士生.主要研究方向:社会网络、隐私保护.裴小兵男,1971年生于湖北,博士,现为华中科技大学软件学院副教授.主要研究方向:机器学习、数据挖掘、软件工程、电信网络管理.E-mail:******************.cn杨良怀男,1967年生于浙江新昌,博士,现为浙江工业大学计算机学院教授,主要研究方向:数据库系统、数据挖掘、大数据计算等.E-mail:***************.cn【相关文献】[1]Boccaletti S,Latora V,Moreno Y,et plex networks:structure anddynamics[J].Physics Reports,2006,424(4):175-308.[2]Wang X F,Chen G plex networks:small-world,scale-free and beyond[J].IEEE Circuits and Systems Magazine,2003,3(1):6-20.[3]Faloutsos M,Faloutsos P,Faloutos C.On power-law relationships of the internet topology[A].ACM SIGCOMM'99[C].Cambridge,Massachusetts:ACM,1999.251-262.[4]童云海,陶有东,唐世渭,等.隐私保护数据发布中身份保持的匿名方法[J].软件学报,2010,21(4):771-781.Tong Yun-hai,Tao You-dong,Tang Shi-wei,et al.Identity-reserved anonymity in privacy preserving data publishing[J].Journal of Software,2010,21(4):771-781.(in Chinese)[5]黄茂峰,倪巍伟,王佳俊,等.一种面向聚类的对数螺线数据扰动方法[J].计算机学报,2012,35(11):2275-2282.Huang Mao-feng,Ni Wei-wei,Wang Jia-jun,et al.A logarithmic spiral based data perturbation method for clustering[J].Chinese Journal of Computers.2012,35(11):2275-2282.(in Chinese)[6]张啸剑,孟小峰.面向数据发布和分析的差分隐私保护[J].计算机学报,2014,37(4):927-949. Zhang Xiao-jian,Meng Xiao-feng.Differential privacy in data publication andanalysis[J].Chinese Journal of Computers,2014,37(4):927-949.(in Chinese)[7]Campan A,Truta T M,Cooper N.P-sensitive K-anonymity with generalization constraints[J].Transactions on Data Privacy,2010,3(2):65-89.[8]Campan A,Truta TM.A clustering approach for data and structural anonymity in social。
基于社会网络的(a,k)-匿名方法
基于社会网络的(a,k)-匿名方法张晓琳;王颖;李玉峰【期刊名称】《计算机工程与科学》【年(卷),期】2012(34)11【摘要】随着网络技术的快速发展,大量在线社会网络的建立和使用,越来越多的人参加到社会网络中分享和交流信息,而在这种交互过程中,会产生大量的数据.这些数据中有些是用户个人生活领域中不愿意别人知道的事情,可以认为它们是用户的隐私.社会网络数据发布的隐私保护成为新兴的研究课题.本文提出了应用于社会网络的(a,k)-匿名方法,采用基于聚类的方法,对节点的属性及节点之间的关系进行保护.每个聚类中的节点数至少为k个,并且聚类中任一敏感属性值相关的节点的百分比不高于a.理论分析和实验结果表明,基于社会网络的(a,k)-匿名方法能在信息损失尽可能小的情况下有效地保护隐私.%With the rapid development of Internet technology and the establishment and use of online social networks,more and more people attend in social networks to share information. In this interactive process,a large number of data are produced. Some of these data are a perosn's privacy so that they should not be known by other individuals. The privacy protection of the released data in the social network becomes a emerging research subject. The paper proposed the (α, k)-Anonymity method of the social network. It uses the clustering method to protect the node's attribute and the relationship between nodes. Each cluster have at least k nodes,and in each cluster the percentage of any sensitive attribute value associated with the node is not higher than a.Theoretical analysis and experimental results show that the proposed social network (α, k)-Anonymity method can effectively protect the privacy protection in the condition that the information loss is as small as possible.【总页数】5页(P50-54)【作者】张晓琳;王颖;李玉峰【作者单位】内蒙古科技大学信息工程学院,内蒙古包头014010;内蒙古科技大学信息工程学院,内蒙古包头014010;内蒙古科技大学信息工程学院,内蒙古包头014010【正文语种】中文【中图分类】TP392;TP309【相关文献】1.社会网络子集(θ,k)-匿名方法 [J], 张晓琳;王萍;郭彦磊;王静宇2.社会网络中基于集合枚举树的k匿名方法 [J], 卢惠林3.抗复合攻击的社会网络(k,l)匿名方法 [J], 吴宏伟;张仁伟;王海涛;孙宗宝4.基于DeepLink的社交网络去匿名方法 [J], 王培;贾焰;李爱平;蒋千越5.大规模社会网络K-出入度匿名方法 [J], 张晓琳;刘娇;毕红净;李健;王永平因版权原因,仅展示原文概要,查看原文内容请购买。
k匿名算法python代码
K匿名算法简介K匿名算法是一种用于保护数据隐私的方法,通过对数据进行泛化和加噪处理,使得数据不容易被识别和推断。
匿名化的目的是在保护个人隐私的前提下,仍然能够进行有效的数据分析和共享。
K匿名算法的核心思想是将数据的敏感属性进行模糊化处理,使得每个数据记录在其所属的同一组中有至少K-1个相似的记录。
这样,即使外部人员掌握了部分数据,也不容易对个体进行识别。
在本文中,我们将讨论K匿名算法的原理、实现和一些应用场景。
原理K匿名算法通过泛化和加噪两个步骤实现数据的匿名化。
泛化泛化是指将敏感属性的取值范围缩小,以减少个体间的差异,从而实现数据的保护。
常用的泛化方法包括:•属性泛化:将属性的取值范围进行合并或替换,例如将年龄分为几个区间。
这样可以减少个体的细节信息。
•层次泛化:将属性划分为层次结构,将属性的取值转换为对应层次的一些泛化值。
•值域泛化:将属性的取值映射到指定的值域,例如将连续的数值映射为离散的范围。
加噪加噪是指在原始数据中添加一些噪音,使得敏感属性的取值不那么精确,从而提高数据的隐私性。
常用的加噪方法包括:•拉普拉斯噪音:根据拉普拉斯分布生成噪音,并添加到敏感属性上。
•高斯噪音:根据高斯分布生成噪音,并添加到敏感属性上。
•伪随机函数:根据伪随机函数生成噪音,并添加到敏感属性上。
K-匿名性K-匿名性是指数据集中的每个记录在其所属的同一组中有至少K-1个相似的记录。
通过保证每个组至少包含K个相似的记录,可以降低数据被重新识别的风险。
K-匿名性的计算过程如下:1.根据敏感属性和非敏感属性划分数据集为不同的组。
2.对每个组内的记录进行属性值的泛化和加噪处理,以保证组内的记录有至少K-1个是相似的。
3.检查每个组是否满足K-匿名性,如果不满足,则进行进一步的泛化和加噪处理,直到满足要求为止。
实现下面使用Python实现简化版的K匿名算法,代码如下:# 导入相关的库import pandas as pddef generalize(attribute_value, generalization_level):# 实现属性值的泛化过程,根据具体需求进行相应的处理# ...def add_noise(attribute_value):# 实现在属性值上添加噪音的过程,可以使用拉普拉斯或高斯分布生成噪音# ...def k_anonymization(data, sensitive_attributes, k):# 检查数据集是否满足K-匿名性def is_k_anonymous(group):return len(group) >= kfor sensitive_attribute in sensitive_attributes:# 对敏感属性进行泛化data[sensitive_attribute] = data[sensitive_attribute].apply(generalize, args=(generalization_level,))# 对敏感属性添加噪音data[sensitive_attribute] = data[sensitive_attribute].apply(add_noise)# 根据敏感属性和非敏感属性划分数据集为不同的组groups = data.groupby(non_sensitive_attributes)# 检查每个组是否满足K-匿名性for group_name, group_data in groups:if not is_k_anonymous(group_data):# 重新进行泛化和加噪处理,直到满足K-匿名性# ...return data# 示例代码data = pd.read_csv("data.csv")sensitive_attributes = ["age", "gender"]non_sensitive_attributes = ["name", "city"]k = 5result = k_anonymization(data, sensitive_attributes, k)应用场景K匿名算法可以广泛应用于需要保护数据隐私的场景,例如:1.医疗数据共享:在医疗研究领域,医院可以通过K匿名算法对患者的敏感信息(如年龄、性别等)进行匿名化处理,从而可以在不泄露个人隐私的情况下,与其他医院分享病例数据进行研究分析。
基于k匿名假包注入的汇聚节点位置隐私保护
基于k匿名假包注入的汇聚节点位置隐私保护宋杰;张昆【期刊名称】《计算机技术与发展》【年(卷),期】2015(000)002【摘要】Wireless sensor networks have been widely used in daily life,the privacy has become a major obstacle for their application. Sink node is key node in wireless sensor network,once the sink node attackers attacks the sink node,the entire sensor networks will be paralys-is. For the location privacy of sink node,propose a scheme of k-anonymity and fake packet injection for location privacy and analyze the performance of security of time and energy consumption. Finally give a scheme of deployment for the anonymous nodes through the GA algorithm. The scheme has a certain resilience of the global view attacker and the hop-track attacker.%无线传感器网络已经被广泛应用于日常生活中,隐私问题成为其应用的一大阻碍。
汇聚节点是无线传感器网络中的关键节点,一旦汇聚节点遭到攻击被恶意破坏后,那么整个无线传感器网络将有可能面临瘫痪的危险。
针对汇聚节点的位置隐私保护问题,提出了基于k匿名假包注入策略的汇聚节点位置隐私保护方案,并分析了方案的安全时间和能量消耗两个方面的性能,最后通过GA算法给出了匿名节点的部署方案。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
名方 法在 实现 了社会 网络 的结构 和文 本 匿名 化的 同时具 有较低 额 的开销 。
关键 词 :社 会 网络 ; J } 匿名 ;隐私保 护 ; 剪枝 策略 中图分类 号 :T P 3 0 9 . 7 文献标 志码 :A 文章编 号 :1 0 0 1 - 3 6 9 5 ( 2 0 1 5 ) 0 7 — 2 1 5 0 - 0 3
o y ,J g i n l i n g I n s t i t u t e o fT e c h ol n o g y , N a n j i n g 2 1 1 1 6 9,C h i a) n
、 _
Ab s t r a c t :k - a n o n y mi t y i s a l l i mp o r t a n t a p p r o a c h f o r p r o t e c t i n g u s e r s ’p i r v a c y .Whi l e p r o t e c t i n g u s e r ’ S p iv r a c y i n s o c i a l n e t —
第3 2卷 第 7期
2 0 1 5年 7月
计 算 机 应 用 研 究
Ap p l i c a t i o n Re s e a r c h o f C o mp u t e r s
Vo 1 . 3 2 No . 7
J u 1 .2 01 5
社 会 网络 中基 于集 合 枚 举 树 的 k匿名 方 法
wo r k s ,c u r r e n t a p p oa r c h e s u s u ll a y a n o n y mi z e t h e s t r u c t u r e o f s o c i l a n e t wo r k s ,a n d wh e n a t t a c k e r s k n o w mo r e a b o u t t h e t e x t o f
Lu Hui l i n ,
( 1 . S c h o o l o fC o m p u t e r S c i e n c e &T e c h n o l o g y , Ha r b i n
H o fT e c h n o l o y, g Ha r b i n 1 5 0 0 0 1 , C h i n a; 2 . S c h o o l D 厂 C o m p u t e r S c e i n c e &T e c h ol n -
n e t wo r k,t h e y c a n e a s i l y r e c o g n i z e u s e r s ’i d e n t i i f c a t i o n .I n o r d e r t o s o l v e t h i s p ob r l e m ,t h i s p a p e r p op r o s e d a k - a n o n y mi t y印 -
卢惠林
( 1 . 哈 尔滨工业大学 计算机学院, 哈 尔滨 1 5 0 0 0 1 ; 2 . 金陵科技学院 计算机学院,南京 2 1 1 1 6 9 )
摘 要: k匿名方 法是 一种重要 的数 据 隐私保 护方 法。在 应 用 k匿名 方法保 护 社会 网络 中用 户的 隐私 时 , 现 有
d o i : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 1 — 3 6 9 5 . 2 0 1 5 . 0 7 . 0 5 6
S e t — e n u me r a t i o n t r e e b a s e d . a n o n y mi t y a p p r o a c h i n s o c i a l n e t wo r k s
的方法对社会网络的结构进行匿名化处 , 当攻击者了解 了网络的文本信息后可以很容易识别 出用户的身份等
隐私信 息 。为此 , 提 出一种 包含 结构和 文本 的 k匿名 方 法。 该 方法在 采 用传 统 的节 点度 匿名化 的基 础 上 , 将 社
会 网络 中的文本信息分成不同的值域, 对每一个值域构建一个全局的层 次结构树 , 对所有的值域采用集合枚举 树来优化文本标记泛化时的信息丢失, 并针对集合枚举树的特征提 出了三种剪枝方法。实验表 明, 提 出的 k匿