社会关系网络匿名化机制的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社会关系网络匿名化机制的研究
近年来,随着互联网技术飞速发展,各色社交平台层出不穷,互联网让人们交流更加便利的同时,也带来了诸多用户隐私泄露的问题。如何在数据庞大结构复杂的社会关系网络中保护用户隐私信息,通过怎样的方法匿名发布信息,成为一个迫切需要解决的问题,并逐渐成为网络安全方面的热点问题之一。论文以保护用户敏感标签的社会关系网络匿名算法为研究对象,对其目标序列的产生、以目标序列为指导匿名化网络进行了探索与研究。
【Abstract】In recent years,with the rapid development of internet technology,various social platforms emerge in an endless stream,the internet allows people to communicate more convenient,at the same time,it also brings a lot of user privacy issues. How to protect user’s privacy in social network data which has large data and complex structure and how to publish information anonymously becomes the urgent problem to be solved,and gradually becomes one of the hot issues of the network security. This paper takes the social network anonymous algorithm which protects the users’sensitive label as the research object,explores and researches the production of target sequence,guiding anonymized network with target sequence.
【關键词】社会关系网络;隐私保护;敏感标签
1 论文的研究背景和意义
1967 年,Milgram 发表了名为小世界实验的科研报告[1],研究人员将一些信件随机交给Omaha 和Wichita 几个志愿者作为起点,以Boston 等几个志愿者作为终点,每个拿到信的人,若认识目标,就把信直接交给目标;若不认识目标,则把信交给他认为认识目标的人。在实验里,分析所有到达的信件被转交的数据,发现平均转交次数为6。这也就是著名的六度分隔理论,理论上,最多只要经过6 个人就能联系到世界上的任何一个人。
社交平台和支付平台出于安全考虑,需要用户的个人信息,如姓名、身份证号码等,企业也为了自身的利益以及系统的完善性,不断地收集用户的隐私数据,并运用这些隐私数据研究用户的行为偏好,为系统的改善、企业的未来方向做指引。但是,有的企业管理不善,某些员工会将用户的这些数据出卖来获取利益,尽管这些信息在公开用户的隐私数据时抹去了密码等敏感信息,但是攻击者依然可以确定到相应的用户,这种行为给用户的隐私信息安全带来了极大隐患。
在这种情况下,有些用户担心自己的隐私信息被暴露,一方面留恋互联网带来的便利,另一方面担心自己的隐私被窃取,在这样矛盾的心理下,用户会选择性地使用虚假信息,而虚假信息反过来影响企业的正常判断,使得企业的数据不全、策略不当,如此下去,不利于互联网事业的发展。
2 保护隐私的方法
传统隐私保护方法有很多,大致可以分为以下几类:①加密方案。数据加密有多种方法,但是窥其本质,都是通过一定密码机制,在令数据无损失的同时,使用户原始数据变得不可见。②伪装方案。其基本思想是先把用户个人数据“伪装”。POLAT [2,3] 提出的伪装方案,即是采用随机扰动技术伪装用户的真实数据的方式。在数据隐藏方法中,随机扰动技术很常用,想要隐藏数据n,就给n 加上随机数r,伪装后的数据为n+r,即对用户的真实数据进行处理后再发送给服务器。③聚合模糊方案。数据聚合,是指把用户分组,并处理组内用户数据得到一个聚合数据。这个数据即为公共使用的数据,这样就避免了用户信息泄露。
但是,这些传统方法并不能很好地保护社会网络中用户的数据隐私。相对于传统表格式数据结构,社会网络结构比较复杂,不仅包括了用户个人的敏感数据、敏感属性,也包含了用户与用户之间的关系。社会网络这种空间结构,用数据结构中的图来抽象为模型最适合不过。图中节点代表用户,边代表用户与用户之间存在社交关系。将社会网络描述为图后,有关图的很多理论就可以应用在社交网络隐私保护的研究中。自Kun Liu,Evimaria Terzi 等人提出了图的k-度匿名方法,社会网络数据隐私安全的研究一直是一个热点领域。
迄今为止,由于实际的人类社交网络的数据含量过于庞大、隐私保护算法过于复杂等原因,关于社交网络数据隐私的研究仍然处于较为初级的理论阶段,但是研究此领域的意义对于互联网,对于每个人来说,都是及其重要的。社交网络隐私算法具有重要的意义,它不仅具有较高的理论研究价值,也有很高的实际应用价值,未来发展具有很大潜力。
3 国内外研究现状
随着互联网现世,社交网络飞速发展,各领域研究者均从社交网络的大数据上得到了很多研究信息,比如用户行为、社交传播、传染病扩散等,社交网络给研究者带来便利的同时,社交网络公开数据的性质对个人隐私数据的威胁日益增长。为了保护社交网络中用户的隐私数据,近年来,国内外对于社会网络已经做了很多研究工作。目前对于社会网络中隐私安全的研究,可以按阶段分为四类:第一,P2P模式。以社会网络中常见的推荐系统为例,P2P模式要使每个用户的计算机既是客户端又是服务器,即用户的个人数据位于自己的计算机中。这样的话,用户完全自己操纵个人数据,如TVEIT[4],但是这个系统在移动端间的泛洪通信方式导致通信费用比较昂贵。由于TVEIT还是采取通过网络传输个人数据的传统方式,所以依然具有隐私暴露的潜在危机。而在CANNY提到的系统[5,6] 中,同样是基于P2P模式的系统,使用了聚合数据和加密,以确保用户数据不被暴露。所谓数據聚合,是指把用户分组,并处理组内用户数据得到一个聚合数据。这个数据即为公共使用的数据。这一方法的优秀之处在于,用户对个人数据可以完全控制。Franchi [6] 等人提出了一种基于密钥的身份系统,并将它应用在微博等社交平台中,搭建了一个保护用户隐私的匿名社交网络。P2P模式理论上最为简单直观,对于数据规模较小的系统有着较好的隐私保护效果,但是对于庞大的社会网络而言,把用户信息只存在用户的客户端内是不现实的:第一,手机、智能手表等移动端内存较小,不适合存储所有数据;第二,频繁的通