大数据背景下的个人隐私保护研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第35卷第1期2017年1月
西安航空学院学报
Journal of Xir an Aeronautical University
Vol. 35 No. 1
Jan.2017大数据背景下的个人隐私保护研究
牛晨晨,周畅,张異
(兰州财经大学信息工程学院,甘肃兰州730000)
摘要:随着互联网、物联网、云计算等信息技术的快速发展,数据的规模呈爆炸式增长,标志着大数据的时代已经来临。大数据在带来巨大商业价值的同时,也不可避免地会侵犯到个人隐私。首先就大数据与个人隐私的概念做了说明,其次分析了大数据对个人隐私造成的威胁,最后讨论了个人隐私保护的技术和法律规范。
关键词:大数据;个人隐私;隐私侵犯;隐私保护
中图分类号:TP309 文献标识码:A文章编号=1008-9233(2017)01-0073-04
1大数据的概念及特征
大数据的概念最早出现在《Nature》杂志于
2008 年开办的 Big-Data专栏中。在“Big data:sci
ence in the petabyte era”一文中 ,大数据被定义为
“代表着人类认知过程的进步,数据集的规模是无
法在可容忍的时间内用当前的技术、方法、手段和
理论来获取、存储、管理和处理的数据”[1]。但是到
目前为止业界对大数据依旧没有统一的定义。
针对大数据的特征比较有共识的主要有三点:
规模性(Volume)、多样性(Variety)和高速性(Velocity)[2]。除 此之外 国际数 据公司 (International
Data Corporation,IDC)还提出了 4V的特征,即在
原来3V的基础上又加人了价值性(Value)这一特
性[3]。大数据的这些特征具体表现在以下几个
方面:
(1) 数据量:数据规模是巨大的,数据的出现往 往是P B或Z B级的;
(2) 数据多样性:数据的来源不仅多,而且呈现 不同的结构特征,除了结构化数据之外,也产生了
半结构化以及非结构化数据;
(3) 数据速率:不仅数据的产生速度快而且传 播的速度也是非常迅速的,并且呈现流式的特征;(4)数据价值:数据的价值总量是巨大的,但从
中提取的价值密度却是非常稀疏的。
2个人隐私的概念
1890年,W arren和Brandeis在《哈佛法律评
论》上发表了《隐私权》一文,最早提出了隐私的概
念。他们认为公民的个人隐私权是一项独特的权
利,神圣不可侵犯,理应受到应有的保护,以防他人
无根据地发布个人想要保守的秘密[4]。
在大数据时代,我们常常将个人隐私与个人信
息联系起来,但是它们是完全不同的两个概念,个
人隐私包含在个人信息当中。个人信息中除了那
些被保护的信息外,其他的信息是可以在法律允许
的情况下被开发利用的,而那些被保护的信息就是
个人隐私。这里我们就把个人隐私定义为公民个
人不想让他人获知的一些个人信息,比如个人身份
信息、个人收人情况以及身体健康状况等。Bamsar
等人把个人隐私分成了四类[5]:
(1) 信息隐私:主要是个人的一些基本信息
括个人的身份证号、收人状况、婚姻情况以及身体
健康状态等;
(2) 通信隐私:主要是个人与他人使用不同
通信方式进行交流的情况,包括QQ、微信以及邮
收稿日期=2016-12-09
作者简介:牛晨晨(1989 —),男,河南周口人,硕士研究生,主要从事数据挖掘研究。
74西安航空学院学报第35卷
件等;
(3) 空间隐私:主要是个人所拥有的特定空间, 比如个人的具体家庭地址以及所出人的场所;(4)
身体隐私:主要是个人的身体受自己支配, 保证不被他人或机构进行损害,比如药物测试等。
3大数据带来的隐私威胁
大数据的发展是一把双刃剑,它带来巨大商业
价值的同时也不可避免地对个人隐私造成了侵犯。 就大数据所带来的隐私威胁,主要牵涉以下几个 方面:
3.1个人隐私信息非自愿上传
大数据时代背景下,大部分的数据并非个人自 愿上传的,特别是在网上的一些行为数据。比如在 互联网上的一些浏览及搜索记录等都被服务商所 监控,并将采集到的这些信息存储起来,可能服务 商利用这些信息用作他途,而这些却都是在当事人 不知情的情况下发生的。3.2侵犯个人隐私行为难以认定
由于侵犯个人隐私行为的方式是多样的,而现 有的法律又不是很完善,对于有些行为是否属于侵 权很难确定。比如用户出于保护隐私的角度采用 了匿名的方式,而一旦被侵权就很难收集到对自己 有力的数据,想找到真正的侵权人则更增加了 难度。3. 3
个人隐私信息管理难度增加
由于信息技术的高速发展,人们所能获得的数 据也更加复杂,这就使得个人对于自己的隐私信息 管理难度也增加了。具体体现在:在收集个人信息 时,面对这些海量的数据怎样确保所收集到信息是 完整的;而在存储所收集到的个人隐私信息方面有 什么更好的方法来防止他人的窃取;在使用这些个 人信息时,如何在不增加过多管理工作量的基础 上,使不同的人能够访问到不同级别的数据;在信 息发布时如何在保证数据有效的同时不会泄露自 己的隐私。3. 4
个人隐私保护技术难度增加
当人们逐渐意识到要保护自己的隐私,并试图 将自己在网上的信息进行藏匿时,殊不知自己的行 为,特别是在社交网络上已经留下了太多足迹[6]。 大数据下,可以把那些单点看似不相关的信息连接
起来,那么那些所谓的隐私就将不再是隐私了。单
纯的从技术层面就可以通过对数据的抽取和集成
来获取个人的隐私信息,现实中的“人肉搜索”就是 典型的例子。对于那些动态的海量数据即流数据
如何来构建隐私保护而不影响到数据的有效使用。 这些问题都使得大数据下对于个人隐私保护技术 的难度增加了。
3.5多维灵活的个人隐私保护政策仍在摸索
现实生活中企业为了能够提供更好的服务常 常要求用户提交自己的一些敏感信息,而用户为了 获得更好的体验效果也会按照要求填写,但是在数 据的使用方面往往出现欺诈和隐私泄露的问题,这 就使得用户在注册信息时会填写虚假信息,但是虚 假的信息就不能获得服务商的一些特殊服务,由此 造成了恶性循环。因此如何来构建多维灵活的个 人隐私保护政策是大数据时代背景下的一个亟需 解决的问题。
4大数据背景下的个人隐私保护技术如果是仅仅为了保护个人的隐私信息而把有
关自己的数据全部藏匿起来,远离大数据时代,就 有点因小失大了。因此,针对大数据背景下的个人 隐私保护本文提出了几种技术来解决。4.1社交网络匿名保护技术
社交网络是大数据的重要来源之一,其所产 生的数据里面包含了大量的个人隐私信息。社 交网络中产生的数据不同于以往的结构化数据, 它包含了大量的半结构化和非结构化数据。社 交网络中最常用的匿名技术主要是点匿名和边 匿名,其中点匿名采用的是在数据发布时隐藏用 户的基本特征和属性,而边匿名则采用的是隐藏 用户间的关系。侵权者常常会利用各节点的属 性进而识别出用户的个人信息。目前的边匿名 方案实现有效匿名的方式主要是基于边的增删。
Zhang L J 等主要是根据节点的度数不同来进行
分组,然后再从这些度数相同的节点中进行边的 交换[7]。这种方法的最大弊端就是随机增加的 噪声点过于离散稀疏化,存在边匿名保护不足。 另一个对社交网络实现匿名保护技术的方法就 是基于超级节点来对图结构进行切割和聚集操 作,这种匿名方案尽管能够实现边的匿名,但却