大数据安全与隐私保护上课讲义
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在科学界《Nature》 和《Science》都 推出了大数据专利 对其展开探讨,意 味着大数据成为云 计算之后的信息技 术领域的另一个信 息产业增长点。
缺点:安全与隐私问题是人们公认的关键问题。
LOGO
二、大数据研究概述
特点
大规模 高速性 多样性
大数据
来源
人 机 物
LOGO
大数据分析目标
1
获得知识与推测趋 势 由于大数据包含大 量原始、真实信息, 大数据分析能够有 效摒弃个体差异, 帮助人们透过现象 把握规律。
一定程度上保护了
不能应对数据连续
数据的隐私,能够
多次发布、攻击者
很好的解决静态、
从多渠道获得数据
一次发布的数据隐
的问题的场景。
私保护问题
LOGO
社交网络匿名保护技术
❖ 社交网络中典型的匿名保护:
1、用户标识匿名与属性匿名,在数据发布时隐藏了 用户的标识与属性信息
2、用户间关系匿名,在数据发布时隐藏了用户间的关 系
LOGO
基于大数据的认证技术
❖ 基于大数据的认证技术:收集用户行为和设备行为数据, 对这些数据分析,获得用户行为和设备行为的特征,进而 确定其身份。
优点
1、攻击者很难模拟
用户行为通过认证 2、减小用户负担 3、更好的支持各系 统认证机制的统一
1、初始阶段的认证, 由于缺乏大量数据, 认证分析不准确 2、用户隐私问题
❖ 前提:数据中存在冗余信息或可容忍一定精度的误差 ❖ 案例:
1、Agrawal等人基于数据库中数值型数据存在误差容 忍范围,将少量水印信息嵌入到这些数据中随机选取 的最不重要位上。 2、Sion等人基于数据集合统计特征,将水印信息嵌入 属性数据中,防止攻击者破坏水印
LOGO
数据水印技术
❖ 数据水印技术应用:强健水印类可用于大数据起源证明, 脆弱水印类可证明基数于据文档的结真构实微性调的水印
4、对未知威胁的 检测
LOGO
基于大数据的认证技术
❖ 身份认证:信息系统或网络中确认操作者身份的过程,传 统认证技术只要通过用户所知的口令或者持有凭证来鉴别 用户
❖ 传统技术面临的问题:
1、攻击者总能找到方法来骗取用户所知的秘密,或窃取用户凭证
2、传统认证技术中认证方式越安全往往意味着用户负担越重
LOGO
五、大数据服务与信息安全
基于大数据的应用
威胁发现 技术
认证技术
Fra Baidu bibliotek数据真实 性分析
安全-即-服务
LOGO
基于大数据的威胁发现技术
❖ 基于大数据,企业可以更主动的发现潜在的安全威胁 ❖ 相较于传统技术方案,大数据威胁发现技术有以下优点:
1、分析内容的范 围更大
2、分析内容的时 间跨度更长
3、攻击威胁的 预测性
大数据技术框架
数据采集与预 处理
由于大数据的 来源不一,可 能存在不同模 式的描述,甚 至存在矛盾。 因此。在数据 集成过程中对 数据进行清洗, 以消除相似、 重复或不一致 的数据是非常 必要的。
数据分析
分为三类:计 算架构,查询 与索引,数据 分析和处理。
数据解释
旨在更好地支 持用户对数据 分析结果的使 用,涉及的主 要技术为可视 化和人机交互。
❖ 存在的问题:当前方案多基于静态数据集,针对大数据的 高速产生与更新的特性考虑不足 文本 水印
基于文本内容的水印
基于自然语言的水印
LOGO
数据溯源技术
❖ 数据溯源技术目标是帮助人们确定数据仓库中各项数据的 来源,也可用于文件的溯源与恢复
❖ 基本方法:标记法,比如通过对数据进行标记来记录数据 在数据仓库中的查询与传播历史
角色
LOGO
风险自适应的访问控制
❖ 风险自适应的访问控制是针对在大数据场景中,安全管理 员可能缺乏足够的专业知识,无法准确的为用户指定其可 以访问的数据的情况。
❖ 案例:基于多级别安全模型的风险自适应访问控制解决方 案、基于模糊推理的解决方案等
❖ 难点:在大数据环境中,风险的定义和量化都比以往更加 困难。
技术手段 政策法规
更好的解决大数 据安全与隐私保
护问题
大数据的 可信性
威胁之一是伪 造或刻意制造 数据, 而错误的数据 往往会导致错 误的结论。 威胁之二是数 据在传播中的 逐步失真。
如何实现 大数据访 问控制
(1)难以预 设角色,实现 角色划分; (2)难以预 知每个角色的 实际权限。
LOGO
四、大数据安全与隐私保护关键技术
1 数据发布匿名保护技术 2 社交网络匿名保护技术 3 数据水印技术 4 数据溯源技术 5 角色挖掘技术 6 风险自适应的访问控制
作者:冯登国 张敏 李昊
大数据安全与隐私保护 中国科学院软件研究所
LOGO
大数据安全与隐私保护
1 大数据的现状 2 大数据研究概述 3 大数据带来的安全挑战 4 大数据安全与隐私保护关键技术 5 大数据服务与信息安全 6 小结
LOGO
一、大数据的现状
为什么我们要 研究大数据?
当今,社会信息化和 网络化的发展导致数 据的爆炸式增长,据 统计,平均每秒有 200万的用户在使用 谷歌搜索,各行业 也有大量数据在不 断产生。
面 临
数据溯源与隐私保护之间的平衡
的
挑
战
数据溯源技术自身的安全性保护
LOGO
角色挖掘技术
❖ 角色挖掘:根据现有“用户-对象”授权情况,设计算法 自动实现角色的提取与优化。
❖ 典型工作:
①以可视化形式, 通过用户权限二 维图排序归并方 式进行角色提取
②非形式化: 子集枚举以及 聚类的方法提
取角色
③基于形式化 语义分析、通 过层次化挖掘 来更准确提取
缺点
LOGO
基于大数据的数据真实性分析
❖ 基于大数据的数据真实性分析被广泛认为是最为有效的方 法
❖ 优势: 1、引入大数据分析可以获得更高的识别准确率 2、在进行大数据分析时,通过机器学习技术,可以发 现更多具有新特征的垃圾信息
❖ 面临的困难:虚假信息的定义、分析模型的构建等
LOGO
大数据与“安全-即-服务”
❖ 核心问题:如何收集、存储和管理大数据
❖ 对信息安全企业来说,现实的方式是通过某种方式获得大 数据服务,结合自己的技术特色,对外提供安全服务.
❖ 前景:以底层大数据服务为基础,各个企业之间组成相互 依赖、相互支撑的信息安全服务体系,形成信息安全产业 界的良好生态环境.
LOGO
六、小结
大数据带来新的契机的同时也带来了新的安全问题, 但它自身也是解决问题的重要手段。论文从大数据的隐 私保护、信任、访问控制等角度梳理了大数据安全与隐 私保护的相关技术,但当今的研究仍不够充分。
❖ 常见社交网络匿名保护
1
边匿名方案多基于 边的增删,用随机 增删交换便的方法 有效地实现边匿名 不足:匿名边保护 不足
2
基于超级节点对图 结构进行分割和集 聚操作
不足:牺牲数据的 可用性
LOGO
数据水印技术
❖ 数据水印是指将标识信息以难以察觉的方式嵌入在数据载 体内部且不影响其使用方法,多见于多媒体数据版权保护, 也有针对数据库和文本文件的水印方案。
LOGO
三、大数据带来的安全挑战
大数据中的用户隐私保护 大数据的可信性
如何实现大数据的访问控制
大数据带来的安 全挑战
LOGO
大数据带来的安全挑战
用户隐私 保护
不仅限于个人 隐私泄漏,还 在于基于大数 据对人们状态 和行为的预 测。 目前用户数据 的收集、管理 和使用缺乏监 管,主要依靠 企业自律
LOGO
数据发布匿名保护技术
❖ 数据发布匿名保护技术是对大数据中结构化数据实现隐私
保护的核心关键与基本K技匿术名手方段案
❖ 典型例子:K匿名方案 k-匿名技术要求发布的数据中存在
一定数量(至少为k) 的在准标识符上不可区分的记录,使
攻击者不能判别出隐私信息所属的具体个体,从而保护了
个人隐私
优势
劣势
2
分析掌握个性化特 征 企业通过长时间、 多维度的数据积累, 可以分析用户行为 规律,为用户提供 更好的个性化产品 和服务,以及更精 确的广告推荐。
3
通过分析辨别真相 由于网络中信息的 传递更变便利,所 以网络虚假信息造 成的危害也更大。 目前人们开始尝试 利用大数据进行虚 假信息的识别。
LOGO