大数据安全与隐私保护上课讲义
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
技术手段 政策法规
更好的解决大数 据安全与隐私保
护问题
一定程度上保护了
不能应对数据连续
数据的隐私,能够
多次发布、攻击者
很好的解决静态、
从多渠道获得数据
一次发布的数据隐
的问题的场景。
私保护问题
LOGO
社交网络匿名保护技术
❖ 社交网络中典型的匿名保护:
1、用户标识匿名与属性匿名,在数据发布时隐藏了 用户的标识与属性信息
2、用户间关系匿名,在数据发布时隐藏cience》都 推出了大数据专利 对其展开探讨,意 味着大数据成为云 计算之后的信息技 术领域的另一个信 息产业增长点。
缺点:安全与隐私问题是人们公认的关键问题。
LOGO
二、大数据研究概述
特点
大规模 高速性 多样性
大数据
来源
人 机 物
LOGO
大数据分析目标
1
获得知识与推测趋 势 由于大数据包含大 量原始、真实信息, 大数据分析能够有 效摒弃个体差异, 帮助人们透过现象 把握规律。
作者:冯登国 张敏 李昊
大数据安全与隐私保护 中国科学院软件研究所
LOGO
大数据安全与隐私保护
1 大数据的现状 2 大数据研究概述 3 大数据带来的安全挑战 4 大数据安全与隐私保护关键技术 5 大数据服务与信息安全 6 小结
LOGO
一、大数据的现状
为什么我们要 研究大数据?
当今,社会信息化和 网络化的发展导致数 据的爆炸式增长,据 统计,平均每秒有 200万的用户在使用 谷歌搜索,各行业 也有大量数据在不 断产生。
大数据的 可信性
威胁之一是伪 造或刻意制造 数据, 而错误的数据 往往会导致错 误的结论。 威胁之二是数 据在传播中的 逐步失真。
如何实现 大数据访 问控制
(1)难以预 设角色,实现 角色划分; (2)难以预 知每个角色的 实际权限。
LOGO
四、大数据安全与隐私保护关键技术
1 数据发布匿名保护技术 2 社交网络匿名保护技术 3 数据水印技术 4 数据溯源技术 5 角色挖掘技术 6 风险自适应的访问控制
LOGO
三、大数据带来的安全挑战
大数据中的用户隐私保护 大数据的可信性
如何实现大数据的访问控制
大数据带来的安 全挑战
LOGO
大数据带来的安全挑战
用户隐私 保护
不仅限于个人 隐私泄漏,还 在于基于大数 据对人们状态 和行为的预 测。 目前用户数据 的收集、管理 和使用缺乏监 管,主要依靠 企业自律
大数据技术框架
数据采集与预 处理
由于大数据的 来源不一,可 能存在不同模 式的描述,甚 至存在矛盾。 因此。在数据 集成过程中对 数据进行清洗, 以消除相似、 重复或不一致 的数据是非常 必要的。
数据分析
分为三类:计 算架构,查询 与索引,数据 分析和处理。
数据解释
旨在更好地支 持用户对数据 分析结果的使 用,涉及的主 要技术为可视 化和人机交互。
2
分析掌握个性化特 征 企业通过长时间、 多维度的数据积累, 可以分析用户行为 规律,为用户提供 更好的个性化产品 和服务,以及更精 确的广告推荐。
3
通过分析辨别真相 由于网络中信息的 传递更变便利,所 以网络虚假信息造 成的危害也更大。 目前人们开始尝试 利用大数据进行虚 假信息的识别。
LOGO
LOGO
基于大数据的认证技术
❖ 基于大数据的认证技术:收集用户行为和设备行为数据, 对这些数据分析,获得用户行为和设备行为的特征,进而 确定其身份。
优点
1、攻击者很难模拟
用户行为通过认证 2、减小用户负担 3、更好的支持各系 统认证机制的统一
1、初始阶段的认证, 由于缺乏大量数据, 认证分析不准确 2、用户隐私问题
❖ 前提:数据中存在冗余信息或可容忍一定精度的误差 ❖ 案例:
1、Agrawal等人基于数据库中数值型数据存在误差容 忍范围,将少量水印信息嵌入到这些数据中随机选取 的最不重要位上。 2、Sion等人基于数据集合统计特征,将水印信息嵌入 属性数据中,防止攻击者破坏水印
LOGO
数据水印技术
❖ 数据水印技术应用:强健水印类可用于大数据起源证明, 脆弱水印类可证明基数于据文档的结真构实微性调的水印
❖ 存在的问题:当前方案多基于静态数据集,针对大数据的 高速产生与更新的特性考虑不足 文本 水印
基于文本内容的水印
基于自然语言的水印
LOGO
数据溯源技术
❖ 数据溯源技术目标是帮助人们确定数据仓库中各项数据的 来源,也可用于文件的溯源与恢复
❖ 基本方法:标记法,比如通过对数据进行标记来记录数据 在数据仓库中的查询与传播历史
缺点
LOGO
基于大数据的数据真实性分析
❖ 基于大数据的数据真实性分析被广泛认为是最为有效的方 法
❖ 优势: 1、引入大数据分析可以获得更高的识别准确率 2、在进行大数据分析时,通过机器学习技术,可以发 现更多具有新特征的垃圾信息
❖ 面临的困难:虚假信息的定义、分析模型的构建等
LOGO
大数据与“安全-即-服务”
LOGO
数据发布匿名保护技术
❖ 数据发布匿名保护技术是对大数据中结构化数据实现隐私
保护的核心关键与基本K技匿术名手方段案
❖ 典型例子:K匿名方案 k-匿名技术要求发布的数据中存在
一定数量(至少为k) 的在准标识符上不可区分的记录,使
攻击者不能判别出隐私信息所属的具体个体,从而保护了
个人隐私
优势
劣势
面 临
数据溯源与隐私保护之间的平衡
的
挑
战
数据溯源技术自身的安全性保护
LOGO
角色挖掘技术
❖ 角色挖掘:根据现有“用户-对象”授权情况,设计算法 自动实现角色的提取与优化。
❖ 典型工作:
①以可视化形式, 通过用户权限二 维图排序归并方 式进行角色提取
②非形式化: 子集枚举以及 聚类的方法提
取角色
③基于形式化 语义分析、通 过层次化挖掘 来更准确提取
❖ 核心问题:如何收集、存储和管理大数据
❖ 对信息安全企业来说,现实的方式是通过某种方式获得大 数据服务,结合自己的技术特色,对外提供安全服务.
❖ 前景:以底层大数据服务为基础,各个企业之间组成相互 依赖、相互支撑的信息安全服务体系,形成信息安全产业 界的良好生态环境.
LOGO
六、小结
大数据带来新的契机的同时也带来了新的安全问题, 但它自身也是解决问题的重要手段。论文从大数据的隐 私保护、信任、访问控制等角度梳理了大数据安全与隐 私保护的相关技术,但当今的研究仍不够充分。
❖ 常见社交网络匿名保护
1
边匿名方案多基于 边的增删,用随机 增删交换便的方法 有效地实现边匿名 不足:匿名边保护 不足
2
基于超级节点对图 结构进行分割和集 聚操作
不足:牺牲数据的 可用性
LOGO
数据水印技术
❖ 数据水印是指将标识信息以难以察觉的方式嵌入在数据载 体内部且不影响其使用方法,多见于多媒体数据版权保护, 也有针对数据库和文本文件的水印方案。
角色
LOGO
风险自适应的访问控制
❖ 风险自适应的访问控制是针对在大数据场景中,安全管理 员可能缺乏足够的专业知识,无法准确的为用户指定其可 以访问的数据的情况。
❖ 案例:基于多级别安全模型的风险自适应访问控制解决方 案、基于模糊推理的解决方案等
❖ 难点:在大数据环境中,风险的定义和量化都比以往更加 困难。
LOGO
五、大数据服务与信息安全
基于大数据的应用
威胁发现 技术
认证技术
数据真实 性分析
安全-即-服务
LOGO
基于大数据的威胁发现技术
❖ 基于大数据,企业可以更主动的发现潜在的安全威胁 ❖ 相较于传统技术方案,大数据威胁发现技术有以下优点:
1、分析内容的范 围更大
2、分析内容的时 间跨度更长
3、攻击威胁的 预测性
4、对未知威胁的 检测
LOGO
基于大数据的认证技术
❖ 身份认证:信息系统或网络中确认操作者身份的过程,传 统认证技术只要通过用户所知的口令或者持有凭证来鉴别 用户
❖ 传统技术面临的问题:
1、攻击者总能找到方法来骗取用户所知的秘密,或窃取用户凭证
2、传统认证技术中认证方式越安全往往意味着用户负担越重