大数据安全与隐私保护_冯登国_张敏_李昊
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
] 2 1 - 当 前, 与隐私问题是 人 们 公 认 的 关 键 问 题 之 一 [ .
安全问题和挑战的 同 时 , 也为信息安全领域带来了 新的发展契机 , 即基 于 大 数 据 的 信 息 安 全 相 关 技 术 可以反过来用于大 数 据 的 安 全 和 隐 私 保 护 . 本文在 第 5 节对其进行了初步分析与探讨 .
) 是当前学术 界 和 产 业 界 的 研 究 热 点 , 正 影 响 着 人 们 日 常 生 活 方 式、 工作习惯及思考模 摘 要 大数据 ( B t a i D a g 式. 但目前大数据在收集 、 存储和使用过 程 中 面 临 着 诸 多 安 全 风 险 , 大数据所导致的隐私泄露为用户带来严重困 扰, 虚假数据将导致错误或无效的大数据分析结果 . 该文分析了实现大数据安全 与 隐 私 保 护 所 面 临 的 技 术 挑 战 , 整 理了若干关键技术及其最新进展 . 分析指出大数据在引入安全问题的同时 , 也是 解 决 信 息 安 全 问 题 的 有 效 手 段 . 它 为信息安全领域的发展带来了新的契机 . 关键词 大数据 ; 大数据安全 ; 隐私保护 ; 信息安全 / 中图法分类号 T P 3 0 9 D 0. 3 7 2 4 S P. J . 1 0 1 6. 2 0 1 4. 0 0 2 4 6 O I号 1
A b s t r a c t o w a d a s b i d a t a h a s b e c o m e a h o t t o i c i n b o t h t h e a c a d e m i c a n d t h e i n d u s t r i a l N y g p ,w , r e s e a r c h . I t i s r e a r d e d a s a r e v o l u t i o n t h a t w i l l t r a n s f o r m h o w w e l i v e o r k a n d t h i n k .H o w e v e r g , r i v a c r o t e c t i o n w h e n c o l l e c t i n t h e r e a r e m a n s e c u r i t r i s k s i n t h e f i e l d o f d a t a s e c u r i t a n d p y p g y y y s t o r i n a n d u t i l i z i n b i d a t a . P r i v a c i s s u e s r e l a t e d w i t h b i d a t a a n a l s i s s e l l t r o u b l e f o r i n d i - g g g y g y p v i d u a l s .A n d d e c e t i v e o r f a k e i n f o r m a t i o n w i t h i n b i d a t a m a l e a d t o i n c o r r e c t a n a l s i s r e s u l t s . p g y y , a e r s u mm a r i z e s a n d a n a l z e s t h e s e c u r i t c h a l l e n e s b r o u h t b b i d a t a a n d t h e n T h i s pp y y g g y g , d e s c r i b e s t h e k e t e c h n o l o i e s w h i c h c a n b e e x l o i t e d t o d e a l w i t h t h e s e c h a l l e n e s . F i n a l l t h i s y g p g y , a e r a r u e s t h a t b i d a t a b r i n s n o t o n l c h a l l e n e s b u t a l s o t e c h n i c a l r e v o l u t i o n i n t h e f i e l d o f p p g g g y g i n f o r m a t i o n s e c u r i t . y ; ; ; K e w o r d s i d a t a b i d a t a s e c u r i t r i v a c r o t e c t i o n i n f o r m a t i o n s e c u r i t b g g y p y p y y 数据在不 断 产 生 . 1 2年全球信息总量已经达到 2 0
而到 2 2 . 7 Z B, 0 1 5 年这一数值预计会达到 8 Z B. 这一现象引发了人们的广泛关注 . 在学术界 , 图 灵奖获得者 J r a i m G y 提出了科学研究的第四范式 , 即以大数据为基础的数据密 集 型 科 学 研 究 ; 8年 2 0 0 》 《 推出了大数据专刊对其展开探讨 ; N a t u r e 1年 2 0 1 》 《 S c i e n c e 也推出类似的数据处理专刊 . I T 产业界行 动更为积极 , 持续关注数据再利用 , 挖掘大数据的潜
; ) 、 最终修改稿收到日期 : 本课题得到国家自然科学基金 ( 收稿日期 : 国家“ 八六三” 0 7 2 2 2 0 1 1 2 6. 9 1 1 1 8 0 0 6, 6 1 2 3 2 0 0 5, 6 1 1 0 0 2 3 7 3 1 3 2 0 1 - - - - ) 资助 . 冯登国 , 博士, 研究员, 高技术研究发展计划项目基金 ( 男, 主要研究 领 域 为 信 息 安 全 与 密 码 学、 可 0 1 2 3 8 2 4 0 0 1 5年生, 2 0 1 1 AA 1 9 6 : 张 敏, 女, 博士 , 副研究员 , 信计算与信息保障 . 主要研究方向为数据隐私保护 、 可信计算与云存 储 l f e n d 6 3. n e t . 1 9 7 5 年生 , E-m a i @2 g g 安全 . 李 昊, 男, 博士 , 助理研究员 , 主要研究方向为数据隐私保护与可信计算 . 1 3 年生 , 9 8
1期
冯登国等 :大数据安全与隐私保护
2 4 7
在价值 . 目前 , 大数据已成为继云计算之后信息技术 领域的 另 一 个 信 息 产 业 增 长 点 . 据G t n e r 预 测, a r 到 2 0 1 3年 大 数 据 将 带 动 全 球I T 支出3 4 0 亿 美 元, 6 年全球在大数据方面 的 总 花 费 将 达 到 2 0亿 2 0 1 3 2 美元 . 大数 据 ” 技术列入2 2年对众多 G a r t n e r将 “ 0 1 公司和组织机构具有战略意义的十大技术与趋势之 一. 不仅如此 , 作为 国 家 和 社 会 的 主 要 管 理 者 , 各国 政府也是 大 数 据 技 术 推 广 的 主 要 推 动 者 . 0 9年 2 0 向公众开放政 a . o v网 站, 3 月美国政府上线 了 d a t g 府所拥有的公共 数 据 . 随 后, 英 国、 澳大利亚等政府 也开始了大数据开放的进程 , 截至目前 , 全世界已经 正式有 3 5 个国家和 地 区 构 建 了 自 己 的 数 据 开 放 门 美国政 府 联 合 6 个 部 门 宣 布 了 2 亿 美 元 户网站 ① . 的“ 大数据 研 究 与 发 展 计 划 ” 在 我 国, 2年中国 . 2 0 1 通信学会 、 中国计算 机 学 会 等 重 要 学 术 组 织 先 后 成 立了大数据专家委 员 会 , 为我国大数据应用和发展 提供学术咨询 . 目前 大 数 据 的 发 展 仍 然 面 临 着 许 多 问 题 , 安全
1 引 言
当今 , 社会信息化和网络化的发展导致数据爆 炸式增长 . 据统计 , 平均每秒有 2 0 0 万用户在使用谷 歌搜索 , F e b o o k 用 户 每 天 共 享 的 东 西 超 过4 a c 0亿, 科 同 时, i t t e r每天 处 理 的 推 特 数 量 超 过 3 T w . 4 亿. 、 、 、 学计算 医疗卫生 金 融 零 售 业 等 各 行 业 也 有 大 量
第3 7卷 第1期 1 4年1月 2 0
计 算 机 学 报 N E S E J OUR NA L O F C OMP UT E R S CH I
. 3 7 N o . 1 V o l J a n . 2ቤተ መጻሕፍቲ ባይዱ0 1 4
大数据安全与隐私保护
冯登国 张 敏 李 昊
( ) 中国科学院软件研究所 可信计算与信息保障实验室 北京 1 1 9 0 0 0
[ 3]
:
( ) 来自 于 人 . 人们在互联网活动以及使用移 1 动互联网过 程 中 所 产 生 的 各 类 数 据 , 包 括 文 字、 图 片、 视频等信息 ; ( ) 来自 于 机 . 各类计算机信息系统产生的数 2 据, 以 文 件、 数 据 库、 多 媒 体 等 形 式 存 在, 也包括审 计、 日志等自动生成的信息 ; ( ) 来自于物 . 各类数字 设 备 所 采 集 的 数 据 . 如 3 、 摄像头产生的数字 信 号 医 疗 物 联 网 中 产 生 的 人 的 各项特征值 、 天文望远镜所产生的大量数据等 . 2 . 2 大数据分析目标 目前大数据分析应用于科学 、 医药 、 商业等各个 领 域, 用 途 差 异 巨 大. 但其目标可以归纳为如下 几类 : ( ) 获得知识与推测趋势 . 1 人们 进 行 数 据 分 析 由 来 已 久 , 最初且最重要的 目的就是获得知识 、 利用知识 . 由于大数据包含大量 原始 、 真实 信 息 , 大数据分析能够有效地摒弃个体 差异 , 帮助人们透过现象 、 更准确地把握事物背后的 规律 . 基于挖掘出的知识 , 可以更准确地对自然或社 会现 象 进 行 预 测 . 典型的案例是 G e公司的 o o l g 它通过统计人们对流感信 G e F l u T r e n d s网站 . o o l g 息的搜索 , 查询 G e服务器日志的I o o l P 地址判定搜 g 又 索来源 , 从而 发 布 对 世 界 各 地 流 感 情 况 的 预 测 ③ . 如, 人们可以根据 T t t e r信息预测股票行情 ④ 等 . w i ( ) 分析掌握个性化特征 . 2 个体 活 动 在 满 足 某 些 群 体 特 征 的 同 时 , 也具有
t a S e c u r i t a n d P r i v a c P r o t e c t i o n B i D a y y g
F E NG u o D e n HANG M i n L I H a o Z -G g
( ) 0 0 T r u C o m u a n d I n o r A s s L a b I n s o S o t w C h i A c a o S c i B e i i s t e d t i n m a t i o n u r a n c e o r a t o r t i t u t e a r e, n e s e d e m e n c e s, n 1 9 0 p f f f f j g y, y g 1
2 大数据研究概述
2 . 1 大数据来源与特征 普遍的观点认为 , 大数据是指规模大且复杂 、 以 至于很难用现有数据库管理工具或数据处理应用来 大数据的常见特点包括大规模 处 理 的 数 据 集 ②. ( ) 、 ) ) 高速性 ( 和多样性 ( v u m e v o c i t i e t . o l e l v a r y y 根据 来 源 的 不 同 , 大数据大致可分为如下 几类
安全问题和挑战的 同 时 , 也为信息安全领域带来了 新的发展契机 , 即基 于 大 数 据 的 信 息 安 全 相 关 技 术 可以反过来用于大 数 据 的 安 全 和 隐 私 保 护 . 本文在 第 5 节对其进行了初步分析与探讨 .
) 是当前学术 界 和 产 业 界 的 研 究 热 点 , 正 影 响 着 人 们 日 常 生 活 方 式、 工作习惯及思考模 摘 要 大数据 ( B t a i D a g 式. 但目前大数据在收集 、 存储和使用过 程 中 面 临 着 诸 多 安 全 风 险 , 大数据所导致的隐私泄露为用户带来严重困 扰, 虚假数据将导致错误或无效的大数据分析结果 . 该文分析了实现大数据安全 与 隐 私 保 护 所 面 临 的 技 术 挑 战 , 整 理了若干关键技术及其最新进展 . 分析指出大数据在引入安全问题的同时 , 也是 解 决 信 息 安 全 问 题 的 有 效 手 段 . 它 为信息安全领域的发展带来了新的契机 . 关键词 大数据 ; 大数据安全 ; 隐私保护 ; 信息安全 / 中图法分类号 T P 3 0 9 D 0. 3 7 2 4 S P. J . 1 0 1 6. 2 0 1 4. 0 0 2 4 6 O I号 1
A b s t r a c t o w a d a s b i d a t a h a s b e c o m e a h o t t o i c i n b o t h t h e a c a d e m i c a n d t h e i n d u s t r i a l N y g p ,w , r e s e a r c h . I t i s r e a r d e d a s a r e v o l u t i o n t h a t w i l l t r a n s f o r m h o w w e l i v e o r k a n d t h i n k .H o w e v e r g , r i v a c r o t e c t i o n w h e n c o l l e c t i n t h e r e a r e m a n s e c u r i t r i s k s i n t h e f i e l d o f d a t a s e c u r i t a n d p y p g y y y s t o r i n a n d u t i l i z i n b i d a t a . P r i v a c i s s u e s r e l a t e d w i t h b i d a t a a n a l s i s s e l l t r o u b l e f o r i n d i - g g g y g y p v i d u a l s .A n d d e c e t i v e o r f a k e i n f o r m a t i o n w i t h i n b i d a t a m a l e a d t o i n c o r r e c t a n a l s i s r e s u l t s . p g y y , a e r s u mm a r i z e s a n d a n a l z e s t h e s e c u r i t c h a l l e n e s b r o u h t b b i d a t a a n d t h e n T h i s pp y y g g y g , d e s c r i b e s t h e k e t e c h n o l o i e s w h i c h c a n b e e x l o i t e d t o d e a l w i t h t h e s e c h a l l e n e s . F i n a l l t h i s y g p g y , a e r a r u e s t h a t b i d a t a b r i n s n o t o n l c h a l l e n e s b u t a l s o t e c h n i c a l r e v o l u t i o n i n t h e f i e l d o f p p g g g y g i n f o r m a t i o n s e c u r i t . y ; ; ; K e w o r d s i d a t a b i d a t a s e c u r i t r i v a c r o t e c t i o n i n f o r m a t i o n s e c u r i t b g g y p y p y y 数据在不 断 产 生 . 1 2年全球信息总量已经达到 2 0
而到 2 2 . 7 Z B, 0 1 5 年这一数值预计会达到 8 Z B. 这一现象引发了人们的广泛关注 . 在学术界 , 图 灵奖获得者 J r a i m G y 提出了科学研究的第四范式 , 即以大数据为基础的数据密 集 型 科 学 研 究 ; 8年 2 0 0 》 《 推出了大数据专刊对其展开探讨 ; N a t u r e 1年 2 0 1 》 《 S c i e n c e 也推出类似的数据处理专刊 . I T 产业界行 动更为积极 , 持续关注数据再利用 , 挖掘大数据的潜
; ) 、 最终修改稿收到日期 : 本课题得到国家自然科学基金 ( 收稿日期 : 国家“ 八六三” 0 7 2 2 2 0 1 1 2 6. 9 1 1 1 8 0 0 6, 6 1 2 3 2 0 0 5, 6 1 1 0 0 2 3 7 3 1 3 2 0 1 - - - - ) 资助 . 冯登国 , 博士, 研究员, 高技术研究发展计划项目基金 ( 男, 主要研究 领 域 为 信 息 安 全 与 密 码 学、 可 0 1 2 3 8 2 4 0 0 1 5年生, 2 0 1 1 AA 1 9 6 : 张 敏, 女, 博士 , 副研究员 , 信计算与信息保障 . 主要研究方向为数据隐私保护 、 可信计算与云存 储 l f e n d 6 3. n e t . 1 9 7 5 年生 , E-m a i @2 g g 安全 . 李 昊, 男, 博士 , 助理研究员 , 主要研究方向为数据隐私保护与可信计算 . 1 3 年生 , 9 8
1期
冯登国等 :大数据安全与隐私保护
2 4 7
在价值 . 目前 , 大数据已成为继云计算之后信息技术 领域的 另 一 个 信 息 产 业 增 长 点 . 据G t n e r 预 测, a r 到 2 0 1 3年 大 数 据 将 带 动 全 球I T 支出3 4 0 亿 美 元, 6 年全球在大数据方面 的 总 花 费 将 达 到 2 0亿 2 0 1 3 2 美元 . 大数 据 ” 技术列入2 2年对众多 G a r t n e r将 “ 0 1 公司和组织机构具有战略意义的十大技术与趋势之 一. 不仅如此 , 作为 国 家 和 社 会 的 主 要 管 理 者 , 各国 政府也是 大 数 据 技 术 推 广 的 主 要 推 动 者 . 0 9年 2 0 向公众开放政 a . o v网 站, 3 月美国政府上线 了 d a t g 府所拥有的公共 数 据 . 随 后, 英 国、 澳大利亚等政府 也开始了大数据开放的进程 , 截至目前 , 全世界已经 正式有 3 5 个国家和 地 区 构 建 了 自 己 的 数 据 开 放 门 美国政 府 联 合 6 个 部 门 宣 布 了 2 亿 美 元 户网站 ① . 的“ 大数据 研 究 与 发 展 计 划 ” 在 我 国, 2年中国 . 2 0 1 通信学会 、 中国计算 机 学 会 等 重 要 学 术 组 织 先 后 成 立了大数据专家委 员 会 , 为我国大数据应用和发展 提供学术咨询 . 目前 大 数 据 的 发 展 仍 然 面 临 着 许 多 问 题 , 安全
1 引 言
当今 , 社会信息化和网络化的发展导致数据爆 炸式增长 . 据统计 , 平均每秒有 2 0 0 万用户在使用谷 歌搜索 , F e b o o k 用 户 每 天 共 享 的 东 西 超 过4 a c 0亿, 科 同 时, i t t e r每天 处 理 的 推 特 数 量 超 过 3 T w . 4 亿. 、 、 、 学计算 医疗卫生 金 融 零 售 业 等 各 行 业 也 有 大 量
第3 7卷 第1期 1 4年1月 2 0
计 算 机 学 报 N E S E J OUR NA L O F C OMP UT E R S CH I
. 3 7 N o . 1 V o l J a n . 2ቤተ መጻሕፍቲ ባይዱ0 1 4
大数据安全与隐私保护
冯登国 张 敏 李 昊
( ) 中国科学院软件研究所 可信计算与信息保障实验室 北京 1 1 9 0 0 0
[ 3]
:
( ) 来自 于 人 . 人们在互联网活动以及使用移 1 动互联网过 程 中 所 产 生 的 各 类 数 据 , 包 括 文 字、 图 片、 视频等信息 ; ( ) 来自 于 机 . 各类计算机信息系统产生的数 2 据, 以 文 件、 数 据 库、 多 媒 体 等 形 式 存 在, 也包括审 计、 日志等自动生成的信息 ; ( ) 来自于物 . 各类数字 设 备 所 采 集 的 数 据 . 如 3 、 摄像头产生的数字 信 号 医 疗 物 联 网 中 产 生 的 人 的 各项特征值 、 天文望远镜所产生的大量数据等 . 2 . 2 大数据分析目标 目前大数据分析应用于科学 、 医药 、 商业等各个 领 域, 用 途 差 异 巨 大. 但其目标可以归纳为如下 几类 : ( ) 获得知识与推测趋势 . 1 人们 进 行 数 据 分 析 由 来 已 久 , 最初且最重要的 目的就是获得知识 、 利用知识 . 由于大数据包含大量 原始 、 真实 信 息 , 大数据分析能够有效地摒弃个体 差异 , 帮助人们透过现象 、 更准确地把握事物背后的 规律 . 基于挖掘出的知识 , 可以更准确地对自然或社 会现 象 进 行 预 测 . 典型的案例是 G e公司的 o o l g 它通过统计人们对流感信 G e F l u T r e n d s网站 . o o l g 息的搜索 , 查询 G e服务器日志的I o o l P 地址判定搜 g 又 索来源 , 从而 发 布 对 世 界 各 地 流 感 情 况 的 预 测 ③ . 如, 人们可以根据 T t t e r信息预测股票行情 ④ 等 . w i ( ) 分析掌握个性化特征 . 2 个体 活 动 在 满 足 某 些 群 体 特 征 的 同 时 , 也具有
t a S e c u r i t a n d P r i v a c P r o t e c t i o n B i D a y y g
F E NG u o D e n HANG M i n L I H a o Z -G g
( ) 0 0 T r u C o m u a n d I n o r A s s L a b I n s o S o t w C h i A c a o S c i B e i i s t e d t i n m a t i o n u r a n c e o r a t o r t i t u t e a r e, n e s e d e m e n c e s, n 1 9 0 p f f f f j g y, y g 1
2 大数据研究概述
2 . 1 大数据来源与特征 普遍的观点认为 , 大数据是指规模大且复杂 、 以 至于很难用现有数据库管理工具或数据处理应用来 大数据的常见特点包括大规模 处 理 的 数 据 集 ②. ( ) 、 ) ) 高速性 ( 和多样性 ( v u m e v o c i t i e t . o l e l v a r y y 根据 来 源 的 不 同 , 大数据大致可分为如下 几类