面向行为可信的大数据安全系统形式化描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由于云计算的服务模式是数据外包,数据的所有权转 移给了 CSP, 云中存储的大数据通常是明文的, 一旦 CSP 拥有数据的使用权, 恶意的 CSP 可能会窃取用户数据,云 平台亦可能受到黑客攻击致使安全机制失效或被非法控 制,从而导致非授权人读取数据,给大数据安全带来了威 胁。 因此要保障在云端应用 Hadoop 处理大数据的安全,应 从行为角度控制对数据的非法使用。
2 研究背景及相关工作
Hadoop 是 当 前 最 广 为 人 知 的 大 数 据 技 术 实 施 方 案 。 它在设计之初并未考虑过安全问题,在 Hadoop 1.0.0 或者 CDH3 版 本 之 后 ,Hadoop 在 安 全 方 面 加 入 了 基 于 Kerberos 的 身 份 认 证 机 制 和 基 于 ACL 的 访 问 控 制 机 制 。 然 而 Kerberos 的 认 证 机 制 只 是 针 对 机 器 级 别 的 安 全 认 证 ,并 未 对 Hadoop 平台本身进行认 证[2]。 而 基 于 ACL 的 访 问 控 制 虽然限制了用户与组成员对 Hadoop 中资源的访问或节点 间的通信, 但该机制依赖于管理员对 hadoop-policy.xml 中 访问列表的配置,这种基于传统的访问控制列表容易在服 务器端被篡改而不易察觉。 况且对于企业,访问控制列表 需要经常被更新,操作过于繁琐且不易维护。 因此 Hadoop 自身的安全机制是不完善的。
Formal Description of Trusted Behavior Oriented Security System for Big Data
Yan Zhi1, Zhan Jing1,2,3
(1. College of Computer Science, Beijing University of Technology, Beijing 100124, China; 2. Beijing Municipal Key Laboratory of Trusted Computing, Beijing 100124, China;
* 国家科技重大专项基金资助项目(No.2012ZX03002003),高等学校博士学科点专项科研基金资助项目(No.20131103120001)
32
(Google file system,Google 文件系统)思想启发下开发出 的 计 算 框 架 , 并 成 功 应 用 到 诸 如 亚 马 逊 、Yahoo、Facebook 等 公司的应用中。 而 CSP(cloud service provider,云 计 算 服 务 提供商)拥有大数据存储能力和计算资源,因此往往通过 云计算平台对大数据进行处理。 目前许多组织选择在租赁 硬件所搭建的云端运行 Hadoop 或提供 Hadoop 服务。 例如 Cloudera 提供在公共 (或私有) 云端运行 Hadoop 的工具; Amazon 提供 Hadoop 云服务,名为 Elastic MapReduce。
1 引言
随着各个领域数据生成速度的加快,需要处理的数据 量急剧膨胀。 有效地分析和利用这些庞大的数据资源能够
wk.baidu.com
带来巨大的价值。 利用传统存储和分析工具对内容庞大、 种类繁多的大数据进行处理已经不能满足其要求。 Hadoop 提供了一个可靠的大数据共享存储和分 析 系 统[1]。 它 是 由 开 源 组 织 Apache 在 Google 云 计 算 的 map/reduce 和 GFS
专题:网络信息安全
专题:网络信息安全
面向行为可信的大数据安全系统形式化描述 *
闫 智 1,詹 静 1,2,3 (1. 北京工业大学计算机学院 北京 100124;2. 可信计算北京市重点实验室 北京 100124;
3. 信息安全等级保护关键技术国家工程实验室 北京 100124)
摘 要 :大 数 据 的 存 储 和 分 析 通 常 是 在 云 计 算 环 境 下 利 用 Hadoop 计 算 框 架 进 行 处 理 ,而 基 于 云 的 大 数 据 安 全 风险来源于云计算服务商以及远程数据应用者对未授权文件及内容的越权操作。 针对云中大数据应用的安全 问题,提出了面向行为可信的大数据服务系统。 采用 Z 形式化方法对该系统进行描述,给出了读取、更新、添加 及删除操作的抽象行为定义。 根据模型中的抽象行为,划分可信行为与恶意行为,并给出了各个操作的安全分 析 。 最 后 通 过 Z/EVES 工 具 对 该 系 统 描 述 的 正 确 性 进 行 了 证 明 和 验 证 。 关 键 词 :大 数 据 ;云 计 算 安 全 ;形 式 化 ;Z 语 言 ;可 信 行 为 ;Hadoop doi: 10.3969/j.issn.1000-0801.2014.07.006
电信科学 2014 年第 7 期
在输入、 输出和中间数据上用于访问控制, 还预定义 mapper 函数的 输 出 范 围 来 保 障 数 据 安 全 。 因 此 Airavat 系 统保障了在对敏感数据执行不受信任的代码进行数据集 的一般特性或综合特性计算的情况下的安全。 这里主要保 障了 MapReduce 中 map 步骤的安全。 然而该系统并没有对 存储在 HDFS 中的所有数据进行 保 护 ,还 需 要 在 更 底 层 对 信息流进行进一步的保护。
本文以 Hadoop 平台 为 研 究 背 景 , 从 行 为 角 度 描 述 云 计算中大数据行为模型,定义可信行为与恶意行为,通过 控制恶意行为的执行,保障大数据服务安全。
3 行为模型定义
对于云计算中的行为操作,定义为两类:一类行为是 合法的, 例如数据拥有者对数据的处理,CSP 对用户数据 的正常维护等,这类行为称为可信行为;另一类行为是非 法的, 例如没有操作权限的用户对文件的读取 ,CSP 对文 件的不彻底删除等,定义为恶意行为。 为了给出行为模型, 需要使用通用的形式化方法描述行为,用软件形式规格说 明语言— ——Z 语言 对 [6,7] 行为模型进行定义 。 这种基于模型 的形式方法也被称为基于状态的形式方法,其基本的思想 是利用已知特性的数学抽象来为目标系统的状态特征和 行为特征构造模型。 Z 形式化方法的优点在于它基于一阶 谓词逻辑和集合论,具有严格的数学基础和描述特性,相对 于自然语言具有精确无歧义性。 利用 Z 语言书写规格说明, 可以提高工程质量,更 有 利 于 团 队 设 计 和 实 现 代 码[8],同 时
3. National Engineering Laboratory for Critical Technologies of Information Security Classified Protection, Beijing 100124, China)
Abstract: Usually the process of storing and analyzing with big data is under the framework of Hadoop within the environment of cloud computing while the risks of big data application on cloud derive from cloud service providers and remote users who access data without authorization. Based on the security issues of big data applying on cloud, a security system for big data oriented by trusted behavior was given. The system with Z formal specification was described and the definition of abstract behaviors which contains reading, updating, adding and deleting operation was given. According to the abstract behavior model, behaviors were divided into trusted behavior and malicious behavior and security analysis on each operation was given. By using Z/EVES tool verified and proved the correctness about the description. Key words: big data, cloud computing security, formalization, Z, trusted behavior, Hadoop
Sedic 系 统[4]通 过 对 数 据 添 加 标 签 ,使 用 字 符 串 扫 描 器 搜索预定义的敏感数据集, 依据数据安全等级自动分离 MapReduce 的 计 算 任 务 , 在 私 有 云 中 进 行 敏 感 数 据 的 计 算, 在公有云中进行其他部分的计算, 以此保护 MapReduce 中的数据安全。 该系统有效防范了公有云的控 制者对隐私数据的获取。 由于加入大数拆分步骤,增加了 数据处理的复杂度。
国 内 相 关 研 究[2]通 过 密 码 技 术 改 善 Hadoop 的 安 全 问 题。 使用基于公钥体制的身份认证,并采用了数字信封技 术对传输数据进行加密,同时对存储在云端的数据也进行 加密存储。 但该方案在数据运算过程中仍然需要解密,在 增加系统运算复杂性的同时也会产生安全问题。
Indrajit Roy 等 人 提 出 了 基 于 强 制 访 问 控 制 和 差 分 隐 私 技 术 的 Airavat 系 统 [3]。 该 系 统 解 决 了 在 某 种 场 景 下 MapReduce 的安全问题,在该场景中计算程序提供者希望 借助数据拥有者的数据做相关研究,这里假设程序提供者 写 的 mapper 函 数 不 安 全 , 可 能 会 对 敏 感 字 段 进 行 输 出 。 Airavat 系统通过限制网络向外发送中间数据 ,并将标签附
Samir Saklikar 在 2012 年 RSA 信息安全大会上 提 出 了 MapReduce 需要内嵌安全和可信基[5]。 对 MapReduce 提出了 内省架构实施可扩展的动态访问控制。 他认为需要对数据进 行细粒度的访问控制,在访问控制决策执行点构建基于内容 的访问控制。 在策略执行点部署基于内容的访问控制请求、 MapReduce 任务分析、访问控制策略。 该方案通过安全内省 机制有效控制了 MapReduce 中不满足安全策略的行为请求 的执行。 该方案当前只是提出一种设想,并未真正实现。
一个用户可以对多个资源进行操作,一个资源同样可 以被多个用户使用。 这里的关系是一个多对多的映射。 具 体的资源内容可以通过抽象资源与具体内容的映射来表 示,这种映射是一对一的,因为每个资源只能指向其相应 的资源内容,这种关系可以用部分入射函数表示。 综上可 以定义 Cloud 中的集合类型为 [Person, Resource, Content]。 在 Hadoop 中,为了保障服务可靠性,对原始数据在不 同 节 点 进 行 了 备 份 ,资 源 具 有 相 同 的 属 主 及 内 容 ,将 Resource 定义为包类型(Z 形式语 言 中 一 种 特 有 的 类 型 ,是 一 种 无 序、可重复的数据集合类型),允许资源具有重复内容。 引入 模式对 Cloud 进行进一步描述。 Cloud 状态模式定义如下:
33
专题:网络信息安全
为编写和验证计算机程序的正确性提供了依据。 3.1 状态模式
云计算中存在两类实体,主体为用户,客体为资源,用 户 Person 与资源 Resource 存在关系映射。 用户 Person 涉及 4 类人,owner对应数据拥有者、user 对应数据使用者、computer 对应数据计算者、CSP 对应云服务提供商。 操作的资源按照粒 度粗细可以划分为文件系统 filesystem 和文件 file。
2 研究背景及相关工作
Hadoop 是 当 前 最 广 为 人 知 的 大 数 据 技 术 实 施 方 案 。 它在设计之初并未考虑过安全问题,在 Hadoop 1.0.0 或者 CDH3 版 本 之 后 ,Hadoop 在 安 全 方 面 加 入 了 基 于 Kerberos 的 身 份 认 证 机 制 和 基 于 ACL 的 访 问 控 制 机 制 。 然 而 Kerberos 的 认 证 机 制 只 是 针 对 机 器 级 别 的 安 全 认 证 ,并 未 对 Hadoop 平台本身进行认 证[2]。 而 基 于 ACL 的 访 问 控 制 虽然限制了用户与组成员对 Hadoop 中资源的访问或节点 间的通信, 但该机制依赖于管理员对 hadoop-policy.xml 中 访问列表的配置,这种基于传统的访问控制列表容易在服 务器端被篡改而不易察觉。 况且对于企业,访问控制列表 需要经常被更新,操作过于繁琐且不易维护。 因此 Hadoop 自身的安全机制是不完善的。
Formal Description of Trusted Behavior Oriented Security System for Big Data
Yan Zhi1, Zhan Jing1,2,3
(1. College of Computer Science, Beijing University of Technology, Beijing 100124, China; 2. Beijing Municipal Key Laboratory of Trusted Computing, Beijing 100124, China;
* 国家科技重大专项基金资助项目(No.2012ZX03002003),高等学校博士学科点专项科研基金资助项目(No.20131103120001)
32
(Google file system,Google 文件系统)思想启发下开发出 的 计 算 框 架 , 并 成 功 应 用 到 诸 如 亚 马 逊 、Yahoo、Facebook 等 公司的应用中。 而 CSP(cloud service provider,云 计 算 服 务 提供商)拥有大数据存储能力和计算资源,因此往往通过 云计算平台对大数据进行处理。 目前许多组织选择在租赁 硬件所搭建的云端运行 Hadoop 或提供 Hadoop 服务。 例如 Cloudera 提供在公共 (或私有) 云端运行 Hadoop 的工具; Amazon 提供 Hadoop 云服务,名为 Elastic MapReduce。
1 引言
随着各个领域数据生成速度的加快,需要处理的数据 量急剧膨胀。 有效地分析和利用这些庞大的数据资源能够
wk.baidu.com
带来巨大的价值。 利用传统存储和分析工具对内容庞大、 种类繁多的大数据进行处理已经不能满足其要求。 Hadoop 提供了一个可靠的大数据共享存储和分 析 系 统[1]。 它 是 由 开 源 组 织 Apache 在 Google 云 计 算 的 map/reduce 和 GFS
专题:网络信息安全
专题:网络信息安全
面向行为可信的大数据安全系统形式化描述 *
闫 智 1,詹 静 1,2,3 (1. 北京工业大学计算机学院 北京 100124;2. 可信计算北京市重点实验室 北京 100124;
3. 信息安全等级保护关键技术国家工程实验室 北京 100124)
摘 要 :大 数 据 的 存 储 和 分 析 通 常 是 在 云 计 算 环 境 下 利 用 Hadoop 计 算 框 架 进 行 处 理 ,而 基 于 云 的 大 数 据 安 全 风险来源于云计算服务商以及远程数据应用者对未授权文件及内容的越权操作。 针对云中大数据应用的安全 问题,提出了面向行为可信的大数据服务系统。 采用 Z 形式化方法对该系统进行描述,给出了读取、更新、添加 及删除操作的抽象行为定义。 根据模型中的抽象行为,划分可信行为与恶意行为,并给出了各个操作的安全分 析 。 最 后 通 过 Z/EVES 工 具 对 该 系 统 描 述 的 正 确 性 进 行 了 证 明 和 验 证 。 关 键 词 :大 数 据 ;云 计 算 安 全 ;形 式 化 ;Z 语 言 ;可 信 行 为 ;Hadoop doi: 10.3969/j.issn.1000-0801.2014.07.006
电信科学 2014 年第 7 期
在输入、 输出和中间数据上用于访问控制, 还预定义 mapper 函数的 输 出 范 围 来 保 障 数 据 安 全 。 因 此 Airavat 系 统保障了在对敏感数据执行不受信任的代码进行数据集 的一般特性或综合特性计算的情况下的安全。 这里主要保 障了 MapReduce 中 map 步骤的安全。 然而该系统并没有对 存储在 HDFS 中的所有数据进行 保 护 ,还 需 要 在 更 底 层 对 信息流进行进一步的保护。
本文以 Hadoop 平台 为 研 究 背 景 , 从 行 为 角 度 描 述 云 计算中大数据行为模型,定义可信行为与恶意行为,通过 控制恶意行为的执行,保障大数据服务安全。
3 行为模型定义
对于云计算中的行为操作,定义为两类:一类行为是 合法的, 例如数据拥有者对数据的处理,CSP 对用户数据 的正常维护等,这类行为称为可信行为;另一类行为是非 法的, 例如没有操作权限的用户对文件的读取 ,CSP 对文 件的不彻底删除等,定义为恶意行为。 为了给出行为模型, 需要使用通用的形式化方法描述行为,用软件形式规格说 明语言— ——Z 语言 对 [6,7] 行为模型进行定义 。 这种基于模型 的形式方法也被称为基于状态的形式方法,其基本的思想 是利用已知特性的数学抽象来为目标系统的状态特征和 行为特征构造模型。 Z 形式化方法的优点在于它基于一阶 谓词逻辑和集合论,具有严格的数学基础和描述特性,相对 于自然语言具有精确无歧义性。 利用 Z 语言书写规格说明, 可以提高工程质量,更 有 利 于 团 队 设 计 和 实 现 代 码[8],同 时
3. National Engineering Laboratory for Critical Technologies of Information Security Classified Protection, Beijing 100124, China)
Abstract: Usually the process of storing and analyzing with big data is under the framework of Hadoop within the environment of cloud computing while the risks of big data application on cloud derive from cloud service providers and remote users who access data without authorization. Based on the security issues of big data applying on cloud, a security system for big data oriented by trusted behavior was given. The system with Z formal specification was described and the definition of abstract behaviors which contains reading, updating, adding and deleting operation was given. According to the abstract behavior model, behaviors were divided into trusted behavior and malicious behavior and security analysis on each operation was given. By using Z/EVES tool verified and proved the correctness about the description. Key words: big data, cloud computing security, formalization, Z, trusted behavior, Hadoop
Sedic 系 统[4]通 过 对 数 据 添 加 标 签 ,使 用 字 符 串 扫 描 器 搜索预定义的敏感数据集, 依据数据安全等级自动分离 MapReduce 的 计 算 任 务 , 在 私 有 云 中 进 行 敏 感 数 据 的 计 算, 在公有云中进行其他部分的计算, 以此保护 MapReduce 中的数据安全。 该系统有效防范了公有云的控 制者对隐私数据的获取。 由于加入大数拆分步骤,增加了 数据处理的复杂度。
国 内 相 关 研 究[2]通 过 密 码 技 术 改 善 Hadoop 的 安 全 问 题。 使用基于公钥体制的身份认证,并采用了数字信封技 术对传输数据进行加密,同时对存储在云端的数据也进行 加密存储。 但该方案在数据运算过程中仍然需要解密,在 增加系统运算复杂性的同时也会产生安全问题。
Indrajit Roy 等 人 提 出 了 基 于 强 制 访 问 控 制 和 差 分 隐 私 技 术 的 Airavat 系 统 [3]。 该 系 统 解 决 了 在 某 种 场 景 下 MapReduce 的安全问题,在该场景中计算程序提供者希望 借助数据拥有者的数据做相关研究,这里假设程序提供者 写 的 mapper 函 数 不 安 全 , 可 能 会 对 敏 感 字 段 进 行 输 出 。 Airavat 系统通过限制网络向外发送中间数据 ,并将标签附
Samir Saklikar 在 2012 年 RSA 信息安全大会上 提 出 了 MapReduce 需要内嵌安全和可信基[5]。 对 MapReduce 提出了 内省架构实施可扩展的动态访问控制。 他认为需要对数据进 行细粒度的访问控制,在访问控制决策执行点构建基于内容 的访问控制。 在策略执行点部署基于内容的访问控制请求、 MapReduce 任务分析、访问控制策略。 该方案通过安全内省 机制有效控制了 MapReduce 中不满足安全策略的行为请求 的执行。 该方案当前只是提出一种设想,并未真正实现。
一个用户可以对多个资源进行操作,一个资源同样可 以被多个用户使用。 这里的关系是一个多对多的映射。 具 体的资源内容可以通过抽象资源与具体内容的映射来表 示,这种映射是一对一的,因为每个资源只能指向其相应 的资源内容,这种关系可以用部分入射函数表示。 综上可 以定义 Cloud 中的集合类型为 [Person, Resource, Content]。 在 Hadoop 中,为了保障服务可靠性,对原始数据在不 同 节 点 进 行 了 备 份 ,资 源 具 有 相 同 的 属 主 及 内 容 ,将 Resource 定义为包类型(Z 形式语 言 中 一 种 特 有 的 类 型 ,是 一 种 无 序、可重复的数据集合类型),允许资源具有重复内容。 引入 模式对 Cloud 进行进一步描述。 Cloud 状态模式定义如下:
33
专题:网络信息安全
为编写和验证计算机程序的正确性提供了依据。 3.1 状态模式
云计算中存在两类实体,主体为用户,客体为资源,用 户 Person 与资源 Resource 存在关系映射。 用户 Person 涉及 4 类人,owner对应数据拥有者、user 对应数据使用者、computer 对应数据计算者、CSP 对应云服务提供商。 操作的资源按照粒 度粗细可以划分为文件系统 filesystem 和文件 file。