开源大数据治理与安全软件综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
28
开源大数据治理与安全软件综述
收稿日期: 2017-3-11基金项目: 国家自然科学基金[61300179]作者简介: 王文杰(1995—),男,江西,硕士研究生,主要研究方向为大数据安全;胡柏青(1992—),男,湖北,硕士研究生,主要研究方向为大数据安全;刘驰(1984—),男,北京,教授,博士,主要研究方向为大数据、物联网技术。通信作者: 刘驰 chiliu@
doi :10.3969/j.issn.1671-1122.2017.05.005
29
0 引言
在大数据时代,随着信息量与日俱增,数据价值也得到越来越多人的认可。但在大数据迅猛发展的同时也带来了大量问题,如数据管理、实现数据价值最大化等问题,这些问题始终未得到完美解决。数据在不同时间段,对于不同业务需求,其价值也不尽相同。为了能使大数据价值得到最大化实现,互联网数据共享不可缺少。然而,由于各个企业和部门之间相互独立,数据所在的系统甚至数据存储结构存在较大差异,数据之间难以进行信息共享,从而造成信息孤岛这一普遍现象。同时面对互联网庞大的使用群体,也使得互联网数据在实现共享时,数据的安全性以及数据隐私难以得到保障。
为了解决这些问题,大数据治理与安全已经成为当前最为热门的研究领域之一。大数据治理主要在于建立一个统一标准化平台,使从不同数据源中获得的数据,在对数据进行生命周期管理的同时能够满足各方对数据进行相应操作(如数据审计、数据筛选及数据迁移等),使数据价值得到最大化体现。而在数据业务流程中,这个统一标准化平台能够针对不同用户,根据不同的时间点以及IP 地址,对不同的元数据进行权限设置,保证数据使用的安全性。
1 大数据治理与安全基本概念
大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具在合理时间内达到撷取、管理、处理并整合成为帮助企业经营决策更积极目的的资讯。大数据本身是一个比较抽象的概念,仅仅从字面来理解,它表示数据规模的庞大。但是仅仅数量庞大这一简单的理解显得有些狭隘,难以区分这一概念和以往的海量数据、超大规模数据等概念的区别。现在谈到大数据定义时都运用比较有代表性的3V 定义,即规模性(Volume )、多样性(Variety )和高速性(Velocity )[1]。而IDC 认为数据还应当具有价值性(Value ),IBM 也认为大数据必然具有真实性(Veracity )[2]。
伴随着网络和信息技术的不断发展与普及,人类产生的数据量也正在呈指数级增长,因此大数据应运而生。而随着大数据与云计算技术的深度融合,数据不再像在传统技术时代那样在数据所有者的可控范围内。因此大数据安全与隐私成为了人们共同关注的热点问题,同时数据作为
原材料,怎样对其进行治理也成为了当今难题。
本文认为大数据的治理可以从治理原则、治理范围、治理的实施与评估3个方面进行展开。其中,大数据治理原则是指大数据所遵循的、首要的、基本的指导性法则,对大数据治理起到指导作用。为了高效采集、有效整合、充分运用庞大的数据,将大数据治理原则细分为有效性原则、价值化原则、统一性原则、开放性原则、安全性原则。而其治理主要是围绕大数据生命周期、大数据架构、大数据安全与隐私、大数据质量、大数据服务创新5个关键领域进行。大数据治理的实施与评估描述了大数据治理过程中需要重点关注的内容,包含了大数据治理的实施环境、实施步骤以及实施结果的评估3个方面,实施与评估为企业的大数据治理提供指导性方案[3-5]。
随着信息技术的发展,大数据也为审计提供了机遇和挑战。大数据治理审计是指独立于审计对象的审计人员以第三方的客观立场对大数据治理的过程进行综合检查和评价,向审计对象的最高领导层提出问题与建议的一连串活动。其目的是了解组织大数据活动的总体状况,对组织是否实现大数据治理目标进行审查和评价,充分识别与评估相关治理风险,提出评价意见及改进建议,促进组织实现大数据治理目标[6]。
大数据的审计有自己的一套流程,与一般的审计流程相似,大数据审计的流程一般包括制定大数据审计目标、确定大数据审计风险领域、制定大数据审计计划、搭建大数据治理审计环境、执行大数据治理审计计划以及出具审计结果和管理建议。
大数据治理审计主要围绕着大数据治理战略目标审计、大数据治理内容审计、大数据治理架构审计、大数据安全审计以及大数据生命周期审计5个方面对大数据的治理进行监督和评价,以此保证治理的质量。大数据审计遵循一定的审计标准规范。目前大数据审计方法主要分为传统审计方法、IT 内部审计方法以及大数据审计方法。虽然目前有很多大数据设计方法,但也不能盲目进行审查评价,需要有一定的技术手段。当前已有的云存储中的审计模式有数据持有(Provable Data Possession,PDP )模型、可恢复证明(Proof of Retrievability,POR )模型,而这两种方案只能适用于静态数据的审计,无法支持对动态数据的审
30
计。针对此问题,一些学者提出了第三方审计(Third Party Auditor,TPA )模型,该模型能够高效地完成对数据的审计且不会给用户的隐私带来脆弱性,能够在保护用户隐私的情况下完成公开审计,很好地保护了数据的安全[7]。
2 开源大数据治理框架介绍
本文大数据治理框架主要围绕两大组件Apache Falcon 与Apache Atlas 展开,阐明了两大组件对大数据治理发挥的重要作用。。Apache Falcon 能够对大数据平台执行包括数据采集、数据处理、数据备份和数据清洗在内的数据生命周期管理,也能够对大数据平台的各种组件进行很好的调度。而Apache Atlas 能够对大数据平台执行包括元数据管理、数据生命周期审计和可视化显示、数据血统的搜索以及数据安全与隐私保护等内容。因此本文大数据治理的内容主要围绕这两大组件进行阐述。
2.1 Apache Falcon
Apache Falcon 作为Hadoop 集群数据处理和数据生命周期管理系统框架,通过声明数据管理及处理方案,解决对Hadoop 数据复制、业务连续以及血统追踪等难题。Apache Falcon 的优点主要体现在对数据生命周期的集中管理,促进数据快速复制,以此来实现业务连续性和灾难恢复,并通过实体沿袭追踪和审计日志收集为审计和合规性提供基础,方便用户设定数据管理以及处理方案,并将其提交到Hadoop 集群调度执行[8]。
Apache Falcon 是一个面向Hadoop 的数据处理和管理平台。如图1所示,Apache Falcon 通过标准工作流引擎将用户的数据集及其流程配置转换成一系列重复的活动,而本身不做任何繁琐的工作,所有功能以及工作流状态管理需求都是委托给工作流调度器进行调度的[9]。由于Apache Falcon 本身并没有对工作流做额外的工作,使得Apache Falcon 唯一的工作就是保持数据流程实体之间的依赖和联系,这让开发人员在使用Apache Flacon 建立工作流时完全感觉不到Oozie 调度器以及其他基础组件的存在,使他们的工作重心放在数据及其处理本身上,而不需要进行任何多余操作。
虽然Apache Falcon 将工作流交由调度器负责(默认调度器为Oozie,由于Oozie 自身的局限性,Apache Flacon 也在进行自带调度器的开发)调度,但是Apache Falcon 也与
调度器之间保持通信(如JMS 消息),从而对执行路径下的每一个工作流都会产生消息追踪,确保当前工作流任务的进度。
Apache Falcon 通过更高层次的抽象简化了数据处理管道的开发和管理,通过提供开箱即用的数据管理服务,在数据处理应用程序的开发过程中省略了复杂的编码,同时也简化了数据移动、灾难恢复和数据复制等工作流的配置和编排。
Apache Falcon 通过提供一个定义、部署、管理数据管道的框架来实现这种简化的管理。作为开源的数据生命周期管理项目,Apache Falcon 能够提供以下服务:
1)建立各种数据之间的关系以及处理Hadoop 环境下的元素;
2)数据集管理服务,如数据保留、跨集群复制及数据归档等;
3)方便进行新工作流/管道上传,支持后期数据处理和Retry 政策;
4)同元数据/编目,如Hive/HCatalog 集成;5)为终端用户提供基于可用性数据集组(大部分同逻辑组的相关数据集一起使用);
6)支持通过局部或全局聚合的本地处理进行案例使用;
7)获取数据集和处理程序的血统。
总的来说,Apache Falcon 实现的企业级数据治理需求主要体现在3个方面,如表1所示。
用户通过Apache Falcon 客户端或者Rest API 提交实体声明文件至Apache Falcon 服务器,Apache Falcon 根据声明信息生成工作流实体并将其存放在Hadoop 环境的配置存
Apache Falcon
Hadoop
Oozie
Messaging
Config Store
Entity status
Process status/notification JMS
Entity Client/REST API
Hcatalog
图1 Apache Falcon 架构图