大数据分析及海量油田数据管理技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据分析及海量油田数据管理技术
2012年3月29日,美国联邦政府发布公告称将开发“大数据研发项目”,以最大限度地利用规模飞速增长的数字化数据。一石激起千层浪,“大数据”这一并不是非常新的术语再次引起了世界各方的高度重视。而大数据研究的核心并非数据的“量”有多大,而是如何有效、有序、系统地处理( 包括访问、收集、保护、存储、管理、分析、挖掘、共享、辅助决策等) 大量数据。因此也衍生出一个非常重要的研究领域—大数据分析( BDA) 。
一、大数据简述
有关大数据,目前定义较多。通常来讲,大数据指的是规模超过了当前典型数据库软件工具获取、存储、管理、分析能力的数据集。可以看出,这种描述实际上是一种动态的描述,因为当前的技术总是在不断发展。严格来说,“大数据”更像是一种策略而非技术,其核心理念就是以一种比以往有效得多的方式来管理海量数据并从中提取价值。可以从如下4 个方面(“4 V”) 来阐述“大数据”理念。
(1) 数据类型多样( Variety)。即所处理的对象既包括结构化数据,也包括半结构化数据和非结构化数据。
(2) 数据处理高速( Velocity)。即各类数据流、信息流以高速产生、传输、处理。
(3) 数据规模海量( Volume)。即所需收集、存储、分发的数据规模远超传统管理技术的管理能力。
(4) 数据价值密度低( Value)。即大数据中的价值密度很低,因此也增加了价值挖掘的难度。由于海量数据中既包括结构化数据也包括非结构化数据,因此,分布式计算与分布式文件管理即成为了“大数据”策略的核心。
目前有关BDA,尚无明确定义。简而言之,就是将先进的分析技术用于大数据集。因此,BDA 主要关注两方面内容:大数据本身及分析技术本身; 如何将二者有机融合,以实现从大数据中提取有价值的情报并用以辅助决策之目的。
具体来说,可用于BDA 的分析技术包括了预测分析、数据挖掘、统计分析、复杂结构化查询语言( SQL) 等,以及那些可以支持大数据分析的数据可视化、人工智能、事实聚类、文本法分析、自然语言处理、数据库等相关技术。可以看出,大多数BDA 技术其实均可归入“发现分析”或“发掘分析”技术的范畴,而发现、发掘情报也是BDA 的主要目标之一。
可以看出,实际上很多BDA 技术并非什么新技术,只是由于其非常适用于“大数据”这一新兴对象,因此重新“焕发青春”。
大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。一些但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载,监控,备份和优化大型数据表的使用在RDBMS的。对于大数据,它也是经常可以创建适用于大多数分析的汇总数据。例如一个计算不同地点车辆数量的交通遥测应用。这中方法可以产生大量的数据,但是如果汇总数据最后一分钟还存储在内存中,最后一小时存储在闪存中,最后一天存在磁盘上,那么控制应用程序所需的实际时间可以通过快速访问资源得到满足,然而假设分析时我们可以使用一些更便宜、更慢的应用程序是会怎样。
SOA都是抽象的,但当抽象隐藏了底层影响性能和响应时间的复杂性时,这种抽象的危险程度会提高。数据访问也是这样的,因此SOA架构师需要认真地考虑抽象与性能之间的平衡关系,并为其特定的业务需求优化它。
二、BDA关键技术与工具及其发展趋势
2011 年,相关机构进行了“大数据分析工具、技术与趋势”调查。该调查列出了几乎所有与大数据分析相关的工具与技术,其中包括如下几类: 新兴的,如云计算、MapReduce、复杂事件处理( CEP) ;不是新兴但适用于大数据分析的,如数据可视化、预测分析; 已有且比较成熟的,如统计分析、手工编码的SQL。此次调查可相对比较客观地展现BDA 关键技术与工具及其发展趋势。相关技术与工具的当前使用情况及未来发展趋势。可以看出,隶属于第一组的工具与技术基本上可以代表BDA 关键技术与工具的发展趋势,即高级分析技术与工具、高级数据可视化技术( ADV,未来发展势头最为迅猛的技术) 、实时仪表盘、内存内数据库和非结构化数据分析技术等。
从功能角度来讲,BDA 实现了从大数据到情报(即价值) 的转换,而这种转换本身与大数据的“4 V”特性分不开。转换过程必须采用各种BDA平台、工具,如阿帕奇Hadoop。Hadoop 技术与平台使得大数据分析人员可以对原始数据进行分析,并得到支持决策所需的情报。考虑到大数据的一些新特性,BDA 也必须采用一些新的方法和流程来实现情报提取。以利用Ha-doop 技术与平台实现BDA 为例,典型的BDA 实施流程与常用的OODA 环( 观察、定位、决策、行动) 有些类似,包括大数据访问、大数据聚集、大数据分析决策、行动等环节,且并最终实现人在环路或人不在环路的闭环。从分析对象来看,BDA 主要分析静态大数据( big data at rest) 和动态大数据( big data in motion) 。
三、BDA 在情报领域内的应用研究
从上述对BDA 的描述可以看出,BDA 技术与工具在情报领域内的应用将会非常广泛,可用于情报获取、融合、分发与共享( 即构建情报网络) 等诸多情报处理环节。著名的SQL数据库开发公司Objectivi-ty 所开发的Objectivity / DB、InfiniteGraph(IG) 等大数据分析工具是典型的可用于情报领域的工具,下面主要以这两种BDA 工具为例介绍BDA 技术在多源情报融合以及对象关系分析过程中的应用情况。
BDA 用于多源情报融合的主要任务是通过对海量、多源、多类型数据( 如文本、图片、视频、话音等) 进行相关,将其转换为用户所需的各类专用情报( 如通信情报( COMINT) 、电子情报( ELINT) 、雷达情报( RADINT) 、遥测情报( TELINT) 等) 。Objectivity / DB 大数据分析工具在美空军网络中心协同目标瞄准( NCCT) 项目中的应用场景。在机器到机器( M2M) 接口的支持下,Objectivity / DB 实现了自动多源情报融合。该工具在多源情报融合方面主要解决的问题包括复杂数据索引与搜索、多源情报集成、异构数据库联合等。
IG 数据库的构建基于一种高度可扩展的分布式数据库体系结构,其中,数据和数据处理在网络中都采用分布式结构。单个图数据库可以进行分割,并分布在多个磁盘卷和机器中,这样即可实现跨机器边界的数据查询。同样的数据库客户端可以通过本地访问或通过本地网络访问图数据库。
相关模块功能如下所述:( 1) 锁定服务器负责处理来自数据库应用程序的数据库读写锁定/解锁请求,即负责整个数据库访问管理。与开源数据库访问不同,对IG 数据库的访问在建立数据库实例时不受控制,而是在事务级进行控制。( 2) 每台装有数据库的机器中海有一个单独的数据服务器进程,这些进程可通过本地或远程方式来访问磁盘卷上的数据。( 3) 数据服务器负责处理来自分布式图数据库的远程数据库应用程序请求。
BDA 相关理论、技术、工具其实并非全新,其应用前景非常广阔。尤其是在情报领域内的应用,其前景更是一日千里、势不可当。当然,BDA 在情报领域中的应用仍有很多具体的理论、技术层面问题尚未解决。如,在赛博战领域如何利用BDA 实现赛博态势感知、在电子战领域如何利用BDA 实现有源与无源情报的分类与融合等。此外随BDA 而来的诸多新类型情报也有待进一步研究,如移动情报、云情报、社会情报、大数据情报等。
“大数据”的影响,增加了对信息管理专家的需求,甲骨文、IBM、微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元,增