一种支持大数据的水利数据中心基础框架

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从水利数据中心建设的主要内容可以看出,当 前水利数据中心的节点结构,主要考虑结构化数据 的处理,虽然也考虑了部分非结构化和半结构化数 据的处理需求,但没有对具有“4 V”特征且不能 用常规手段处理的水利大数据进行适应性分析与设 计。如果需要支持水利大数据的处理,需要在此基 础上,进行必要的体系架构和基础设施的扩充,更 重要的是,需要扩展水利数据中心建设的技术理 念,以适应水利大数据的处理需求。

是多源、异构、多时空尺度,数
据类型极为繁杂,其应用的第一
步就是要对所需数据源的数据进
数据汇 集与交 换接口
行动态抽取和集成,按照水利信 息组织的模式从源数据中提取出 关系和实体,经过关联和聚合之
采集与 监控体系
其他节点与各类 分散的数据源
领域内外数据 交换对象
后采用统一定义的结构来存储这 些数据。由于大数据通常是先有
1 大数据技术的研究
继物联网、云计算技术之后,大数据技术也 接踵而至。大数据技术 [2] 是指对数据规模大、结 构复杂度高、关联度强的数据集进行处理与应用 的信息技术。目前,对于大数据还没有一个统一 的定义,主要通过“4 V”表述特征 [3],即:1)大 量 ( Vo l u m e ),存 储 空 间 大 , 计 算 量 大 ; 2 ) 多 样 (Variety),来源多,格式多;3)快速(Velocity), 增长速度快,处理速度要求快;4)价值(Value), 数据中包含着有价值的信息。
门户,以及保障和运行环境 5 个部分,框架示意图 如图 1 所示。
按水利信息化顶层设计,水利数据中心系统的 主要建设内容可分为基础设施、数据资源、信息组 织平台、保障环境等的建设。其中:基础设施建设 包括机房、网络和硬件的建设;数据资源建设是数 据中心建设的重点内容之一,要做好数据资源的规 划和组织,建立完善的信息资源目录、元数据体 系,根据需要建设若干主题和专用数据库;信息组 织平台建设包括目录服务、信息资源门户服务、信 息组织与管理服务和信息交换等部分,实现数据中 心的信息共享与综合开发支撑功能;保障环境建设 包括安全、备份容灾、日常管理制度等的建设。
18
水利信息化
2013 (3)
领域用户服务门户
公众用户服务门户
MapReduce 或其它模式与工具, 以及数据挖掘和机器学习等技
领域 服务 接口
公众 服务 接口
服 务 汇集 目录 交换 安全 配置 虚拟 空间 门户 层 服务 服务 服务 服务 服务 服务 服务 服务
术,完成水利大数据的分析与应 用,达到用全数据分析关联关 系,而不是用抽样数据分析因果 关系的目标。
第3期 2013 年 6 月
水利信息化 Water Resources Informatization
NO.3 Jun.,2013
一种支持大数据的水利数据中心基础框架
莫荣强 1,艾 萍 2,吴礼福 3,岳兆新 2,冯 鹏 2
(1. 广东省防汛抢险技术保障中心,广东 广州 510635; 2. 河海大学,江苏 南京 210098; 3. 北京师范大学,北京 100875)
根据图 2,归纳在支持大数
水 利 信
资源动 态配置

与访问

接口


环 境
资 源 主题信息
元信息

数据中心系统管理 与运行维护信息
基础信息
专用信息
据的水利数据中心系统中,水利 水

大数据处理的基本流程可以抽象


为以下 3 个阶段:
系 统
1)数据抽取与集成。与所
运 行
有领域的大数据一样,水利大数

据同样具有多样性的特点,也就
2 水利数据中心的节点结构
水利数据中心是水利信息化发展水平的重要标 志,是具体实现水信息组织的信息基础设施,是实 现信息资源集成与共享的核心平台 [14]。在水利信息 化综合体系和管理分类中,数据中心均处于核心地 位,是水利信息资源开发与应用的重要基础设施。
根据国家水利数据中心建设基本技术要求,国 家水利数据中心系统由“三级两域四区”的多节点 构成,各级节点的逻辑结构包括资源层、服务层和
3)数据应用。大数据分析结果的应用与常规数 据分析结果的应用一样,需要有有效的结果表示方 式,以帮助用户正确理解和应用分析成果。由于水 利大数据分析的结果往往是复杂的时空关联关系, 因此,基于 GIS 的多维可视化、标签云、历史流、 空间信息流等技术的应用是必要的。根据水利应用 的特点,能够让用户动态参与并加入先验知识的大 数据分析与结果展示技术,更适合水利大数据的分 析与数据应用。
图 2 所示的基础架构,基本遵循了在水利数据中 心形成多形式、主题基本数据存贮,以支撑水利信息 产品的生成、面向主题的新一代水利业务应用及多模 式的水利信息发布与服务这一基本原则 [14],只是强 调了对多源、异构、大量的水利大数据进行动态组 织,从而实现支持水利大数据分析与应用的目标。
在图 2 中,存贮支撑平台扩充了水利数据中 心的运行环境,需要应用混合型的云存贮(如 Hadoop)来存贮结构化、半结构化和非结构化数 据;数据组织与服务平台按照信息组织理论,以满 意度最大化为尺度,应用 SQL 及非 SQL 的数据抽 取工具,对数据进行抽取、集成与转换,实现大数 据分析的数据准备,并支持采用流或批处理方式的
数据再有模式,且模式不断动态
图 1 水利数据中心节点逻辑结构框架示意图
演化。因此,水利信息组织的动
法分析,使得水利大数据的组织、降维、抽取、主 题化,特别是满足非结构化、半结构化海量数据处 理的需要具有应用意义下的可操作性。
为了组织处理水利大数据,引入信息动态组织 的wk.baidu.com本原理,构造支持大数据处理的水利数据中心 基础架构,如图 2 所示。
收稿日期:2013-06-05 基金项目:国家社会科学基金重大项目(2012&ZD214);国家自然科学基金重点项目(41030636);国家自然科学基金重大研究计划培
育项目(90924027);江苏省普通高校研究生科研创新计划项目(CXZZ13_0261) 作者简介:莫荣强(1963-),男,广东高州人,高级工程师,主要从事水文水资源及水利信息化相关技术研究与管理工作。
3 支持大数据处理的水利数据中心基础 架构
当前,水利数据中心基本上采用关系数据库组 织和管理结构化数据,用 GIS 加关系数据库组织地 理空间数据,用关系数据库管理目录或特征加文件 贮存数据实体组织半结构化和非结构化数据。这样 的方式,难以适应水利大数据的组织需求。
根据大数据 “4 V”特征和大数据处理技术,支 持大数据处理的水利数据中心的建设思路需要做以 下基本扩充:
根据水利信息化规划,水利数据中心建设的目 的在于全面整合分散的各类水利信息资源,实现资 源共享,并对其进行深度挖掘,以满足水利业务/事 务发展的需要 [1]。然而,现有水利数据中心的技术定 位与基本体系,在处理大量的水利数据(PB 级甚至 更高),特别是图像和数据流等半结构化、非结构化 数据方面,还存在能力、技术等多方面的不足。因 此。本文以水利数据中心现有技术架构为基础,提 出一种支持大数据的水利数据中心基础框架,并对
目前,国际上大数据处理通常是在 Hadoop 平台 上通过 MapReduce 编程模型实现的,大数据应用研 究的主要内容包括大规模存储和大尺度计算、技术 模型和框架、机器学习和挖掘算法,以及大数据可 视化、安全性等方面。
国内的很多学者也对大数据的基础架构和应用 进行了深入的研究。中国工程院“ICT 的 2012”[10] 提出了所谓“大数据时代”,并就大数据的技术支持 和商业前景进行了预测和展望;李国杰院士 [11] 认为: “‘数据科学’研究的对象是什么?计算机科学是 关于算法的科学,数据科学是关于数据的科学。”; 王珊等人 [12] 认为大数据分析相比于传统的数据仓库 应用,具有数据量大、查询分析复杂等特点,并列 举了大数据分析平台需要具备的几个重要特性,对 并行数据库、MapReduce 及基于两者的混合架构进 行了分析归纳,指出了各自的优势及不足,并对技 术发展做出了展望;孟小峰等人 [13] 在对大数据基本 概念进行剖析的基础上,阐述了大数据处理的基本 框架,并与云计算进行了比较分析,提出了大数据 时代面临的挑战;成静静等人 [2] 针对大数据时代特 点,提出了基于云计算的大数据统一分析平台,对 架构体系、软件架构、网络架构等进行了讨论。对 于大数据技术在水利领域的应用,仍处于基本技术 的探讨阶段,还未见公开报道的成果。
第3期
莫荣强等:一种支持大数据的水利数据中心基础框架
17
在的争议,以及解决目前问题的可能途径;Kapil Bakshi [7] 提出大数据的架构和处理方法,并对非结 构化数据进行了重点分析;Quang Tran 等人 [8] 在肯 定大数据技术在处理海量数据,挖掘知识方面作用 的同时,提出数据安全性的问题,并就此提出相应 的解决方案;Surajit Chaudhuri [9] 提出大数据跟传统 数据库的区别,大数据处理采用的方法及大数据和 云计算的关联。
1)根据大数据存储量大、计算量大,且需求不 断增长的特点,水利数据中心的存贮与计算能力需 要大幅度提高,以满足水利数据的大规模存储、大 数据并行计算的需要。云计算环境是必须考虑的可 能选择之一。
2)为了实现大数据的分析与应用,综合分析水 利数据的本源组织结构与主题化需求,结合大数据 技术的特点,注重水利信息分类采集的要素、时间 和空间分辨率、准确度和精确度间的协调机理与方
第3期
莫荣强等:一种支持大数据的水利数据中心基础框架
19
态组织模式对水利大数据的清洗、抽取和集成,特 别是集成模型的动态构造,具有重要的指导作用与 实用价值。
2)数据分析。水利大数据分析是根据主题化 应用的需求,在信息组织模式与体系的支持下,进 行数据分析与处理。大数据分析处理可以应用并行 化或云计算体系下的数据挖掘、机器学习、统计分 析等技术进行,关键是要解决好数据准备和分析等 过程中的大规模计算问题,特别要树立工具是传统 的,但结果是大数据的。特别是实时流处理条件 下,结果是实时性和准确率间的平衡,而不是非大 数据条件下的精确结果。
在国外,一些政府机构和相关学者对大数据技 术进行了比较全面的投入和研究。美国联邦政府 于 2012 年发布了“大数据研发专项研究计划”[4], 把 大 数 据 研 究 上 升 到 国 家 发 展 战 略 ;《科 学 》 杂 志 于 2011 年发表专刊“Dealing with Data”[5],对大 数据在科研中的作用展开讨论;美国匹兹堡大学的 Alexandros Labrinidis [6] 提出大数据面临的机遇、存
摘 要:大数据技术是针对大数据“4 V”特征开发的信息技术,将其应用到水利数据处理,形成支持大数据的 水利数据中心,能够实现对多源、多维、大量、多态水利数据进行精细和动态的数据分析,以满足现代水利数 据的大规模存储、组织、挖掘和应用需求,从而提高水利事务与业务的决策支持能力。在简述大数据技术的基 础上,依据水利数据中心的技术要求,提出并讨论一种基于信息动态组织、支持大数据处理的水利数据中心基 础框架。 关键词:大数据;“4 V”特征;信息组织;水利数据中心;决策支持 中图分类号:TP31;TV 文献标识码:A 文章编号:1674-9405(2013)03-0016-05
基于大数据的水利业务应用层
基于流 及批处理 MapReduce 数据挖 掘、机器学习等工具的 大数据分析
水利大数据组织与服务平台
基于 SQL, NoSQL,NewSQL, 依据水利信息组织模式
的数据集成与抽取
水利数据 中心关系 型数据库
非关系型 水利数据库
水利大数据存贮支撑平台
图 2 支持大数据处理的水利数据中心基础架构示意图
0 引言
其技术特点进行简要分析与讨论。
经济社会和技术的发展扩展了水利数据服务的 领域,现代水利数据的应用早已不局限于防灾减 灾、工程设计等传统应用范畴。遥感、GIS、传感网 和射频技术等现代信息技术的发展与应用,全面拓 展了水利信息的时空尺度和要素类型,水利数据的 种类和数量急剧膨胀,逐渐呈现出多源、多维、大 量和多态的大数据特征。有效存储和应用水利大数 据,已经成为水利信息化发展面临的重要关键技术 问题之一。
相关文档
最新文档