大数据共享研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据共享研究
摘要:文章介绍了大数据及大数据共享的含义,详细介绍了实现大数据共享的硬件及软件条件。在硬件方面着重介绍了大数据中心的模块建设方式,在软件方面比较系统地介绍了大数据共享的相关技术手段等,对大数据相关立法和政策进行了讨论和展望,文章紧贴当下大数据的发展,在此基础上积极探索目前还尚未成熟的大数据共享领域。
关键词:大数据;数据共享;平台
1 大数据共享的含义
1.1 大数据共享介绍
大数据共享,是让不同地方使用不同计算机、不同软件的用户,即不同终端,按照一定的规定和安全共享机制,通过网络(局域网或互联网)等读取他人共享的数据并进行各种操作、运算、分析和管理的行为。从广义上理解,大数据共享在内容上不仅包含了海量数据的共享,还涉及到大数据软件程序、大数据科学和工程系统及大数据的应用实践等内容。数据开放利用程度越高,信息知识作为生产要素就会越高。
1.2 大数据共享的意义
大数据共享,涉及大数据技术及大数据应用,在实际应
用上大数据共享具体体现在海量数据的共享、大数据平台的共享、大数据技术的共享和大数据应用共享。大数据共享的特点,也更合理地体现了大数据自身的重要价值。大数据共享使得不同层次、不同部门信息系统更加合理地进行资源配置、节约社会成本、创造更多价值,不仅能提高信息资源利用率,避免在信息采集、存贮和管理上的重复浪费,有利于更合理安排物力和财力,发挥人的更大价值。从发展上看,工信部电信研究院政经所马志刚认为数据开放与共享是提
高社会生产力的重要前提,这里所探讨的大数据共享也更清晰地把数据共享这项发展性的工作落到实处。
2 大数据共享的软实力建设
大数据共享软实力包含大数据共享平台架构之Hadoop 技术、流计算、数据仓库、信息整合、大数据搜索引擎、大数据可视化、大数据应用程序开发、管理系统和共享安全机制等。
2.1 大数据共享平台架构之Hadoop技术
Hadoop是Apache基金会开发的一个开源分布式系统基础架构项目,Hadoop主要核心由HDFS、MapReduce组成,包含HBase和Hive等经典子项目。Hadoop底部利用分布式存储系统(HDFS)将文件分布式存储到硬盘,上部MapReduce 将大的数据分成小块逐个分析,再提取出数据汇总分析,编写简单的需求命令获得所需数据内容。
2.2 流计算
流计算面对的是存贮在硬盘、内存或者其他地方的已存数据。流计算是指数据和控制在一个分布式网络中以某种流的形式传递,网络中的节点对流进行处理和分发,同时这些流往往具有高实时和高流量的特点,再形象化一点描述就是在数据产生并流入系统时就进行处理并马上得出结果。因而区别于以往基于RPC和RMI的分布式系统,也区别于Hadoop 的相对静态的处理系统。流计算面对的是没有存储下来的实时的网路数据流,计算意义在于对数据挖掘处理后选取可以提取有价值的信息存储下来,不会对原始数据进行存储,并且数据流的价值随时间流逝而降低。基于实时数据的流处理是大数据发展到现在已经相对成熟的技术。
2.3 数据仓库
有关大数据的共享,必须依赖一定硬件条件,这里引入数据仓库的概念,数据仓库是一个集成的、面向主题的、随时间变化、非易失的数据集合。数据仓库区别于数据库,数据仓库相当于一个环境,为用户提供用于决策支持的非结构化和半结构化的当前或历史数据(传统的操作型数据库中很难或无法得到)组成数据仓库系统的要素简单概括为数据仓库式数据库、数据载入工具、数据抽取工具、信息发布系统、操作型数据、外界数据、访问工具、数据集市、操纵平台、元数据及管理平台。
2.4 信息整合
信息整合,是指通过逻辑或者物理的方式把某一范围内多元的、异构的、离散的、分布的信息资源,组为一个整体,使其有利于管理、利用和服务。信息整合包含三种方式,分别是数据整合、过程整合及内容整合。内容整合通过建立一个内容管理平台,进而对图片、多媒体等非结构化信息进行编辑、审核、校验以及分类管理,这样就可以控制信息发布和与访问的权限。数据整合将有价值的数据传递给分析系统或其他应用系统,再进行信息加工,集合不同的核心业务数据库为一个单一的数据库。
2.5 大数据搜索引擎
大数据搜索引擎基于大数据库,需要具备在大数据共享分析中充分发挥人工智能作用的软件技术能力,采用网页抓取技术智能地从互联网搜集信息,通过对结构化的数据、图表及视频等非结构化数据和半结构化数据进行检索,搜索引擎借助Reduce等工具,将数据聚合并采取并行处理,供给用户,构建搜索引擎服务。排序是搜索引擎最关键的技术,排序策略和算法决定了排序效果的优劣,其中搜索结果的排序作用重要,利用关键词在文档中出现的频率和位置以及基于链接分析排序等排序。
2.6 大数据可视化
大数据可视化主要是将收集、存储的海量数据信息通过
图形化等数据视觉表现形式进行清晰、有效的信息传递,在大数据共享中既属于科学技术应用,也属于科学技术研究,可视化硬件包含图形工作站及超级可视化计算机。可视化软件分3层,分别是操作系统层?p可视化软件工具开发层及行业性可视化软件应用层。
2.7 大数据应用程序开发
大数据应用程序是指添加、查看、修改和删除数据仓库指定数据库中数据的应用程序。大数据仓库应用程序一般包括3个部分:一是为应用程序提供数据的数据仓库;二是实现与用户交互的前台界面;三是实现具体业务的软件。
2.8 大数据共享的管理系统
大数据共享的管理系统是大数据共享系统的关键系统
之一。通过大数据共享管理系统,可以方便管理者实现对共享资源的管理、共享关系的管理及共享行为的管理。其中,共享资源管理包括6类,分别是共享集群命名管理、共享系统模板管理、共享节点资源管理、共享应用命名管理、共享应用资源管理、共享用户状态等。
3 结语
本文主要描述大数据共享的平台软实力构造,从一个系统化角度去阐述大数据共享的技术需求,为大数据共享产业的运作提供了一种建模参考,关于大数据共享的安全保密和法规政策的研究也会在以后进一步讨论,本文为大数据共享