高校大数据平台构建及应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
170 •电子技术与软件工程 Electronic Technology & Software Engineering
数据库技术
• Data Base Technique
【关键词】大数据 高校 平台框架 应用 双一
流1 引言
近年来,大数据被世界各国视为塑造国家竞争力的战略制高点之一。2015年国家发布《促进大数据发展行动纲要》,将大数据正式上升为国家战略,从国家意志层面将大数据作为推动社会转型的新动力和提升社会治理能力的新途径。高校作为新观念和新人才聚集的
高校大数据平台构建及应用
文/刘香玉 徐红彦 侯英哲 齐嘉亮 颜玲
社会重要构成单元,也纷纷抓住机遇,探索利
用大数据促进学校发展的现实路径。而在实施过程中,大数据平台的构建和示范性应用是两个至关重要的方面,分别关系到大数据项目的落地实现和最终的价值体现,是未来高校大数据战略的必经之路。
2 平台构建
大数据至今尚无统一的严格定义,被广
泛接受的是Laney 提出的3V 特点(V olume ,Velocity ,Variety ),即大量、高速、多样性,决定了大数据平台与传统数据平台有明显区别。大数据平台应该能够满足海量、多模态(结构、半结构、非结构化)数据高效甚至实时的
采集、存储、分析计算、呈现共享需求,平台框架和关键技术如下。2.1 平台框架
高校大数据处理的过程通常包含数据采集、存储、清洗规范、分析计算、结果展现等步骤,因此大数据平台架构可大致分为三层:
底部数据源层、中部大数据处理平台层、顶部用户端层,如图1所示。数据源层负责多模态数据的广泛采集,包括结构化的业务数据,半结构化或非结构化的机器数据、学校外部互联网数据,ETL 、日志处理集群、爬虫引擎工具采集数据后完成初步的数据清洗预处理工作。中部大数据处理平台层负责数据的存储、交换、建模和分析计算,是整个架构的核心部分,为上次的数据呈现和应用提供支撑。顶部用户端提供数据的具体应用以及可视化输出。2.2 关键技术
2.2.1 数据采集、预处理技术
数据获取和清洗预处理需要考虑到多种多样的数据来源,例如RFID 射频、传感器、社交网络、移动互联网数据等。除传统关系型数据库MySQL 、Oracle 的数据采集外,统日志采集方面,主要利用开源的Flume 、Scribe 等系统;网络数据采集主要研究网络爬虫、网站提供的API 以及DPI 等网络流量采集。由于大数据的“低值性”,数据在采集后还应该
多井连线等。
用户通过数据统计得出统计结果,再对统计结果进行添加坐标信息、筛选关键字段等数据格式化步骤,从而规范绘制等值线数据,通过系统函数与Surfer 组件函数配合,经过参数设置、数据载入、绘制、着色、导出等一系列步骤,加载生成等值线进行展示。2.3.6 基于Advantage 的对比图生成技术
在数据统计的基础上,进行大量对比分析图形展示,便于对地质属性更直观形象地认识。基于多样化、专业化图形的展示需求,选择Advantage 作为基础并加以功能扩展。Advantage 为Visual Studio 平台提供了丰富的控件扩展,它的制图控件Ultra Chart 提供了柱图、饼图、散点图、折线图、区域图等基本图形生成功能,而且还提供了足够的开放函数。
实现了可定制的图件展示,包括分井分地层的关键属性对比柱状图、相关物性参数的散点图等坐标轴设置、坐标区间设置等,同时还通过程序内部处理实现了专业图形展示,如地层展示图、岩性展示图、各岩性深度-速度分布图、DC-H 图、油水相渗透率图、粒径分布图等。
3 应用效果
本系统主要服务于地质研究人员,为其综合利用各类地质信息、深入分析综合地质特征、全面总结各种地质规律提供有效参考。经
过一段时间的应用,取得了良好的应用效果。 如图3所示。
4 结语
针对油田勘探的实际情况,基于勘探数据库,如何应用地质统计学特有的技术特点,为地质综合研究提供一些日常工作需要的统计分析结果,同时进行地质规律性展示,便于研究人员进行规律性探讨研究是本文的最终目的。本系统是统计分析技术在勘探信息支持系统的初步应用,为以后勘探信息系统往智能分析发展奠定基础。由于地质统计分析业务范围广泛,需求众多,希望抛砖引玉,在应用过程中不断完善,实现对地质统计分析信息全面支持。
参考文献
[1]侯景儒.中国地质统计学(空间信息统
计学)发展的回顾及前景[J].地质与勘探,1997,33(01):53-58.
[2]常子恒.石油勘探开发技术[M].北京:
石油工业出版社,2001.
[3]程晓春,余先川,李春生等.非线性空间
信息统计学的理论方法及应用[J].大庆石油学院学报,2004,28(01):70-73.
[4]Erich Gama,Richard Helm Ralph 等.设
计模式:可复用面向对象软件的基础[M].北京:机械工业出版社,2007:34-36.
[5]Ivar Jacobson,Grady Booch,James
Rumbaugh.统一软件开发过程[M].北京:机械工业出版社,2002.
[6]王的强,张晓娜,周静.LINQ 入门及应用
[M].北京:清华大学出版社,2009.
[7]托马斯.埃尔(Thomas Erl)著,李东
译,SOA 架构:服务和微服务分析及设计[M].北京:机械工业出版社,2017.
[8]E.B.科瓦列夫斯基.基于地质统计学
的地质建模[M].北京:石油工业出版社,2014.19-21.
[9]ZHANG Z,XU Y,YANG Y,et al.A survey
of sparse representation:Algorithms a n d a p p l i c a t i o n s [J ].I E E E Access,2015,3(1):490-530.
[10]ZHU A J,XU C P.Hybridizing grey
wolf optimization with differential evolution for global optimization and test scheduling for3Dstacked SoC[J].Journal of Systems Engineering and Electronics,2015,26(2):317-328.
作者简介
李莉(1970-),女,山东省昌邑市人。硕士学位。现为山东胜利职业学院教师、高级讲师。主要研究方向为计算机技术与软件工程。
作者单位
山东胜利职业学院 山东省东营市 257000
<<上接169页