十一大数据应用实例环境大数据管理与分析平台

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(一) 实验目的

1.使用Hadoop 生态系统组件搭建环境大数据管理与分析平台;

2.基于Hadoop 对湘江流域水质大数据进行分析;

3.对湘江流域大数据及分析结果进行可视化。

(三) 实验环境

(二) 实验要求

1.熟悉大数据应用平台的基本组成和架构方法;

2.掌握大数据分析平台中相关数据分析工具的使用方法;

3.掌握数据可视化的相关方法和工具。

1、环境大数据管理与分析平台的架构

(四) 实验步骤

环境大数据管理与分析平台主要用于湘江流域环境大数据的分析、管理、维护和标准化。

本平台使用Hadoop 平台对湘江流域近10年的水质数据分析,通过集成Sqoop 功能模块实现原始数据及分析数据的导入、结果数据的导出等数据转移功能;通过集成Hive 功能模块实现数据分析中的基本数据统计分析功能;通过集成Oozie 实现Hadoop 作业工作流控制功能,可以满足定时数据分析作业等需求;通过集成Hue 实现Hadoop 与各功能模块的整合,并提供用户操作界面,方便用户对数据进行基础分析;基于GIS 系统与Echart 图表库构建可视化模块。

在数据分析算法中,本平台实现了基于证据推理的评价方法,并可以通过Hadoop 作业工作流定时的分析新的环境数据;实现了数据挖掘的聚类方法,分析湘江流域每个断面的水质情况,将各断面聚类分组,分组可为后续的主成分分析等分析奠定基础,也可为提升湘江流域水质的政策与决策提供依据。

1.大数据分析实验系统(HDFS );

2.Hadoop 2.7.1;

3.Sqoop 、Hive 、Oozie 、Spark 、Hue 等组件;

4.Django 1.11.10。

1.环境大数据管理与分析平台的架构;

2.环境大数据管理与分析平台的后端功能开发;

3.环境大数据管理与分析平台的前端展示设计。

2、环境大数据管理与分析平台后端功能开发

使用Hadoop 及其生态圈组件Sqoop 、Hive 、Oozie 、Spark 、Hue 等构建环境大数据管理与分析平台后端。并根据需求在各个组件上进行二次开发。

环境大数据管理与分析平台架构图

(1) 在Hue 基础上开发Excel 数据管理工具,完成后台数据通过Excel 的导入导出。

(2) 使用Hive 对数据进行统计学分析:通过SQL 语言对数据进行搜索和统计学分析,并可通过可视化工具进行分析展示。

HDFS (分布式文件系统)

Yarn (资源调度器)

MapReduce

Spark

核心组件

Ganglia (集群监控)

Flume (日志收集)

平台监控组件

Oozie (任务调度)

工作流组件

Hbase

(分布式数据库)

Z o o k e e p e r (分布式协调器)

分布式数据库

组件

Hive

(数据查询)数据管理组件Sqoop (数据ETL )Pig

(数据脚本)

Rhadoop (R 运算库)数据管理组件Matout

(Matlab 机器学习)Mlib

(机器学习)

环境大数据分析平台图形界面(基于Django 开发的GUI )

自动化部署方案

(2) 水质评价时空分析:对湘江流域干流和支流水质

进行年度水质变化趋势分析;对湘江干流流经地域的

水质进行分析;对支流影响干流水质情况进行分析。

(3) 通过平台可视化编辑数据分析工作流,并运行该

工作流获取分析结果。还可以通过作业浏览器查看工

作流状态。

3、环境大数据管理与分析平台前端展示设计

(1)基于GIS系统与Echart图表库构建可视化模块。

(3)聚类与主成分分析:针对当前污染物种类多,污染

源难辨析的问题,本研究首先采用聚类分析方法将湘

江流域各断面进行聚类分组。

(4) 通过UI界面操作HDFS,管理HDFS上的文件。

相关文档
最新文档