基于Storm的区域销售数据分析系统-开题报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于Storm的区域销售数据分析系统的设计与实现
1.本课题所涉及的问题在国内(外)的研究现状综述
在过去十年中,随着互联网应用的高速发展,企业积累的数据量越来越大,越来越多。

随着大数据业务的快速增长,针对大规模数据处理的实时计算变成了一种业务上的需求, Storm 正是在这样的需求背景下出现的,Storm 很好地满足了这一需求。

Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。

这种动作是在现代网络上的许多社会功能的一个关键因素。

这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

Kafka的目的是通过hadoop并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消费。

Storm是一个分布式的、容错的实时计算系统,有许多应用领域,包括实时分析、在线机器学习、信息流处理、连续性的计算、分布式RPC、ETL等.
对于需要处理大量消息流的实时系统来说,消息处理始终是实时计算的基础,消息处理的最后就是对消息队列和消息处理者之间的组合。

消息处理的核心是如何在消息处理的过程中不丢失数据,而且可以使整个处理系统具有很好的扩展性,以便能够处理更大的消息流。

而Storm+Kafka正好可以满足这些要求。

2.本人对课题任务书提出的任务要求及实现预期目标的可行性分析(1)基于storm的区域销售数据分析系统的体系架构研究内容:
Ambari大数据集群的研究于搭建;storm&kafka实时处理系统的实施;Hbase的存储与并发访问;HighCharts &Hbase实现数据的可视化展现
基于storm的区域销售数据分析系统平台搭建需求:
基于storm的区域销售数据分析系统的平台使用的是北京红象云腾技术有限公司的Redoop CRH5.1(ambari-2.5.2)一体化大数据平台,本平台由本人参与研发测试。

CRH5.1(ambari-2.5.2) 可以一键式部署安装,解决了Hadoop大数据平台搭建复杂的难题。

(2)可行性分析
①技术方面的可行性开源组件:Ambari、Zookeeper、Hadoop、HBase、Storm、Kafka
数据展示系统架构:HBase&HighCharts可视化展现、SpringMVC
编程语言:Java、JSP、Javascript
开发工具:IDEA
②硬件条件方面的可行性
计算机已经安装有所有必备的软件及相应的软件测试设备。

3.本课题需要重点研究的、关键的问题及解决的思路
(1)需求分析
实践表明,需求分析是软件开发成功与否的关键因素。

如果没有详尽的需求分析,没有理解各类用户的实际需求,那么最终开发出来的软件产品是不会成功的。


先根据业务需求设计大数据平台架构,然后,根据面向对象软件工程过程,进行系统建模的分析与设计;使用UML进行系统需求分析,建立用例模型,功能分析,建立类图等;因此,在开发该系统之前,我们进行了详细的需求分析。

(2)本系统重要研究的,关键的问题及解决的思路
本系统重要研究的,关键问题一是如何将海量的实时数据信息进行收集和处理。

外部数据接入至kafka,kafka生产实时接入数据,然后将产生的数据储存到消息队列之中,storm读取消息队列的数据,经过拓扑进行数据的清洗并将数据储存到hbase表中。

二是将海量的数据通过图形(地图,折线图,直方图,饼图等)的形式展现出来,让用户更容易对数据分析和应用。

Servlet通过读取HBase中存储的数据,并将数据转化成Tableau支持的数据类型从而可以可视化展示数据。

4.完成本课题所必须的工作条件(如工具书、实验设备或实验环境条件、某类市场调研、计算机辅助设计条件等等)及解决的办法
1)工作条件
①工具书
Hadoop硬实战、Hadoop权威指南、 HBase权威指南、HBase企业应用开发实战、Storm企业级应用、超越可视化、Kafka权威指南、官方网站。

②核心参考文献
1.阿里巴巴集团数据平台事业部商家数据业务部. Storm实战:构建大数据实时计算[M]. 电子工业出版社, 2014.
2.张发杨. 基于STORM的流数据分类挖掘算法的研究[D]. 南京邮电大学, 2016.
3.龙少杭. 基于Storm的实时大数据分析系统的研究与实现[D]. 上海交通大学, 2015.
4.孔祥起, 张海涛. 基于Storm的实时消息处理系统[J]. 2014.
5.陈波. 基于STORM分布式计算的海量数据统计系统设计方法研究[J]. 信息与电脑, 2017(4):122-125.
6.郭若男, 王晶, 沈奇威. 基于HBase的实时消息推荐系统[J]. 电信工程技术与标准化, 2014(11):78-81.
③实验环境与开发环境3台linux虚拟机安装CRH5.1集群包含Hadoop、Zookeeper、Storm、Kafka 等。

相关文档
最新文档