大数据离线分析项目(Hadoop)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据离线分析项目(Hadoop)

1、总体需求:捕获用户每天的行为数据,生成业务

日志文件,根据日志文件清洗、分析、提取出需

要的价值信息(pv :页面浏览量UV :独立访客数独立IP会话时长等),对网站的良好运营提供

有价值的指标。

2、具体设计

2.1捕获(JsSDK)用户行为数据(launch 事

件、pageView 事件、eve nt 事件、

chargerequet 事件)

2.2将捕获的数据发送给web服务器,生成日

志文件(Nginx )

2.3将日志文件上传至文件存储系统中

(Shell 脚本、Flume)

2.4在文件存储系统中对日志文件进行清

洗,过滤掉脏数据和不需要的字段(MapReuce job 任务)

2.5将过滤后的日志文件导入到数据库中(HBase)

2.6通过MapReduce 程序或Hive进行统

计分析(Hive)

2.7将统计分析后的结果导入到本地数据库中进行永久储存(Mysql )

2.8 在前端进行展示

(Spri ngMVC+Highcharts )

项目架构(画图)

具体分为三个部分(如下图所示):

数据收集层

hadoop 、hive、flume 、kafka、shell

fflumcl

flume3

数据分析层

hive、MapReduce 、spark HDFS

后台栏展J

程再后刍長盘到吋小

的事件(按照收集数据的不同分为不同的事件)时调用相关方法。

2. Java sdk后台服务日志生成与发送工具

JavaSDK代码很简单,可以打成jar包或者

直接拷贝类到具体的项目中,正常逻辑处理

到JavaSDK所关注的事件后,调用JavaSDK

提供的api即可。

3.Nginx web 服务器,产生日志文件

特点:Nginx 是一个小巧而高效的

Linux下的web服务器软件,相比较

Apache它不仅有稳定性、丰富的功

能集、示例配置文件,更重要的是

Nginx是基于事件的,它的内存使用

很低,系统资源消耗小很多。

3. shell脚本上传日志文件(数据量一般比较小

的场景,不会立即进行分析)

分割日志,每天定时分割成昨天的日志文

件。(vi split.sh )

上传到HDFS (vi put2hdfs.sh )

flume上传(数据量一般比较大的场

景,需要实时处理。)

5.HBase数据库

数据解析以后,我们把它存入

HBase表。因为:不同的事件,最后上

传到HDFS里面每行数据的字段数量是

不一样的;而且HBase 中,单表数据

量相对比较大

6.MySql最终结果存储

Mysql是关系型数据库,结构十分清晰,能够与JavaWeb 中的Spr in gMVC 进行很好的对接;而

且SQL语句是结构化的查询语言,

方便运营页面查询数据

7.Spr in gMVC+Highcharts 进行报表显示

主要实现需求:

PV :页面的浏览次数,衡量网站用户访问的网页数量;用户每打开一个页面就记录一次,多次打

开同一个页面则浏览量累计。描述用户访问网站

信息,应用于基本的各个不同计算任务

Uv :独立访客数

1天内访问某站点的人数(以cookie为依据)

1天内同一访客的多次访问只计为1个访

S time :会话时长

详细需求:

3独立访动

用户数据基本分析樓块卜dime住桃

诙土率

壬罐」沽乖*兰

订单自杆挨块-

订单斟成血盍付订单退钦叮里

五、项目中遇到了哪些问题,怎么解决

1、日志格式有点混乱,以至于给后面的数

据清洗带来困扰

办法:最后调整数据格式,并重新定义了分隔符

2、对日志文件进行分析时,建立Hive 外部表与Hbase表的链接字段搞错,以至于

HBase与Hive整合不成功

办法:查看数据字典,查找字段,并

将hive外部表的字段名和HBase表的列名一

样。

六、项目总结

通过本次项目搭建,我对大数据的实际应用,以及客户需求的具体实现有了更为清晰的认识,同时也对之前所学到的知识进行了温故与整合。

同时看到了自己的很多不足,究其原因,是对Hadoop 以及诸多协作框架的理解应用仅

限于皮毛,缺乏透彻的研究,实际开发能力仍大有欠缺,需要更多的实战来历练。

总之,通过本次项目搭建我收获颇丰,受

益匪浅'并清楚了自己以后学习的重点' 努

力的方向。

相关文档
最新文档