Hadoop集中实践环节课程大纲
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hadoop课程设计
课号:*****学分:***学时:*** 执笔人:*** 审订人**** 开课系:*****
一、教学目的及基本要求
1.教学目标:
(1) 通过分布式Hadoop集群处理网站产生的大量日志。
(2) 通过分布式存储,按小时保存并以小时为周期定时将上一小时的数据同步到日志分析机上。
2. 基本要求:
每个学生必须在一周内在教师的指导下独立完成网站日志分析系统的任务。
(1) 统计数据按小时更新
(2) 统计项包括关键词搜索量,网站的浏览量,类别访问量,访客数(包括新访客数、新访客比例),跳出率等信息供网站管理者分析网站使用。
(3) 编写设计说明书(5000~8000字)
二、内容与操作步骤
1. 设计准备
布置设计任务,技术要求。
2.网站日志分析系统的总体设计
搭载Hadoop集群环境,安装所需软件,调试系统。
3. 日志文件的数据收集
使用flume进行日志文件的收集数据,传输到HDFS中。
4. 详细设计
对数据进行清洗,再存储,对清洗后的数据进行分析,分析结果导入到关系型数据库。
5.前端渲染设计
将结果返回给前端,以图表,表格等多种形式渲染出来。
要求和技术特性
6. 编写设计说明书
按要求的格式编写设计计算说明书,编制目录,列出参考文献。
三、考核内容与方式
1. 课程设计结束时,要求学生上交课程设计说明书和源码。
2. 判定是否可通过课程设计及课程设计成绩的高低。
3. 课程设计成绩三个,课程设计实现效果占50%,课程设计的说明书占30%,答辩情况占10%,平时设计表现占10%。
五、教材及主要参考资料
1. Hadoop权威指南.怀特,清华大学出版社
2. Hadoop应用开发技术详解.刘钢著,机械工业出版社