大数据实例:网站用户行为分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

山西大学研究生项目设计报告(2015 ---- 2016学年第1学期)

学院(中心、所):计算机与信息技术学院

专业名称:软件工程(专硕)

课程名称:大数据处理

论文题目:网站用户行为分析

授课教师(职称):杜亮

研究生姓名:温杰

年级:2016级

学号:201622405011

成绩:

评阅日期:

山西大学研究生学院

2016年12月20日

大数据实例:网站用户行为分析

大数据实例:网站用户行为分析 (2)

一、案例简介 (4)

二、案例目的 (4)

三、软件工具 (4)

四、案例任务 (4)

五、实验步骤 (5)

5.1、实验步骤一:实验环境准备 (5)

5.1.1、linux系统的安装 (5)

5.1.2、Hadoop的安装 (6)

5.1.3、MySQL的安装 (6)

5.1.4、HBase的安装 (8)

5.1.5、Hive的安装 (8)

5.1.6、Sqoop的安装 (10)

5.1.7、Eclipse安装 (12)

5.2、实验步骤二:本地数据集上传到数据参考Hive (12)

5.2.1、实验数据集的下载 (12)

5.2.2、解压下载得到的数据集到指定目录 (12)

5.2.3、数据集的预处理 (13)

5.3、实验步骤三:Hive数据分析 (15)

5.4、实验步骤四:Hive、MySQL、HBase数据互导 (19)

5.4.1、Hive预操作 (19)

5.4.2、使用Sqoop将数据从Hive导入MySQL (20)

5.4.3、使用Sqoop将数据从MySQL导入HBase (21)

5.5、实验步骤五:利用R进行数据可视化分析 (22)

5.5.1、R安装 (22)

5.5.2、可视化分析MySQL中的数据 (23)

一、案例简介

本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法。

二、案例目的

1、熟悉Linux系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用;

2、了解大数据处理的基本流程;

3、熟悉数据预处理方法;

4、熟悉在不同类型数据库之间进行数据相互导入导出;

5、熟悉使用R语言进行可视化分析;

6、熟悉使用Elipse编写Java程序操作HBase数据库。

三、软件工具

图1、软件总体概览图

四、案例任务

1、安装Linux操作系统

2、安装关系型数据库MySQL

3、安装大数据处理框架Hadoop

4、安装列族数据库HBase

5、安装数据仓库Hive

6、安装Sqoop

7、安装R

8、安装Eclipse

9、对文本文件形式的原始数据集进行预处理

10、把文本文件的数据集导入到数据仓库Hive中

11、对数据仓库Hive中的数据进行查询分析

12、使用Sqoop将数据从Hive导入MySQL

13、使用Sqoop将数据从MySQL导入HBase

14、使用R对MySQL中的数据进行可视化分析

图2、案例所涉及操作总体概览图

五、实验步骤

5.1、实验步骤一:实验环境准备

5.1.1、linux系统的安装

该部分内容略去。

5.1.2、Hadoop的安装

该部分内容详见另一篇参考文档:《Ubuntu伪分布式安装Hadoop详细步骤》.

5.1.3、MySQL的安装

⒈使用如下命令进行安装MySQL:

2.启动MySQL服务器:

3.确认是否成功:

4.进入MySQL Shell界面:

5.解决利用Sqoop导入MySQL中文乱码的问题

导致导入时中文乱码的原因是character_set_server默认设置为latin1,可以单个设置修改编码方式set character_set_server=utf8;但是重启后会失效,建议使用以下方式修改编码方式。如下图:

重启MySQL服务:service mysql restart;登录MySQL后查看MySQL设置的编码。如下图所示:

5.1.4、HBase的安装

该部分内容略去。

5.1.5、Hive的安装

1.下载并解压Hive源程序:Hive下载链接

2.使用如下命令进入到解压到的目录,重命名解压目录为Hive-1.2.1,修改Hive-1.2.1目录所有者为wenjie.

cd /usr/local/

sudo mv apache-hive-1.2.1-bin Hive-1.2.1

sudo chown wenjie Hive-1.2.1 –R

3.配置环境变量

为了方便使用,我们把hive命令加入到环境变量中去,命令:gedit ~/.bashrc 文件,在其中加入代码:

export HIVE_HOME=/usr/local/Hive-1.2.1

export PATH=$PATH:$HIVE_HOME/bin

保存退出后,命令source ~/.bashrc,使配置生效。

4.修改/usr/local/Hive-1.2.1/conf下的hive-site.xml

将hive-default.xml.template重命名为hive-default.xml;新建一个文件touch hive-site.xml,并在hive-site.xml中粘贴如下配置信息。

相关文档
最新文档