实验手搜狗搜索日志分析系统实现-Hadoop2.0-v1.1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、实现数据分析需求一:条数统计 ...................................................................................................................67
五、实现数据分析需求二:关键词分析 ...............................................................................................................68
1. 查询关键词长度统计 ..................................................................................................................................68 2. 查询频度排名(频度最高的前 50 词) ....................................................................................................68
1. 查看数据 ......................................................................................................................................................63 2. 数据扩展 ......................................................................................................................................................64 3. 数据过滤 ......................................................................................................................................................64 三、基于 Hive 构建日志数据的数据仓库 ..............................................................................................................64 1. 基本操作 ......................................................................................................................................................65 2. 创建分区表(按照年、月、天、小时分区) ..........................................................................................66 3. 查询结果 ......................................................................................................................................................67
实验手册—— 搜狗搜索日志分析系统
61
实验手册----搜狗搜索日志分析系统
目录
一、数据和程序包准备 ...........................................................................................................................................63 二、数据预处理(Linux 环境)..............................................................................................................................63
六、实现数据分析需求三:UID 分析 ...................................................................................................................68
1. UID 的查询次数分布(查询 1 次的 UID 个数,...查询 N 次的 UID 个数) .....................................68 2.UID 平均查询次数 .................................................................................................................................68 3.查询次数大于 2 次的用户总数 ............................................................................................................69 4.查询次数大于 2 次的用户占比 ............................................................................................................69 5.查询次数大于 2 次的数据展示 ............................................................................................................69
七、实现数据分析需求四:用户行为分析 ...........................................................................................................69
1. 点击次数与 Rank 之间的关系分析 ............................................................................................................69 2. 直接输入 URL 作为查询词的比例..............................................................................................................70 3. 独立用户行为分析 ...........................来自百度文库..........................................................................................................71 八、实现数据分析需求五:实时数据 ...................................................................................................................71 九、使用 Sqoop 将数据导入 MySQL.......................................................................................................................72 十、HBase Shell 操作命令实验 ...............................................................................................................................73 十一、使用 Sqoop 将数据导入 HBase....................................................................................................................75 十二、HBase Java API 访问统计数据 ......................................................................................................................75 1. 操作要求 ......................................................................................................................................................75 2. 数据准备 ......................................................................................................................................................75 3. 数据导入 ...................................................................................................................................................... 76 十三、Mahout 聚类操作实验 .................................................................................................................................76 1. 数据描述 ...................................................................................................................................................... 76 2. 准备数据 ......................................................................................................................................................77 3. 运行聚类程序 ..............................................................................................................................................78
五、实现数据分析需求二:关键词分析 ...............................................................................................................68
1. 查询关键词长度统计 ..................................................................................................................................68 2. 查询频度排名(频度最高的前 50 词) ....................................................................................................68
1. 查看数据 ......................................................................................................................................................63 2. 数据扩展 ......................................................................................................................................................64 3. 数据过滤 ......................................................................................................................................................64 三、基于 Hive 构建日志数据的数据仓库 ..............................................................................................................64 1. 基本操作 ......................................................................................................................................................65 2. 创建分区表(按照年、月、天、小时分区) ..........................................................................................66 3. 查询结果 ......................................................................................................................................................67
实验手册—— 搜狗搜索日志分析系统
61
实验手册----搜狗搜索日志分析系统
目录
一、数据和程序包准备 ...........................................................................................................................................63 二、数据预处理(Linux 环境)..............................................................................................................................63
六、实现数据分析需求三:UID 分析 ...................................................................................................................68
1. UID 的查询次数分布(查询 1 次的 UID 个数,...查询 N 次的 UID 个数) .....................................68 2.UID 平均查询次数 .................................................................................................................................68 3.查询次数大于 2 次的用户总数 ............................................................................................................69 4.查询次数大于 2 次的用户占比 ............................................................................................................69 5.查询次数大于 2 次的数据展示 ............................................................................................................69
七、实现数据分析需求四:用户行为分析 ...........................................................................................................69
1. 点击次数与 Rank 之间的关系分析 ............................................................................................................69 2. 直接输入 URL 作为查询词的比例..............................................................................................................70 3. 独立用户行为分析 ...........................来自百度文库..........................................................................................................71 八、实现数据分析需求五:实时数据 ...................................................................................................................71 九、使用 Sqoop 将数据导入 MySQL.......................................................................................................................72 十、HBase Shell 操作命令实验 ...............................................................................................................................73 十一、使用 Sqoop 将数据导入 HBase....................................................................................................................75 十二、HBase Java API 访问统计数据 ......................................................................................................................75 1. 操作要求 ......................................................................................................................................................75 2. 数据准备 ......................................................................................................................................................75 3. 数据导入 ...................................................................................................................................................... 76 十三、Mahout 聚类操作实验 .................................................................................................................................76 1. 数据描述 ...................................................................................................................................................... 76 2. 准备数据 ......................................................................................................................................................77 3. 运行聚类程序 ..............................................................................................................................................78