基于Hadoop数据分析系统设计(优秀毕业设计)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章 某某企业数据分析系统设计需求分析
某某企业成立于 1999 年,其运营的门户网站每年产生大概 2T 的日志信息, 为了分析网站的日志,部署了一套 Oracle 数据库系统,将所有的日志信息都导 入 Oracle 的表中。 随着时间的推移,存储在 Oracle 数据库中的日志系统越来越 大, 查询的速度变得越来越慢, 并经常因为查询的数据量非常大而导致系统死机。 日志信息的分析成为了 XX 企业急需解决的问题,考虑到单机分析的扩展性与成 本问题,且 XX 企业当前有一部分服务器处于闲置状态,最终决定在现有服务器 的基础上部署一套分布式的系统来对当前大量的数据进行分析。 结合淘宝目前已 经部署成功的数据雷达系统,同时由于 XX 企业预算有限,为了节约资金,决定 采用开源的 Hadoop 来部署公司的数据分析系统。 采用 Hadoop 集群优势:
1. 采用单 master 的设计,单 master 的设计极大地简化了系统的设计和实现, 由此带来了机器规模限制和单点失效问题。 2. 编程复杂,学习曲线过于陡峭,让许多人难以深入。 3. 开源性,在广大社区维护不断推进 Hadoop 的发展的同时,一旦代码出现漏 洞并未被发现, 而又被有心的人利用, 将会对数据的安全造成毁灭性的后果。 4. 缺乏认证,Hadoop 并没有对使用 Hadoop 的权限进行细致的划分。
3.8.1 Hive 安装...................................................................................................... 33 3.8.2 使用 MySQL 存储 Metastore..................................................................... 33 3.8.3 Hive 的使用.................................................................................................. 36 3.9 HBASE 安装与配置.......................................................................................... 37
key words Hadoop,MapReduce,Hive
1
广州大学华软软件学院
某某企业数据分析系统设计
目录
第一章 第二章 第三章 3.1 3.2 3.3 3.4 3.5 3.6 某某企业数据分析系统设计需求分析...................................................... 3 HADOOP 简介............................................................................................... 4 HADOOP 单一部署....................................................................................... 7 HADOOP 集群部署拓扑图................................................................................. 7 安装操作系统 CENTOS...................................................................................... 8 HADOOP 基础配置........................................................................................... 14 SSH 免密码登录.............................................................................................17 安装 JDK......................................................................................................... 18 安装 HADOOP...................................................................................................18
摘要
随着云时代的来临,大数据也吸引越来越多的关注,企业在日常运营中
生成、积累的用户网络行为数据。这些数据是如此庞大,计量单位通常达到了 PB、EB 甚至是 ZB。Hadoop 作为一个开源的分布式文件系统和并行计算编程模型 得到了广泛的部署和应用。本文将介绍 Hadoop 完全分布式集群的具体搭建过程 与基于 Hive 的数据分析平台的设计与实现。
关键字
Hadoop,MapReduce,Hive
广州大学华软软件学院
某某企业数据分析系统设计
Abstract With the advent of cloud, big data also attract more and more
attention, the enterprise of the generation and accumulation in the daily operation of the user network behavior data. The data is so large, the measuring unit is usually achieved the PB, EB, and even the ZB. The Hadoop distributed file system as an source, and parallel computing programming model has been widely deployed and application. This article introduces Hadoop completely distributed cluster process of concrete structures, and the design and implementation of data analysis platform based on the Hive.
3
广州大学华软软件学院
某某企业数据分析系统设计
第二章 Hadoop 简介
Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台。以 Hadoop 分布式文件系统和 MapReduce 为核心的 Hadoop 为用户提供了系统底层细节透明 的分布式基础架构。HDFS 的高容错性、高伸缩性等优点允许用户将 Hadoop 部署 在低廉的硬件上,形成分布式系统,MapReduce 分布式编程模型允许用户在不了 解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用 Hadoop 轻松地组织计算机资源, 从而搭建自己的分布式计算平台,并且可以充分利用集 群的计算和存储能力,完成海量数据的处理。 2.1 Hadoop 生态系统 Hadoop 已经发展成为包含多个子项目的集合。核心内容是 MapReduce 和 Hadoop 分布式文件系统 (DHFS) 。 它也包含了 Common、 Avro、 Chukwa、 Hive、 Hbase 等子项目,他们在核心层的基础上提供了高层服务,为 Hadoop 的应用推广起到 了重要作用。如图 2.1 所示:
1. 高可靠性,能够维护多个工作数据副本,确保能够针对失败的节点重新分布 处理。 2. 高扩展性,在计算机集簇间分配数据并完成计算,这些集簇可以很容易扩展 到数以千计的节点中去。 3. 高效性,以并行的方式工作,通过并行处理加快处理速度。 4. 高容错性,自动保存数据多个副本,并能够自动将失败任务重新分配。 5. 廉价性,框架可以运行在任何普通的 PC 上。 采用 Hadoop 集群劣势:
9.1 Hbase 安装...................................................................................................... 37 9.2 Hbase 的使用.................................................................................................. 39 3.10 集群监控工具 GANGLIA.................................................................................. 42 第四章 HADOOP 批量部署.....................................................................................48 4.1 安装操作系统批量部署工具 COBBLER.............................................................. 48 4.2 安装 HADOOP 集群批量部署工具 AMBARI......................................................... 54 第五章 第六章 第七章 使用 HADOOP 分析网站日志....................................................................62 总结............................................................................................................ 66 参考文献.................................................................................................... 67
3.6.1 安装 32 位 Hadoop...................................................................................... 19 3.6.2 安装 64 位 Hadoop...................................................................................... 28 3.7 3.8 HADOOP 优化................................................................................................... 32 HIVE 安装与配置............................................................................................ 33
致谢.............................................................................................................................. 68
2
广州大学华软软件学院
某某企业数据分析系统设计
相关文档
最新文档