先电大数据平台操作手册-XianDian-BigData-v2.1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
南京第五十五所技术开发有限公司
先电大数据平台
用户手册
版本:先电Cloud-BigData-v2.1
发布日期:2017年02月21日
南京第五十五所技术开发有限公司
版本修订说明
目录
1概述 (5)
1.1大数据简介 (5)
1.2先电大数据平台简介 (5)
2基本环境配置 (6)
2.1配置主机名 (7)
2.2修改hosts文件 (7)
2.3修改yum源 (7)
2.4配置ntp (8)
2.5配置SSH (9)
2.6禁用Transparent Huge Pages (9)
2.7安装配置JDK (10)
3配置ambari-server (11)
3.1安装MariaDB数据库 (11)
3.2安装配置ambari-server (12)
4配置ambari-agent (14)
5部署管理Hadoop集群 (14)
5.1部署Hadoop集群 (14)
5.2HDFS运维管理 (21)
5.3MapReduce (31)
6部署Hive数据仓库 (32)
6.1部署Hive (32)
6.1Hive用户指南 (34)
7部署Hbase分布式列数据库 (49)
7.1部署HBase (49)
7.2测试验证 (51)
7.3HBase用户指南 (51)
8部署Mahout数据挖据工具 (59)
8.1部署Mahout (59)
8.2测试验证 .................................................................................... 错误!未定义书签。9部署Pig数据分析平台 .. (63)
9.1部署Pig (63)
9.2Pig简介 (64)
9.3运行案例 (66)
1概述
1.1大数据简介
“大数据”是一个体量特别大,数据类别特别庞杂的数据集合,并且这样的数据集无法用传统数据库工具或常规软件工具抓取、管理和处理其内容。大数据技术是指从各种各样类型的庞杂数据中,快速的获取有价值的信息的能力。适用于大数据的技术包括大规模并行处理数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台和可扩展的存储系统。
Apache的Hadoop项目是可靠的、可扩展的、开源的、分布式计算软件。Apache的Hadoop 软件库是允许通过相对简单的程序模型构建计算集群为庞大的数据集进行分布式计算的框架。
Hadoop的设计思想可以将计算模式从单节点服务器扩展为数以千计的计算集群,每一个单独的服务器都提供自主的本地计算及存储能力。
对于高可用指标而言,Hadoop软件库自身可以通过检测和故障调试从应用层来实现高可用而不需要关心硬件底层的高可用性。所以提供一个计算集群上层的高可用服务对于集群故障修复而言就显得至关重要。
1.2先电大数据平台简介
先电大数据平台是基于Ambari进行二次开发的Hadoop分布式集群配置管理工具,该平台通过安装向导来进行集群的搭建,简化了集群供应。同时,他还有一个监控组件,叫做Ambari-Metrics,可以提前配置好关键的运维指标(metrics),然后收集集群的中服务、主机等运行状态等信息,通过WEB的方式显示出来。我们可以直接查看Hadoop Core(HDFS 和MapReduce)及相关项目(如HBase、Hive和HCatalog)是否健康。它的用户界面非常直观,用户可以轻松有效地查看信息并控制集群。
先电大数据平台支持作业与任务执行的可视化与分析,能够更好地查看依赖和性能。通过一个完整的RESTful API把监控信息暴露出来,集成了现有的运维工具。平台使用Ganglia 收集度量指标,用Nagios支持系统报警。
图1.1 Ambari结构图
其中Ambari是一个分布式架构的软件,主要由两部分组成:Ambari Server 和Ambari Agent,如图1-1所示。Ambari Server 会读取Stack 和Service 的配置文件。当用Ambari 创建集群的时候,Ambari Server 传送Stack 和Service 的配置文件以及Service 生命周期的控制脚本到Ambari Agent。Agent 拿到配置文件后,会下载安装公共源里软件包(Redhat,就是使用yum 服务)。安装完成后,Ambari Server 会通知Agent 去启动Service。之后Ambari Server 会定期发送命令到Agent 检查Service 的状态,Agent 上报给Server,并呈现在Ambari 的GUI 上,方便用户了解到集群的各种状态,并进行相应的维护。
图1-1 Ambari架构图
2基本环境配置
以两台节点为例来组件Hadoop分布式集群,这里采用的系统版本为Centos7,如下表所示:
主机名内存硬盘IP地址角色
master 8192MB 100G 192.168.200.131 Ambari-Server slaver1 4096MB 100G 192.168.200.133 Ambari-Agent
2.1配置主机名
# master
# hostnamectl set-hostname master
# hostname
master
# slaver1
# hostnamectl set-hostname slaver1
# hostname
slaver1
2.2修改hosts文件
# master & slaver1
# vi /etc/hosts
192.168.200.131 master
192.168.200.133 slaver1
2.3修改yum源
# master
将XianDian-BigData-v2.0.2-BASE.iso挂在到/mnt目录下,将其中的ambari解压到/opt 目录下,并在master节点配置ftp服务。
注意:
因为安装大数据相关软件包时,可能会用到相关依赖软件包,所以需要配置Centos7 Yum源,这里可以采用IAAS中的Centos7 Yum源。
# master & slaver1
# cd /etc/yum.repos.d/
# rm -vf *
配置Yum源
# vi ambari.repo