大数据环境搭建

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.硬件环境

3台物理主机

192.168.0.191 – dc01

192.168.0.192 – dc02

192.168.0.193 – dc03

系统全部为Ubuntu16.04

2.软件环境

1) jdk1.8.0_121

2) zookeeper-3.4.10

3) hadoop-2.6.5

4) hbase-1.2.6

5) kafka_2.11-0.10.2.0

6) apache-storm-1.1.0

jdk的安装在此不做赘述,有疑问可自行百度。

3.设置主机名

三台机器都需设置,后面所有操作都通过主机名连接。

ip为192.168.0.191的机器修改为如下内容:

其他两台机器分别设置为dc02和dc03。4.修改host文件

在末尾追加如下内容:

三台机器做相同操作。

5.设置ssh免密码登录

以dc01为例,执行以下命令

开始安装

所有软件安装目录为/usr/local/

安装zookeeper

下载zookeeper安装文件zookeeper-3.4.10.tar.gz到/usr/local/下执行以下命令:

编辑zoo.cfg

修改后文件内容如下:

在zookeeper下新建data目录

新增myid文件,该文件内容与zoo.cfg最后三行内容有关,

server.x=host:port1:port2,myid中写入的就是x对应的值,不同主机文件内容不同。

使用scp命令将dc01上已配置好的zookeeper文件复制到其他两台机器

操作完成后将dc02上的myid文件内容改为2,dc03中的myid内容改为3。

启动zookeeper

三个节点做同样操作,启动完成后可使用”zkServer.sh status”查看运行状态。

安装hadoop

hbase基于hdfs存储,所以安装hbase前必须先安装hadoop,不同版本hbase对应的hadoop版本不同,安装前请确认兼容性。

下面开始安装:

在/usr/local/下新建hadoop目录,hadoop下再创建hdfs目录。

下载hadoop安装文件hadoop-2.6.5.tar.gz,放入hadoop目录下

修改配置文件

需要修改的配置文件有四个,hadoop-env.sh、core-site.xml、hdfs-site.xml、slaves,因为暂时不使用map-reduce所以不用配置yarn相关文件。

1、修改hadoop-env.sh

修改JAVA_HOME为jdk安装路径(如果没有则添加一行)

2、修改core-site.xml

修改后内容如下:

3、修改hdfs-site.xml

修改后内容如下:

4、修改slaves

将原来的localhost改成如下内容:

修改完成后将安装目录copy到其他两台机器上:

启动集群(只需在dc01操作)

第一次启动时需要先格式化,以后无需进行此操作。

启动成功后可使用jps命令查看,dc01有NameNode和SecondaryNameNode进程,dc02和dc03有DataNode进程则集群启动成功。

安装hbase

集群机器划分:dc01作为NameNode节点,dc02和dc03作为DataNode节点。下载hbase安装文件并放入/usr/local/目录下

1、解压并修改文件夹名称:

2、修改配置文件,配置hbase集群需要修改三个配置文件,分别为hbase-env.sh、hbase-site.xml、regionservers。

1)修改hbase-env.sh

需要修改两行内容

修改JAVA_HOME的值为jdk的安装目录,修改后如下:

修改HBASE_MANAGES_ZK,该行默认被注释掉了,默认使用hbase自带的zookeeper协调集群,我们需要把注释去掉并修改值为false,表示使用自己安装的zookeeper。修改如下:

2)修改hbase-site.xml

在中添加如下内容:

3)修改regionservers

该文件配置数据存储在哪个节点,即DataNode节点的位置。默认为localhost,表示数据存储在本机,需要修改为两个DataNode节点的主机名,修改后内容如下:

上述操作完成后使用scp命令将hbase所有文件复制到dc02和dc03。

3、启动hbase

启动完成后可通过jps命令查看,dc01有HMaster进程,dc02和dc03有HRegionServer进程则表示集群启动成功。如果任一节点没有对应的进程则表示集群启动失败,可查看日志查找失败原因。此处需要注意一点,三台机器的系统时间相差不能太大,否则会出现启动失败的情况,同步系统时间后重试即可。

4、连接hbase

hbase提供了shell操作接口,使用一些命令连接hbase

连接后可通过相应的shell命令操作hbase,hbase的操作此处不做讨论,请自行google。

hbase还可以通过第三方插件apache-phoenix进行连接,该插件支持以sql的方式

操作hbase。下载和hbase版本对应的phoenix安装包,解压后将phoenix-[phoenix 版本]-HBase-[hbase版本]-server.jar(本例中使用的为

phoenix-4.10.0-HBase-1.2-server.jar)复制到hbase的lib目录下重启hbase即可(每个节点都需要进行此操作),phoenix操作方法请自行搜索资料学习。

安装kafka

下载kafka安装文件并放入/usr/local/目录下,解压

kafka的配置比较简单,只需修改config/下的server.properties文件即可,需要修改三处位置。

1)修改broker.id

该值在各个节点中不能重复,推荐使用机器ip地址最后一位,如dc01上该值为1,dc02上为2,dc03上为3。

2)修改log.dirs

该值表示日志文件存储位置,默认为/tmp/kafka-logs,使用该配置时机器重启后文件会被清空,需要修改为其他位置,建议修改为:

相关文档
最新文档