大数据环境搭建
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.硬件环境
3台物理主机
192.168.0.191 – dc01
192.168.0.192 – dc02
192.168.0.193 – dc03
系统全部为Ubuntu16.04
2.软件环境
1) jdk1.8.0_121
2) zookeeper-3.4.10
3) hadoop-2.6.5
4) hbase-1.2.6
5) kafka_2.11-0.10.2.0
6) apache-storm-1.1.0
jdk的安装在此不做赘述,有疑问可自行百度。
3.设置主机名
三台机器都需设置,后面所有操作都通过主机名连接。
ip为192.168.0.191的机器修改为如下内容:
其他两台机器分别设置为dc02和dc03。4.修改host文件
在末尾追加如下内容:
三台机器做相同操作。
5.设置ssh免密码登录
以dc01为例,执行以下命令
开始安装
所有软件安装目录为/usr/local/
安装zookeeper
下载zookeeper安装文件zookeeper-3.4.10.tar.gz到/usr/local/下执行以下命令:
编辑zoo.cfg
修改后文件内容如下:
在zookeeper下新建data目录
新增myid文件,该文件内容与zoo.cfg最后三行内容有关,
server.x=host:port1:port2,myid中写入的就是x对应的值,不同主机文件内容不同。
使用scp命令将dc01上已配置好的zookeeper文件复制到其他两台机器
操作完成后将dc02上的myid文件内容改为2,dc03中的myid内容改为3。
启动zookeeper
三个节点做同样操作,启动完成后可使用”zkServer.sh status”查看运行状态。
安装hadoop
hbase基于hdfs存储,所以安装hbase前必须先安装hadoop,不同版本hbase对应的hadoop版本不同,安装前请确认兼容性。
下面开始安装:
在/usr/local/下新建hadoop目录,hadoop下再创建hdfs目录。
下载hadoop安装文件hadoop-2.6.5.tar.gz,放入hadoop目录下
修改配置文件
需要修改的配置文件有四个,hadoop-env.sh、core-site.xml、hdfs-site.xml、slaves,因为暂时不使用map-reduce所以不用配置yarn相关文件。
1、修改hadoop-env.sh
修改JAVA_HOME为jdk安装路径(如果没有则添加一行)
2、修改core-site.xml
修改后内容如下:
3、修改hdfs-site.xml
修改后内容如下:
4、修改slaves
将原来的localhost改成如下内容:
修改完成后将安装目录copy到其他两台机器上:
启动集群(只需在dc01操作)
第一次启动时需要先格式化,以后无需进行此操作。
启动成功后可使用jps命令查看,dc01有NameNode和SecondaryNameNode进程,dc02和dc03有DataNode进程则集群启动成功。
安装hbase
集群机器划分:dc01作为NameNode节点,dc02和dc03作为DataNode节点。下载hbase安装文件并放入/usr/local/目录下
1、解压并修改文件夹名称:
2、修改配置文件,配置hbase集群需要修改三个配置文件,分别为hbase-env.sh、hbase-site.xml、regionservers。
1)修改hbase-env.sh
需要修改两行内容
修改JAVA_HOME的值为jdk的安装目录,修改后如下:
修改HBASE_MANAGES_ZK,该行默认被注释掉了,默认使用hbase自带的zookeeper协调集群,我们需要把注释去掉并修改值为false,表示使用自己安装的zookeeper。修改如下:
2)修改hbase-site.xml
在中添加如下内容:
3)修改regionservers
该文件配置数据存储在哪个节点,即DataNode节点的位置。默认为localhost,表示数据存储在本机,需要修改为两个DataNode节点的主机名,修改后内容如下:
上述操作完成后使用scp命令将hbase所有文件复制到dc02和dc03。
3、启动hbase
启动完成后可通过jps命令查看,dc01有HMaster进程,dc02和dc03有HRegionServer进程则表示集群启动成功。如果任一节点没有对应的进程则表示集群启动失败,可查看日志查找失败原因。此处需要注意一点,三台机器的系统时间相差不能太大,否则会出现启动失败的情况,同步系统时间后重试即可。
4、连接hbase
hbase提供了shell操作接口,使用一些命令连接hbase
连接后可通过相应的shell命令操作hbase,hbase的操作此处不做讨论,请自行google。
hbase还可以通过第三方插件apache-phoenix进行连接,该插件支持以sql的方式
操作hbase。下载和hbase版本对应的phoenix安装包,解压后将phoenix-[phoenix 版本]-HBase-[hbase版本]-server.jar(本例中使用的为
phoenix-4.10.0-HBase-1.2-server.jar)复制到hbase的lib目录下重启hbase即可(每个节点都需要进行此操作),phoenix操作方法请自行搜索资料学习。
安装kafka
下载kafka安装文件并放入/usr/local/目录下,解压
kafka的配置比较简单,只需修改config/下的server.properties文件即可,需要修改三处位置。
1)修改broker.id
该值在各个节点中不能重复,推荐使用机器ip地址最后一位,如dc01上该值为1,dc02上为2,dc03上为3。
2)修改log.dirs
该值表示日志文件存储位置,默认为/tmp/kafka-logs,使用该配置时机器重启后文件会被清空,需要修改为其他位置,建议修改为: