企业级大数据分析平台实践案例
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分布式hadoop集群的主机角色
主机名
master1 master2 slave1
IP地址
192.168.X.3 192.168.X.4 192.168.X.5
ቤተ መጻሕፍቲ ባይዱ角色
master master slave
组件
Namenode Datanode NodeManager
SecondaryNamenode ResourceManager Datanode NodeManager
• 保存文件后执行命令使文件生效 # source /etc/profile
集群搭建
• 根据主机角色在不同的节点上安装软件
• 根据集群规划对各个节点上的服务进行安装和配置
• 配置集群所需的配置文件(所有节点必须配置而且保持一致)
- 配置文件路径为/etc/hadoop/conf
配置集群slaves
配置集群 hdfs-site.xml
Name
Value
dfs.namenode.name.dir /hadoop/hdfs/name
dfs.datanode.data.dir
/hadoop/hdfs/data
dfs.replication
3
作用
namenode数据的存放位置
datanode数据块的存放位置 hdfs的文件备份系数, 伪分布式集群只能为1
• 增加slave节点
# vim /etc/hadoop/conf/slaves
配置集群core-site.xml
Name
fs.defaultFS hadoop.tmp.dir
Value
hdfs://master1:8020 /usr/hdp/tmp
作用
HDFS的访问入口 hadoop文件系统依赖的基础配置
SecondaryNamenode ResourceManager Datanode NodeManager
JobHistoryServer Datanode
NodeManager
修改主机地址和主机名
•每台主机分别修改IP地址和主机名,例如在master1上: 修改网卡配置文件/etc/sysconfig/network-scripts/ifcfg-xxx
企业级大数据分析平台 实践案例
企业级大数据解决方案
企业级hadoop高可用HDFS集群
企业级大数据分析平台Hive
企业级大数据数据仓库Hbase
企业级数据流实时导入工具Flume
企业级关系数据库迁移工具sqoop
Sqoop根据数据库表结构自动创建class文件,提交到mapreduce框架上运行
企业级hadoop集群搭建准备
• 准备至少3台联网的主机,单个主机至少4G内存,10G磁 盘剩余空间。
• 分别安装Hanwate_Bigdata_OS_7_Firefly操作系统,该系统 整合了大数据生态链的常用工具。
• 按照后面的向导,分别在每台主机上安装相应的软件组件,并配 置其角色,启动相应的服务。
• 启动master2节点上的服务: # systemctl start hadoop-hdfs-secondarynamenode # systemctl start hadoop-hdfs-datanode
创建HDFS需要用到的Linux目录
# mkdir -p /usr/hdp/tmp # mkdir -p /hadoop/hdfs/{data,name} # chown -R hdfs:hadoop /hadoop # chown -R hdfs:hadoop /usr/hdp/tmp
初始化hdfs文件系统
BOOTPROTO="none" IPADDR=191.168.X.3 GATEWAY=192.168.X.1 NETMASK=255.255.255.0 • 主机名配置文件为/etc/hostname,例如在master1上内容为: master1
配置主机名映射
• 在所有节点上修改/etc/hosts:(文件末尾追加) 191.168.X.3 master1 191.168.X.4 master2 191.168.X.5 slave1 伪分布式集群的配置: 191.168.X.3 master1 master2 slave1
JobHistoryServer Datanode
NodeManager
伪分布式hadoop集群的主机角色
主机名
master1 master2 slave1
IP地址
192.168.X.3 192.168.X.3 192.168.X.3
角色
master master slave
组件
Namenode Datanode NodeManager
• 在master1 上操作: # sudo -u hdfs $ hdfs namenode -format 以hdfs账户初始化hdfs文件系统
启动hdfs文件系统
• 启动master1节点上的服务: # systemctl start hadoop-hdfs-namenode # systemctl start hadoop-hdfs-datanode
应用配置文件
• 所有主机同步/etc/hosts
• 重新启动服务器
# reboot
• 检查主机名和其他节点是否可以访问
# for host in master1 master2 slave1 do ping -c1 $host done
配置JAVA环境变量
• 在 /etc/profile 文件末尾追加 export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.1511.b12.el7_4.x86_64/jre export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib export PATH=$PATH:$JAVA_HOME/bin
大数据生态链的常用工具
• pig -- 精短强悍的数据整理清洗工具 • spark -- 基于内存的流式数据分析工具,内置机器学习库 • oozie -- 任务自动化调度工具 • kafka -- 跨平台的数据传输工具,支持各种传输协议和加密压缩等功能 • impala -- 类似hive的数据分析工具,支持SQL查询语言,速度更快 • tez -- 优化mapreduce计算路径的计算框架 • kudu -- 一种更快速的数据分析平台 • solr -- 企业级搜索引擎