大数据运维的职责和技能要求
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
⼤数据运维的职责和技能要求
⼀、⼤数据运维的职责
⼀)⼤数据运维的职责概述
1、集群管理
⼤数据需要分布式系统(集群)
相关软软件CDH、HDFS、YARN、Hive、Hbase、Kafka、zookeeper、Spark、Flume、Impala、Hue、Sqoop、Elasticsearch、kibana、MySQL、Oracle等等
2、故障处理
商⽤硬件使得故障是常态
区分故障等级,优先处理影响实时性业务的故障
3、变更管理
以可控的⽅式,⾼效的完成变更⼯作
包括配置管理和发布管理
4、容量管理
存储空间、允许连接数等都是容器概念
在多租户环境下,容器管理尤其重要
5、性能调优
不同组件的性能概念不⼀样,如kafka注重吞吐量,hbase注重实时性可⽤
需要对组件有深刻的理解
6、架构调优
优化⼤数据平台架构,⽀持平台能⼒和产品的不断迭代
类似架构师的⼯作
⼆)运维三板斧:可以解决90%以上的故障处理⼯作
1、运维三板斧简述
重启:重启有问题的机器或进程,使其正常⼯作
切换:主备切换或猪猪切换,连接正常⼯作的节点
查杀:杀死有问题的进程、连接等
2、运维三板斧的问题
只能解决故障处理问题,不能解决性能调优、架构优化等问题
只能治标,不能治本
3、⼤数据运维和传统运维的不同
传统运维⾯对的底层软硬件基本稳固;⼤数据运维⾯对的是商⽤和复杂的Linux版本
传统运维⾯对单机架构为主;⼤数据运维⾯对复杂的分布式架构
传统运维⼤多维护闭源商业版系统;⼤数据运维通常⾯对开源系统,⽂档⼿册匮乏,对阅读源码要求⾼
⼤数据运维对⾃动化⼯具的依赖⼤⼤增加
三)laas层运维⼯作
⼀般中⼤型企业有⾃⼰的基础设施维护团队,这部分⼯作不会交给⼤多数运维来做
⼩公司可能需要⼤数据运维兼任这部分⼯作,主要关注三⽅⾯
硬件:⼤数据系统⼤多使⽤廉价PC Server或虚拟机,硬件故障时常态,通过告警、⽇志、维护命令等识别故障,并组织硬件更换存储:⼤多使⽤PC Server挂载本地盘的存储⽅式,极少情况会使⽤SAN(存储区域⽹络)或NAS(⽹络附属存储),熟悉分区、格式化、巡检等基本操作
⽹络:⽹络的配置变更需要⽐较专业的只是,如有需要可学习CCNA、CCNP等认证课程,但⽹络硬件和配置问题概率很低,主要关注丢包、延时
四)⼤数据运维的⼯作职责
1、HDFS运维⼯作
1、容量管理
HDFS空间使⽤率超过80%要报警,若是多租户环境,租户的配额空间也可能⽤完
熟悉hdfs,fsck,distcp等常⽤命令,会使⽤DataNode均衡器
2、进程管理
namenode的进程是重点
熟悉dfsadmin等命令怎么做namenode⾼可⽤
3、故障管理
Hadoop最常见的错误是硬盘损坏(所以相关的监控,可以要有,指定好相应的预案)
4、配置管理
hdfs-site.xml中的参数配置
2、MapReduce运维⼯作
1、进程管理
jobtracker进程故障概率⽐较低,有问题可以通过重启解决
组件的⾼可⽤
2、配置管理
mapred-site.xml中的参数设置
3、Yarn运维⼯作
1、故障管理
主要是当任务异常中⽌时看⽇志排查,通常故障原因会集中在资源问题、权限问题、代码问题中的⼀种
2、进程管理
ResourceManager主要是学会配置HA
NodeManager进程挂掉不重要,重启即可
3、配置管理
yarn-site.xml中的参数设置,主要分三块配置:scheduler、ResourceManager、NodeManager
4、Hive/Impala运维⼯作
1、SQL问题排查
结果不对,主要原因可能是SQL错误、数据不存在、UDF错误等,需要靠经验排查
慢SQL,这类问题开发经常会找运维排查,原因有可能是劣质SQL、数据量⼤,ye 2、元数据管理
Hive和Impala共⽤Hive的元数据,存在关系型数据库中
5、其他组件
根据组件⽤途、特性、关注点的不同,运维⼯作各不相同
HBase关注读写性能、服务的可⽤性
Kafka关注吞吐量、负载均衡、消息不丢机制
Flume关注吞吐量、故障后得到快速恢复
.................................................
⼆、⼤数据运维的技能
⼀)扎实的Linux应⽤技能
Linux相关的管理⼯具grep、sed、awk等,语⾔shell、Python等
关系型数据库MySQL、postgresql等关系型数据库技能
计算机⽹络、操作系统等基础
Hadoop⽣态圈的各组件原理、架构和使⽤
技术经验的积累
⼆)丰富的⾏业领域知识、经验
沟通能⼒强:⾔之有理有据
懂业务:⼤数据应⽤架构
三)阅读英⽂⽂档的能⼒
四)学习新技术的狂热。