大数据培训文档
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常用技术组建
hdfs
• 分布式文件系统,适合运行在通用的硬件上,通俗讲就是数字存储
MR
• MapReduce是面向大数据并行处理的计算模型、框架和平台
HBase
• 是一个高可靠性、高性能、面向列、,实现低延迟应用
Spark
• 快速通用的计算引擎,和mapreduce类似
HDFS:特点和服务
NameNode
Secondary
Namenode
NodeManager
hdfs
Resource anager HistoryServer DataNode
Hdfs:读取数据
Hdfs:写入数据
Hdfs:不适用于HDFS的场景
1) 低延迟 HDFS不适用于实时查询这种对延迟要求高的场景,例如:股票实盘。往往应对低延迟数据访问场景 需要通过数据库访问索引的方案来解决,Hadoop生态圈中的Hbase具有这种随机读、低延迟等特点。 2) 大量小文件 对于Hadoop系统,小文件通常定义为远小于HDFS的block size(默认64MB)的文件,由于每个文件 都会产生各自的MetaData元数据,Hadoop通过Namenode来存储这些信息,若小文件过多,容易导 致Namenode存储出现瓶颈。 3) 多用户更新 为了保证并发性,HDFS需要一次写入多次读取,目前不支持多用户写入,若要修改,也是通过追加 的方式添加到文件的末尾处,出现太多文件需要更新的情况,Hadoop是不支持的。 针对有多人写入数据的场景,可以考虑采用Hbase的方案。 4) 结构化数据 HDFS适合存储半结构化和非结构化数据,若有严格的结构化数据存储场景,也可以考虑采用Hbase 的方案。 5) 数据量并不大 通常Hadoop适用于TB、PB数据,若待处理的数据只有几十GB的话,不建议使用Hadoop,因为没有 任何好处。
Mr:离线计算
mapreduce是 hadoop默认支持的计算框架
yarn 基础组成结构
• resourcemanager • nodemanager • applicationmaster • container
yarn 基础组成结构
hbase
• hmaster • regionserver • region • blockcache • menstore • hfile
Yarn
• 资源管理器,两个主要功能:资源管理和作业调度/监控
kafka
• 高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据
HDFS:什么是HDFS?
在一个多节点块集群存储文件。 在节点间复制模块 主从架构。 没有文件更新 一次写,多次读 大数据块 顺序读模式 为批处理设计
hbase
phoenix
提供hbase的sql操作模式,能添加二级索引,目前只支持oltp模式。
spark
Kafka工作模式
Kafka特点
• 消息持久化,文件系统存储消息 • 高吞吐量:topic,partiton • 数据备份:多副本 • 轻量级别:不存offset • 消息压缩:提高吞吐,gzip,snappy,lz4等 • streams: • 扩展性:zookeeper实现broker扩展
Mr:离线计算
mapreduce是 hadoop默认支持的计算框架
• 将输入的海量数据切片分给不同的机器处理; • 执行 Map 任务的 Worker 将输入数据解析成 key/value pair,用户定义的 Map 函数把 输入的 key/value pair 转中间形式的 key/value pair; • 按照 key 值对中间形式的 key/value 进行排序、聚合; • 把不同的 key 值和相应的 value 集分配给不同的机器,完成 Reduce 运算; • 输出 Reduce 结果。
大数据初见
day1
大数据的起源
数据量增长速度的历史,也就是“数据爆炸”的历史 (据牛津 英语辞典记载,这一术语首次使用于1941年。)
大数据定义
大数据被称为巨量数据集合或者巨量资料
大数据有4V特点
全球大数据生态
大数据生态分为七大阵营 • • • • • • • 大数据基础架构阵营 大数据分析阵营 大数据应用阵营 架构与分析跨界阵营 大数据开源阵营 数据源与API阵营 孵化器与培训阵营