最新大数据处理技术简介电子教案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据处理实现技术 —— 分布式储存系统GFS / HDFS
10G 10G 10G
…….. 100M/S
10G 10G
1分30秒
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
大数据处理技术面对的第二个问题
可靠性问题
99%*99%*99%*99%*99%=95% 95%*95%*95%*95%*95%=76%
三、大数据开源软件Hadoop简介
大数据开源软件Hadoop简介
谷歌技术开源实现
GFS MapReduce
开源实现
HDFS
MapReduce
大数据开源软件Hadoop简介
2002年,Doug Cutting从做开源Apache Nutch引擎开始 2003年,Doug在看到谷歌发表的GFS之后,开始开源实现 NDFS ( Nutch Distributed File System)。 2004年,谷歌发表MapReduce,2005年,Nutch开发人员开源实现MapReduce。 2006年,Nutch的NDFS和MapReduce移出Nutch项目,独立形成独立项目,命 名Hadoop。
非结构化数据:除去以上两种类型例如:音视频、图 片等。
大数据背景 —— 数据的来源
2000年以后非结构化数据占绝大部分
大数据背景 —— 数据的来源
从非结构化数据到结构化数据
视频、音 频识别技 术等
大数据背景 —— 数据的来源
网页爬虫
视频识别
语音识别 等
大数据背景 —— 数据的来源
传统关系数据库,如:Oracle、MYSQL 无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃
大数据处理实现技术 —— 分布式计算模型 MapReduce
气象站气象数据的处理(找出最高气温)
Key(年份)——Value(温度)
来自百度文库
大数据处理实现技术 —— 分布式计算模型 MapReduce MapReduce计算架构
大数据处理实现技术 —— 分布式计算模型 MapReduce
Map/Reduce特点
大数据定义
“大数据”是指一个数据集(Datasets),它的尺 寸大到已经无法由传统的数据库软件去采集、储存 、管理和分析。
大数据背景 —— 定义
数据的分类
结构化数据:行数据,存储在数据库里,可以用二维表
结构来逻辑表达实现的数据。例如:二维表
半结构化数据:自描述,数据结构和内容混杂在一起
的数据。例如: XML、HTML等。
半结构化数据和脏数据将会导致出错(类型不严格)
传统方法失效 ! 如何解决?
大数据处理技术的解决办法:
存成文件(File System)
大数据背景 —— 数据的来源
某搜索引擎搜索日志
二、大数据处理实现技术
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
大数据处理技术面对的第一个问题
如何高效存储大规模文件?
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
数据读取问题
2.5小时
1T
100M/S
OH NO !!!
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
谷歌文件系统(GFS)
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
谷歌文件系统(GFS) 解决方案
分而治之
2000年 数字数据只占全球数据量的1/4 2007年 所有数据中只有7%是存储在报纸、书 籍、图片等媒介上的模拟数据,其余93%全是 数字数据(二进制数据) Google 单日数据处理量超过 24 PB Facebook 单日照片更新量超过 1千万张 淘宝网 单日数据产生量超过 5万 GB
大数据背景 —— 定义
开发简单
无需处理线程或提供精细的同步逻辑
规模大
无需修改程序即可在任意规模机器上运行
工作具备自动并行和分发功能
用户只需写好Map和Reduce函数即可
高容错
失败任务在新节点上会重新运行
大数据处理实现技术 —— 分布式计算模型 MapReduce
Map/Reduce的局限 对迭代算法无能为力
不是所有算法都能并行
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
谷歌 解决方案
备份
一份数据至少做三个备份
10G 10G
10G 10G
10G
10G
10G 10G
10G 10G
10G 10G
……
云(……Cloud )
储存…节… 点 心跳(HeartBeat )
10G 10G
10G 10G
10G
10G
Secondary
大数据处理技术简介
目录
一、大数据背景
1. 定义 2. 数据的来源
二、大数据处理实现技术
1. 分布式储存系统(GFS / HDFS) 2. 分布式计算模型(MapReduce)
三、大数据开源软件Hadoop简介
1. Hadoop 简介 2. 实例演示
一、大数据背景
大数据背景 —— 定义
我们正处在信息爆炸的年代
大数据处理技术面对的第三个问题
数据运算问题
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
谷歌 解决方案
分布式计算(并行计算)
大数据处理实现技术 —— 分布式计算模型 MapReduce
谷歌提出 Map / Reduce 模型
大数据处理实现技术 —— 分布式计算模型 MapReduce
Key-Value(键-值)模型
键(Key):
键必须是唯一的,而值并不一定是唯一的 每个值必须与键关联,但键可以没有值 必须对键进行明确定义。他决定了计数是否区分大小写(键由Hash值唯一确定)。
键值对举例 :
通讯录中的姓名(Key)和联系方式(Value) 计算机中各种根据文件名(Key)访问各类文件,如文本、图片(Value) 年份(Key)— 温度(value)
Map函数:接受一个键值对(key-value pair),产生一组中间键值对。map 函数将中间键值对里键相同的值传递给Reduce函数。 Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组 规模更小的值(通常只有一个或零个值)
大数据处理实现技术 —— 分布式计算模型 MapReduce
master (副主管)
Master作用: 读取数据
读取元数据
储存元数据(数据位置信息)
储存节点的日常维护
Master(主管)
数据位置信息
读取数据
Client(用户程序)
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
Google File System架构
大数据处理实现技术 —— 分布式计算模型 MapReduce
相关文档
最新文档