大数据处理技术简介教学总结

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
传统关系数据库,如:Oracle、MYSQL 无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃
半结构化数据和脏数据将会导致出错(类型不严格)
传统方法失效 ! 如何解决?
大数据处理技术的解决办法:
大数据背景 —— 数据的来源
某搜索引擎搜索日志
二、大数据处理实现技术
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
大数据开源软件Hadoop简介
大数据开源软件Hadoop简介
1.系统要求:Linux(Ubuntu/CentOS/…) 2.java运行环境(安装JDK) 3.安装SSH 4.安装Hadoop
10G 10G
10G 10G
10G 10G
10G 10G
10G 10G
10G 10G
…… …… ……
10G 10G
10G 10G
10G
10G
Secondary
master (副主管)
Master作用: 读取数据
读取元数据
储存元数据(数据位置信息)
储存节点的日常维护
Master(主管)
数据位置信息
大数据处理实现技术 —— 分布式计算模型 MapReduce
Key(年份)——Value(温度)
大数据处理实现技术 —— 分布式计算模型 MapReduce
大数据处理实现技术 —— 分布式计算模型 MapReduce
开发简单
无需处理线程或提供精细的同步逻辑
规模大
无需修改程序即可在任意规模机器上运行
读取数据
Client(用户程序)
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
Google File System架构
大数据处理实现技术 —— 分布式计算模型 MapReduce
大数据处理技术面对的第三个问题
数据运算问题
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
大数据处理实现技术 —— 分布式计算模型 MapReduce
键(Key):
键必须是唯一的,而值并不一定是唯一的 每个值必须与键关联,但键可以没有值 必须对键进行明确定义。他决定了计数是否区分大小写(键由Hash值唯一确定)。
键值对举例 :
通讯录中的姓名(Key)和联系方式(Value) 计算机中各种根据文件名(Key)访问各类文件,如文本、图片(Value) 年份(Key)— 温度(value)
目录
1. 定义 2. 数据的来源
1. 分布式储存系统(GFS / HDFS) 2. 分布式计算模型(MapReduce)
1. Hadoop 简介 2. 实例演示
一、大数据背景
大数据背景 —— 定义
我们正处在信息爆炸的年代
2000年 数字数据只占全球数据量的1/4 2007年 所有数据中只有7%是存储在报纸、书 籍、图片等媒介上的模拟数据,其余93%全是 数字数据(二进制数据) Google 单日数据处理量超过 24 PB Facebook 单日照片更新量超过 1千万张 淘宝网 单日数据产生量超过 5万 GB
大数据背景 —— 定义
大数据定义
“大数据”是指一个数据集(Datasets),它的尺 寸大到已经无法由传统的数据库软件去采集、储存 、管理和分析。
大数据背景 —— 定义
数据的分类
结构化数据:行数据,存储在数据库里,可以用二维表
结构来逻辑表达实现的数据。例如:二维表
半结构化数据:自描述,数据结构和内容混杂在一起
工作具备自动并行和分发功能
用户只需写好Map和Reduce函数即可
高容错
失败任务在新节点上会重新运行
大数据处理实现技术 —— 分布式计算模型 MapReduce
对迭代算法无能为力 不是所有算法都能并行
三、大数据开源软件
简介
大数据开源软件Hadoop简介
谷歌技术开源实现
大数据开源软件Hadoop简介
10G 10G 10G
…….. 100M/S
10G 10G
1分30秒
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
大数据处理技术面对的第二个问题
可靠性问题
99%*99%*99%*99%*99%=95% 95%*95%*95%*95%*95%=76%
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
2002年,Doug Cutting从做开源Apache Nutch引擎开始 2003年,Doug在看到谷歌发表的GFS之后,开始开源实现
2004年,谷歌发表
,2005年,Nutch开发人员开源实现
2006年,Nutch的



移出Nutch项目,独立形成独立项目,命
Hadoop的得名( Doug Cutting 的小孩给毛绒玩具象起的名字)
的数据。例如: XML、HTML等。
非结构化数据:除去以上两种类型例如:音视频、图 片等。
大数据背景 —— 数据的来源
2000年以后非结构化数据占绝大部分
大数据背景 —— 数据的来源
从非结构化数据到结构化数据
大数据背景 —— 数据的来源
网页爬虫
视频识别
语音识别 等
ቤተ መጻሕፍቲ ባይዱ
大数据背景 —— 数据的来源
大数据处理技术面对的第一个问题
如何高效存储大规模文件?
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
数据读取问题
2.5小时
1T
100M/S
OH NO !!!
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
大数据处理实现技术 —— 分布式储存系统GFS / HDFS
2006年, Doug Cutting加入雅虎(聘请),雅虎开始资助Hadoop发展。
2008年,1月Hadoop成为Apache顶级项目,2月,雅虎宣布,Hadoop应用在自 家搜素引擎中(其搜索引擎的索引建立在拥有1万个内核的Hadoop集群上), 4月,Hadoop在900个节点上运行1TB排序测试仅需209秒,成为全球最快。
大数据处理实现技术 —— 分布式计算模型 MapReduce
大数据处理实现技术 —— 分布式计算模型 MapReduce
Map函数:接受一个键值对(key-value pair),产生一组中间键值对。map 函数将中间键值对里键相同的值传递给Reduce函数。 Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组 规模更小的值(通常只有一个或零个值)
相关文档
最新文档