大数据技术概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
得Hadoop可以部署在低廉的计算机集群中,同时 不限于某个操作系统。
路漫漫其悠远
Hadoop框架应用举例
求20个数据中的最大数,一般的编程方式把第一 个数据开始往后面一个个的比较,总是把更大的 数据记录下来,这样顺序比较下去,最后就得到 了最大的数据;
但是Hadoop的做法是把这20个数据分成4组,每 组5个数据,每组采用Map函数求出最大值,然后 后每组把求得的各自最大值交给Reduce,由 Reduce得出最后的最大值;
大数据时代使用的新技术,主要包括分布式缓存、 分布式数据库、分布式文件系统、各种NoSQL分布 式存储方案、分布式计算系统等。
路漫漫其悠远
大数据处理的基本流程
大数据处理的基本流程为数据的抽取和集成、数 据分析以及数据解释。即在合适工具的辅助下, 对广泛异构的数据源进行抽取和集成,结果按照 一定的标准进行统一存储,并利用合适的数据分 析技术对存储的数据进行分析, 从中提取有益的 知识并利用恰当的方式将结果展现给终端用户。
一些数据分析软件,比如SAS、SPSS等因其数据 处理能力受限于单机的计算能力,对大数据的处理 显得力不从心
路漫漫其悠远
基本的大数据处理技术
Hadoop MapReduce HDFS NoSql
路漫漫其悠远
Hadoop概述
Hadoop是一个开源的可运行于大规模集群上的分 布式并行编程框架,它实现了Map/Reduce 计算 模型。
路漫漫其悠远
数据处理方式
流处理
流处理的处理模式将数据视为流,源源不断的数据 组成了数据流。当新的数据到来时就立刻处理并返 回所需的结果。
批处理
批处理是指用户将一批作业提交给处理系统后就不再干 预,由操作系统控制它们自动运行。
路漫漫其悠远
大数据处理要求
l 分布式计算
u 分布式计算是指运行在多个处理单元上的任务合作 求解一个规模很大的计算问题
非结构化数据类型多样
邮件、视频、微博 位置信息、链接信息 手机呼叫、网页点击
路漫漫其悠远
池塘捕鱼(数据库)vs.大海捕鱼(大数据)
数据规模:“池塘”的处理对象通常以MB 为基本单位,而“大海”则常常 以GB,甚至是TB、PB 为基本处理单位。
数据类型:
“池塘”中数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构 化数据为主。
“大海”中数据的种类繁多,数以千计,而这些数据又包含着结构化、半结构 化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大。
模式和数据的关系:
传统的数据库先有模式,然后才会产生数据。这就好比是先选好合适的“池塘 ”,然后才会向其中投放适合在该“池塘”环境生长的“鱼”。
大数据难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着 数据量的增长处于不断的演变之中。
到35ZB •从数据的生成到消耗,时间窗口非常小,可用于生
成决策的时间非常少
路漫漫其悠远
每秒钟发送290万封电子邮件 每分钟向youtube上传60个小时的视频 每天在微信上长传1亿条信息 淘宝网的日成交量是2000亿元
路漫漫其悠远
大数据包含大量的半结构化和非结构化数据
10%的结构化数据,存储在数据库中 90%的非结构化数据,它们与人类信息密切相关
11月,谷歌在报告中生成,它的MapReduce实 现执行1TB数据的排序只用了68秒。
2009年5月,Yahoo的团队使用Hadoop对1TB 的数据进行排序只花了62秒时间。
路漫漫其悠远
Hadoop的特点
Hadoop采用了分布式存储方式,提高了读写速度 ,并扩大了存储容量。
采用MapReduce来整合分布式文件系统上的数据 ,可保证分析和处理数据的高效。
现在高速局域网技术使得网络读取速度比硬盘读取 要快很多。因此,将数据存储在其他节点上比存储 在硬盘上的性能要好,而且还可以在多个节点上并 行处理数据集
路漫漫其悠远
分布式系统可靠性也是一个大问题,一个拥有10个 节点的集群很容易出现节点故障。这可以通过在节 点间复制数据来解决,对数据进行复制,既可以提 高数据分析的效率,也可以通过冗余来应对节点故 障。当然,数据集越大,对数据副本的管理和维护 也越困难。
u 这些处理单元可与相互通信和协作以快速、高效求 解大型复杂问题。
u 并行计算可以微秒为单位处理大规模数据,比如天 气预报,股票数据分析等。
路漫漫其悠远
ຫໍສະໝຸດ Baidu
大规模集群并行分布式计算的不足
在多台机器上对分布式数据进行分析会产生巨大的 性能开销,即使采用千兆比特或万兆比特带宽的网 络,随机读取速度和连续读取速度都会比内存慢几 个数量级。
大数据技术概述
路漫漫其悠远
2020/3/26
大数据技术的概念与现状
2011年,中国互联网行业持有数据总量达到1.9EB (1EB字节相当于10亿GB)
2013年,我们生成这样规模的信息量只需10分钟 2015年,全球被创建和复制的数据总量将增长到
8.2EB以上 2020年,全球电子设备存储的数据将暴增30倍,达
Hadoop 能够对大量数据进行分布式处理,并且 是以一种可靠、高效、可伸缩的方式进行处理的
借助于Hadoop,程序员可以轻松地编写分布式并 行程序,将其运行于计算机集群上,完成海量数 据的计算。
路漫漫其悠远
2008年4月,Hadoop打破世界纪录,成为最快 排序1TB数据的系统。运行在一个910节点的群集 ,Hadoop在209秒内排序了1TB的数据,击败了 前一年的297秒冠军。
路漫漫其悠远
Hadoop框架的体系结构
HDFS和MapReduce是Hadoop的两大核心。 HDFS在集群上实现了分布式文件系统, MapReduce 在集群上实现了分布式计算和任务 处理。
路漫漫其悠远
处理对象:
传统数据库中数据仅作为处理对象。而在大数据时 代,要将数据作为一种资源来辅助解决其他诸多领 域的问题。
处理工具:
捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就 可以应对。但是在“大海”中,不可能存在一种渔网 能够捕获所有的鱼类
路漫漫其悠远
处理技术
大数据时代对数据处理的实时性、有效性提出了更 高要求,传统的常规技术手段根本无法应付。
路漫漫其悠远
Hadoop框架应用举例
求20个数据中的最大数,一般的编程方式把第一 个数据开始往后面一个个的比较,总是把更大的 数据记录下来,这样顺序比较下去,最后就得到 了最大的数据;
但是Hadoop的做法是把这20个数据分成4组,每 组5个数据,每组采用Map函数求出最大值,然后 后每组把求得的各自最大值交给Reduce,由 Reduce得出最后的最大值;
大数据时代使用的新技术,主要包括分布式缓存、 分布式数据库、分布式文件系统、各种NoSQL分布 式存储方案、分布式计算系统等。
路漫漫其悠远
大数据处理的基本流程
大数据处理的基本流程为数据的抽取和集成、数 据分析以及数据解释。即在合适工具的辅助下, 对广泛异构的数据源进行抽取和集成,结果按照 一定的标准进行统一存储,并利用合适的数据分 析技术对存储的数据进行分析, 从中提取有益的 知识并利用恰当的方式将结果展现给终端用户。
一些数据分析软件,比如SAS、SPSS等因其数据 处理能力受限于单机的计算能力,对大数据的处理 显得力不从心
路漫漫其悠远
基本的大数据处理技术
Hadoop MapReduce HDFS NoSql
路漫漫其悠远
Hadoop概述
Hadoop是一个开源的可运行于大规模集群上的分 布式并行编程框架,它实现了Map/Reduce 计算 模型。
路漫漫其悠远
数据处理方式
流处理
流处理的处理模式将数据视为流,源源不断的数据 组成了数据流。当新的数据到来时就立刻处理并返 回所需的结果。
批处理
批处理是指用户将一批作业提交给处理系统后就不再干 预,由操作系统控制它们自动运行。
路漫漫其悠远
大数据处理要求
l 分布式计算
u 分布式计算是指运行在多个处理单元上的任务合作 求解一个规模很大的计算问题
非结构化数据类型多样
邮件、视频、微博 位置信息、链接信息 手机呼叫、网页点击
路漫漫其悠远
池塘捕鱼(数据库)vs.大海捕鱼(大数据)
数据规模:“池塘”的处理对象通常以MB 为基本单位,而“大海”则常常 以GB,甚至是TB、PB 为基本处理单位。
数据类型:
“池塘”中数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构 化数据为主。
“大海”中数据的种类繁多,数以千计,而这些数据又包含着结构化、半结构 化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大。
模式和数据的关系:
传统的数据库先有模式,然后才会产生数据。这就好比是先选好合适的“池塘 ”,然后才会向其中投放适合在该“池塘”环境生长的“鱼”。
大数据难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着 数据量的增长处于不断的演变之中。
到35ZB •从数据的生成到消耗,时间窗口非常小,可用于生
成决策的时间非常少
路漫漫其悠远
每秒钟发送290万封电子邮件 每分钟向youtube上传60个小时的视频 每天在微信上长传1亿条信息 淘宝网的日成交量是2000亿元
路漫漫其悠远
大数据包含大量的半结构化和非结构化数据
10%的结构化数据,存储在数据库中 90%的非结构化数据,它们与人类信息密切相关
11月,谷歌在报告中生成,它的MapReduce实 现执行1TB数据的排序只用了68秒。
2009年5月,Yahoo的团队使用Hadoop对1TB 的数据进行排序只花了62秒时间。
路漫漫其悠远
Hadoop的特点
Hadoop采用了分布式存储方式,提高了读写速度 ,并扩大了存储容量。
采用MapReduce来整合分布式文件系统上的数据 ,可保证分析和处理数据的高效。
现在高速局域网技术使得网络读取速度比硬盘读取 要快很多。因此,将数据存储在其他节点上比存储 在硬盘上的性能要好,而且还可以在多个节点上并 行处理数据集
路漫漫其悠远
分布式系统可靠性也是一个大问题,一个拥有10个 节点的集群很容易出现节点故障。这可以通过在节 点间复制数据来解决,对数据进行复制,既可以提 高数据分析的效率,也可以通过冗余来应对节点故 障。当然,数据集越大,对数据副本的管理和维护 也越困难。
u 这些处理单元可与相互通信和协作以快速、高效求 解大型复杂问题。
u 并行计算可以微秒为单位处理大规模数据,比如天 气预报,股票数据分析等。
路漫漫其悠远
ຫໍສະໝຸດ Baidu
大规模集群并行分布式计算的不足
在多台机器上对分布式数据进行分析会产生巨大的 性能开销,即使采用千兆比特或万兆比特带宽的网 络,随机读取速度和连续读取速度都会比内存慢几 个数量级。
大数据技术概述
路漫漫其悠远
2020/3/26
大数据技术的概念与现状
2011年,中国互联网行业持有数据总量达到1.9EB (1EB字节相当于10亿GB)
2013年,我们生成这样规模的信息量只需10分钟 2015年,全球被创建和复制的数据总量将增长到
8.2EB以上 2020年,全球电子设备存储的数据将暴增30倍,达
Hadoop 能够对大量数据进行分布式处理,并且 是以一种可靠、高效、可伸缩的方式进行处理的
借助于Hadoop,程序员可以轻松地编写分布式并 行程序,将其运行于计算机集群上,完成海量数 据的计算。
路漫漫其悠远
2008年4月,Hadoop打破世界纪录,成为最快 排序1TB数据的系统。运行在一个910节点的群集 ,Hadoop在209秒内排序了1TB的数据,击败了 前一年的297秒冠军。
路漫漫其悠远
Hadoop框架的体系结构
HDFS和MapReduce是Hadoop的两大核心。 HDFS在集群上实现了分布式文件系统, MapReduce 在集群上实现了分布式计算和任务 处理。
路漫漫其悠远
处理对象:
传统数据库中数据仅作为处理对象。而在大数据时 代,要将数据作为一种资源来辅助解决其他诸多领 域的问题。
处理工具:
捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就 可以应对。但是在“大海”中,不可能存在一种渔网 能够捕获所有的鱼类
路漫漫其悠远
处理技术
大数据时代对数据处理的实时性、有效性提出了更 高要求,传统的常规技术手段根本无法应付。