大数据技术研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2011 年10 月,Gartner 认为2012 年十大战略技术将包 括"大数据"
2011 年11 月底,IDC 将"大数据"放入2012 年信息通信 产业十大预测之一
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB) Google网站 Big data关键词搜索及新闻引用量
大数据的定义
示例
• 各类表格
• 图形、图像、音频、 视频信息
• HTML文档,它一般是 自描述的,数据的结 构和内容混在一起
数据库数据模型—关系型数据库与非关系型数据库
在大数据技术中"非关系型"数据库技术是必不可少的,但关系数据库也是不可或缺的
1946 1951 1956 1961
1970 1974 1979
1991
2001 2003 2008 2011
大数据发展背景
全球信息化发展已步入大数据时代
150亿个设备连接到互联网
全球每秒钟发送 290万封电子邮件
每天有 2.88 万小时视频上传到Youtube
Facebook 每日评论达32亿条,每天上传照片近3亿张 ,每月处理数据总量约130万TB
FACEBOOK、百度、淘宝等均使用 Twitter开发Storm自用并提供开源
传统企业IT能力有限,数据处理工作主要依赖于系 统集成商,重点在应用实现,IT技术路线上以跟随 成熟技术(含开源技术)为主 目前还是以数据库、数据仓库技术为主,对大数 据技术仍处于认知或小范围摸索实验阶段,应用 场景仍在分析梳理中
2011年全球产生数据量1.8ZB,预计2020年将增长到 35ZB
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算相遇 大数据”,EMC 除了一直倡导的云计算外,还抛出"大 数据"(BigData)概念
2011年6月底,IBM、麦肯锡等众多国外机构发布"大数 据"相关研究报告,予以积极跟进
IT行业大数据相关动向和举措
大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈 现百花齐放局面,并在互联网应用领域崭露头角
商业解决方案
开源解决方案
HP 2011年推出vertica数据库 Oracle 2011年推出noSQL数据库 EMC 2010年收购Greenplum Teradata 2011年收购Asterdata,并推出
SQL-Mapreduce IBM 2010年收购Netezza SAP 2011年收购Sybase
开源组织Apache在2008年将Hadoop列为顶级 项目
2010年 HBase自Hadoop上诞生 开源组织GNU 2010年发布Mongodb Vmware 2010年提供开源产品Redis Twitter 2011年提供开源产品Storm
商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧 重,目前尚无统一的行业技术标准或技术领域细分规则
互联网企业
传统企业
互联网企业IT实力强且海量数据处理需求最为迫切, 是大数据发起者、倡导者、开发者和最终使用者 ,大数据应用场景十分清晰
Google 研发Bigtable并自行使用 Yahoo发起Hadoop/Hbase开源并自用,
IDC对大数据的定义 大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快
速(velocity)的采集、发现和分析,从大体量(volumes)、多类别( variety)的数据中提取价值(value),是IT领域新一代的技术与架构
解读大数据定义 业务目标:在1E(成本可接受-economically) 的条件下从大数据中提取数据的价值(Value) 技术要求:满足3V (快速-Velocity、 大体量-Volumes、多类别-Variety)的特征 技术方案:未提及,可能是新兴技术与传统技术的混搭
1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
E-R 网络型
磁带+卡
第一台计 片
算机
人工管
ENIAC面 理
世
磁盘被 发明, 进入文 件管理 时代
GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机
IBM E.F.Do dd提 出关系 模型
SQL
SQL语 言被发 明
关系型 数据库
数据的结构—结构化、非结ห้องสมุดไป่ตู้化、半结构化数据
结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者
对比项 定义
结构化数据
非结构化数据
半非结构化数据
• 有数据结构描述信息 的数据
• 不方便用固定结构来 表现的数据
• 介于完全结构化数据 和完全无结构的数据 之间的数据
结构与内容的关系 • 先有结构、再有数据 • 只有数据,没有结构 • 先有数据,再有结构
大数据技术研究
2020年5月27日星期三
目录
一、大数据的背景与定义 二、大数据的关键技术 三、网管领域应用展望
数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使 该领域进入了一个新的发展阶段
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展 ,并在1990年后逐步统一到以关系型数据库为主导
ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展
数据仓库
数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关 ,进入成熟 期
2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
GFS
谷歌发表 论文介绍 分布式计 算
Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算
目录
一、大数据的背景与定义 二、大数据的关键技术 三、网管领域应用展望
相关概念与相关技术概览
数据结构: 结构化数据与非结构化数据 数据库数据模型:关系型数据库与非关系型数据库 数据处理特性:OLTP与OLAP 数据一致性:强一致性与最终一致性 数据存储方式:行式存储与列式存储 数据库存储与处理架构:SMP与MPP 数据存储架构:传统分布式文件与新型分布式文件 数据处理架构:基于并行计算的分布式数据处理技术(MapReduce)
2011 年11 月底,IDC 将"大数据"放入2012 年信息通信 产业十大预测之一
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB) Google网站 Big data关键词搜索及新闻引用量
大数据的定义
示例
• 各类表格
• 图形、图像、音频、 视频信息
• HTML文档,它一般是 自描述的,数据的结 构和内容混在一起
数据库数据模型—关系型数据库与非关系型数据库
在大数据技术中"非关系型"数据库技术是必不可少的,但关系数据库也是不可或缺的
1946 1951 1956 1961
1970 1974 1979
1991
2001 2003 2008 2011
大数据发展背景
全球信息化发展已步入大数据时代
150亿个设备连接到互联网
全球每秒钟发送 290万封电子邮件
每天有 2.88 万小时视频上传到Youtube
Facebook 每日评论达32亿条,每天上传照片近3亿张 ,每月处理数据总量约130万TB
FACEBOOK、百度、淘宝等均使用 Twitter开发Storm自用并提供开源
传统企业IT能力有限,数据处理工作主要依赖于系 统集成商,重点在应用实现,IT技术路线上以跟随 成熟技术(含开源技术)为主 目前还是以数据库、数据仓库技术为主,对大数 据技术仍处于认知或小范围摸索实验阶段,应用 场景仍在分析梳理中
2011年全球产生数据量1.8ZB,预计2020年将增长到 35ZB
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算相遇 大数据”,EMC 除了一直倡导的云计算外,还抛出"大 数据"(BigData)概念
2011年6月底,IBM、麦肯锡等众多国外机构发布"大数 据"相关研究报告,予以积极跟进
IT行业大数据相关动向和举措
大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈 现百花齐放局面,并在互联网应用领域崭露头角
商业解决方案
开源解决方案
HP 2011年推出vertica数据库 Oracle 2011年推出noSQL数据库 EMC 2010年收购Greenplum Teradata 2011年收购Asterdata,并推出
SQL-Mapreduce IBM 2010年收购Netezza SAP 2011年收购Sybase
开源组织Apache在2008年将Hadoop列为顶级 项目
2010年 HBase自Hadoop上诞生 开源组织GNU 2010年发布Mongodb Vmware 2010年提供开源产品Redis Twitter 2011年提供开源产品Storm
商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧 重,目前尚无统一的行业技术标准或技术领域细分规则
互联网企业
传统企业
互联网企业IT实力强且海量数据处理需求最为迫切, 是大数据发起者、倡导者、开发者和最终使用者 ,大数据应用场景十分清晰
Google 研发Bigtable并自行使用 Yahoo发起Hadoop/Hbase开源并自用,
IDC对大数据的定义 大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快
速(velocity)的采集、发现和分析,从大体量(volumes)、多类别( variety)的数据中提取价值(value),是IT领域新一代的技术与架构
解读大数据定义 业务目标:在1E(成本可接受-economically) 的条件下从大数据中提取数据的价值(Value) 技术要求:满足3V (快速-Velocity、 大体量-Volumes、多类别-Variety)的特征 技术方案:未提及,可能是新兴技术与传统技术的混搭
1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
E-R 网络型
磁带+卡
第一台计 片
算机
人工管
ENIAC面 理
世
磁盘被 发明, 进入文 件管理 时代
GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机
IBM E.F.Do dd提 出关系 模型
SQL
SQL语 言被发 明
关系型 数据库
数据的结构—结构化、非结ห้องสมุดไป่ตู้化、半结构化数据
结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者
对比项 定义
结构化数据
非结构化数据
半非结构化数据
• 有数据结构描述信息 的数据
• 不方便用固定结构来 表现的数据
• 介于完全结构化数据 和完全无结构的数据 之间的数据
结构与内容的关系 • 先有结构、再有数据 • 只有数据,没有结构 • 先有数据,再有结构
大数据技术研究
2020年5月27日星期三
目录
一、大数据的背景与定义 二、大数据的关键技术 三、网管领域应用展望
数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使 该领域进入了一个新的发展阶段
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展 ,并在1990年后逐步统一到以关系型数据库为主导
ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展
数据仓库
数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关 ,进入成熟 期
2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
GFS
谷歌发表 论文介绍 分布式计 算
Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算
目录
一、大数据的背景与定义 二、大数据的关键技术 三、网管领域应用展望
相关概念与相关技术概览
数据结构: 结构化数据与非结构化数据 数据库数据模型:关系型数据库与非关系型数据库 数据处理特性:OLTP与OLAP 数据一致性:强一致性与最终一致性 数据存储方式:行式存储与列式存储 数据库存储与处理架构:SMP与MPP 数据存储架构:传统分布式文件与新型分布式文件 数据处理架构:基于并行计算的分布式数据处理技术(MapReduce)