大数据介绍52
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
先从一段对话开始。。。
客服:陈先生,海鲜比萨不适合您。 顾客:为什么? 客服:根据您的医疗记录,你的血压和胆固醇都偏高。 顾客:那你们有什么可以推荐的? 客服:您可以试试我们的低脂健康比萨。 顾客:你怎么知道我会喜欢吃这种的? 客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。 顾客:好。那我要一个家庭特大号比萨,要付多少钱? 客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚 做了心脏搭桥手术,还处在恢复期。
1946 1951 1956 1961
1970 1974 1979
1991
20012003 2008 2011
-9-
大数据发展背景
全球信息化发展已步入大数据时代
150亿个设备连接到互联网 全球每秒钟发送 290万封电子邮件 每天有 2.88 万小时视频上传到Youtube Facebook 每日评论达32亿条,每天上传照片近3亿张 ,每月处理数据总量约130万TB 2011年全球产生数据量1.8ZB,预计2020年将增长到 35ZB
体量Volume 多样性Variety 价值密度Value 速度Velocity
非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍
大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB) Google网站 Big data关键词搜索及新闻引用量
IT行业大数据相关动向和举措
大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈 现百花齐放局面,并在互联网应用领域崭露头角
商业解决方案
开源解决方案
HP 2011年推出vertica数据库 Oracle 2011年推出noSQL数据库 EMC 2010年收购Greenplum Teradata 2011年收购Asterdata,并推出
目录
一、引言 二、大数据的背景及定义 三、大数据的关键技术
数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该 领域进入了一个新的发展阶段
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展 ,并在1990年后逐步统一到以关系型数据库为主导
先从一段对话开始。。。
顾客:那可以刷卡吗? 客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在 还欠银行4807元,而且还不包括房贷利息。 顾客:那我先去附近的提款机提款。 客服:陈先生,根据您的记录,您已经超过今日提款限额。 顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到? 客服:大约30分钟。如果您不想等,可以自己骑车来。 顾客:为什么? 客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记 有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑 着这辆摩托车。 顾客当即晕倒。。。
大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智 能(咨询、报告等)
实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效
Value 價值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. • 价值密度低,是大数据的一个典型特征.
认识大数据
研发中心 付斌
目录
一、引言 二、大数据背景及定义 三、大数据的关键技术
BIG DATA
不知道BIG DATA? 你out了!
先从一段对话开始。。。
某比萨店的电话铃响了,客服人员拿起电话 客服:XXX比萨店。您好,请问有什么需要我为您服务 ? 顾客:你好,我想要一份…… 客服:先生,烦请先把您的会员卡号告诉我。 顾客:16846146***。 客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是 2646****,您公司电话是4666****,您的手机是1391234****。请问您想 用哪一个电话付费? 顾客:你为什么知道我所有的电话号码? 客服:陈先生,因为我们联机到CRM系统。 顾客:我想要一个海鲜比萨……
• 1s 是临界点.
• 对于大数据应用而言,必须要在1秒钟内形成答案, 否则处理结果就是过时和无效的.
• 实时处理的要求,是区别大数据引用和传统数据仓 库技术,BI技术的关键差别之一.
Volume 数据量
PB是大数据層次的临界点. KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB
目录
一、引言 二、大数据的背景及定义 三、大数据的关键技术
相关概念与相关技术概览
• 数据结构: 结构化数据与非结构化数据 • 数据库数据模型:关系型数据库与非关系型数据库 • 数据处理特性:OLTP与OLAP • 数据一致性:强一致性与最终一致性 • 数据存储方式:行式存储与列式存储 • 数据库存储与处理架构:SMP与MPP • 数据存储架构:传统分布式文件与新型分布式文件 • 数据处理架构:基于并行计算的分布式数据处理技术(MapReduce)
•非结构化海量信息的智能化处理:自然语言理解、 多媒体内容理解、机器学习等.
大数据为什么重要?
更高数据层面整合
更高一层数据层面整合企业内外部
利用用户”行为指纹”创造新商机
用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网 企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记 录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。 这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户 平台级公司的附庸。
大ຫໍສະໝຸດ Baidu据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算相 遇大数据”,EMC 除了一直倡导的云计算外,还抛出" 大数据"(BigData)概念 2011年6月底,IBM、麦肯锡等众多国外机构发布"大 数据"相关研究报告,予以积极跟进 2011 年10 月,Gartner 认为2012 年十大战略技术将 包括"大数据" 2011 年11 月底,IDC 将"大数据"放入2012 年信息通 信产业十大预测之一
Hadoop项目发展历程
Hadoop起源于Doug Cutting的Apache Nutch项目,是Apache资助的 一个顶级开源项目,Hadoop不仅仅是一个产品,更是一套生态系统
• 2002年:Nutch项目启动,用于互联网网页的抓取和搜索 • 2003年:Google披露GFS,2004则实现了Nutch Distributed Filesytem (NDFS) • 2004年:Google MapReduce发布,2005年则实现了Nutch Map Reduce并移植到NDFS上 • 2006年2月:Hadoop成为一个独立的项目,同时Doug Cutting加入Yahoo! • 2008年1月:Hadoop成为Apache的顶级项目 • 2008年4月:Hadoop集群在Sortbenchmark中获得第一名(910台服务器,排序1TB数据,209
数据的结构
结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者
对比项 定义
• 软件改变世界!
大数据生态:软件是引擎
大数据的应用不仅仅是精准营销
• 通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各 业特别是公共服务领域具有广阔的应用前景
消费 行业
金融 服务
食品 安全
医疗 卫生
军事
交通 环保
电子 商务
气象
管理大数据“易”,理解大数据“难”
•目前大数据管理多从架构和并行等方面考虑,解 决高并发数据存取的性能要求及数据存储的横向扩 展,但对非结构化数据的内容理解仍缺乏实质性的 突破和进展,这是实现大数据资源化、知识化、普 适化的核心.
Variety 多樣性
•企业内部的经营交易信息;物联网世界中商品,物流信息;互联 网世界中人与人交互信息,位置信息等是大数据的主要来源.
•能够在不同的数据类型中,进行交叉分析的技术,是大数据的 核心技术之一.语义分析技术,图文转换技术,模式识别技术,地 理信息技术等,都会在大数据分析时获得应用.
Velocity 速度
秒)
Hadoop项目组成
Hadoop核心子项目 • HDFS:是一个分布式文件系统 • HBase:是一个基于HDFS、列存储数据库,提供海量数据存储能力 • MapReduce:是一个编程环境,提供并行处理框架,用于对HBase和HDFS的访问 • Hive:提供类似SQL的查询语言,通过MapReduce完成计算,实现对HBase的访问
商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧 重,目前尚无统一的行业技术标准或技术领域细分规则
互联网企业
传统企业
互联网企业IT实力强且海量数据处理需求最为迫切, 是大数据发起者、倡导者、开发者和最终使用者,大 数据应用场景十分清晰 Google 研发Bigtable并自行使用 Yahoo发起Hadoop/Hbase开源并自用,
2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
E-R 网络型
磁带+
第一台计 卡片
算机
人工管
ENIAC 理
面世
磁盘被 发明, 进入文 件管理 时代
GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机
SQL-Mapreduce IBM 2010年收购Netezza SAP 2011年收购Sybase
开源组织Apache在2008年将Hadoop列为顶级 项目
2010年 HBase自Hadoop上诞生 开源组织GNU 2010年发布Mongodb Vmware 2010年提供开源产品Redis Twitter 2011年提供开源产品Storm
IBM E.F.D odd提 出关系 模型
SQL
SQL语 言被发 明
关系型 数据库
ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展
数据仓库
数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关 ,进入成熟 期
GFS
谷歌发表 论文介绍 分布式计 算
Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算
• 解读大数据定义 业务目标:在1E(成本可接受-economically) 的条件下从大数据中提取数据的价值(Value) 技术要求:满足3V (快速-Velocity、 大体量-Volumes、多类别-Variety)的特征 技术方案:未提及,可能是新兴技术与传统技术的混搭
- 17 -
大数据的4V特性
FACEBOOK、百度、淘宝等均使用 Twitter开发Storm自用并提供开源
传统企业IT能力有限,数据处理工作主要依赖于 系统集成商,重点在应用实现,IT技术路线上以 跟随成熟技术(含开源技术)为主 目前还是以数据库、数据仓库技术为主,对大数 据技术仍处于认知或小范围摸索实验阶段,应用 场景仍在分析梳理中
对大数据的進一步理解
大数据比云计算更为落地
商业模式驱动
应用需求驱动
云计算本身也是大数据的一种业务模式
大数据不仅仅是“大”
多大? PB 级
比大更重要的是 数据的复杂性, 有时甚至大数据 中的小数据如一 条微博就具有颠
覆性的价值
软件是大数据的引擎
• 和数据中心(Data Center) 一 样,软件是大数据的驱动力.
什麼才是大數據?
海量數據就是大數據嗎? 指数型增长的海量数据!!!
大數據就是雲計算嗎?
大数据的定义
• IDC对大数据的定义 大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快 速(velocity)的采集、发现和分析,从大体量(volumes)、多类别( variety)的数据中提取价值(value),是IT领域新一代的技术与架构