1、大数据概念认知与特征
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Velocity 速度
• 1s 是临界点.
•
对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无 效的.
•
实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之 一.
Volume 数据量
PB是大数据層次的临界点. KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB
微博为新浪带来巨大价值
马云的判断来自于数据分析
“2008年初,阿里 巴巴平台上整个买 家询盘数急剧下滑 ,欧美对中国采购 在下滑。海关是卖 了货,出去以后再 获得数据;而我们 提前半年时间从询 盘上推断出世界贸 易发生变化了。”
马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多 家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一 个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的 准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。
对大数据的進一步理解
大数据比云计算更为落地
商业模式驱动
应用需求驱动
云计算本身也是大数据的一种业务模式
大数据不仅仅是“大”
多大? PB 级
比大更重要的是 数据的复杂性, 有时甚至大数据 中的小数据如一 条微博就具有颠 覆性的价值
软件是大数据的引擎
• 和数据中心(Data Center) 一样,软件是大数据的驱 动力. • 软件改变世界!
大数据技术挑战
12/8/2015
大数据技术挑战
12/8/2015
大数据与传统数据库的区别
• 大数据是在传统数据库学科的分支——数据仓库与数据挖 掘的基础上进一步发展起来的。但有两点比较主要的不同:
– 结构化程度
• 传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准 XML文件的方式存储数据,由于结构清晰,处理相对容易; • 大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各 种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索 引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感 器自动收集的监控结果等等,显然不同的格式处理起来更加困难。
大数据生态:软件是引擎
大数据的应用不仅仅是精准营销
• 通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行 各业特别是公共服务领域具有广阔的应用前景
消费 行业
Hale Waihona Puke Baidu
金融 服务
食品 安全
医疗 卫生
军事
交通 环保
电子 商务 气象
管理大数据“易”,理解大数据“难”
•目前大数据管理多从架构和并行等方面考虑,解 决高并发数据存取的性能要求及数据存储的横向扩 展,但对非结构化数据的内容理解仍缺乏实质性的 突破和进展,这是实现大数据资源化、知识化、普 适化的核心.
BIG DATA
大数据概念认知与特征
互联网越来越智能
Google精确掌握用户行为、获取需求
Facebook用户 产生内容,创造 需求。
Google分析用 户搜索信息,满 足用户需求 雅虎提供静态的 导航信息
前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需 求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。 谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等 信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。 广告的价值就越高。 这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。 颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。
大数据时代的新思维
主讲:桂云苗
“大数据的应用”学习路线图
深入 大数据带来的思维变化 大数据带来的价值链 大数据发展现状与未来 大数据 vs 人类 大数据算法与理论 大数据系统与实践 NoSQL Hadoop
认知
初识
什么是大数据 大数据的特性 大数据与传统技术的关系 大数据与其他新兴技术的关系
参考资料推荐
多样性Variety
价值密度Value
大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能 (咨询、报告等)
实时分析而非批量式分析
速度Velocity
数据输入、处理与丢弃 立竿见影而非事后见效
Value 价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. • 价值密度低,是大数据的一个典型特征.
•非结构化海量信息的智能化处理:自然语言理解、 多媒体内容理解、机器学习等.
大数据为什么重要?
更高一层数据层面整合企业内外部
更高数据层面整合
大数据组成和展現方式?
大数据平台技术
12/8/2015
新模式和新技术
新平台技术
▪ 基于SQL语言: 面对OLAP
的传统行和列
不同范围的服务
新的传输方案
– 异常数据的处理
• 传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如 银行对每个账户的管理; • 大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中 隐藏的关联关系,少量异常数据不会对总体结果产生影响。
大数据的4V特性
非结构化数据的超大规模和增长
体量Volume
总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义
Variety 多样性
•企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互 信息,位置信息等是大数据的主要来源. •能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义 分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得 应用.
腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博 产品,提供精准的数据分析服务。
Gartner 2011年技术成熟曲线,大数据处于高速发展期
技术演进历史揭示未来是大数据驱动的智慧经济模式
什么才是大数据?
• 海量数据就是大数据?
指数型增长的海量数据
• 大数据就是云计算?
▪ 传统交付模式 - 单片或基于设
备的解决方案
数据入 口/汇聚
▪ 云: 能够充分利用物理设施的 ▪ 不基于SQL或map-reduce
的: 由谷歌率先发起 数据平台
弹性,以实现处理快速增长数 据的能力
▪ 数据流: 基于运行商数据直接
生成任意图形 分析
“数据库将演变成一个虚拟的, 基于云计算,超级可扩展的分布 式平台。” - Forrester analyst Jim Kobielus
展现方式:大型控制中心、移动终端
在多样性、体量、速度三大主要特征的指引下,大数据将有新型的展现方式:大型控制中 心和移动终端,实现数据的实时处理和快速决策。