BIGDATA世界大学城3.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4、挖掘内心需求
5、产生新的用户量、给用户产生行为指纹
国内外现状
•国外什么情况?万马奔腾,抢占大数据高地
、、、、、等行业巨头已经在大数据产业链开 始行动,从不同的角度挖掘大数据的价值。
腾讯、百度、新浪、淘宝等国内知名互联网和 电商公司也快速加入到大数据队伍中,对已经 持有的大数据进行挖掘,以便改善自身的服务
采样的不合理会导致预测结果的偏差,在大数据时代,依靠 强大的数据处理能力,应该去处理全部的数据 不再执迷于精确性
精确的、规范化的、可以被传统数据库处理的数据只占全部 数据的5%,必须接受不精确性才能处理另外95%的数据。
错误的数据是客观存在的,竭力避免它就失去了应有的客观 性和公平性。
大数据的简单算法比小数据的复杂算法更有效。 更加关注相关性,而不是因果性
大数据的4V特性
数据量 巨大
大数据 的特性
实时性 要求高
更关注
大数据的4V特性
体量Volume 多样性Variety 价值密度Value
非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍
大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义
速度
• 1s 是临界点.
• 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理 结果就是过时和无效的.
• 实时处理的要求,是区别大数据引用和传统数据仓库技术的 关键差别之一.
数据量
大数据与其他新兴技术的关系
大数据、物联网、云计算、移动通信等都是近年涌 现出来的新兴概念,彼此之间不是孤立的,而是存
收集的监控结果等等,显然不同的格式处理起来更加困难。 异常数据的处理
传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银 行对每个账户的管理;
大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐 藏的关联关系,少量异常数据不会对总体结果产生影响。
大数据带来的思维方式的变化
处理的对象往往是全部数据,而不是部分数据的采样
物联网应用技术讲座
大数据()
不知道 ? 你了!
2013年大数据的元年
如今,我们处在大数据时代
什么是大数据
百度百科:大数据( ),或称巨量资料,指的是所涉及的资料 量规模巨大到无法透过目前主流软件工具,在合理时间内达 到撷取、管理、处理、并整理成为帮助企业经营决策更积极
目的的资讯。
维基百科:大数据是由数量巨大、结构复杂、类型众多数据 构成的数据集合,是基于云计算的数据处理与应用模式,通 过数据的整合共享,交叉复用形成的智力资源和知识服务能
处理了5000万条历史记录、4.5 亿个不同的数学模型。
是一个对机票价格进行预测的公司, 帮助消费者抓住最佳购买机票的时机
,使乘客节省很多钱。
→
最初预测系统建立在41天之内的 12000个价格样本基础上,数据是从 旅游网站上抓取的,如今已经拥有超
过2000亿条飞行记录。
系统只推测机票的价格何时最便宜, 不关心是什么原因导致的价格下降。
力。
来自百度文库量数据本身 + 处理方法
所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯 锡全球研究院()估计,全球企业2010年在硬盘上存储了超过 7(1等于10亿)的新数据,而消费者在和笔记本等设备上存储
2009年,甲型H1N1流感在全球 爆发传播,为了发现和控制疫情 ,各国政府和卫生相关部门付出 了巨大努力,但得到的数据仍然 滞后一两周,而对人们的搜索的 历史记录进行处理,建立合理的 数学模型后,得到的预测结果与 官方的数据相关性高达97%,能 够立刻判断出流感是从哪里传播 出来的,没有一两周的滞后。
国内外政府机构对大数据的重视更多在于报告
国外已经开始投资应用
美国国务院采用大数据技术开发新的美 国护照系统。
宣布投资1亿美元用于大数据研究;
新玩家和新模式正在出现
新平台技术
▪ 基于语言: 面对的传统行
和列
不同范围的服务
数据入 口/汇聚
新的传输方案
▪ 前提:传统交付模式 - 单片或
大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智 能(咨询、报告等)
价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但 珍贵的信息.
• 价值密度低,是大数据的一个典型特征.
多样性
企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互 信息,位置信息等是大数据的主要来源. 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分 析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应 用.
传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准文 件的方式存储数据,由于结构清晰,处理相对容易;
大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种 网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎 中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动
大数据的价值链
数据的掌控者,拥有或者可以收集大量数
数据 据的公司。海量的数据就是财富,可以考
虑自己分析或者卖数据给其他公司。 技术供应商或者分析公司。掌握了从海量数
技术 据中分析出有用信息的技能或者工具,但本
身不一定拥有数据。
思维 有创新思维的人或者公司。他们对大数据敏
大数据的从业人员
技术人员
大数据
决策者
人类应如何对待大数据
机遇 大数据能够为人类带来新的理念、新的价值,推动 社会的快速进步,能够让人类发现一些以往未曾发
现的潜在关联。 风险
个人隐私如何保护 数据垄断、独裁 数据主宰一切
大数据的重要性
1、决定企业是否有未来、业务可延伸范围
2、存储、分类、统计、建模、预测的技术手段
3、更高一层数据层面整合企业内外部
在着内部联系。
大数据与传统数据库的区别
大数据比云计算更为落地
商业模式驱动
应用需求驱动
大数据不仅仅是“大”
多大? 级
比大更重要的是 数据的复杂性, 有时甚至大数据 中的小数据如一
大数据与传统数据库的区别
大数据是在传统数据库学科的分支——数据仓库与数据挖掘的基础上进 一步发展起来的。但有两点比较主要的不同: 结构化程度