物联网应用技术讲座_大数据
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、更高一层数据层面整合企业内外部
www.gjzq.com.cn www.gjzq.com.cn
4、挖掘内心需求
经过大数据改造的IT不再是一个冷冰冰的系统,而变 成了推动业务发展,挖掘客户内心需求的真正推动 剂;大数据将催生更多的应用领域需求。
5、产生新的用户量、给用户产生行为指纹
用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型 来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户 网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用 户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的 梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。
29
国外已经开始投资应用
美国国务院采用大数据技术开发新的美 国护照系统。
IBM宣布投资1亿美元用于大数据研究;
美国IT公司开始意识到大数据技术能够 为公司创造价值;
大数据公司引入汽车行业高管人员扩展 营销业务;
新玩家和新模式正在出现
新平台技术
▪ 基于SQL语言: 面对
OLAP的传统行和列 数据入 口/汇聚
改变商业模式
卖license
卖服务
• 易复制、利润率高 • 边际成本为零 • 卖人头 • 盗版
因泛在计算而导致 行业需求变化
• 客户粘度高 • 软硬一体化 • 利润率较卖license低, 需要解决复用问题
从对license的需求到对整体解决方案、服务的需求
利用好海量的大数据,解决中国软件公司卖人头、卖授权、无粘度的商业模式,转变为以 数据服务为核心的新商业模式。
大数据的4V特性
数据量 巨大 实时性 要求高
大数据 的特性 更关注 相关性
主要用 于预测
大数据的4V特性
体量Volume
非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍
大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义
大数据在中国的机遇
www.gjzq.com.cn www.gjzq.com.cn
云计算、物联网从政绩工程变成实用工程
国内各地制定云计算“十二五”规划 云计算、物联网园区
中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政 绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。 云计算、物联网、社交化媒体、GIS为大数据提供了丰富的数据来源。因此大数据中包括 的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘 和分析的技术发展,我们即将步入基于大数据的智能化时代。
大数据与传统数据库的区别
大数据比云计算更为落地
商业模式驱动
应用需求驱动
云计算本身是大数据的一种业务模式
大数据不仅仅是“大”
多大? PB 级
比大更重要的是 数据的复杂性, 有时甚至大数据 中的小数据如一 条微博就具有颠 覆性的价值
大数据与传统数据库的区别
大数据是在传统数据库学科的分支——数据仓库与数据挖掘的基础上进 一步发展起来的。但有两点比较主要的不同: 结构化程度 传统数据库保存的是结构化或者半结构化的数据,以二维表或 者标准XML文件的方式存储数据,由于结构清晰,处理相对容易; 大数据面向的是一切计算机可以存储的数据格式,包括互联网 上的各种网页、图片、音频、视频,包括办公文档、报表,包 括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜 好,也包括各种传感器自动收集的监控结果等等,显然不同的 格式处理起来更加困难。 异常数据的处理 传统数据库通常把异常数据先剔除,应用在需要高精确度的领 域,如银行对每个账户的管理; 大数据则允许异常数据存在,更多应用在预测方面,找出大量 数据中隐藏的关联关系,少量异常数据不会对总体结果产生影 响。
www.gjzq.com.cn www.gjzq.com.cn
所有研究都表明,未来数年数据量会呈现指数增长。根据麦 肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储 了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和 笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国 国会图书馆中存储的数据的4000多倍。事实上,我们如今产生 如此多的数据,以至于根本不可能全部存储下来。例如,医疗 卫生提供商会处理掉他们所产生的90%的数据(比如手术过程 中产生的几乎所有实时视频图像)。
Variety 多样性
•企业内部的经营交易信息;物联网世界中商品,物流信息;互联 网世界中人与人交互信息,位置信息等是大数据的主要来源. •能够在不同的数据类型中,进行交叉分析的技术,是大数据的 核心技术之一.语义分析技术,图文转换技术,模式识别技术,地 理信息技术等,都会在大数据分析时获得应用.
大数据的各部分组成
大数据技术:图像、音频、视频、非结构化、社交关系数据处理 技术商; 现有IT系统改造商:大数据咨询公司、集成商、ERP、商务智能 、客户关系管理系统; 终端提供商向数据提供商演进:对现有客户数据的深度把握、建 立客户之间的社交和联系;
展现方式:大型控制中心、移动终端
在多样性、体量、速度三大特征的指引下,大数据将有新型的 展现方式:大型控制中心和移动终端,实现数据的实时处理和 快速决策。
中国互联网重视并加大投资
微博为新浪带来巨大价值 马云的判断来自于数据分析
“2008年初,阿里 巴巴平台上整个买 家询盘数急剧下滑 ,欧美对中国采购 在下滑。海关是卖 了货,出去以后再 获得数据;而我们 提前半年时间从询 盘上推断出世界贸 易发生变化了。”
马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品 前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数 量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模 型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据 的下降,自然导致买盘的下降。 腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪 推出企业微博产品,提供精准的数据分析服务。
大数据带来的思维方式的变化
处理的对象往往是全部数据,而不是部分数据的采样 采样的不合理会导致预测结果的偏差,在大数据时代, 依靠强大的数据处理能力,应该去处理全部的数据 不再执迷于精确性 精确的、规范化的、可以被传统数据库处理的数据只占 全部数据的5%,必须接受不精确性才能处理另外95%的 数据。 错误的数据是客观存在的,竭力避免它就失去了应有的 客观性和公平性。 大数据的简单算法比小数据的复杂算法更有效。 更加关注相关性,而不是因果性 预测依靠的是相关性源自文库 很多情况下知道“是什么”即可,不必知道“为什么”。
Farecast是一个对机票价格进行预测 的公司,帮助消费者抓住最佳购买机 票的时机,使乘客节省很多钱。
Farecast→Bing
最初预测系统建立在41天之内的 12000个价格样本基础上,数据是从 旅游网站上抓取的,如今已经拥有超 过2000亿条飞行记录。 系统只推测机票的价格何时最便宜, 不关心是什么原因导致的价格下降。
物联网应用技术讲座
大数据(BIG DATA)
不知道BIG DATA? 你out了! 2013年大数据的元年
如今,我们处在大数据时代
什么是大数据
百度百科:大数据(big data),或称巨量资料,指的是所涉及 的资料量规模巨大到无法透过目前主流软件工具,在合理时 间内达到撷取、管理、处理、并整理成为帮助企业经营决策 更积极目的的资讯。
不同范围的服务
新的传输方案
▪ 前提:传统交付模式 - 单片或
基于设备的解决方案
▪ 云: 能够充分利用物理设施的 ▪ 不基于SQL或mapreduce的: 由谷歌率先 发起 数据平台
弹性,以实现处理快速增长数 据的能力
▪ 数据流: 基于运行商数据直接
生成任意图形 分析
“数据库将演变成一个虚拟的, 基于云计算,超级可扩展的分布 式平台。” - Forrester analyst Jim Kobielus
维基百科:大数据是由数量巨大、结构复杂、类型众多数据 构成的数据集合,是基于云计算的数据处理与应用模式,通 过数据的整合共享,交叉复用形成的智力资源和知识服务能 力。
大数据是由大量异构的数据组成的数据集合,它是可以应用 合理的数学算法或工具从中找出有价值的信息,为人们带来 利益的一门新兴学科。
海量数据本身 + 处理方法
2009年,甲型H1N1流感在全球 爆发传播,为了发现和控制疫情, 各国政府和卫生相关部门付出了 巨大努力,但得到的数据仍然滞 后一两周,而Google对人们的搜 索的历史记录进行处理,建立合 理的数学模型后,得到的预测结 果与官方的数据相关性高达97%, 能够立刻判断出流感是从哪里传 播出来的,没有一两周的滞后。 Google处理了5000万条历史记录、 4.5亿个不同的数学模型。
1、决定企业是否有未来、业务可延伸范围
www.gjzq.com.cn www.gjzq.com.cn
2、存储、分类、统计、建模、预测的技术手段
能够在不同的数据类型中,进行交叉分析的技术,是大数据的 核心技术之一。语义分析技术、图文转换技术、模式识别技术 、地理信息技术等等,都在大数据分析时获得应用。
Velocity 速度
• 1s 是临界点. • 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理 结果就是过时和无效的. • 实时处理的要求,是区别大数据引用和传统数据仓库技术 的关键差别之一.
Volume 数据量
大数据与其他新兴技术的关系
大数据、物联网、云计算、移动通信等都是近年涌 现出来的新兴概念,彼此之间不是孤立的,而是存 在着内部联系。
大数据的价值链
数据
数据的掌控者,拥有或者可以收集大量数 据的公司。海量的数据就是财富,可以考 虑自己分析或者卖数据给其他公司。
技术供应商或者分析公司。掌握了从海量数 据中分析出有用信息的技能或者工具,但本 身不一定拥有数据。 有创新思维的人或者公司。他们对大数据敏 感,有怎样挖掘数据的新价值的独特想法。
国内外现状
•国外什么情况?万马奔腾,抢占大数据高地
Google、IBM、Amazon、Oracle、Microsoft、 EMC等IT行业巨头已经在大数据产业链开始行动, 从不同的角度挖掘大数据的价值。
腾讯、百度、新浪、淘宝等国内知名互联网和 电商公司也快速加入到大数据队伍中,对已经 持有的大数据进行挖掘,以便改善自身的服务 国内外政府机构对大数据的重视更多在于报告 和组织会议上,行动的步伐远远不及企业。
金融 电信 制造业
政府 互联网企业
手工化向自动化转型: 成熟度低 成长阶段 中国建筑信息化投入 占总收入0.03%
从IT系统走向大数据决策分析 未来着眼点在于服务
建筑 流通
自动化走向初步信息化 快速发展 整体解决方案需求 年600亿投资规模
信息化走向移动互联化 基本架构已经建立 相对成熟 500亿以上投资规模
技术
思维
大数据的从业人员
技术人员
决策者
大数据
创业人员
其他
人类应如何对待大数据
机遇
大数据能够为人类带来新的理念、新的价值,推 动社会的快速进步,能够让人类发现一些以往未 曾发现的潜在关联。 风险 个人隐私如何保护 数据垄断、独裁 数据主宰一切 掌控 法律法规的建立 人类的思考 vs 大数据的结论
大数据的重要性
多样性Variety
价值密度Value
大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智 能(咨询、报告等)
速度Velocity
实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效
Value 价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但 珍贵的信息. • 价值密度低,是大数据的一个典型特征.
启发各行业对IT系统投资新热点
不同行业中,企业信息化成熟度差异明 显;政府 等行业 的信息 化成熟 度明显 领先,总 体处于扩展和 整合优 化阶段 移动互联化 ;除金融和电信之外的服务行业的信息 化建设成熟度相对较低,仍处 在成长阶段 数据智能化 。 对大数据的处理需求将启发对于IT系统 大数据 投资新热点,证实IT推动业务发展,增 2000 加对IT投资。