大数据与信息采集简介汇总

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Big Data 什么是大数据
一个单数据表几亿-几百亿条 记录 下线商品14亿件,在线商品8 亿件 淘宝数据库存了20PB数据 平均每月增加1.5PB
智能移动终端设备的巨量增长
数据规模指数增长 数字大爆炸
•为什么?
PB
TB
GB
EB Z B
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
– 健康监控(Healthcare monitoring): 利用穿戴式的传感器监控用户的生理 和活动数据 及时提供需要的医疗服务
大数据
提纲
• 大数据的由来及现状 • 大数据带来的挑战:信息采集 • 更多挑战:大数据的管理与分析 • 大数据与云计算
大数据从哪里来?
• 海量交易数据: • 企业内部的经营交易信息主要包括联机交易数据和联机分析数据,
什么是大数据
1 KB = 1024字节 1 MB = 1024 KB
Intel:人类文明开始到2003年 地球共产生了5EB数据. 2012年全年,全球产生数据2.7ZB 是 2003年以前的500倍 2015年,全球估计产生数据8ZB,等于1800万个美国国会图书馆
1 GB = 1024MB 2000年 数字信息占全球数据量的25%
企业数据
20% 结构化 80%非结构化
指关系结构与内容混合 在一起的数据类型, xml…
文档、视频、音频、图片
2012年互联网产生的数据
50%-70%
源于人与
25% 结构化 75%非结构化 人的互动
Value 价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. • 价值密度低,是大数据的一个典型特征.
制造业
最多可节省50%的产品研发、 组装成本
最多可节约7%的营运资金
未来大数据的产业规模将会至少以万亿美
• 1s 是临界点.
Velocity 速度
• 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无 效的.
• 大数据的惊人不止是在数量上,同时数据还是巨量具有动态分析价值的数据。
Volume 数据量
根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数 据摩尔定律) 人类在最近两年产生的数据量相当于之前产生的全部数据量 预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍
Google数据中心
• Google数据 中心以集装 箱为单位, 每个集装箱 有1160台服 务器,每个 数据 中心有 众多集装箱。
12
大数据分析:吃货集中营
大数据分析:关联分析
大数据分析:可视化
大数据分析:趋势预测
从谷歌流感趋势看大数据的 应用价值
“谷歌流感趋势”,通过跟踪 搜索词相关数据来判断全美地区 的流感情况
大数据应用场景
美国零售商和怀孕预测 VISA信用卡与商户推荐
UPS快递的最佳行车路径 股票投资
京东信用贷款和淘宝数据魔方
地球上至今总共的数据量:
在2006 年,个人用户才刚刚迈进TB时代, 全球一共新产生了约180EB的数据;
在2011 年,这个数字达到了1.8ZB。
而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)!
数据规模指数增长 数字大爆炸

24
Variety 多样性
•企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互 信息,位置信息等是大数据的主要来源.
•结构化数据、半结构化数据和非结构化数据
•如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更 高的要求
结构化数据
半结构化数据
非结构化数据
指关系型数据表
会发生什么。
马云成功预测2008 年经济危机
• “2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对 中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提 前半年时间从询盘上推断出世界贸易发生变化了。”
• 通常而言,买家在采购商品前,会比较多家供应商的产品,反映 到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的 数量会保持一个相对的数值,综合各个维度的数据可建立用户行 为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在 这个案例中,询盘数据的下降,自然导致买盘的下降。

微博、 Apps
移动互联
信息技术的广泛应用提高了数据的处理能力,更提 高了数据的产生能力,道高一尺,魔高一丈。
这些由我们创造的信息背后产生的这些数据早已经 远远超越了目前人力所能处理的范畴
大数据时代正在来临..
数据分析:数据库和数据仓库
数据库 面向应用 当前数据 数据是可更新的 避免数据冗余 支持事务处理 数据操作频繁
facebo 社交网络
ok
淘宝、
电子商务
ebuy

21世纪是数据信息大发展的时代,移动互联、社交 网络、电子商务等极大拓展了互联网的边界和应用 范围,各种数据正在迅速膨胀并变大。
互联网(社交、搜索、电商)、移动互联网(微 博)、物联网(传感器,智慧地球)、车联网、 GPS、医学影像、安全监控、金融(银行、股市、 保险)、电信(通话、短信)都在疯狂产生着数据。
大数据与信息采集简介
提纲
• 大数据的由来及现状 • 大数据带来的挑战:信息采集 • 更多挑战:大数据的管理与分析 • 大数据与云计算
世界是数字的
数据的前世今生
2 step
文件系统
纸质数据 1 step
4 step
3 step
数据库 管理系统
数据仓Байду номын сангаас和 数据挖掘
大数据时代
存储单位
Big Data
大数据(big data,mega data),或称巨量资料,指 的是需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力的海量、高增长率 和多样化的信息资产。
大数据的4V特征
体量Volume 多样性Variety
非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍
1万亿 G 22亿台
15寸电脑排成行可以往返一次月球
500G硬盘电脑
大数据时代到来
新的时代,人们从信息的被动接受者变成了主动创造者
2012年
全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据…
是结构化的、通过关系数据库进行管理和访问的静态、历史数据。 通过这些数据,我们能了解过去发生了什么。
大数据从哪里来?
• 海量交互数据:
• 源于Facebook、Twitter、微信,微博及其他来源的社交媒体数据
构成。它包括了呼叫详细记录CDR、传送的海量多媒体文件、Web
文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来
Velocity 速度
• 数据的采集速度的加快导致处理时间都需要有相应的提高 • 在线数据分析 (Online Data Analytics) • 决策的延误 商机的消失 • 实例
– 网上营销(E-Promotions): 基于用户当前的位置和过往的交易数据预测 用户的喜好 在合适的时间和地点发送用户感兴趣的产品和店铺
Dalles数据中 心位于俄勒冈 州的哥伦比亚 河旁,河上的 Dalles大坝为 数据中心提供 电力。数据中 心有2座4层楼 高的冷却塔。 Google一次搜索查询的能耗能点 亮100瓦的灯泡11秒钟。 23
Microsoft数据中心
微软在美国 芝加哥的数 据中心.总面 积为70万平 方英尺。即 使只启用半 数服务器,能 耗也达到30 兆瓦。
大数据从哪里来?
• 海量传感器数据: • 源于各类传感器,如摄像头,可穿戴设备,智能家电,工业设备等
。它包括了多种环境信息,人体运动记录,操作记录等等。这一部 分数据规模将更加庞大。
大数据数从据哪量里的颠来覆?性变化
中国英特尔物联技术研究院
• 海量传感器数据:
每1天产生5EB数据
2015 每人每天产生1.1TB
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
Volume 数据量
PB是大数据层次的临界点. KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB
210T13B年= 1024G数B字信息
98%
1 PB = 1024TB = 1,048,576 GB
100万 G
75%都在报纸 胶片 磁带等媒介
非数字信息 2% 2100台
1 EB = 1024PB = 1,073,741,824 GB
10亿 G 215万台
1 ZB = 1024EB = 1,099,511,627,776 GB
Value 价值
美国医疗保健
每年产值达3000亿美金 每年生产率增长约0.7%
欧洲公共部门管理
每年2500亿欧元 每年生产率增长约0.7%
全球个人定位数据
1000亿+的服务供应商收入 为终端用户带来高达7000
亿美的价值
美国零售业
净利率增长可能高达60%+ 每年生产率增长0.5-1.0%
每2天产生5EB数据 1万年产生5EB数据
感知数据 = 社交媒体数据的 10-20倍
社交媒体数据
数据量
时间
2015
大数据从哪里来?
运营式系统阶段
2
用户原创内容阶段
大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义
价值密度Value
大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能 (咨询、报告等)
速度Velocity
实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效
商业数据现状
Twitter
2007年 5000条微博更新/天 2008年 30万条微博更新/天 2009年 250万条微博更新/天 2010年 3500万条微博更新/天 2011年 2亿条微博更新/天 2013年 4亿条微博更新/天
2013年 上传时长12年的视频/天
2013年 用户分享25亿条信息/天
数据仓库 面向主题 历史数据 数据不可更新 有意引入冗余 支持决策分析 操作相对不频繁
10
数据仓库和数据挖掘
数据库 提取数据 数据仓库
数据挖掘
不可知的价 值
示例:“尿布与啤酒”的故事 11
大数据分析
• 示例:你开心他就买你焦虑他就抛
华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就 是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以 “1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万 美元计的股票。 霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦 虑情绪上升,那就抛售。 这一招收效显著——当年第一季度,霍廷的公司获得了7%的收益率
智能电表
广告投放
中国粮食统计
人的数字化
大数据分析的特点
• 数据源:规模庞大,通常在PB级
• 数据结构:非结构化,需要进行量化打分,转换成结构化 、数值型数据以便理解和分析
• 分析逻辑:更简单,性能是瓶颈
• 性能:实时性要求更高
什么是大数据?
Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools.
• 访问响应时间的加快,数据库读写速度的加快,对电商企业来说就等于多成 交。
• 对于很多情况下,动态的数据价值远大于静态数据,比如气象预测,灾难预 测,快消行业等。
• 实时处理的要求,是区别大数据应用和传统数据仓库技术,BI技术的关键差别 之一.
6000万用户登录/天 20亿次 页面访问/天 每天1.2亿次网站访问 响应时间小于100毫秒
相关文档
最新文档