大数据与信息采集简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据(big data,mega data),或称巨量资料,指 的是需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力的海量、高增长率 和多样化的信息资产。
大数据的4V特征
体量Volume 多样性Variety
非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍
facebo 社交网络
ok
淘宝、
电子商务
ebuy

21世纪是数据信息大发展的时代,移动互联、社交 网络、电子商务等极大拓展了互联网的边界和应用 范围,各种数据正在迅速膨胀并变大。
互联网(社交、搜索、电商)、移动互联网(微 博)、物联网(传感器,智慧地球)、车联网、 GPS、医学影像、安全监控、金融(银行、股市、 保险)、电信(通话、短信)都在疯狂产生着数据。
智能电表
广告投放
中国粮食统计
人的数字化
大数据分析的特点
• 数据源:规模庞大,通常在PB级
• 数据结构:非结构化,需要进行量化打分,转换成结构化 、数值型数据以便理解和分析
• 分析逻辑:更简单,性能是瓶颈
• 性能:实时性要求更高
什么是大数据?
Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools.
地球上至今总共的数据量:
在2006 年,个人用户才刚刚迈进TB时代, 全球一共新产生了约180EB的数据;
在2011 年,这个数字达到了1.8ZB。
而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)!
数据规模指数增长 数字大爆炸


微博、 Apps
移动互联
信息技术的广泛应用提高了数据的处理能力,更提 高了数据的产生能力,道高一尺,魔高一丈。
这些由我们创造的信息背后产生的这些数据早已经 远远超越了目前人力所能处理的范畴
大数据时代正在来临..
数据分析:数据库和数据仓库
数据库 面向应用 当前数据 数据是可更新的 避免数据冗余 支持事务处理 数据操作频繁
1万亿 G 22亿台
15寸电脑排成行可以往返一次月球
500G硬盘电脑
大数据时代到来
新的时代,人们从信息的被动接受者变成了主动创造者
2012年
全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据…
210T13B年= 1024G数B字信息
98%
1 PB = 1024TB = 1,048,576 GB
100万 G
75%都在报纸 胶片 磁带等媒介
非数字信息 2% 2100台
1 EB = 1024PB = 1,073,741,824 GB
10亿 G 215万台
1 ZB = 1024EB = 1,099,511,627,776 GB
商业数据现状
Twitter
2007年 5000条微博更新/天 2008年 30万条微博更新/天 2009年 250万条微博更新/天 2010年 3500万条微博更新/天 2011年 2亿条微博更新/天 2013年 4亿条微博更新/天
2013年 上传时长12年的视频/天
2013年 用户分享25亿条信息/天
Big Data 什么是大数据
一个单数据表几亿-几百亿条 记录 下线商品14亿件,在线商品8 亿件 淘宝数据库存了20PB数据 平均每月增加1.5PB
智能移动终端设备的巨量增长
数据规模指数增长 数字大爆炸
•为什么?
PB
TB
GB
EB Z B
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
12
大数据分析:吃货集中营
大数据分析:关联分析
大数据分析:可视化
大数据分析:趋势预测
从谷歌流感趋势看大数据的 应用价值
“谷歌流感趋势”,通过跟踪 搜索词相关数据来判断全美地区 的流感情况
大数据应用场景
美国零售商和怀孕预测 VISA信用卡与商户推荐
UPS快递的最佳行车路径 股票投资
京东信用贷款和淘宝数据魔方
数据仓库 面向主题 历史数据 数据不可更新 有意引入冗余 支持决策分析 操作相对不频繁
10
数据仓库和数据挖掘
数据库 提取数据 数据仓库
数据挖掘
不可知的价 值
示例:“尿布与啤酒”的故事 11
大数据分析
• 示例:你开心他就买你焦虑他就抛
华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就 是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以 “1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万 美元计的股票。 霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦 虑情绪上升,那就抛售。 这一招收效显著——当年第一季度,霍廷的公司获得了7%的收益率
大数据与信息采集简介
提纲
百度文库• 大数据的由来及现状 • 大数据带来的挑战:信息采集 • 更多挑战:大数据的管理与分析 • 大数据与云计算
世界是数字的
数据的前世今生
2 step
文件系统
纸质数据 1 step
4 step
3 step
数据库 管理系统
数据仓库和 数据挖掘
大数据时代
存储单位
Big Data
什么是大数据
1 KB = 1024字节 1 MB = 1024 KB
Intel:人类文明开始到2003年 地球共产生了5EB数据. 2012年全年,全球产生数据2.7ZB 是 2003年以前的500倍 2015年,全球估计产生数据8ZB,等于1800万个美国国会图书馆
1 GB = 1024MB 2000年 数字信息占全球数据量的25%
相关文档
最新文档