大数据与信息采集简介

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据的4V特征
体量Volume
非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能 (咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效
未来大数据的产业规模将会至少以万亿美
Velocity 速度
• • 1s 是临界点. 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无 效的. 大数据的惊人不止是在数量上,同时数据还是巨量具有动态分析价值的数据。 访问响应时间的加快,数据库读写速度的加快,对电商企业来说就等于多成 交。 对于很多情况下,动态的数据价值远大于静态数据,比如气象预测,灾难预 测,快消行业等。 实时处理的要求,是区别大数据应用和传统数据仓库技术,BI技术的关键差别 之一.
大数据从哪里来?
• 海量交互数据: • 源于Facebook、Twitter、微信,微博及其他来源的社交媒体数据 构成。它包括了呼叫详细记录CDR、传送的海量多媒体文件、Web 文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来 马云成功预测2008 年经济危机 会发生什么。
• “2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对 中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提 前半年时间从询盘上推断出世界贸易发生变化了。” • 通常而言,买家在采购商品前,会比较多家供应商的产品,反映 到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的 数量会保持一个相对的数值,综合各个维度的数据可建立用户行 为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在 这个案例中,询盘数据的下降,自然导致买盘的下降。
这一招收效显著——当年第一季度,霍廷的公司获得了7%的收益率
12
大数据分析:吃货集中营
大数据分析:关联分析
大数据分析:可视化
大数据分析:趋势预测
从谷歌流感趋势看大数据的 应用价值
“谷歌流感趋势”,通过跟踪 搜索词相关数据来判断全美地区 的流感情况
大数据应用场景
美国零售商和怀孕预测
UPS快递的最佳行车路径
10
数据仓库和数据挖掘
数据库
提取数据
数据仓库
百度文库
数据挖掘
不可知的价 值
示例:“尿布与啤酒”的故事
11
大数据分析
• 示例:你开心他就买你焦虑他就抛
华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就 是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以 “1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万 美元计的股票。 霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦 虑情绪上升,那就抛售。
Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools.
大数据(big data,mega data),或称巨量资料,指 的是需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力的海量、高增长率 和多样化的信息资产。
股票投资
VISA信用卡与商户推荐 京东信用贷款和淘宝数据魔方
中国粮食统计
智能电表
广告投放
人的数字化
大数据分析的特点
• 数据源:规模庞大,通常在PB级
• 数据结构:非结构化,需要进行量化打分,转换成结构化 、数值型数据以便理解和分析
• 分析逻辑:更简单,性能是瓶颈 • 性能:实时性要求更高
什么是大数据?
1 KB = 1024字节 1 MB = 1024 KB
什么是大数据
Intel:人类文明开始到2003年 地球共产生了5EB数据.
2012年全年,全球产生数据2.7ZB 是 2003年以前的500倍 2015年,全球估计产生数据8ZB,等于1800万个美国国会图书馆 75%都在报纸 胶片 磁带等媒介 非数字信息 2% 100万 G 10亿 G 1万亿 G
多样性Variety
价值密度Value
速度Velocity
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
Volume 数据量
PB是大数据层次的临界点. KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB
Volume 数据量
根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数 据摩尔定律) 人类在最近两年产生的数据量相当于之前产生的全部数据量 预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍
Google数据中心
Dalles数据中 心位于俄勒冈 州的哥伦比亚 河旁,河上的 Dalles大坝为 数据中心提供 电力。数据中 心有2座4层楼 高的冷却塔。
欧洲公共部门管理
每年2500亿欧元 每年生产率增长约0.7%
全球个人定位数据
1000亿+的服务供应商收入 为终端用户带来高达7000 亿美的价值
美国零售业
净利率增长可能高达60%+ 每年生产率增长0.5-1.0%
制造业
最多可节省50%的产品研发、 组装成本 最多可节约7%的营运资金
24
Variety 多样性
•企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互 信息,位置信息等是大数据的主要来源. •结构化数据、半结构化数据和非结构化数据 •如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更 高的要求 结构化数据 指关系型数据表 半结构化数据 指关系结构与内容混合 在一起的数据类型, xml… 非结构化数据 文档、视频、音频、图片
信息技术的广泛应用提高了数据的处理能力,更提 高了数据的产生能力,道高一尺,魔高一丈。 这些由我们创造的信息背后产生的这些数据早已经 远远超越了目前人力所能处理的范畴 大数据时代正在来临..

微博、 Apps
移动互联
数据分析:数据库和数据仓库
数据库 面向应用 当前数据 数据是可更新的 避免数据冗余 支持事务处理 数据操作频繁 数据仓库 面向主题 历史数据 数据不可更新 有意引入冗余 支持决策分析 操作相对不频繁
1 GB = 1024MB 2000年 数字信息占全球数据量的25%
1 TB = 1024GB 2013年 数字信息 1 PB = 1024TB = 1,048,576 GB 1 EB = 1024PB = 1,073,741,824 GB 1 ZB = 1024EB = 1,099,511,627,776 GB 98%
每2天产生5EB数据
感知数据 = 社交媒体数据的 10-20倍
2013年 上传时长12年的视频/天
2013年 用户分享25亿条信息/天
智能移动终端设备的巨量增长
数据规模指数增长 数字大爆炸
EB
•为什么?
地球上至今总共的数据量:
TB
GB
PB
Z B
在2006 年,个人用户才刚刚迈进TB时代, 全球一共新产生了约180EB的数据; 在2011 年,这个数字达到了1.8ZB。
企业数据
20% 结构化 80%非结构化
2012年互联网产生的数据
25% 结构化
50%-70% 源于人与 75%非结构化 人的互动
Value 价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. • 价值密度低,是大数据的一个典型特征.
Value 价值
美国医疗保健
每年产值达3000亿美金 每年生产率增长约0.7%
• Google数据 中心以集装 箱为单位, 每个集装箱 有1160台服 务器,每个 数据 中心有 众多集装箱。 Google一次搜索查询的能耗能点 23 亮100瓦的灯泡11秒钟。
Microsoft数据中心
微软在美国 芝加哥的数 据中心.总面 积为70万平 方英尺。即 使只启用半 数服务器,能 耗也达到30 兆瓦。
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)!
数据规模指数增长 数字大爆炸
… facebo ok 社交网络
2100台
215万台 22亿台 15寸电脑排成行可以往返一次月球
500G硬盘电脑
大数据时代到来
新的时代,人们从信息的被动接受者变成了主动创造者
2012年 全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据…
– 健康监控(Healthcare monitoring): 利用穿戴式的传感器监控用户的生理 和活动数据 及时提供需要的医疗服务
大数据
提纲
• • • • 大数据的由来及现状 大数据带来的挑战:信息采集 更多挑战:大数据的管理与分析 大数据与云计算
大数据从哪里来?
• 海量交易数据: • 企业内部的经营交易信息主要包括联机交易数据和联机分析数据, 是结构化的、通过关系数据库进行管理和访问的静态、历史数据。 通过这些数据,我们能了解过去发生了什么。
商业数据现状
2007年 2008年 2009年 2010年 2011年 2013年 5000条微博更新/天 30万条微博更新/天 250万条微博更新/天 3500万条微博更新/天 2亿条微博更新/天 4亿条微博更新/天
Big Data 什么是大数据
Twitter
一个单数据表几亿-几百亿条 记录 下线商品14亿件,在线商品8 亿件 淘宝数据库存了20PB数据 平均每月增加1.5PB
大数据从哪里来?
• 海量传感器数据: • 源于各类传感器,如摄像头,可穿戴设备,智能家电,工业设备等 。它包括了多种环境信息,人体运动记录,操作记录等等。这一部 分数据规模将更加庞大。
数据量的颠覆性变化 大数据从哪里来?
中国英特尔物联技术研究院
• 海量传感器数据:
每1天产生5EB数据 2015 每人每天产生1.1TB
21世纪是数据信息大发展的时代,移动互联、社交 网络、电子商务等极大拓展了互联网的边界和应用 范围,各种数据正在迅速膨胀并变大。
电子商务
淘宝、 ebuy

互联网(社交、搜索、电商)、移动互联网(微 博)、物联网(传感器,智慧地球)、车联网、 GPS、医学影像、安全监控、金融(银行、股市、 保险)、电信(通话、短信)都在疯狂产生着数据。
大数据与信息采集简介
提纲
• • • • 大数据的由来及现状 大数据带来的挑战:信息采集 更多挑战:大数据的管理与分析 大数据与云计算
世界是数字的
数据的前世今生
纸质数据 1 step
2 step
大数据时代
4 step
文件系统
3 step
数据仓库和 数据挖掘
数据库 管理系统
Big Data
存储单位
• • •

6000万用户登录/天 20亿次 页面访问/天 每天1.2亿次网站访问 响应时间小于100毫秒
Velocity 速度
• 数据的采集速度的加快导致处理时间都需要有相应的提高 • 在线数据分析 (Online Data Analytics) • 决策的延误 商机的消失 • 实例
– 网上营销(E-Promotions): 基于用户当前的位置和过往的交易数据预测 用户的喜好 在合适的时间和地点发送用户感兴趣的产品和店铺
相关文档
最新文档