大数据的来源与价值资料讲义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
授课人:韩冬梅 dongmeihan@shufe.edu.cn
PPT模板下载:www.1ppt.com/moban/ 节日PPT模板:www.1ppt.com/jieri/ PPT背景图片:www.1ppt.com/beijing/ 优秀PPT下载:www.1ppt.com/xiazai/ Word教程: www.1ppt.com/word/ 资料下载:www.1ppt.com/ziliao/ 范文下载:www.1ppt.com/fanwen/ 教案下载:www.1ppt.com/jiaoan/
制造业
• 制造业的存储数据类型: ① 产品设计数据:以文件为主,非结构化,共享要
求较高,保存时间较长。 ② 企业生产环节的业务数据:数据库结构化数据 ③ 生产监控数据:数据量非常大
其他传统行 业
• 线下商业销售、农林牧渔业、线下餐饮、食品、 科研、物流运输等行业数据量剧增
• 行业数据量还处于积累期,整个体量都不算大, 多则达到PB级别,少则百TB甚至数十TB级别。
• 企业应用的相关 评论数据
• 应用服务器日志
• 传感器数据(天 气、水、智能电 网等)
• 图像和视频(摄 像头监控数据等)
• RFID、二维码或 条形码扫描数据
大数据分类——按数据来源划分
通过服务器和数据中心数量,以及各行业数据梳理, 大致判断国内2013年一年产生的数据总量以及大致分布, 数据主要分布在以下行业:
01 大数据概述 02 大数据分类(3种划分方式) 03 大数据的价值
大数据分类——按产生主体划分
最里层:少量企业 次外层:大量人产 最外层:巨量机器
应用产生的数据
生的数据
产生的数据
• 关系型数据库 中的数据
• 数据仓库中的 数据
• 微博、微信
• 电子商务在线交 易日志数据
• 呼叫中心评论、 留言或者电话投 诉等
HTML、各类报表、图像和音频/视频信息 • 存储在非结构数据库中 • 非结构化WEB数据库:突破了关系数据库结构
定义不易改变和数据定长的限制
大数据分类——按存储形式划分
半结构化数据
• 介于完全结构化数据和完全无结构的数据之间 • 格式较为规范,一般都是纯文本数据 • 包括日志数据、XML、JSON等格式的数据 • 一般是自描述的,数据的结构和内容混在一起,
• 交易数据、用 户浏览和点击 网页数据、购 物数据
百度
腾讯
• 2013数据总量接 • 总存储数据量经
近一千个PB
压缩处理以后在
• 中文网页、百度
100PB左右
推广、百度日志、 • 数据量月增10%
UGC
• 大量社交、游戏
• 以70%以上的搜
等领域积累的文
索市场份额坐拥
本、音频、视频
庞大的搜索数据
和关系类数据
大数据分类——按数据来源划分
电信、金融、保险、电力、石化系统
电信行业
金融与保险
电力与石化
• 用户上网记录、 通话、信息、 地理位置
• 运营商拥有的 数据数量都在 10PB以上
• 年度用户数据 增长约数十PB
• 开户信息数据, 银行网点和在线 交易数据、自身 运营的数据
• 金融系统每年产 生数据达数十PB
医疗卫生
交通
• 仅广州中山大学 医院2013年数据 量为1000个TB
• 整个医疗卫生行 业一年能够保存 下来的数据就可 达到数百PB
• 航班往返一次能 产生数据就达到 TB级别
• 列车、水陆路运 输产生的各种视 频、文本类数据, 每年保存下来的 也达到数十PB。
大数据分类——按数据来源划分
气象、教育、地理、政务等领域
行业PPT模板:www.1ppt.com/hangye/ PPT素材下载:www.1ppt.com/sucai/ PPT图表下载:www.1ppt.com/tubiao/ PPT教程: www.1ppt.com/powerpoint/ Excel教程:www.1ppt.com/excel/ PPT课件下载:www.1ppt.com/kejian/ 试卷下载:www.1ppt.com/shiti/
01 大数据概述 02 大数据分类(3种划分方式) 03 大数据的价值
大数据概述——数据量
2013 年中国产生的数据总量超过0.8ZB(相当于8 亿TB),2 倍于2012 年,相当于2009 年全球的数据 总量。预计到2020 年,中国产生的数据总量将是2013 年的10倍,超过8.5ZB。
——DNET《数据中心2013:硬件重构与软件定义》年 度技术报告
• 即行数据,可用二维表结构来逻辑表达实现 • 主要存储在关系型数据库中 • 先有结构再有数据,结构一般不变 • 处理起来较方便
大数据分类——按存储形式划分
非结构化数据
• 相对于结构化数据而言,不方便用数据库二维 逻辑表来表现
• 非纯文本类数据,没有标准格式 • 包括所有格式的办公文档、文本、图片、XML、
大数据分类——按存储形式划分
大数据不仅仅体现在数据量大,也体现在数据类型多。 如 此 海 量 的 数 据 中 , 仅 有 20% 左 右 属 于 结 构 化 的 数 据 , 80%的数据属于广泛存在于社交网络、物联网、电子商务 等领域的非结构化或半结构化的数据。
大数据分类——按存储形式划分
结构化数据
• 保险系统数据量 也接近PB级别
• 仅国家电网采集 获得的数据总量 就上10个PB级别
• 石油化工、智能 Baidu Nhomakorabea表等领域每年 产生和保存下来 的数据量也达到 数十PB级别。
大数据分类——按数据来源划分
公共安全、医疗、交通领域
公共安全
• 北京:50万个 监控摄像头, 每天采集视频 数据量约3PB
• 整个视频监控 每年保存下来 的数据在数百 PB以上
气象与地理
• 中国气象局保 存的数据约 4~5PB,每年 约增数百个TB
• 各种地图和地 理位置信息每 年约数十PB
政务与教育
• 北京市政务数据 资源网涵盖旅游、 教育、交通、医 疗等门类,一年 上线公布了40 0余个数据包
• 政务数据多为结 构化数据
大数据分类——按数据来源划分
商业销售、制造业、农业、物流和流通等领域
1、BAT为代表的互联网公司。 2、电信、金融、保险、电力、石化系统。 3、公共安全、医疗、交通领域。 4、气象、教育、地理、政务等。 5、其他,商业销售、制造业、农业、物流和流通等领域。
大数据分类——按数据来源划分
BAT为代表的互联网公司
阿里巴巴
• 目前保存的数 据量为近百PB
• 拥有90%以上 的电商数据
相关文档
最新文档