大数据行业发展与基本概念V10410
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据“十三 五”规划出台
2005年 2008年 2011年 2012年 2014年 2015年 2016年
在美国发表第一个 成为世界经济论 国务院印发《促进大 关于大数据的白皮书 坛重要主题之一 数据发展行动纲要》
我国大数据的发展阶段
市
场
3)大数据概念广泛普及,
认 可 度
企业用户不断提升,资本 市场高度关注,大数据企 业规模化发展
1)大数据产业在 中国出现,并逐 步受到关注,互 联网企业率先将 应用落地
4)大数据市场相对成熟,市 场热度逐渐消化,大数据企 业整合
2)2015年我国提出《大数据发展 行动纲要》大力支持大数据产业发 展,并于2016年提升为国家战略
探索起步期
快速推进器
规模发展期
产业消化期
5)行业标准建 立、监管规范完 善,被广泛应用, 行业将趋于稳定 发展
主从复制 or
对等复制
服务器2
服务器3
第五阶段 大数据
让大象跳舞
Hadoop2.0生态
流式计算框架
搜索引擎框架
某政务大数据项目架构
目录
1 大数据的起源 2 数据发展简史 3 国内行业发展
大数据是如何成为网红的?
第一款商用 Hadoop项目诞生
国家工信部发布 在我国政府报告中 物联网十二五规划 大数据首次出现
集成的
必须保证数据仓库内的信息是关于整个企业的一致的 全局信息。
相对稳定
某个数据进入数据仓库之后,一般情况下将被长期保 留,修改和删除操作很少。
反映历史变化
仓库中的数据通常包含历史信息,反映过去某一时点 到目前的各个阶段的信息。
➢ETL ➢BI
第三阶段 NoSQL、NewSQL
分析
大数据时代 架构多元化
残缺
需要更高效的计算方式
时 间
传统 大数据
规模
什么是大数据?
维基百科:大数据是需要新处理模式才 能具有更强的决策力、洞察发现力和流 程优化能力的海量、高增长率和多样化 的信息资产。
大数据就是“未来的新石油”
大数据的“4V”特征
容量 Volume
数据体量巨大。从TB级别,跃升到PB级以上。
多样 Variety
数据库
数据仓库
需要不同的数据管理策略
15%
结构化的 DB/DW
当我们想要扩充时,才发觉: ➢ 架构只能scale-up,scale-out不易 ➢ 处理时间过长,time-to-value受限 ➢ 成本过高,cost-efficiency受限
遗憾
85% 半/非结构化的 Log/Web page/Email/PDF/ Image/Full-text/MS-Office file
可视化 Visualization
只有正确的可视化,原始数据才可被投入使用。
目录
1 大数据的起源 2 数据发展简史 3 国内行业发展
数据概述
在人类发展历程中,数据表现方式分为两类: ➢ 模拟数据(声音,文件,图像,视频) ➢ 数字数据(文字,符号)
自从计算机发明以来,数据在计 算机中都是以二进制0和1的形式 进行保存。
时间 应用成熟期
我国大数据产业市场规模
2017 年我国大数据市场规 模已达 358 亿元,年增速 达到 47.3%。
预计 2020 年,我国大数据 市场规模将达到 731 亿元。
我国大数据主要应用领域
市
场
吸
引
力
政府公
共服务
交通 教
育
金融
电子 商务
物
流
电
医疗
信
应用成熟度
我国大数据区域分布
大西南地区以贵州、重 庆为代表城市,通过积 极吸引国内外龙头骨干 企业,实现大数据产业 在当地的快速发展。
珠三角地区依托广州和深圳两 个国家超级计算中心的集聚作 用,在腾讯、华为、中兴等一 批骨干企业的带动下,逐渐形 成了大数据集聚发展的趋势。
京津冀地区依托北京, 培育了一大批大数据企 业,是目前我国大数据 企业集聚最多的地方。
长三角地区依托上海、杭州、 南京,吸引了大批大数据企 业,上海发布《上海推进大 数据研究与发展三年行动计 划》,推动大数据在城市管 理和民生服务领域应用。
数据类型繁多。日志、视频、图片、GIS等。
速度 Velocity
秒级定律。一般要求在秒级内给出分析结果。
价值 Value
利用低价值密度数据,可以带来高价值回报。
更多的“V”
可变性 Variability
数据的含义总是在快速变化的。要考虑具体的上下文。
真实性 Veracity
确保数据的真实性,才能保证数据分析的正确性。
大数据基本概念与行业发展
目录
1 大数据的起源 2 数据发展简史 3 国内行业发展
电影《点球成金》
不可再生资源VS数据
数据爆炸式增长(每分钟……)
传统处理方式所无法解决的挑战
非结构半 结构混杂
处理速度要 求越来越快
3
2
4
数据应用 模式创新
数据体量 1
越来越大
挑战
5 更丰富的
视觉元素
需要性价比更高的储存方式
大数据的一般利用过程(生命周期)
展示应用
数据分析
管
数
理
数据处理
据
工
数据存储
安
具
Biblioteka Baidu
全
数据采集
基础资源/云平台
图形、报表等工具库 数据仓库、机器学习 离线统计、实时计算 多种结构、海量存储 实时接入、海量堆积 高可用、高性能集群
大数据产业链及细分领域
数据采集
数据存储
数据处理
数据分析
展示应用
硬件
●采集设备 ●存储设备 ●服务器
鉴于对数据的分类管理需要,随 之而来各种各种的数据管理软件 应运而生。
数据发展的五个阶段
关系型 数据库
数据 仓库
NoSQL NewSQL
集群 化
大数 据
第一阶段 关系型数据库
第二阶段 数据仓库 DW - Data Warehouse
用于支持管理决策
面向主题
数据是按照一定的主题域进行组织,一个主题通常与 多个操作型信息系统相关。
➢ 分片 将大规模数据按照一定规则拆分,不同的分片存储在不同的结点。
➢ 复制 数据通常会在集群的多个结点中留存多个数据副本,以保证可靠。
➢ 混合应用 不同的业务场景,会混合使用多种不同的数据存储系统。
分片处理前 服务器1
分片处理后 片服务器1 片服务器2 片服务器3
复制前 服务器1
复制后 服务器1
OldSQL
事务
互联网
NewSQL 分析
OldSQL 事务
NoSQL 互联网
NoSQL 互联网
键值存储数据库 列式存储数据库 文档存储数据库 文件存储数据库 图像存储数据库 消息队列系统
NewSQL 分析
第四阶段 集群化
➢ 高可用 通常采用Master-Slave或者P2P模式,保障数据的灾备。