数据发展简史
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12
第三阶段:非关系型数据库
列存储数据库
这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点 是指向了多个列。这些列是由列家族来安排的。如:BigTable,Cassandra, HBase, Riak。
13
3
第三阶段:非关系型数据库
文档存储数据库
文档型数据库的灵感是来 自于Lotus Notes办公软件 的,而且它同第一种键值 存储相类似。该类型的数 据模型是版本化的文档, 半结构化的文档以特定的 格式存储,比如JSON。文 档型数据库可 以看作是键 值数据库的升级版,允许 之间嵌套键值。而且文档 型数据库比键值数据库的 查询效率更高。如: CouchDB, MongoDb。
09
第二阶段:关系型数据仓库
数据仓库工程师 负责企业数据仓库的规划,建设(EDW),模型设计,数据分层 EDW,DW,ODS,DM,DIM ETL工程师 负责数据抽取,转化,清洗,加工,合并,拆分等, 把数据从SRC迁移到DW中 BI工程师 通过工具或者算法,对企业提供BI应用和报表
10
scala,java,数据库
大数据工程师 hdfs, hbase, spark, sqoop, storm, kafka, flume, zookeeper 搜索引擎工程师
Lucene/Solr/Elasticsearch开源搜索引擎程序结构,java
28
第六阶段:数据商业化
THANK YOU
Leabharlann Baidu
11
第三阶段:非关系型数据库
键值存储数据库
这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特 定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。如: TokyoCabinet/Tyrant, Redis, Voldemort, Oracle BDB,Memcached。
第三阶段:非关系型数据库
在互联网,移动互联网发展浪潮中,传统关系型数据库已经无法实现和满足某些 业务场景的情况下,NoSQL数据库如雨后春笋顺势而发,它是 为弥补关系型数据库的 不足应运而生。 NoSQL数据库并没有一个统一的架构和产品规范,不同NoSQL数据库之间的差异非 常大,各个NoSQL数据库各有所长,成功的NoSQL数据库必然特别适用于某些场合或者 某些应用。
14
第三阶段:非关系型数据库
图像存储数据库
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型, 并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据 库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如: Neo4J, InfoGrid, Infinite Graph。
15
第三阶段:非关系型数据库
文件存储系统
目前包括HDFS,FastDFS,TFS,GFS
16
第三阶段:非关系型数据库
消息队列系统
目前包括Kafka,ActiveMQ,RabbitMQ
数据库工程师 关系数据库,redis,mongodb,消息队列,文件系统都需要懂
17
第四阶段:数据库集群化
赢在 DT
刘宏仓
2017.01.13
数据发展简史
BUSINESS REPORT
01
数据概述
在人类发展历程中,数据表现方式分为两类: 模拟数据(声音,文件,图像,视频) 数字数据(文字,符号)
自从计算机发明以来,数据在计 算机中都是以二进制0和1的形式 进行保存。 鉴于对数据的分类管理需要,随 之而来各种各种的数据管理软件 应运而生。
DBA SQL优化,索引优化,参数优化 数据库系统高级维护,灾备
06
第二阶段:关系型数据仓库
数据仓库特性
英文名称为Data Warehouse,简写为DW。数据仓库 是一个面向主题的、集成的、相对稳定的、反映历史变 化的数据集合,用于支持管理决策。
面向主题
数据是按照一定的主题域进行组织,一个 主题通常与多个操作型信息系统相关
赢在 201 7
刘宏仓
2017.01.13
分片化
20
第四阶段:数据库集群化
混合应用
一致性hash
ZooKeeper
MySql
redis
mongoDB
21
第四阶段:数据库集群化
系统架构师 精通各种数据库系统,
根据业务需求规划数据扩容,高可用,分片方案,保证满足高并发,高可用 平滑扩容。
分布式数据库开发工程师
java代码,proxy,zookeeper,分片算法,数据库设计。
22
第五阶段:大数据
巨量数据集合 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、 管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发 现力和流程优化能力的海量、高增长率和多样化的信息资产。
23
第五阶段:大数据
Hadoop框架
24
第五阶段:大数据
流式计算框架
快速扩容
通过一致性hash方式进行分片后,需要对新旧节点间数据进行热迁移, 保证不宕机扩容。
混合应用
不同的业务场景,会采用不同的数据存储系统,如mysql,redis,mongodb FastDFS,HDFS,kafka
18
第四阶段:数据库集群化
节点高可用 保障方案
19
第四阶段:数据库集群化
25
第五阶段:大数据
搜索引擎框架 ELK,Lucene
26
第五阶段:大数据
Flume Cluster
Kafka Cluster
MySQL
redis
mongoDB
FastDFS
ETL
27
第五阶段:大数据
Hadoop开发工程师
hadoop框架,HDFS,MR计算框架,Pig,Hive
Spark,Storm工程师
集成的
必须保证数据仓库内的信息是关于整个企 业的一致的全局信息
相对稳定
某个数据进入数据仓库之后,一般情况下 将被长期保留,修改和删除操作很少
反映历史变化
数据仓库中的数据通常包含历史信息,反 映过去某一时点到目前的各个阶段的信息
07
第二阶段:关系型数据仓库
08
第二阶段:关系型数据仓库
ETL
BI
高可用
每个数据库采用master-slave模式,保障数据的灾备。Master-slave切换 采用zookeeper框架,采用client端监控模式向sever发送存活状态变更。然后 Server通知代理层来切换节点的访问方式。
分片化
通过主键或其他约定机制,把数据合理映射在多个数据库中。采用一致性 Hash方式进行数据分片和映射。
03
数据库系统
SQL NoSQL 键值存储 列存储 文档存储 图像存储 FS
04
第一阶段:关系型数据库
05
第一阶段:关系型数据库
数据库工程师 负责企业数据库模型设计(ER,powerdesigner),表,索引,视图,函数 触发器,存储过程,事件,权限简单维护管理 数据库开发工程师 复杂的统计分析,存储过程开发