数据仓库技术及其演变
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总体-DW2.0
来自:DW 2.0 – The Architecture for the Next Generation of Data Warehouse
总体
集中式->分布式->云
原因
单机处理能力有限 高可用 应用复杂
挑战
多服务器协作 跨服务器数据关联 单机不可靠 云服务的迁移
原因
数据量增长
每两年翻番 数据单位:G->T->P->E
软硬件技术进Байду номын сангаас,价格降价
需求带来供给 供给带来新需求
总体
与OLTP共用到分离
硬件使用方式不同 处理能力有限 从多处OLTP系统获取数据 未来会不会合?
Hana等内存数据库 云平台 Oracle ExaData一体机
集群扩展能力有限 对非结构化数据支持不好 引擎较单一 NoSQL和MPP会不会融合到一起?
RDBMS->专有数据库
图数据库、多维数据库
Hadoop
优点
较早解决了利用PC服务器扩展到上千台服务器 生态系统发展良好 大量的使用
数据库
缺点
MR效率低 复杂 学习成本高 稳定性较差
获取数据 与历史数据集成、一致性、完整性 异常处理 提供高并发实时服务
批处理、实时可不可以用一套框架处理?
数据库
SMP->MPP
SMP代表:oracle、db2、sql server MPP代表:teradata、greenplum、netezza
MPP->NoSQL
混合使用多种存储介质
磁带、光盘、HDD、SSD、内存
压缩
CPU换IO,大部分不是时间换空间
分区 Load Bitmap索引 无主外键 不记日志(弱日志) 预统计(inforbright knowledge grid)
部分信息统计后放入系统表,查询直接走系统表
IBM cognos、SAP BO、oracle BIEE、tableau
优缺点同ETL工具 自带数据集市
专有格式->通用格式 专有服务器->通用服务器
我们需要什么样的BI?
数据挖掘
完整工具->类库
工具:SAS、SPSS 类库:Apache Mahour、Apache Spark Mllib\ GraphX
dw->dw2.0
原因
历史数据管理 企业精细化竞争需求
变化
增加了半结构化、非结构化数据 分交互层、集成层、近线层、离线层
dw3.0什么样?
总体-DW架构
来自:http://www.oracle.com/technetwork/cn/community/developerday/1-edw-refer-architecture-case-454566-zhs.pdf
Spark
优点
速度快 高级API,开发效率高 集成流式处理、数据挖掘、SQL
缺点
快速开发中 复杂
大数据框架的发展方向
效率
总体效率 单机效率
数据库
规范
SQL 事务 JDBC、ODBC
稳定、易用
降低安装复杂度 降低维护难度 不可用时间减少
优点
集成度高 学习门槛低 多种数据源协同工作
缺点
复杂问题灵活不够 单独学习
ETL
演进同数据库路线类似
SMP、MPP HA 多种数据源混合使用
ETL-数据仓库
直接利用数据仓库的存储与计算能力 优点
学习成本低 充分利用资源 实现灵活
缺点
专有语言->通用语言
专有语言:SAS、R 通用:Python
我们如何进行数据挖掘?
硬件
小机+盘阵->PC Server->云
SMP结构是小型机+盘阵 MPP也是多台小型机+盘阵 Hadoop、Spark等使用PC服务器、云
CPU
摩尔定律 绿色化
HDD->SSD->Memory
还有哪些技术可以引入?
Spark是未来吗?
ETL
趋势分析->生产应用 批处理->实时处理 粗略->精准 单一类型->多种类型数据同时使用
同时使用文本文件、专有格式文件、多种数据库
ETL工具
专有工具,独立服务器 代表
IBM DataStage、Informatica PowerCenter、Pentaho Kettle
反向于集中式? 云是否合适大数据?
结构化数据->半结构化、非结构化数据
体量大(Volume) 类型多样化(Variety) *处理速度快(Velocity) 价值密度低(Value) 如何高效利用半结构化、非结构化数据?
总体
批处理->实时
小时、天、周计算频率到现在的分钟、秒甚至毫秒 主要用于决策到用于生产 挑战
必须入库才可操作 调度等需要单独开发 与其他服务争抢资源
基于工具或数据仓库,哪种方式在大数据处理方面占优势?
BI
第三方开发->自服务
工具更容易使用 用户要求响应时间更短
PC->移动
一切前端应用移动化
BI工具
MOLAP生成Cube文件,需要独立服务器 代表
大一统VS专业化
大一统带来易使用、易维护、规范化,同时特定应用效率、成果会比较低 专业化带来更专业的处理方式,效率更高,同时部署、维护难度更大
数据库的发展方向
大规模横向扩展 半结构、非结构化数据支持 与大数据架构的配合
数据库配合使用
数据库-其他技术
列式存储
只扫描相应的列
HDD存储在线;磁带存储离线数据 HDD存储顺序访问、速度慢;随机访问且要求高的用SSD硬盘 HDD存储顺序访问、速度慢;随机访问且要求高的用SSD硬盘;性能要 求极高的用内存
原因
精细化竞争
精准
用户精准定位 资源分配、调度 竞争对手、外部情报
速度
客户需求 产品开发 市场投放
可用
时间延长 不可用时间减少 强度加大
数据增长
来源的多样化 人工操作 PC、手机生成 机器生成 数据的多样化
结构化、半结构、非结构化数据