数据仓库和BI技术概况
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.数据仓库
1.1.概念
数据仓库项目是以关系数据库为依托,以数据仓库理论为指导、以OLAP为多层次多视角分析,以ETL工具进行数据集成、整合、清洗、加载转换,以前端工具进行前端报表展现浏览,以反复叠代验证为生命周期的综合处理过程。最终目标是为了达到整合企业信息信息,把数据转换成信息、知识,提供决策支持。
1.2.数据源
数据库、磁带、文件、网页等等。同一主题的数据可能存储在不同的数据库、磁带、甚至文件、网页里都有。
1.3.数据粒度
粒度问题第一反应了数据细化程度;第二在决策分析层面粒度越大,细化程度越低。一般情况,数据仓库需求存储不同粒度的数据来满足不同层面的要求。
例子如顾客的移动话费信息。
1.4.数据分割
分割结构相同的数据,保证灵活的访问数据。
1.5.设计数据仓库
●与OLTP系统的接口设计:ETL设计
●数据仓库本身存储模型的设计:数据存储模型设计
1.6.ETL设计难点
数据仓库有多个应用数据源,导致同一对象描述方式不同:
●表达方式不同:字段类型不同
●度量方式不同:单位不同
●对象命名方式不同:字段名称不同
●数据源的数据是逐步加载到数据仓库,怎么确定数据已经加载过
●如何避免对已经加载的数据的读取,提高性能
●数据实时发生变化后怎么加载
2.数据存储模型
过程模型:适用于操作性环境。
数据模型:适用于数据仓库和操作性环境。
数据模型从设计的角度分:高层次模型(实体关系型),中间层建模(数据项集),物理模型。
2.1.数据仓库的存储方式
数据仓库的数据由两种存储方式:一种是存储在关系数据库中,另一种是按多维的方式存储,也就是多维数组。
2.2.数据仓库的数据分类
数据仓库的数据分元数据和用户数据。
用户数据按照数据粒度分别存放,一般分四个粒度:早期细节级数据,当前细节级数据,轻度综合级,高度综合级。
元数据是定义了数据的数据。传统数据库中的数据字典或者系统目录都是元数据,在数据仓库中元数据表现为两种形式:一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包含了数据源的各种属性以及转换时的各种属性;另一种元数据是用来与多维模型和前端工具建立映射用的。
2.3.数据存储模型分类
多维数据建模以直观的方式组织数据,并支持高性能的数据访问。每一个多维数据模型由多个多维数据模式表示,每一个多维数据模式都是由一个事实表和一组维表组成的。
多维模型最常见的是星形模式。在星形模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。
在星型的基础上,发展出雪花模式。通常来说,数据仓库使用星型模型。
2.3.1.星型模型
位于星形中心的实体是指标实体,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。每个指标实体代表一系列相关事实,完成一项指定的功能。
位于星形图星角上的实体是维度实体,其作用是限制用户的查询结果,将数据过滤使得从指标实体查询返回较少的行,从而缩小访问范围。每个维表有自己的属性,维表和事实表通过关键字相关联。
星形模式虽然是一个关系模型,但是它不是一个规范化的模型。在星形模式中,维度表被故意地非规范化了,这是星形模式与OLTP系统中的关系模式的基本区别。
使用星形模式主要有两方面的原因:提高查询的效率。采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理,主要数据都在庞大的事实表中,所以只要扫描事实表
就可以进行查询,而不必把多个庞大的表联接起来,查询访问效率较高。同时由于维表一般都很小,甚至可以放在高速缓存中,与事实表作连接时其速度较快;便于用户理解。对于非计算机专业的用户而言,星形模式比较直观,通过分析星形模式,很容易组合出各种查询。
总结一下星型模型的特点:
●非正规化;
●多维数据集中的每一个维度都与事实表连接(通过主键和外键);
●不存在渐变维度;
●有冗余数据;
●查询效率可能会比较高;
●不用过多考虑正规化因素,设计维护较为简单
2.3.2.雪花模型
在实际应用中,随着事实表和维表的增加和变化,星形模式会产生多种衍生模式,包括星系模式、星座模式、二级维表和雪花模式。
雪花模式是对星形模式维表的进一步层次化,将某些维表扩展成事实表,这样既可以应付不同级别用户的查询,又可以将源数据通过层次间的联系向上综合,最大限度地减少数据存储量,因而提高了查询功能。
雪花模式的维度表是基于范式理论的,因此是界于第三范式和星形模式之间的一种设计模式,通常是部分数据组织采用第三范式的规范结构,部分数据组织采用星形模式的事实表和维表结构。在某些情况下,雪花模式的形成是由于星形模式在组织数据时,为减少维表层次和处理多对多关系而对数据表进行规范化处理后形成的。
雪花模式的优点是:在一定程度上减少了存储空间;规范化的结构更容易更新和维护。同样雪花模式也存在不少缺点:雪花模式比较复杂,用户不容易理解;浏览内容相对困难;额外的连接将使查询性能下降。在数据仓库中,通常不推荐“雪花化”。因为在数据仓库中,查询性能相对OLTP系统来说更加被重视,而雪花模式会降低数据仓库系统的性能。
总结一下雪花模型的特点:
●正规化;
●数据冗余少;
●有些数据需要连接才能获取,可能效率较低;
●规范化操作较复杂,导致设计及后期维护复杂。
实际应用中,可以采取上述两种模型的混合体。如:中间层使用雪花结构以降低数据冗余度,数据集市部分采用星型以方便数据提取及分析
3.前端分析应用模型
是指为数据挖掘和数据分析以及预测定义的数据模型,有数据库模型以及电子表模型。主流的产品有:
DB2 OLAP server
MS OLAP Analysis server
Hyperion Essbase OLAP server