第一章数据仓库基本概念及通用框架
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
站点A 局部数 据仓库
站点C 局部数 据仓库
全局数 据仓库
局部数 站点B 据仓库
局部数 站点D 据仓库
CH1
§2 数据仓库的通用框架 框架——把复杂的事物分为若干细小的易 于理解的构件的形式。 数据仓库研究中,常称为通用框架,或参
考框架。
最初,DW的通用框架被描述为: ⑴ 数据集合(从运行的DB中抽取); ⑵ 软件环境(供用户存取数据); ⑶ 应用程序及工具集合(用于复杂查
询)。
为了有助于 理解,并给出DW 实现过程中所需 的更为详细的信 息,对上述框架 进行了进一步细 化。
如,销售。
CH1
上述概念中涉及到的“主题”: 在一个较高管理层次上,对信息系统中
的数据按照某一具体的管理对象进行综合、 归类所形成的分析对象——基于信息管理的 角度;
是一些数据的集合,这些数据集合对分 析对象进行了比较完整的、一致的描述,这 种描述不仅涉及到数据自身,还涉及到数据 间的联系——基于数据组织的角度。
数 数据集
据 市/ 知
仓 识挖掘 应用工具
库库
数
据 数据集
库
市/ 知 识挖掘
应用工具
库
管理工具
CH1
4.虚拟数据仓库结构 虚拟数据仓库利用(描述了业务系统中
数据位置和抽取数据算法的)元数据直接从 业务系统中抽取查询的数据进行概括、聚合 操作后,将最终结果提供给用户。 [思考:优、缺点?]
业务系统数 据库
的体系结构。数据源中数据被按照同一标准抽 取到独立的数据仓库中,用户在使用时再根据 主题将数据仓库中的数据发布到数据集市中。 [思考:优、缺点?]
业务系统 数据库
数据 仓库
数据集 市1
数据集 市2
数据仓库查询 管理服务器
CH1
7.分布式数据仓库结构 各分公司具有相当大的独立性时,企业总
部设置一个全局数据仓库,分公司设置各自的 局部数据仓库。局部数据仓库主要存储各自的 未经转换的细节数据,全局数据仓库中主要存 储经过转换的综合数据。[思考:优缺点?]
CH1
2.DW与传统DB的比较
数据库
数据wenku.baidu.com库
数据内容 数据目标
当前值 面向业务操作程序、重复处理
历史的、存档的、归纳 的、计算的数据。 面向主题域、管理决策 分析应用
数据特性 动态变化、按字段更新
静态、不能直接更新、 只定时添加
数据结构
高度结构化、复杂、适合操作计 算
简单、适合分析
使用频率 高
中到低
③绕客组户进织一数步组据织所有相关数据——如,客户产品采购量、最后一 次(采落购在—时财—间务、系采统如购中何竞)争等组对 。手织产上品量述(数落在据外部(系往统中往)使、客用户多信誉维
数据库或关系数据库的方式进行组织)。
CH1
➢ 集成的
对分散在各处的数据源进行抽取、筛选、 清理、综合等加工工作,然后存放在数据仓 库中,可见,集成是建立DW的关键步骤。
CH1
➢ 集合性 事实上,“面向主题的”便要求DW以主
题的某种数据集合的形式存储数据,其形式 为以下三种之一:
多维数据库方式 关系数据库方式 多维数据库与关系数据库组合方式 显然,DW中,“集合”是否全面决定了 数据仓库应用范围的大小。
CH1
➢ 支持决策 建立数据仓库的目的就是支持决策,其
用户可以是高层/中层/基层管理者,他们可 以利用所提供的分析工具,发现DW数据中隐 含的商机,使得管理决策更加科学化。
数据访问量 每个事务只访问少量记录
对响应时间的 要求
以秒为单位计量
有的事务可能要访问大 量记录 以秒、分钟、甚至小时 为计量单位
CH1
3.数据仓库的概念结构 数据仓库的概念结构包含:数据源、数
据准备区、数据仓库数据库、数据集市/知识 挖掘库以及各种管理工具和应用工具。
业务系统 数据源
外部数 据源
数据准备区
删除过了时的数据;及时更新DW中的那 些概括数据。
为满足时变性进行的所有操作统称为数 据仓库的刷新。
CH1
➢ 非易失的 DW的非易失性指的是,数据一旦进入数
据仓库后,便不进行更新处理(但可以追加 新数据),并且将保持一个相当长的时间。
数据仓库→查询、分析 业务处理系统→随时记录发生的业务 因此,DW中,可以可以通过索引、预计 算等方式来提高查询效率。
CH1
因例此如:,数据仓库的该特性要求: ① 抽取主题 根据销售管理要考虑的问题(如:哪些产品销量大/利润高?哪
些客户采购量多?竞争对手的哪些产品对本企业构成威胁?),可
以抽取—出—“产品按”决、“策客户分”析为主过题程; 进行。 为了描述产品的销售活动,销售业务处理系统中一般包含以下
②数据界:产定品数订单据、产品销售明细、产品库存、客户等——在进行决 策分析过程中(如,哪些客户采购量多? ), 上述数据只有客户 数据是—可—用的,确其定它数所据仅抽用取于业的务主操作题;包含哪些数据。 然而,仅有“客户”数据还不足以完成对客户的分析,还要围
数据仓库查 询管理服务
器
CH1
5.数据集市结构
数据集市,或称为主题结构的数据仓库 是按照主题进行构思所形成的数据仓库,它 没有一个独立的数据仓库。系统的数据不存 储在同一数据仓库中,每个主题有自己的物 理存储区。[思考:优、缺点?]
业务系统数 据库
主题1 主题2
数据仓库 查询管理
服务器
CH1
6.单一数据仓库结构 将所有的主题都集中到一个大型数据库中
数据仓库的数据主要源于各个业务处理 系统,由于其用途各不相同,因此需上述处 理工作。
清理——把各个数据源的单位、内容、字长 等统一起来,消除字段名的同名异义、异名 同义等现象。
CH1
➢ 随时间变化的(时变性)
数据仓库中的数据,虽然不像业务处理 系统那样记载的是实时数据,但也要随着时 间的推移补充与主题相关的、变化了的数据 (快照),快照的时间间隔根据决策需求而 定(年/月/天)。此外还有:
第一章 数据仓库基本概念及通用框架
MIS的应用→海量信息→产生了与传统数 据库有很大差异的数据环境→ 如何从这些海 量数据中获取专门的知识→……
§1 基本概念 §2 数据仓库的通用框架
参考书
CH1
§1 基本概念 1.数据仓库的定义
数据仓库(DW,Data Warehouse)是 “一个面向主题的、集成的、随时间变化的、 非易失性数据的集合,用于支持管理层的决策 过程”。[William H.Inmon,1993] ➢ 面向主题的:对应某一个宏观分析领域,