数据仓库与数据挖掘教程(第2版)课后习题答案 第四章
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章作业
1.数据仓库的需求分析的任务是什么?P67
需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。
2.数据仓库系统需要确定的问题有哪些?P67、、
(1)确定主题域
a)明确对于决策分析最有价值的主题领域有哪些
b)每个主题域的商业维度是那些?每个维度的粒度层次有哪些?
c)制定决策的商业分区是什么?
d)不同地区需要哪些信息来制定决策?
e)对那个区域提供特定的商品和服务?
(2)支持决策的数据来源
a)那些源数据与商品的主题有关?
b)在已有的报表和在线查询(OLTP)中得到什么样的信息?
c)提供决策支持的细节程度是怎么样的?
(3)数据仓库的成功标准和关键性指标
a)衡量数据仓库成功的标准是什么?
b)有哪些关键的性能指标?如何监控?
c)对数据仓库的期望是什么?
d)对数据仓库的预期用途有哪些?
e)对计划中的数据仓库的考虑要点是什么?
(4)数据量与更新频率
a)数据仓库的总数据量有多少?
b)决策支持所需的数据更新频率是多少?时间间隔是多长?
c)每种决策分析与不同时间的标准对比如何?
d)数据仓库中的信息需求的时间界限是什么?
3.实现决策支持所需要的数据包括哪些内容?P68
(1)源数据(2)数据转换(3)数据存储(4)决策分析
4.概念:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。
特点:
(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。
(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。
(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。
(4)易于向数据仓库的数据模型(星型模型)转换。
5.用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;
用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;
若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。
6.数据库的概念模型设计主要采用E-R概念模型的设计方法。
数据仓库的概念模型设计主要采用E-R概念模型和面向对象的分析方法。
7 .图4.1所示的概念模型:商品和客户是两个主题,商品的销售信息等同于客户的购物信息,而每个商品具有本身的商品固有信息和商品号,还有就是商品的库存信息;客户具有自己的固有信息,还有就是客户号。
8.逻辑模型:计算机所支持的有E-R图转换成的数据模型,数据的逻辑结构
数据仓库的逻辑模型:星型模型
9.数据仓库的逻辑模型:用来构建数据仓库的数据库逻辑模型。
在数据库中,逻辑模型有关系、网状、层次,可以清晰的表示各个关系。
10.举例说明从数据仓库的概念模型到逻辑模型的转换?
答:
概念模型是对每个决策与属性及主体之间的关系用E-R图来表示的,E-R图能有效的将现实的世界表示成信息世界,他利于向计算机的表示形式进行转化。而逻辑模型设计是需求分析主题域,将概念模型E-R图转化为逻辑模型,即计算机表示的数据模型,数据仓库的数据模型一般采用星型模型。例如概念模型设计时,确定了商品和客户两个主题。其中商品对于商场来说是更基本的业务对象,商品的业务有销售、采购、库存。其中商品销售时最重要的业务。它是进行决策分析的重要方面。星型模型的设计如下:
确定决策分析需求,数据仓库是面向决策分析的,决策需求是建立多维数据模型的依据。例如分析销售额趋势,对商品的销售量,促销手段对销售的影响。
从需求中识别出事实,从决策主题确定的情况下,选择或设计反映决策主体业务表。例如在商品主题中,以销售数据为事实表。
确定维,确定影响事实的各种因素,对销售业务的维一般的包括商店,地区,部门,城市,时间,商品等。
确定数据汇总的水平,存在于数据仓库中的数据包括汇总的数据。数据仓库中对数据不同粒度的综合形成了多层次的数据结构。例如对于时间维,可以用年月日不同水平进行汇总。
设计事实表和维表,设计事实表和维表的属性,再事实表中应该记录哪些属性是有维表的数量来决定的,一般来说,与事实表相关的维表的数量应该适中,太少的维表会影响查询的质量,用户得不到需要的数据,太多的数据会影响查询的速度。
11. 在数据仓库中为什么考虑数据的粒度层次划分?
答:所谓的粒度是指数据仓库宗数据单元的详细程度和级别,数据越详细,粒度越小,层次级别九月低;数据综合度越高,粒度越大,层次级别就越高。在传统事务处理系统中,对数据的处理,操作都是再详细数据级别上的,即最低的粒度。但是数据仓库环境中主要是分析处理,粒度的划分键直接影响数据仓库中数据量以及所适合的查询类型。一般需要将数
据划分为详细数据,轻度综合,高度综合三级或更多及粒度。不同粒度级别的数据用于不同类型的分析处理。力度的划分是数据仓库设计工作的一项重要内容,粒度划分是否适当影响数据仓库性能的一个重要方面。
12.数据仓库的记录系统包括什么内容,举例说明?
答:数据仓库中的数据来源与多个已经存在的事务处理系统外部系统,由于各个原系统的数据是面向应用的,不能完整地描述企业中的主题域,并且多个数据源的数据存在者许多不一致,因此要从数据仓库的概念模型出发,结合主题的多个表的关系模式,需要确定现有系统的哪些数据能较好地适应数据的需求。这就要求选择最完整的、最及时的、最准确的、最接近外部实体源的数据作为记录系统,同时这些数据所在的表的关系模式接近于构成主体的多个标的关系模式。记录系统的定义要记入数据仓库的元数据。
13、什么是物理模型?数据仓库的物理模型设计包括哪些工作?
答:物理模型就是逻辑模型在计算机中的物理结构,其中包括存储结构和存取方法;数据仓库的物理模型设计的工作包括:估计存储容量、确定数据的存储计划、确定索引策略、确定数据存放位置和确定存储分配。
14、为什么数据仓库物理模型设计中要建立汇总计划和确定数据分区方案?
答:如果数据仓库只存储最小粒度的数据,每次查询遍历所有的明细记录,然后生成汇总信息,这会造成很大的开销,因此要建立汇总计划;
分区可以将表分解成易于管理的小表,对事实表的分区医保采用垂直分区或水平分区,这样使得大表被分成小表,因此要建立分区方案。
15、说明图4.8中逻辑模型与物理模型的区别。
答:逻辑模型表现出各数据元素间直接或间接的关系,并体现主题域的结构,而且说明各个表所包含的元素。而物理模型要体现在计算机中的物理结构,所以有各个表元素的类型和长度。在图4.8中,产品维表的主键为产品键,我们只能在逻辑模型中得到这个信息,而在物理模型中,产品键为integer类型,长度为10,这是在计算机中的存储结构。
16.概念模型:E-R图
逻辑模型:星型模型
物理模型:存储结构、索引、数据存放位置、存储分配。
17.(1)位索引技术
①Bit-Wise索引技术
②B-Tree索引技术
(2)表示技术
(3)广义索引
18.因为B-Tree索引增加了在数据仓库中构造和维护索引的代价;
B-Tree不适合复杂查询
19、数据仓库中采用标识技术有什么好处。
答:使用标准的数据库技术来储存数据仓库是非常昂贵的。较好的替代方法是用基于标