数据仓库与数据挖掘课后答案
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.非频繁项集的超集有可能是频繁的。
参考答案:错误2.决策树中不包含以下哪种节点。
参考答案:外部节点(external node)3.数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。
数据源可能涉及多个数据库、数据立方体或一般文件。
参考答案:正确4.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
参考答案:正确5.若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:参考答案:1.9766.朴素贝叶斯算法能够解决特征之间有相关性的问题。
参考答案:错误7.OLAP技术的核心是:参考答案:多维分析8.假定某属性的最小与最大值分别为8000元和14000元。
要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:参考答案:0.7679.后验概率P(H|X)表示条件X下H的概率。
参考答案:正确10.只要有两个频繁3项集,就一定能够生成一个候选4项集。
参考答案:错误11.先验概率是根据历史资料或主观估计的方法得到的概率。
参考答案:正确12.公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。
现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:参考答案:0.71413.数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。
参考答案:正确14.数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。
参考答案:正确15.假设吸烟的本科生比例为15%,而吸烟的研究生占23%。
如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?参考答案:0.27716.决策树构建之后,为了避免过度拟合,需要对树进行剪枝。
数据仓库与数据挖掘教程(第2版)课后习题答案 第二章
数据仓库与数据挖掘教程(第2版)课后习题答案第二章1. 什么是数据仓库?它与传统数据库有什么不同?答:数据仓库是一个面向主题、集成、稳定、可学习的数据集合,用于支持企业决策制定和决策支持系统。
与传统数据库相比,数据仓库更注重数据的整合和大数据的处理能力,以支持更高级别的数据分析和决策。
2. 什么是元数据?有哪些类型?答:元数据指描述数据仓库中数据的数据,用于描述数据的含义、格式、内容、质量、来源、使用和存储等方面的信息。
元数据有三种类型:技术元数据、业务元数据和操作元数据。
3. 数据仓库的架构有哪些组成部分?请简述各组成部分的作用。
答:数据仓库的架构主要包括数据源、数据抽取、清理和转换、存储和管理、元数据管理、查询和分析等几个组成部分。
- 数据源:指数据仓库的数据来源,可以是事务处理系统、外部数据源、第三方提供商等。
- 数据抽取、清理和转换:将数据从各种不同的来源抽取出来并转化为简单、标准的格式,以便进行加工和分析。
- 存储和管理:将经过抽取、转换和清洗后的数据存储在数据仓库中并进行管理,查找、更新和删除等操作。
- 元数据管理:对数据仓库中的元数据进行管理,并将其存储在元数据存储库中。
- 查询和分析:通过各种查询和分析工具来进行数据挖掘、分析和报告。
4. 请列出数据仓库中的三种主要数据类型。
答:数据仓库中的三种主要数据类型包括事实数据、维度数据和元数据。
5. 请列出数据仓库的三种不同的操作类型。
答:数据仓库的三种不同的操作类型包括基础操作、加工操作和查询操作。
6. 数据挖掘的定义是什么?答:数据挖掘是一种通过分析大量数据来发现有意义模式、趋势和关联的过程。
它是既包含统计学、机器学习和数据库技术的交叉学科,又包含更广泛的知识和业务领域。
7. 请列出数据挖掘中的四个主要任务。
答:数据挖掘中的四个主要任务包括描述性数据挖掘、预测性数据挖掘、关联数据挖掘和分类和聚类。
8. 数据仓库中经常使用OLAP分析方式,您了解OLAP是什么吗?答: OLAP是一种面向主题的数据分析方式,可以帮助用户对快速变化的数据进行多维分析和决策支持。
数据仓库与数据挖掘(陈志泊)课后习题答案
数据仓库与数据挖掘习题答案第1章数据仓库的概念与体系结构1. 面向主题的,相对稳定的。
2. 技术元数据,业务元数据。
3. 联机分析处理OLAP。
4. 切片(Slice),钻取(Drill-down和Roll-up等)。
5. 基于关系数据库。
6. 数据抽取,数据存储与管理。
7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。
8. 可更新的,当前值的。
9. 接近实时。
10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。
11. 答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点包含以下几个方面:(1)面向主题。
操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。
主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。
(2)集成的。
面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。
而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。
也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。
(3)相对稳定的。
操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。
数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。
数据仓库与数据挖掘课后答案
Group 4 Chapter1-3CH11.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用来决策分析。
2.从数据库发展到数据仓库的原因是什么?答:①数据太多,信息贫乏。
②异构环境数据的转换和共享。
③利用数据进行事务处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同答:数据库(DB)数据仓库(DW)面向应用面向主题数据是详细的数据是综合的和历史的保持当前数据保存过去和现在的数据数据是可更新的数据不更新对数据操作是重复的对数据的操作是启发式的操作需求是事先可知的操作需求是临时决定的一个操作存取一个记录一个操作存取一个集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询基本是原始数据查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算有很多复杂的计算支持事务处理支持决策分析4. 答:Oltp 联机事务处理,就是我们通常所说的关系型数据库,记录了实时的增删改查数据。
Olap 联机分析处理,是数据仓库的核心,是对oltp的历史数据进行加工,分析处理,用于处理商业智能,决策支持等重要的决策信息。
5.答:oltp是用户数据可以立即传送到计算中心进行处理,并在很短时间内给出处理结果。
它主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。
事务处理量大,要求多个并行处理,事务处理内容比较简单切重复率高。
大量的数据操作主要涉及的是一些增删改查询等操作,每次操作的数据量不打且多为当前的数据。
Oltp处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。
6.答:1.oltp 是明细的数据,olap 是汇总数据2.oltp 记录实时的数据,olap 包含2-3年历史数据3.oltp 可以进行增删改查操作,olap 只支持查询,但周期性刷新。
4.oltp一次性处理的数据量少,olap一次处理的数据量大5.oltp对响应时间要求高,olap响应时间合理6.oltp面向应用,事务驱动,olap面向分析,分析驱动7. 数据库中数据字典包括哪些内容?P4-5答:数据字典是指对中举的数据项、数据结构、数据流、数据存储、和处理过程8.元数据的定义是什么?P5答:元数据为关于数据的数据(data about data)。
(完整word版)数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)
第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
数据仓库与数据挖掘教程(第2版)陈文伟版课后答案
第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据仓库和数据挖掘的结合对支持决策会起更大的作用。
数据仓库与数据挖掘教程(第2版)课后习题答案 第四章
第四章作业1.数据仓库的需求分析的任务是什么?P67需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。
概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。
2.数据仓库系统需要确定的问题有哪些?P67、、(1)确定主题域a)明确对于决策分析最有价值的主题领域有哪些b)每个主题域的商业维度是那些?每个维度的粒度层次有哪些?c)制定决策的商业分区是什么?d)不同地区需要哪些信息来制定决策?e)对那个区域提供特定的商品和服务?(2)支持决策的数据来源a)那些源数据与商品的主题有关?b)在已有的报表和在线查询(OLTP)中得到什么样的信息?c)提供决策支持的细节程度是怎么样的?(3)数据仓库的成功标准和关键性指标a)衡量数据仓库成功的标准是什么?b)有哪些关键的性能指标?如何监控?c)对数据仓库的期望是什么?d)对数据仓库的预期用途有哪些?e)对计划中的数据仓库的考虑要点是什么?(4)数据量与更新频率a)数据仓库的总数据量有多少?b)决策支持所需的数据更新频率是多少?时间间隔是多长?c)每种决策分析与不同时间的标准对比如何?d)数据仓库中的信息需求的时间界限是什么?3.实现决策支持所需要的数据包括哪些内容?P68(1)源数据(2)数据转换(3)数据存储(4)决策分析4.概念:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。
特点:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。
(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。
(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。
(4)易于向数据仓库的数据模型(星型模型)转换。
5.用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。
数据仓库与数据挖掘教程(第2版)课后习题答案第七章
数据仓库与数据挖掘教程(第2版)课后习题答案第七章第七章作业1.信息论的基本原理是什么?一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。
信息论把通信过程看做是在随机干扰的环境中传递信息的过程。
在这个通信模型中,信息源和干扰(噪声)都被理解为某种随机过程或随机序列。
在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,也不可能判断信源会处于什么样的状态。
这种情形就称为信宿对于信源状态具有不确定性,而且这种不确定性是存在于通信之前的,因而又叫做先验不确定性。
在通信后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。
如果干扰很小,不会对传递的信息产生任何可察觉的影响,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。
但是,在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。
因此,先验不确定性不能全部被消除, 只能部分地消除。
换句话说,通信结束之后,信宿仍具有一定程度的不确定性。
这就是后验不确定性。
2.学习信道模型是什么?学习信道模型是信息模型应用于机器学习和数据挖掘的具体化。
学习信道模型的信源是实体的类别,采用简单“是”、“非”两类,令实体类别U 的值域为{u1,u2},U 取u1表示取“是”类中任一例子,取u2表示取“非”类中任一例子。
信宿是实体的特征(属性)取值。
实体中某个特征属性V ,他的值域为{v1,v2……vq}。
3.为什么机器学习和数据挖掘的分类问题可以利用信息论原理?信息论原理是数据挖掘的理论基础之一。
一般用于分类问题,即从大量数据中获取分类知识。
具体来说,就是在已知各实例的类别的数据中,找出确定类别的关键的条件属性。
求关键属性的方法,即先计算各条件属性的信息量,再从中选出信息量最大的属性,信息量的计算是利用信息论原理中的公式。
4自信息:单个消息ui 发出前的不确定性(随机性)称为自信息。
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.假设数据挖掘的任务是将如下8个点(用(x,y)代表位置)聚类为3个簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是欧式距离。
假设初始选择A1,B1和C1分别为每个聚类的中心,用K-平均算法来给出在第一次循环执行后的三个聚类中心:答案:(2,10),(6,6),(1.5,3.5)2.设训练样本集包含{ID,收入(万元),婚否,爱旅游}四个特征,8条记录如表所示,采用C4.5算法进行连续属性划分,请问“收入”属性具有几种划分可能?ID 收入婚否爱旅游1 2.5 否否2 12 否是3 3 否否4 3.2 是是5 4 否否6 4.8 否否7 6.8 是是8 9.8 否是答案:73.设训练样本集包含{ID,收入(万元),婚否,爱旅游}四个特征,8条记录如表所示,采用C4.5算法进行连续属性划分,对于“收入”属性的划分“2.75”,计算其信息增益率:ID 收入婚否爱旅游1 2.5 否否2 12 否是3 3 否否4 3.2 是是5 4 否否6 4.8 否否7 6.8 是是8 9.8 否是答案:0.2554.在下表中给定的样本上进行合并(凝聚)层次聚类,初始簇{1},{2},{3},{4},{5},{6},{7},{8}.假定算法的终止条件为3个簇,则此3个簇为:序号属性1属性2序号属性1属性21 2 10 5 7 52 2 5 6 6 43 84 7 1 24 5 8 8 4 9答案:最后3个簇为:{2,7},{1,4,8},{3,5,6}5.简单的将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作答案:划分聚类6. 1. 数据库有5个事物,设min_sup=60%,min_conf=80%。
TID 购买的商品I100 {M,O,N,K,E,Y}I200 {D,O,N,K,E,Y}I300 {M,A,K,E}I400 {M,U,C,K,Y}I500 {C,O,O,K,I,E}使用Apriori算法找出所有频繁项集包括:答案:频繁2项集:{M,K},{O,K},{O,E},{K,E},{K,Y}频繁3项集:{O,K,E}频繁1项集:{M},{O},{K},{E},{Y}7.数据库有5个事物,设min_sup=60%,min_conf=80%。
数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年
数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年1.假设属性income的最大最小值分别是12000元和98000元。
利用最大最小规范化的方法将属性的值映射到0至1的范围内。
对属性income的73600元将被转化为:()参考答案:0.7162.数据的可视化是将数据以各种图表的形式展现在用户的面前,使用户能观察数据,并在较高的层次上找出数据间可能的关系。
参考答案:正确3.数据挖掘和可视化都是知识提取的方式。
参考答案:正确4.面向应用场景的可视化交互式数据挖掘方法是以数据挖掘算法和模型为主,并不针对具体应用场景或数据类型参考答案:错误5.将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务?()参考答案:数据预处理6.数据仓库的数据ETL过程中,ETL软件的主要功能包括()参考答案:数据抽取_数据加载_数据转换7.数据挖掘的主要任务是从数据中发现潜在规则,从而能更好的完成描述数据、预测数据的任务。
参考答案:正确8.传统数据仓库包括数据仓库数据库、数据抽取/转换/加载、元数据、访问工具、数据集市、和信息发布系统七个部分组成。
参考答案:数据仓库管理9.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
参考答案:错误10.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象。
在下一次训练时,应该采取下列什么措施?()参考答案:增加特征11.下面哪一项关于CART的说法是错误的()参考答案:CART输出变量只能是离散型。
12.以下哪种方法不是常用的数据约减方法()参考答案:关联规则挖掘13.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92,204, 215 使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15在第几个箱子内? ()参考答案:第二个14.下表是一个购物篮,假定支持度阈值为40%,其中()是频繁闭项集。
数据仓库与数据挖掘教程(第2版)课后习题答案第五章
数据仓库与数据挖掘教程(第2版)课后习题答案第五章第五章作业1.数据仓库的两类用户有什么本质的不同?P96数据仓库的用户有两类:信息使用者和探索者。
信息使用者是使用数据仓库的大量用户,信息使用者以一种可以预测的、重复性的方式使用数据仓库平台。
探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。
2.数据仓库的信息使用者与数据库的信息使用者有什么不同?数据库的信息使用者主要关心当前某一个时间段内的数据,而数据仓库的信息使用者关心企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
3.1非规格化规范化的作用是产生一种完全没有数据冗余的设计方法。
但是,有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。
2创建数据阵列创建数据阵列,将相关类型的数据(如:1月、2月、3月等月份中的数据)存储在一起,提高访问效果。
3预连接表格一个公用键和共同使用的数据将表格合并在一起。
共享一个公用键,可以将多个表格合并到一个物理表格中。
这样做可以很大程度的提高数据访问效率。
4预聚集数据根据“滚动概括”结构来组织数据。
当数据被输入到数据仓库中时,以每小时为基础存储数据。
在这一天结束时,以每天为基础存储累加每小时的数据。
在一周结束时,以每周为基础存储累加每天的数据。
月末时,则以每月为基础存储累加每周的数据。
5聚类数据将不同类型的数据记录放置在相同的物理位置。
这为用户查看这些记录,可以在同一地点找到它们,提高查询效率。
6压缩数据压缩可以使可读取的数据量极大。
定期净化数据定期删除数据仓库中不需要的数据,可以为每个用户提高性能。
7合并查询如果查询定期发生,那么可以通过把这些查询合并到同一个表格中,从而节省大量资源。
4. 增加一些数据冗余,相当于增加了某些相同的数据,这些数据往往是我们很需要的或者是经常被使用的,由于这些数据所占总量的比例增加,所以被访问的概率增加,从而减少了查询时间,提高了查询速度。
数据仓库与数据挖掘技术-试题答案
数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理?数据预处理主要包括哪些工作(需要对数据进行哪些方面预处理)?(1)现实世界的数据是杂乱的,数据多了什么问题会出现。
数据库极易受到噪音数据(包含错误或孤立点)、遗漏数据(有些感兴趣的属性缺少属性值或仅包含聚集数据)和不一致数据(在编码或者命名上存在差异)的侵扰,因为数据库太大,常常多达几G或更多。
进行数据预处理,提高数据质量,从而提高挖掘结果质量。
(2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将数据由多个源合并成一致的数据存储,如数据仓库或数据方;数据交换:规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性;数据归约:通过聚集、删除冗余特征或聚类等方法来压缩数据。
数据离散化:属于数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要。
2. 什么叫有监督学习?什么叫无监督学习?) 是通过发现数据属性和类别属性之间的关联模式,并通监督学习(Supervised learning或归纳过利用这些模式来预测未知数据实例的类别属性。
监督学习又称为分类Classification。
学习Inductive Learning无监督学习(Unsupervised learning)即聚类技术。
在一些应用中,数据的类别属性是缺失的,用户希望通过浏览数据来发现其的某些内在结构。
聚类就是发现这种内在结构的技术。
3.什么是数据仓库的星形模式?它与雪花模式有何不同?雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。
这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。
然而,与巨大的事实表相比,这种空间的节省可以忽略。
此外,由于执行查询更多的连接操作,雪花结构可能降低浏览的性能。
这样系统的性能可能受影响。
因此,在数据仓库设计中,雪花模式不如星形模式流行。
二、写出伪代码三答:(1)所有频繁项集为:[E,K,O] [K,M] [K,Y] (2) 关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.01.0[M] -> [K][Y] -> [K] 1.0答:a)决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。
数据仓库与数据挖掘教程(第2版)课后习题答案 第三章
第三章作业1.联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么。
P40联机分析处理是共享多维信息的快速分析。
它体现在四个特征:(1)快速性(2)可分析性(3)多维性(4)信息性2.OLAP准则中的主要准则有哪些?P41(1)多维概念视图(2)透明性(3)可访问性(4)一直稳定的报表性能(5)客户/服务器体系结构(6)维的等同性(7)动态的系数矩阵处理(8)多用户支持能力(9)非限定的跨维操作(10)直观的数据操作(11)灵活的报表生成(12)不受限制的维和聚集层次3. 什么是维?关系数据库是二维数据吗?如何理解多维数据?P43维是人们观察数据的特定角度。
关系数据库不是二维数据,只是通过二维关系表示了数据的多维概念。
多维数据就是从多个特定角度来观察特定的变量。
4.MDDB(Multi Dimensional Database, 多维数据库)是以多维的方式组织数据,即以维作为坐标系,采用类似于数组的形式存储数据。
RDBMS(relational database management system,关系型数据库管理系统)通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据MDDB特点:1.数据库中的元素具有相同的数值2.多维数据库表达清晰,3.占用存储少RDBMS的特点:1.数据以表格的形式出现2.每行为各种记录名称3.每列为记录名称所对应的数据域4.许多的行和列组成一张表单5.若干的表单组成database5.1.数据存取速度ROLAP服务器需要将SQL语句转化为多维存储语句,临时“拼合”出多维数据立方体。
因此,ROLAP的响应时间较长。
MOLAP在数据存储速度上性能好,响应速度快。
2.数据存储的容量ROLAP使用的传统关系数据库的存储方法,在存储容量上基本没有限制。
MOLAP通常采用多平面叠加成立体的方式存放数据。
当数据量超过操作系统最大文件长度时,需要进行数据分割。
多维数据库的数据量级难以达到太大的字节级。
数据仓库与数据挖掘课后习题答案
数据仓库与数据挖掘第一章课后习题一:填空题1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。
2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。
3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。
4)元数据是“关于数据的数据”。
根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。
5)数据处理通常分为两大类:联机事务处理和联机事务分析6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。
7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。
8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。
9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。
10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。
二:简答题1)什么是数据仓库?数据仓库的特点主要有哪些?数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用2)简述数据挖掘的技术定义。
从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。
3)什么是业务元数据?业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据4)简述数据挖掘与传统分析方法的区别。
本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。
数据仓库与数据挖掘智慧树知到课后章节答案2023年下济南大学
数据仓库与数据挖掘智慧树知到课后章节答案2023年下济南大学济南大学绪论单元测试1.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
()A:错 B:对答案:对第一章测试1.图挖掘技术在社会网络分析中扮演了重要的角色。
()A:对 B:错答案:对2.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
( )A:对 B:错答案:对3.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。
()A:对 B:错答案:对4.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A:建模描述B:根据内容检索C:寻找模式和规则D:预测建模答案:预测建模5.以下哪些学科和数据挖掘有密切联系?( )A:计算机组成原理B:矿产挖掘C:统计D:人工智能答案:统计;人工智能第二章测试1.下面哪个不属于数据的属性类型:( )A:区间B:序数C:相异D:标称答案:相异2.在上题中,属于定量的属性类型是:( )A:序数B:区间C:相异D:标称答案:区间3.只有非零值才重要的二元属性被称作:( )A:计数属性B:对称属性C:离散属性D:非对称的二元属性答案:非对称的二元属性4.以下哪种方法不属于特征选择的标准方法: ( )A:嵌入B:包装C:过滤D:抽样答案:抽样5.离群点可以是合法的数据对象或者值。
()答案:对第三章测试1.下面哪些属于可视化高维数据技术 ( )A:星形坐标B:平行坐标系C:矩阵D:Chernoff脸E:散布图答案:星形坐标;平行坐标系;矩阵;Chernoff脸2.下面哪种不属于数据预处理的方法? ( )A:聚集B:离散化C:变量代换D:估计遗漏值答案:估计遗漏值3.联机分析处理包括以下哪些基本分析功能? ( )A:转轴B:聚类D:分类E:切片答案:转轴;切块;切片4.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。
数据仓库与数据挖掘教程(第2版)课后习题答案 第六章
第六章作业1.数据挖掘与知识发现两个概念有什么不同?P116知识发现被认为是从数据中发现有用知识的整个过程。
数据挖掘被认为是知识发现过程中的一个特定步骤,它用专门算法从数据中抽取模式。
2.知识发现过程由哪三部分组成?每部分的工作是什么?P116KDD过程可以概括为三个子步骤:数据准备、数据挖掘和结果的解释和评价。
数据准备:数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换。
数据选取的目的是确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据。
数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型的数据,以便于符号归纳;或是把离散型的转换为连续值型的,以便于神经网络归纳)等。
当数据开采的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时完成了。
数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数。
数据挖掘:数据挖掘是利用一系列方法或算法从数据中获取知识。
按照数据挖掘任务的不同,数据挖掘方法分类分为聚类、分类、关联规则发现等。
结果的解释和评价:数据挖掘阶段发现的模式,经过用户或机器的评估,可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户要求,这时则需要让整个发现过程退回到发现阶段之前,如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数值,甚至换一种挖掘算法(如当发现任务是分类时,有多种分类方法,不同的方法对不同的数据有不同的效果)。
另外,由于KDD最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“if...then...”规则。
3.数据挖掘的对象有哪些?他们各自的特点是什么?P1181.关系数据库特点:(1)数据动态性(2)数据不完全性(3)数据噪声(4)数据冗余性(5)数据稀疏性(6)海量数据2.文本特点:(1)关键词或特征提取(2)相似检索(3)文本聚类(4)文本数据3.图像与视频数据特点:(1)图像与视频特征提取(2)基于内容的相似检索(3)视频镜头的编辑与组织4.web数据(1)异构数据集成和挖掘(2)半结构化数据模型抽取4.1).关联分析若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。
数据仓库与数据挖掘教程(第2版)课后习题答案第八章
第七章作业第七章作业说明等价关系、等价类以及划分的定义。
说明等价关系、等价类以及划分的定义。
等价关系:对于∀a ∈A (A 中包含一个或多个属性),A ⊆R ,x ∈U ,y ∈U ,他们的属性值相同,即fa (x )= b (y )成立,称对象x 和y 是对属性A 的等价关系。
的等价关系。
等价类:在U 中,对属性集A 中具有相同等价关系的元素集合成为等价关系IND (A )的等价类。
的等价类。
划分:在U 中对属性A 的所有等价类形成的划分表示为A={Ei | Ei=[xi]a ,i=1,2,… }说明集合X 的上、下近似关系定义。
的上、下近似关系定义。
下近似定义:下近似定义:任一一个子集X ⊆U ,属性A 的等价类Ei=[x]A ,有:A-(X )=U{Ei|Ei ∈A ∧Ei Ei⊆⊆X} 或A-(X )={x|[x]A ={x|[x]A⊆⊆X} 表示等价类Ei=[x]A 中的元素x 都属于X ,即∀x ∈A-(X ),则x一定属于X 。
上近似定义:上近似定义:任一一个子集X ⊆U ,属性A 的等价类Ei=[x]A ,有:A-(X )=U{Ei|Ei ∈A ∧Ei ∩X ≠∅}或A-(X )={x|[x]A ∩X ≠∅} 表示等价类Ei=[x]A 中的元素x 可能属于X ,即∀x ∈A-(X ),则x 可能属于X ,也可能不属于X 。
说明正域、负域和边界的定义。
说明正域、负域和边界的定义。
全集U 可以划分为三个不相交的区域,即正域(pos ),负域(neg )和边界(bnd ): POSA(X)= A-(X )NEGA(X)=U- A-(X ) BNDA(X) = A-(X )-A-(X )4.粗糙集定义:粗糙集定义:若 ,即,即 , 即边界为空,称X 为A 的可定义集;的可定义集; 否则X 为A 不可定义的,不可定义的,即 ,称X 为A 的Rough 集(粗糙集)集(粗糙集) 确定度定义:确定度定义: ()A U A X A X X U a ----=其中U 和A X A X ---分别表示集合U 、(AX AX ---)中的元素个数)中的元素个数5. 在信息表中根据等价关系,我们可以用等价类中的一个对象(元组)来代表整个等价类,这实际上是按纵方向约简了信息表中数据。
《数据仓库与数据挖掘技术》作业参考答案
关联规则 {面包 }→ {花生酱}、{ 花生酱}→ {面包 }均是强关联规则。
2、参考上题作答
3、解答
(1)每个类的先验概率 P(Playbasketball=”Yes”)=8/12 P(Playbasketball=”No”)=4/12 (2)为计算 P(X/Ci),i=1,2,计算下面的条件概率: P(Outlook=”sunny ”|Playbasketball=”Yes”)=1/8 P(Outlook=”sunny ”|Playbasketball=”No”)=3/4 P(Temperature=”cool”|Playbasketball=”Yes”)=3/8 P(Temperature=”cool”|Playbasketball=”No”)=1/4 P(Humidity=”high”|Playbasketball=”Yes”)=3/8 P(Humidity=”high”|Playbasketball=”No”)=3/4 P(Wind=”strong ”|Playbasketball=”Yes”)=2/8 P(Wind=”strong ”|Playbasketball=”No”)=2/4 (3)使用以上概率,可以得到: P(X|Playbasketball=”yes”)=(1/8)*(3/8)*(3/8)*(2/8)=0.004395 P(X|Playbasketball=”No”)=(3/4)*(1/4)*(3/4)*(2/4)=0.070313 P(X|Playbasketball=”yes”)P(Playbasketball=”yes”)=0.004395*(8/12)=0.00293 P(X|Playbasketball=”No”) P(Playbasketball=”No”)=0.070313*(4/12)=0.023438 (4)因此,对于样本 X,朴素贝叶斯分类预测 Playbasketball=”No”。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章数据仓库的概念与体系结构1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3.数据处理通常分成两大类:联机事务处理OLTP和联机分析处理OLAP。
4.多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片(Slice)、切块(dice)、钻取(Drill-down 和Roll-up 等)和旋转(pivot)等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5. ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6.数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。
8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
10.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。
11.什么是数据仓库?数据仓库的特点主要有哪些?答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点包含以下几个方面:(1)面向主题。
操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。
主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。
(2)集成的。
面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。
而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。
也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。
(3)相对稳定的。
操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。
数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。
(4)反映历史变化。
操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。
数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。
12. 简述数据仓库4种体系结构的异同点及其适用性。
答:(1)两层架构(Generic Two-Level Architecture)。
(2)独立型数据集市(Independent Data Mart)。
(3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。
(4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。
13.答:数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。
在数据抽取方面,未来的技术发展将集中在系统集成化方面。
它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。
在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。
在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。
在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web 技术紧密结合。
按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。
数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备。
14. 答:(1)IBM 公司提供了一套基于可视化数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse (VW),Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。
其中,VW 是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。
Essbase/DB2 OLAP Server 支持“维”的定义和数据装载。
Essbase/DB2 OLAP Server 不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP 和MOLAP)混合的HOLAP 服务器,在Essbase 完成数据装载后,数据存放在系统指定的DB2 UDB 数据库中。
它的前端数据展现工具可以选择Business Objects 的BO、Lotus 的Approach、Cognos 的Impromptu 或IBM 的Query Management Facility;多维分析工具支持Arbor Software 的Essbase 和IBM(与Arbor 联合开发)的DB2 OLAP 服务器;统计分析工具采用SAS 系统。
(2)Oracle 数据仓库解决方案主要包括Oracle Express 和Oracle Discoverer 两个部分。
Oracle Express 由四个工具组成:Oracle Express Server 是一个MOLAP(多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent 通过CGI 或Web 插件支持基于Web 的动态多维数据展现;Oracle Express Objects 前端数据分析工具(目前仅支持Windows 平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容Visual Basic 语法的语言,支持OCX 和OLE;Oracle Express Analyzer 是通用的、面向最终用户的报告和分析工具(目前仅支持Windows 平台)。
Oracle Discoverer 即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。
在Oracle 数据仓库解决方案的实施过程中,通常把汇总数据存储在Express 多维数据库中,而将详细数据存储在Oracle 关系数据库中,当需要详细数据时,Express Server 通过构造SQL 语句访问关系数据库。
(3)Microsoft 将OLAP 功能集成到SQL Server 数据库中,其解决方案包括BI 平台、BI 终端工具、BI 门户和BI 应用四个部分,如图1.1。
① BI 平台是BI 解决方案的基础,包括ETL 平台SQL Server 2005 Integration Service(SSIS)、数据仓库引擎SQL Server 2005 RDBMS 以及多维分析和数据挖掘引擎SQL Server 2005 Analysis Service、报表管理引擎SQL Server 2005 Reporting Service。
② BI 终端用户工具,用户通过终端用户工具和Analysis Service 中的OLAP 服务和数据挖掘服务进行交互来使用多维数据集和数据挖掘模型,终端用户通常可使用预定义报表、交互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。
③ BI 门户提供了各种不同用户访问BI 信息的统一入口。
BI 门户是一个数据的汇集地,集成了来自不同系统的相关信息。
用户可以制定个性化的个人门户,选择和自己相关性最强的数据,提高信息访问和使用的效率。
④ BI 应用是建立在BI 平台、BI 终端用户工具和BI 统一门户这些公共技术手段之上的满足某个特定业务需求的应用,例如零售业务分析、企业项目管理组合分析等。
第2章数据仓库的数据存储与处理1. 企业级数据仓库(EDW)。
2. 单一的,详细的。
3. 最初填充数据仓库。
4. 越高,越低,越多。
5. 提高,预处理,事实表。
6. 自然键(Natural Key),代理键(Surrogate Key)。
7. 星型模式。
8. 早期细节级,轻度综合级。
9. 答:简单地说,数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库(EDW)或操作型数据存储区(ODS),在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引入导出数据层,如形成满足各类分析需求的数据集市。
10. 答:数据的ETL 过程就是负责将操作型数据转换成调和数据的过程。
如上面的2.3.1 小节所述,这两种数据具有明显的区别,因此,数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。
在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库(EDW)首次创建时的原始加载;二是接下来的定期修改,以保持EDW 的当前有效性和扩展性。
整个过程由四个步骤组成:抽取、清洗、转换、加载和索引。
事实上,这些步骤可以进行不同的组合,如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。
通常,在清洗过程中发现的拒绝数据信息会送回到源操作型业务系统中,然后将数据在源系统中加以处理,以便在以后重新抽取。
11. 答:在星模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。
位于星形中心的实体是事实表,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。