数据仓库与数据挖掘习题
数据仓库与数据挖掘习题.doc

数据仓库与数据挖掘习题. .数据仓库与数据挖掘习题1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。
这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big- (a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。
这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们累积的GPA(学分平均)。
描述你要选取的结构。
该结构的每个成分的作用是什么?1.4 数据仓库和数据库有何不同?它们有那些相似之处?1.5简述以下高级数据库系统和应用:面向对象数据库,空间数据库,文本数据库,多媒体数据库和WWW。
1.6 定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。
使用你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。
1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?1.8 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。
它需要一种不同于本章列举的数据挖掘技术吗?1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。
1. 10 描述关于性能问题的两个数据挖掘的挑战。
2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。
数据仓库与数据挖掘考试习题汇总

数据仓库与数据挖掘考试习题汇总第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
数据仓库与数据挖掘试题

武汉大学计算机学院20XX级研究生“数据仓库和数据挖掘”课程期末考试试题要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。
每张答题纸都要写上姓名和学号。
一、单项选择题(每小题2分,共20分)1. 下面列出的条目中,()不是数据仓库的基本特征。
BA.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的2. 数据仓库是随着时间变化的,下面的描述不正确的是()。
A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容CD.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合3. 以下关于数据仓库设计的说法中()是错误的。
AA.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型C.在进行数据仓库主题数据模型设计时要强调数据的集成性D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域4. 以下关于OLAP的描述中()是错误的。
AA.一个多维数组可以表示为(维1,维2,…,维n)B.维的一个取值称为该维的一个维成员C.OLAP是联机分析处理D.OLAP是数据仓库进行分析决策的基础5. 多维数据模型中,下列()模式不属于多维模式。
DA.星型模式B.雪花模式C.星座模式D.网型模式6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。
CA.频繁项集⊂频繁闭项集⊂最大频繁项集B.频繁项集⊂最大频繁项集⊂频繁闭项集C.最大频繁项集⊂频繁闭项集⊂频繁项集D.频繁闭项集⊂频繁项集⊂最大频繁项集7. 决策树中不包含()结点。
CA.根结点B.内部结点C.外部结点D.叶结点8. 下面选项中t不是s的子序列的是()。
数据仓库与数据挖掘 阶段考试复习题

第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。
在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。
一个数据仓库是通过集成多个异种数据源来构造的。
由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。
数据立方体必须是3维的。
在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。
方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。
雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。
在事实星座模型中,有且仅能有一个事实表。
在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。
二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。
数据仓库与数据挖掘教程(第2版)陈文伟版课后习题答案(非常全)

第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
《数据仓库与数据挖掘》(陈志泊)——习题答案

数据仓库与数据挖掘习题答案第1章数据仓库的概念与体系结构1。
面向主题的,相对稳定的。
2。
技术元数据,业务元数据。
3。
联机分析处理OLAP。
4. 切片(Slice),钻取(Drill—down和Roll—up等)。
5。
基于关系数据库。
6。
数据抽取,数据存储与管理。
7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。
8。
可更新的,当前值的.9。
接近实时。
10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主.11。
答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持.数据仓库的特点包含以下几个方面:(1)面向主题。
操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。
主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。
(2)集成的.面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。
而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。
也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义.(3)相对稳定的。
操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。
数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。
数据仓库与数据挖掘考试试题(作业试题)

一、 填空题(15分)1.数据仓库的特点分别是 面向主题 、 集成 、 相对稳定 、反映历史变化。
2.元数据是描述数据仓库内数据的结构和建立方法的数据。
根据元数据用途的不同可将元数据分为 技术 元数据和 业务 元数据两类。
3.OLAP 技术多维分析过程中,多维分析操作包括 切片 、 切块 、 钻取 、 旋转 等。
4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射 ”架构,其中 企业级数据仓库 是中心,源数据系统和数据集市在输入和输出范围的两端。
5.ODS 实际上是一个集成的、 面向主题的 、 可更新的 、 当前值的 、 企业级的 、详细的数据库,也叫运营数据存储。
二、 多项选择题(10分)6.在数据挖掘的分析方法中,直接数据挖掘包括( ACD ) A 分类 B 关联 C 估值 D 预言7.数据仓库的数据ETL 过程中,ETL 软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值 9.层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法 10.贝叶斯网络由两部分组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表 三、 计算题(30分)11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min =40%,conf min =40%,使用Apriori 算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。
(15分)事务 项目事务 项目T1 T2 T3面包、果冻、花生酱 面包、花生酱面包、牛奶、花生酱T4 T5啤酒、面包 啤酒、牛奶解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C 1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:项集C1 支持度项集L1支持度{面包}{花生酱}{牛奶} {啤酒}4/53/52/52/5{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:项集C2支持度项集L2支持度{面包、花生酱} 3/5 {面包、花生酱} 3/5至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf minconfidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
数据仓库与数据挖掘考试试题

数据仓库与数据挖掘考试试题
1. 简答题
a) 数据仓库的定义是什么?
b) 数据挖掘的基本任务有哪些?
c) 数据清洗在数据挖掘中的作用是什么?
2. 选择题
请从以下选项中选择正确答案:
a) 数据仓库的主要特点是:
A. 面向主题
B. 面向过程
C. 面向对象
D. 面向细节
b) 数据挖掘的主要方法包括:
A. 分类
B. 聚类
C. 关联分析
D. 回归分析
c) 数据清洗的过程包括:
A. 数据标准化
B. 数据去重
C. 数据缺失值处理
D. 数据转换
3. 算法题
使用Apriori算法来进行关联规则挖掘,假设有以下购物篮数据集:{牛奶,面包,尿布}
{可乐,面包,尿布}
{牛奶,可乐,尿布}
{牛奶,面包,可乐}
请按照步骤描述如何使用Apriori算法来找出频繁项集和关联规则。
4. 应用题
某电商网站的用户行为数据包括用户ID、商品ID、购买时间等字段,试设计一个数据挖掘任务,根据历史数据预测用户未来可能购买
的商品。
请描述具体的数据处理流程和算法选择,以及如何评估模型
的准确性。
5. 论述题
数据仓库和数据挖掘在实际应用中的价值和意义是什么?结合具体案例或行业来说明,并探讨未来数据仓库和数据挖掘的发展方向。
以上为数据仓库与数据挖掘考试试题的内容,希望您认真针对每个问题进行回答,考试时间为2小时,请自行安排时间和注意事项,祝您考试顺利!。
数据仓库与数据挖掘技术-试题答案

数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理?数据预处理主要包括哪些工作(需要对数据进行哪些方面预处理)?(1)现实世界的数据是杂乱的,数据多了什么问题会出现。
数据库极易受到噪音数据(包含错误或孤立点)、遗漏数据(有些感兴趣的属性缺少属性值或仅包含聚集数据)和不一致数据(在编码或者命名上存在差异)的侵扰,因为数据库太大,常常多达几G或更多。
进行数据预处理,提高数据质量,从而提高挖掘结果质量。
(2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将数据由多个源合并成一致的数据存储,如数据仓库或数据方;数据交换:规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性;数据归约:通过聚集、删除冗余特征或聚类等方法来压缩数据。
数据离散化:属于数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要。
2. 什么叫有监督学习?什么叫无监督学习?) 是通过发现数据属性和类别属性之间的关联模式,并通监督学习(Supervised learning或归纳过利用这些模式来预测未知数据实例的类别属性。
监督学习又称为分类Classification。
学习Inductive Learning无监督学习(Unsupervised learning)即聚类技术。
在一些应用中,数据的类别属性是缺失的,用户希望通过浏览数据来发现其的某些内在结构。
聚类就是发现这种内在结构的技术。
3.什么是数据仓库的星形模式?它与雪花模式有何不同?雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。
这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。
然而,与巨大的事实表相比,这种空间的节省可以忽略。
此外,由于执行查询更多的连接操作,雪花结构可能降低浏览的性能。
这样系统的性能可能受影响。
因此,在数据仓库设计中,雪花模式不如星形模式流行。
二、写出伪代码三答:(1)所有频繁项集为:[E,K,O] [K,M] [K,Y] (2) 关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.01.0[M] -> [K][Y] -> [K] 1.0答:a)决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。
数据仓库与数据挖掘基础练习题

《数据仓库与数据挖掘基础》课程练习题一、单选题1、数据仓库中数据组织的粒度不包含()。
A、早期细节级B、当前细节级C、高度综合级D、后期综合级2、企业范围数据的一个子集,限于选定的主题,是指()。
A、企业仓库B、数据集市C、虚拟仓库D、个体仓库3、维归约方法主要采用()。
A、小波变换B、主要成分分析C、无损压缩D、属性子集选择4、下列属于背景知识包含的内容有()。
A、概念分层B、关联分析C、聚类分析D、判定树归纳5、K-中心点方法属于聚类算法中的()。
A、层次方法B、划分方法C、密度方法D、模型方法二、多选题1、数据仓库数据随时间不断变化,主要体现在()。
A、随时间变化不断增加新内容B、随时间变化不断删除旧的内容C、所包含的大量综合数据不断重新综合D、数据的码键包含标明历史的时间项E、数据不进行更改操作2、数据挖掘系统的主要成分有()。
A、知识库B、数据挖掘引擎C、模式评估模块D、图形用户界面E、数据库或数据仓库服务器3、数据仓库设计需要考虑的视图有()。
A、自顶向下B、自底向上C、数据源D、数据仓库E、商务查询4、属性子集选择的基本启发式方法包括的技术有()。
A、逐步向前选择B、逐步向后删除C、多元回归D、判定树归纳E、聚类选择5、任务相关数据包括()。
A、相关属性或维B、数据选择条件C、数据仓库的数据立方D、数据分组条件E、数据库或数据仓库名三、填空题1、数据仓库的星型模式包含:和。
2、流行的有效的有损数据压缩方法有和。
3、面向属性的归纳有:和。
四、判断题1、数据分割后的数据单元称为分片,它是将数据分散到各自的逻辑单元中。
()2、数据归约技术可以用来得到数据集的归约表示,但破坏了数据的完整性。
()3、分类数据是离散数据,一个分类属性具有有限不同值,值之间无序。
()4、 Apriori算法可以挖掘多维关联规则。
()5、支持度-置信度框架包含关联分析。
()五、简答与分析题1、用DMQL描述在数据库Bist_university上进行特征化数据挖掘,并试将数据挖掘查询转换为关系查询。
数据仓库与数据挖掘考试习题汇总

第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
数据仓库与数据挖掘试题

《数据仓库与数据挖掘试题》一、判断题(每小题1分,计30分,答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。
(X)2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。
(X)3.关系数据库是二维数据(平面),多维数据库是空间立体数据。
(v)4.数据进入数据仓库之前,必须经过加工与集成。
(V)5.OLAP使用的是当前数据;OLTP使用的是历史数据。
(V)6.对数据仓库操作不明确,操作数据量少。
(X)7.数据集市实现难度超过数据仓库。
(X)8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。
(X)9.数据集市可升级到完整的数据仓库。
(V)10.数据库中存放的数据基本上是保存当前综合数据。
(X)11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。
(V)12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。
(V)13.OLTP的事务处理量大,处理内容比较简单但重复率高。
(V)14.数据仓库的用户有两类:信息使用者和探索者。
(V)15.对数据库的操作比较明确,操作数据量大。
(X)16.数据库用于事务处理,数据仓库用于决策分析。
(V)17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。
(V)18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。
(V)19.OLTP每次操作的数据量不大且多为当前的数据。
(V )20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。
(V)21.随着业务的变化,数据仓库中的数据会随时更新。
(X)22.数据集市的规模比数据仓库更大。
(X)23.数据集市具有更详细的、预先存储在数据仓库的数据。
(V)24.不同维值的组合及其对应的度量值构成了不同的查询和分析。
(V)25.OLAP使用细节性数据,OLTP使用综合性数据。
(X)26.数据集市由企业管理和维护。
数据仓库与数据挖掘试题

《数据仓库与数据挖掘试题》一、判断题(每小题1分,计30分,答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。
(X)2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。
(X)3.关系数据库是二维数据(平面),多维数据库是空间立体数据。
(v)4.数据进入数据仓库之前,必须经过加工与集成。
(V)5.OLAP使用的是当前数据;OLTP使用的是历史数据。
(V)6.对数据仓库操作不明确,操作数据量少。
(X)7.数据集市实现难度超过数据仓库。
(X)8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。
(X)9.数据集市可升级到完整的数据仓库。
(V)10.数据库中存放的数据基本上是保存当前综合数据。
(X)11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。
(V)12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。
(V)13.OLTP的事务处理量大,处理内容比较简单但重复率高。
(V)14.数据仓库的用户有两类:信息使用者和探索者。
(V)15.对数据库的操作比较明确,操作数据量大。
(X)16.数据库用于事务处理,数据仓库用于决策分析。
(V)17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。
(V)18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。
(V)19.OLTP每次操作的数据量不大且多为当前的数据。
(V )20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。
(V)21.随着业务的变化,数据仓库中的数据会随时更新。
(X)22.数据集市的规模比数据仓库更大。
(X)23.数据集市具有更详细的、预先存储在数据仓库的数据。
(V)24.不同维值的组合及其对应的度量值构成了不同的查询和分析。
(V)25.OLAP使用细节性数据,OLTP使用综合性数据。
(X)26.数据集市由企业管理和维护。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库与数据挖掘习题1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。
这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big-University的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。
该数据库包括如下信息:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们累积的GPA(学分平均)。
描述你要选取的结构。
该结构的每个成分的作用是什么?1.4 数据仓库和数据库有何不同?它们有那些相似之处?1.5简述以下高级数据库系统和应用:面向对象数据库,空间数据库,文本数据库,多媒体数据库和WWW。
1.6 定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。
使用你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。
1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?1.8 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。
它需要一种不同于本章列举的数据挖掘技术吗?1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。
1. 10 描述关于性能问题的两个数据挖掘的挑战。
2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。
描述一些情况,其中查询驱动方法比更新驱动方法更受欢迎。
2.2 简略比较以下概念,可以用例子解释你的观点(a)雪花模式、事实星座、星型网查询模型(b)数据清理、数据变换、刷新(c)发现驱动数据立方体、多特征方、虚拟仓库2.3 假定数据仓库包含三个维time,doctor和patient,两个度量count 和charge,其中charge 是医生对一位病人的一次诊治的收费。
(a)列举三种流行的数据仓库建模模式。
(b)使用(a)列举的模式之一,画出上面数据仓库的模式图。
(c)由基本方体[day,doctor,patient]开始,为列出2000年每位医生的收费总数,应当执行哪些OLAP操作?(d)为得到同样的结果,写一个SQL查询。
假定数据存放在关系数据库中,其模式如下:fee(day,month,year,doctor,hospital,patient,count,charge)2.4 假定Big_University的数据仓库包含如下4个维student, course, semester和instructor,2个度量count和avg_grade。
在最低的概念层(例如对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。
在较高的概念层,avg_grade存放给定组合的平均成绩。
(a)为数据仓库画出雪花模式图;(b)由基本方体[student, course, semester, instructor]开始,为列出Big_University每个学生的CS课程的平均成绩,应当使用哪些OLAP操作(如由semester上卷到year);(c)如果每维有5层(包括all),如student<MAJOR<STATUS<UNIVERSITY<>2.5 假定数据仓库包含4个维date,spectator,location和game,2个度量count和charge。
其中charge是观众在给定的日期观看节目的付费。
观众可以是学生、成年人或老人,每类观众有不同的收费标准。
(a )画出该数据仓库的星型模式图;(b)由基本方体[date,spectator,location,game]开始,为列出2000年学生观众在GM-Place 的总付费,应当执行哪些OLAP操作?(c)对于数据仓库,位图索引是有用的。
以该数据立方体为例,简略讨论使用位图索引结构的优点和问题。
2.6 为地区气象局设计一个数据仓库。
气象局大约有1000观察点,散步在该地区的陆地、海洋,收集基本气象数据,包括每小时的气压、温度、降雨量。
所有的数据都送到中心站,那里已收集了这种数据长达十年。
你的设计应当有利于有效的查询和联机分析处理,有利于有效地导出多维空间的一般天气模式。
2.7 关于数据立方体中的度量计算:(a)根据计算数据立方体所用的聚集函数,列出度量的三种分类;(b)对于具有三个维time,location和product的数据立方体,函数variance属于哪一类?如果立方体被分割成一些块,描述如何计算它;(c)假定函数是"最高的10个销售额"。
讨论如何在数据立方体里有效的计算该度量。
2.8 假定需要在数据立方体中记录三种度量:min,average和median。
给定的数据立方体允许递增的删除(即每次一小部分),为每种度量设计有效的计算和存储方法。
2.9 数据仓库实现的流行方法是构造一个称为数据立方体的多维数据库。
不幸的是,这常常产生大的、稀疏的多维矩阵。
(a)给出一个例子,解释这种大的、稀疏的数据立方体;(b)设计一种实现方法,可以很好的克服这种稀疏矩阵问题。
注意,需要详细解释你的数据结构,讨论空间需求量,以及如何由你的结构中检索数据;(c)修改你在(b)的设计,处理递增的数据更新。
给出你的新设计的理由。
2.10 假定数据仓库包含20个维,每个维有5级粒度。
(a)用户感兴趣的主要是4个特定的维,每维有3个上卷、下钻频繁访问的级。
你如何设计数据立方结构,有效地对此予以支持?(b)用户时常想由一两个特定的维钻透数据立方体,到原始数据。
你如何支持这一特征?2.11 假定基本立方体有三个维A,B,C,其单元数如下:|A|=1000000,|B|=100,|C|=1000。
假定分块将每维分成10部分。
(a)假定每维只有一层,画出完整的立方体的格。
(b)如果每个立方单元存放一个4字节的度量,若方是稠密的,所计算的立方体有多大?(c)指出立方体中空间需求量最小的块计算次序,并对计算2-维平面所需要的内存空间计算空间量。
3.1 数据的质量可以用精确性,完整性和一致性来评估。
提出两种数据质量的其他尺度。
3.2 在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
3.3 假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70(a) 使用按箱平均值平滑对以上数据进行平滑,箱的深度是3。
解释你的步骤。
评论对于给定的数据,该技术的效果(b) 你怎样确定数据中的孤立点?(c) 对于数据平滑,还有那些其他方法?3.4 讨论数据集成需要考虑的问题。
(1) 模式识别:这主要是实体识别问题(2) 冗余:一个属性是冗余的,即它能由另一个表导出,如果属性或唯的命名不一致,也可能导致冗余,可以用相关分析来检测(3) 数据值冲突的检测与处理:有些属性因表示比例或编码不同,会导致属性不同3.5 使用习题3。
3给出的age数据,回答以下问题:(a) 使用最小-最大规范化,将age值35转换到[0。
0,1。
0]区间(b) 使用z-score规范化转换age 值35,其中age的标准差为12。
94年(c) 使用小数定标规范化转换age值35。
(d) 指出对于给定的数据,你愿意使用哪种方法。
陈述你的理由。
3.6 使用流程图概述如下属性子集选择过程(a) 逐步向前选择(b) 逐步向后删除(c) 逐步向前选择和逐步向后删除的结合3.7使用习题3.3给出的age数据(a)画一个宽度为10的等宽直方图。
(b)为如下每种选样技术勾画例子: SRSWOR, SRSWR, 聚类选择,分层选择。
使用长度为5的样本和层"young","middle_aged"和"senior"。
3.8 对如下问题,使用伪代码或你喜欢用的程序设计语言,给出算法:(a)对于分类数据,基于给定模式中属性的不同值得个数,自动产生概念分层。
(b)对于数值数据,基于等宽划分规则,自动产生概念分层。
(c)对于数值数据,基于等深划分规则,自动产生概念分层。
4.1列出和描述说明数据挖掘任务的五种原语。
4.2 说明为什么概念分层在数据挖掘中是有用的。
4.3 概念分层的四种主要类型是:模式分层,集合分组分层,操作导出的分层和基于规则的分层。
a)简略定义每种类型的分层。
b)对于每种类型的分层,给出一个不在本章中出现的例子。
4.4 考虑下面的由Big-University 的学生数据库挖掘的关联规则major (X,"science")=>status(X,"undergrad") (4.8)假定学校的学生人数(即任务相关的元组数)为5000,其中56%的在校本科生的专业是科学,64%的学生注册本科学位课程,70%的学生主修科学。
a) 计算规则(4.8)的支持度和置信度。
b)考虑下面的规则(4.9):major(X,"biology")=>status(X,"undergrad") [17%,80%] (4.9) 假定主攻科学的学生30%专业为biology。
与规则(4.8)对比,你认为规则(4.9)新颖吗?解释你的结论。
4.5 语句可以用于挖掘特征化,区分,关联和分类规则。
为聚类的挖掘提出一个语法定义。
4.6 论建立标准化的数据挖掘查询语言的重要性。
涉及这一任务的一些潜在好处和挑战是什么?列举一些该领域的最近提议。
4.7 下面的练习涉及定义概念分层的DMQL语法。
(a) 典型情况,对于模式date(day,month,quarter,year),数据挖掘系统有一个预定义的概念分层。
使用DMQL提供该概念分层的定义。
(b) 概念分层定义可能涉及多个关系。
例如,iterm_hierachy可以涉及两个关系item和supplier,由如下模式定义:item(item_ID, brand, type, place_made, supplier)supplier(name, type, headquarter_location, owner, size, assets, revenue)5.1.对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。