数据仓库与数据挖掘习题.doc

合集下载

数据仓库与数据挖掘期末试题

数据仓库与数据挖掘期末试题

广西财经学院2007——2008学年第一学期《数据仓库与数据挖掘》课程期末考试试卷(A)一、名词解释(每题4分,共20分)1、数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

2、数据挖掘数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

3、雪花模型雪花模式中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图形成了类似雪花的形状。

通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。

雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。

4、OLAPOLAP是联机分析处理,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

它支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

5、决策树决策树是将训练集函数表示成树结构,通过它来近似离散值的目标函数。

这种树结构是一种有向树,它以训练集的一个属性作节点,这个属性所对应的一个值作边。

决策树一般都是自上而下的来生成的。

二、简答题(每题6分,共30分)1、企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型?首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。

2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。

数据仓库与数据挖掘试题

数据仓库与数据挖掘试题

09数据仓库与数据挖掘试题(最后)(总3页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--数据仓库与数据挖掘试题一、什么是数据仓库数据仓库的主要特征有哪些它与传统的关系数据库系统有什么区别二、关系模型和多维模型在数据仓库设计中各有什么优缺点?三、数据仓库上的代数操作有哪些?如何定义的,举例说明。

四、什么是知识发现,知识发现的过程包括那几个步骤五、什么是关联规则如何利用Apriori算法在给定的数据集合上找出关联规则六、什么是分类什么是聚类二者的区别是什么常用的分类和聚类方法有哪些1、数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。

数据仓库的主要特征: 面向主题的、集成的、时变的、非易失的数据仓库与数据库的区别数据库是面向事务的设计,数据仓库是面向主题设计的。

数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。

数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。

2、关系模型先建立企业级数据仓库,再在其上开发具体的应用。

企业级数据仓库固然是我们所追求的目标,但在缺乏足够的技术力量和数据仓库建设经验的情况下,按照这种模型设计的系统建设过程长,周期长,难度大,风险大,容易失败。

这种模型的优点是信息全面、系统灵活。

由于采用了第三范式,数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等,但同时会存在大量的数据表,表之间的联系比较多,也比较复杂,跨表操作多,查询效率较低,对数据仓库系统的硬件性能要求高等问题。

另一方面,数据模式复杂,不容易理解,对于一般计算机用户来说,增加了理解数据表的困难。

多维模型降低了范式化,以分析主题为基本框架来组织数据。

(完整word版)数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)

(完整word版)数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)

第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。

(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。

(3)数据仓库的数据是大量数据库的集成。

(4)对数据库的操作比较明确,操作数量较小。

对数据仓库操作不明确,操作数据量大。

2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。

如何将大量的数据转化为辅助决策信息成为了研究热点。

(2)异构环境数据的转换和共享。

随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。

(3)利用数据进行事物处理转变为利用数据支持决策。

3.举例说明数据库与数据仓库的不同。

比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。

但是要对这些独立数据库进行决策分析就很复杂了。

因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。

4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。

OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。

5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。

6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。

8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。

数据仓库与数据挖掘试题

数据仓库与数据挖掘试题

武汉大学计算机学院20XX级研究生“数据仓库和数据挖掘”课程期末考试试题要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。

每张答题纸都要写上姓名和学号。

一、单项选择题(每小题2分,共20分)1. 下面列出的条目中,()不是数据仓库的基本特征。

BA.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的2. 数据仓库是随着时间变化的,下面的描述不正确的是()。

A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容CD.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合3. 以下关于数据仓库设计的说法中()是错误的。

AA.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型C.在进行数据仓库主题数据模型设计时要强调数据的集成性D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域4. 以下关于OLAP的描述中()是错误的。

AA.一个多维数组可以表示为(维1,维2,…,维n)B.维的一个取值称为该维的一个维成员C.OLAP是联机分析处理D.OLAP是数据仓库进行分析决策的基础5. 多维数据模型中,下列()模式不属于多维模式。

DA.星型模式B.雪花模式C.星座模式D.网型模式6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。

CA.频繁项集⊂频繁闭项集⊂最大频繁项集B.频繁项集⊂最大频繁项集⊂频繁闭项集C.最大频繁项集⊂频繁闭项集⊂频繁项集D.频繁闭项集⊂频繁项集⊂最大频繁项集7. 决策树中不包含()结点。

CA.根结点B.内部结点C.外部结点D.叶结点8. 下面选项中t不是s的子序列的是()。

数据仓库与数据挖掘考试试题(作业试题)

数据仓库与数据挖掘考试试题(作业试题)

一、 填空题(15分)1.数据仓库的特点分别是 面向主题 、 集成 、 相对稳定 、反映历史变化。

2.元数据是描述数据仓库内数据的结构和建立方法的数据。

根据元数据用途的不同可将元数据分为 技术 元数据和 业务 元数据两类。

3.OLAP 技术多维分析过程中,多维分析操作包括 切片 、 切块 、 钻取 、 旋转 等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射 ”架构,其中 企业级数据仓库 是中心,源数据系统和数据集市在输入和输出范围的两端。

5.ODS 实际上是一个集成的、 面向主题的 、 可更新的 、 当前值的 、 企业级的 、详细的数据库,也叫运营数据存储。

二、 多项选择题(10分)6.在数据挖掘的分析方法中,直接数据挖掘包括( ACD ) A 分类 B 关联 C 估值 D 预言7.数据仓库的数据ETL 过程中,ETL 软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值 9.层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法 10.贝叶斯网络由两部分组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表 三、 计算题(30分)11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min =40%,conf min =40%,使用Apriori 算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。

(15分)事务 项目事务 项目T1 T2 T3面包、果冻、花生酱 面包、花生酱面包、牛奶、花生酱T4 T5啤酒、面包 啤酒、牛奶解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C 1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:项集C1 支持度项集L1支持度{面包}{花生酱}{牛奶} {啤酒}4/53/52/52/5{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:项集C2支持度项集L2支持度{面包、花生酱} 3/5 {面包、花生酱} 3/5至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf minconfidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

数据仓库与数据挖掘考试试题

数据仓库与数据挖掘考试试题

数据仓库与数据挖掘考试试题
1. 简答题
a) 数据仓库的定义是什么?
b) 数据挖掘的基本任务有哪些?
c) 数据清洗在数据挖掘中的作用是什么?
2. 选择题
请从以下选项中选择正确答案:
a) 数据仓库的主要特点是:
A. 面向主题
B. 面向过程
C. 面向对象
D. 面向细节
b) 数据挖掘的主要方法包括:
A. 分类
B. 聚类
C. 关联分析
D. 回归分析
c) 数据清洗的过程包括:
A. 数据标准化
B. 数据去重
C. 数据缺失值处理
D. 数据转换
3. 算法题
使用Apriori算法来进行关联规则挖掘,假设有以下购物篮数据集:{牛奶,面包,尿布}
{可乐,面包,尿布}
{牛奶,可乐,尿布}
{牛奶,面包,可乐}
请按照步骤描述如何使用Apriori算法来找出频繁项集和关联规则。

4. 应用题
某电商网站的用户行为数据包括用户ID、商品ID、购买时间等字段,试设计一个数据挖掘任务,根据历史数据预测用户未来可能购买
的商品。

请描述具体的数据处理流程和算法选择,以及如何评估模型
的准确性。

5. 论述题
数据仓库和数据挖掘在实际应用中的价值和意义是什么?结合具体案例或行业来说明,并探讨未来数据仓库和数据挖掘的发展方向。

以上为数据仓库与数据挖掘考试试题的内容,希望您认真针对每个问题进行回答,考试时间为2小时,请自行安排时间和注意事项,祝您考试顺利!。

数据仓库与数据挖掘基础练习题

数据仓库与数据挖掘基础练习题

《数据仓库与数据挖掘基础》课程练习题一、单选题1、数据仓库中数据组织的粒度不包含()。

A、早期细节级B、当前细节级C、高度综合级D、后期综合级2、企业范围数据的一个子集,限于选定的主题,是指()。

A、企业仓库B、数据集市C、虚拟仓库D、个体仓库3、维归约方法主要采用()。

A、小波变换B、主要成分分析C、无损压缩D、属性子集选择4、下列属于背景知识包含的内容有()。

A、概念分层B、关联分析C、聚类分析D、判定树归纳5、K-中心点方法属于聚类算法中的()。

A、层次方法B、划分方法C、密度方法D、模型方法二、多选题1、数据仓库数据随时间不断变化,主要体现在()。

A、随时间变化不断增加新内容B、随时间变化不断删除旧的内容C、所包含的大量综合数据不断重新综合D、数据的码键包含标明历史的时间项E、数据不进行更改操作2、数据挖掘系统的主要成分有()。

A、知识库B、数据挖掘引擎C、模式评估模块D、图形用户界面E、数据库或数据仓库服务器3、数据仓库设计需要考虑的视图有()。

A、自顶向下B、自底向上C、数据源D、数据仓库E、商务查询4、属性子集选择的基本启发式方法包括的技术有()。

A、逐步向前选择B、逐步向后删除C、多元回归D、判定树归纳E、聚类选择5、任务相关数据包括()。

A、相关属性或维B、数据选择条件C、数据仓库的数据立方D、数据分组条件E、数据库或数据仓库名三、填空题1、数据仓库的星型模式包含:和。

2、流行的有效的有损数据压缩方法有和。

3、面向属性的归纳有:和。

四、判断题1、数据分割后的数据单元称为分片,它是将数据分散到各自的逻辑单元中。

()2、数据归约技术可以用来得到数据集的归约表示,但破坏了数据的完整性。

()3、分类数据是离散数据,一个分类属性具有有限不同值,值之间无序。

()4、 Apriori算法可以挖掘多维关联规则。

()5、支持度-置信度框架包含关联分析。

()五、简答与分析题1、用DMQL描述在数据库Bist_university上进行特征化数据挖掘,并试将数据挖掘查询转换为关系查询。

数据仓库与数据挖掘考试试题

数据仓库与数据挖掘考试试题

中国矿业大学银川学院期末考试试题2010至2011学年第2学期考试科目数据仓库与数据挖掘学分丄年级2008系机电动力与信息工程系专业计算机一、填空题(15分)1•数据仓库的特点分别是 ___________、________ 、__________ 、反映历史变化。

2•元数据是描述数据仓库内数据的结构和建立方法的数据。

根据元数据用途的不同可将元数据分为 ________ 元数据和_________ 元数据两类。

3.OLAP 技术多维分析过程中,多维分析操作包括_________ 、___________ 、 _________ 、_________ 等。

4•基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“_________________ ”架构,其中 ______________________ 是中心,源数据系统和数据集市在输入和输出范围的两端。

5.ODS实际上是一个集成的、______________ 、 _____________ 、_______ 、___________ 、详细的数据库,也叫运营数据存储。

多项选择题(10分)6.在数据挖掘的分析方法中,直接数据挖掘包括(7•数据仓库的数据ETL 过程中,ETL 软件的主要功能包括( )A 数据抽取B 数据转换C 数据加载D 数据稽核8.数据分类的评价准则包括( )A 精确度B 查全率和查准率C F-MeasureD 几何均值9•层次聚类方法包括()A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法10.贝叶斯网络由两部分组成,分别是( )A 网络结构B 先验概率C 后验概率D 条件概率表三、计算题(30分)11•一个食品连锁店每周的事务记录如下表所示,其中每一条事务表 示在一项收款机业务中卖出的项目,假定 SUp min =20%, con f min =40%,使用Apriori 算法计算生成的关联规则,标明每趟数据库扫描时的候 选集和大项目集。

《数据仓库与数据挖掘》复习题

《数据仓库与数据挖掘》复习题

2014-2015-1《数据仓库与数据挖掘》期末考试题型一、单项选择题(每小题2分,共20分)二、填空题(每空1分,共20分)三、简答题(每题6分,共30分)四、析题与计算题(共30分)请同学们在考试时不要将复习资料带入考场!!!单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD? (A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法? (D)A变量代换 B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

数据仓库与数据挖掘试题

数据仓库与数据挖掘试题

《数据仓库与数据挖掘试题》一、判断题(每小题1分,计30分,答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。

(X)2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。

(X)3.关系数据库是二维数据(平面),多维数据库是空间立体数据。

(v)4.数据进入数据仓库之前,必须经过加工与集成。

(V)5.OLAP使用的是当前数据;OLTP使用的是历史数据。

(V)6.对数据仓库操作不明确,操作数据量少。

(X)7.数据集市实现难度超过数据仓库。

(X)8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。

(X)9.数据集市可升级到完整的数据仓库。

(V)10.数据库中存放的数据基本上是保存当前综合数据。

(X)11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。

(V)12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。

(V)13.OLTP的事务处理量大,处理内容比较简单但重复率高。

(V)14.数据仓库的用户有两类:信息使用者和探索者。

(V)15.对数据库的操作比较明确,操作数据量大。

(X)16.数据库用于事务处理,数据仓库用于决策分析。

(V)17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。

(V)18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。

(V)19.OLTP每次操作的数据量不大且多为当前的数据。

(V )20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。

(V)21.随着业务的变化,数据仓库中的数据会随时更新。

(X)22.数据集市的规模比数据仓库更大。

(X)23.数据集市具有更详细的、预先存储在数据仓库的数据。

(V)24.不同维值的组合及其对应的度量值构成了不同的查询和分析。

(V)25.OLAP使用细节性数据,OLTP使用综合性数据。

(X)26.数据集市由企业管理和维护。

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘第一章课后习题一:填空题1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。

2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。

3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。

4)元数据是“关于数据的数据”。

根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。

5)数据处理通常分为两大类:联机事务处理和联机事务分析6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。

7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。

8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。

9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。

10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。

二:简答题1)什么是数据仓库?数据仓库的特点主要有哪些?数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用2)简述数据挖掘的技术定义。

从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。

3)什么是业务元数据?业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据4)简述数据挖掘与传统分析方法的区别。

本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。

数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。

数据仓库与数据挖掘试题

数据仓库与数据挖掘试题

《数据仓库与数据挖掘试题》一、判断题(每小题1分,计30分,答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。

(X)2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。

(X)3.关系数据库是二维数据(平面),多维数据库是空间立体数据。

(v)4.数据进入数据仓库之前,必须经过加工与集成。

(V)5.OLAP使用的是当前数据;OLTP使用的是历史数据。

(V)6.对数据仓库操作不明确,操作数据量少。

(X)7.数据集市实现难度超过数据仓库。

(X)8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。

(X)9.数据集市可升级到完整的数据仓库。

(V)10.数据库中存放的数据基本上是保存当前综合数据。

(X)11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。

(V)12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。

(V)13.OLTP的事务处理量大,处理内容比较简单但重复率高。

(V)14.数据仓库的用户有两类:信息使用者和探索者。

(V)15.对数据库的操作比较明确,操作数据量大。

(X)16.数据库用于事务处理,数据仓库用于决策分析。

(V)17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。

(V)18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。

(V)19.OLTP每次操作的数据量不大且多为当前的数据。

(V )20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。

(V)21.随着业务的变化,数据仓库中的数据会随时更新。

(X)22.数据集市的规模比数据仓库更大。

(X)23.数据集市具有更详细的、预先存储在数据仓库的数据。

(V)24.不同维值的组合及其对应的度量值构成了不同的查询和分析。

(V)25.OLAP使用细节性数据,OLTP使用综合性数据。

(X)26.数据集市由企业管理和维护。

数据仓库与数据挖掘期末试题

数据仓库与数据挖掘期末试题

广西财经学院2007——2008学年第一学期《数据仓库与数据挖掘》课程期末考试试卷(A)适用班级:电商本0541、0542考试时间:120分钟(开卷机试)考查课程命题老师签名:郑华教研室主任签名:课程开课系:计信系注意:本次考试是开卷上机考,请大家独立分析完成。

如果发现有相同的答卷,则二人都为0分,请大家自觉!请大家在2007年12月25日之前把做好的答卷发送到老师的邮箱:gxhuazheng@,过期不候.一、名词解释(每题4分,共20分)1、数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

2、数据挖掘数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery inDatabase, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

3、雪花模型雪花模式中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图形成了类似雪花的形状。

通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。

雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。

4、OLAPOLAP是联机分析处理,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

它支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

5、决策树决策树是将训练集函数表示成树结构,通过它来近似离散值的目标函数。

这种树结构是一种有向树,它以训练集的一个属性作节点,这个属性所对应的一个值作边。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库与数据挖掘习题
. .数据仓库与数据挖掘习题1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。

1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big- (a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。

1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们累积的GPA(学分平均)。

描述你要选取的结构。

该结构的每个成分的作用是什么?1.4 数据仓库和数据库有何不同?它们有那些相似之处?1.5简述以下高级数据库系统和应用:面向对象数据库,空间数据库,文本数据库,多媒体数据库和WWW。

1.6 定义以下数据挖掘功能:
特征化,区分,关联,分类,预测,聚类和演变分析。

使用
你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。

1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?1.8 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。

它需要一种不同于本章列举的数据挖掘技术吗?1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。

1. 10 描述关于性能问题的两个数据挖掘的挑战。

2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。

描述一些情况,其中查询驱动方法比更新驱动方法更受欢迎。

2.2 简略比较以下概念,可以用例子解释你的观点(a)雪花模式、事实星座、星型网查询模型(b)数据清理、数据变换、刷新(c)发现驱动数据立方体、多特征方、虚拟仓库2.3 假定数据仓库包含三个维time,doctor和patient,两个度量count 和charge,其中charge是医生对一位病人的一次诊治的收费。

(a)列举三种流行的数据仓库建模模式。

(b)使用(a)列举的模式之一,画出上面数据仓库的模式图。

(c)由基本方体[day,doctor,patient]开始,为列出XXXX年每位医生的收费总数,应当执行哪些OLAP操作?(d)为得到同样的结果,写一个SQL查询。

假定数据存放在关系数据库中,其模式如下:
fee(day,month,year,doctor,hospital,patient,count,charge)2.4 假定Big_University的数据仓库包含如下4个维student,
course, semester和instructor,2个度量count和avg_grade。

在最低的概念层(例如对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。

在较高的概念层,avg_grade存放给定组合的平均成绩。

(a)为数据仓库画出雪花模式图;
(b)由基本方体[student, course, semester, instructor]开始,为列出Big_University每个学生的CS课程的平均成绩,-面向对象数据库,空间数据库,文本数据库,多媒体数据库和WWW。

1.6 定义以下数据挖掘功能:
特征化,区分,关联,分类,预测,聚类和演变分析。

使用你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。

1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?1.8 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。

它需要一种不同于本章列举的数据挖掘技术吗?1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。

1. 10 描述关于性能问题的两个数据挖掘的挑战。

2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。

描述一些情况,其中查询驱动方法比更新驱动方法更受欢迎。

2.2 简略比较以下概念,可以用例子解释你的观点(a)雪花模式、事实星座、星型网查询模型(b)数据清理、数据变换、刷新(c)发现驱动数
据立方体、多特征方、虚拟仓库2.3 假定数据仓库包含三个维time,doctor和patient,两个度量count 和charge,其中charge是医生对一位病人的一次诊治的收费。

(a)列举三种流行的数据仓库建模模式。

(b)使用(a)列举的模式之一,画出上面数据仓库的模式图。

(c)由基本方体[day,doctor,patient]开始,为列出XXXX年每位医生的收费总数,应当执行哪些OLAP操作?(d)为得到同样的结果,写一个SQL查询。

假定数据存放在关系数据库中,其模式如下:
fee(day,month,year,doctor,hospital,patient,count,charge)2.4 假定Big_University的数据仓库包含如下4个维student, course, semester和instructor,2个度量count和avg_grade。

在最低的概念层(例如对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。

在较高的概念层,avg_grade存放给定组合的平均成绩。

(a)为数据仓库画出雪花模式图;
(b)由基本方体[student, course, semester, instructor]开始,为列出Big_University每个学生的CS课程的平均成绩,:(a)找出星期五某一给定地区的相似的能源消耗曲线;(b)当能源消耗曲线急剧上升时,XXXX年中,已经形成一个巨大的市场。

对数据挖掘而言,我们应该致力于开发独立于领域的数据挖掘系统,还是应当开发特定领域的数据挖掘系统?请说出理由。

word教育资料达到当天最大量API KEY 超过次数限制。

相关文档
最新文档