数据仓库与数据挖掘考试试题
数据仓库与数据挖掘考试试卷
数据仓库与数据挖掘考试试卷要求:1、在D盘下建立以自己“学号-姓名”命名的文件夹如;2、在要求1中所建立的文件夹下建立以下文件夹:OLAP, ETL, REPORTS一、OLAP设计与应用请建立多维数据集以分析在线销售的数据,要求如下:1、建立分析服务项目,并将项目的所有资料保存在OLAP文件夹中;2、数据源为Adventure Works DW数据库;3、建立的多维数据集名称为Fact Internet Sales;度量值组名为Internet Sales,度量值有Order Quantity, Total Product Cost, Sales Amount, Tax Amt, Freight;5、为事实表增加计算单元a)Gross Profit=[Sales Amount]-[Total Product Cost]; (销售毛利润)b)Gross Profit Margin=[Gross Profit]/[Sales Amount]。
(销售毛利润率)6、设置度量值的格式:金额类均为货币型,比率为百分比。
7、为维度表增加以下命名计算:a)为Customer表增加FullName:如果MiddleName不为空,则FullName=FirstName+”“+MiddleName+”“+LastName,否则FullName=FirstName+”“+LastName。
b)为Order Date表增加SimpleDate=”YY-MM-DD”8、为维度表设置以下层次结构:a)Order Date表:Calendar Year-- Calendar Quarter-- English MonthName—SimpleDateb)Customer表:, EnglishCountryRegionName--,StateProvinceName—City—FullNamec)Product表:ProductLine—Model Name—English Product Name.9、为上述多维数据集建立翻译:语言—中文(中华人民共和国),各字段的翻译根据英文意译。
数据仓库与数据挖掘习题.doc
数据仓库与数据挖掘习题. .数据仓库与数据挖掘习题1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。
这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big- (a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。
这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们累积的GPA(学分平均)。
描述你要选取的结构。
该结构的每个成分的作用是什么?1.4 数据仓库和数据库有何不同?它们有那些相似之处?1.5简述以下高级数据库系统和应用:面向对象数据库,空间数据库,文本数据库,多媒体数据库和WWW。
1.6 定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。
使用你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。
1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?1.8 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。
它需要一种不同于本章列举的数据挖掘技术吗?1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。
1. 10 描述关于性能问题的两个数据挖掘的挑战。
2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。
数据库数据挖掘与分析考试试卷
数据库数据挖掘与分析考试试卷(答案见尾页)一、选择题1. 数据挖掘的主要目的是什么?A. 提取数据库中的数据B. 分析数据库中的数据以发现隐藏的模式和关联C. 存储和管理数据库中的数据D. 传输数据库中的数据2. 在数据挖掘中,以下哪个过程是用来发现数据项之间的有趣关系和关联的?A. 数据清理B. 数据集成C. 数据转换D. 数据挖掘3. 数据挖掘任务通常不包括以下哪项?A.分类B.聚类C.回归D. 数据库优化4. 关联规则学习是数据挖掘中的一个重要技术,它主要关注什么?A. 发现数据集中不同项之间的因果关系B. 发现数据集中频繁出现的模式和关联C. 建立数据模型以预测未来趋势D. 优化数据库查询性能5. 在聚类分析中,以下哪个选项不是常用的距离度量方法?A. 曼哈顿距离B. 欧氏距离C. 切比雪夫距离D. 余弦相似度6. 数据挖掘中经常使用哪种图表来展示聚类结果?A. 条形图B. 饼图C. 网络图D. 散点图7. 在数据挖掘中,以下哪个算法主要用于发现连续数值型数据中的异常值或离群点?A. K-均值算法B. DBSCANC. 谱聚类算法D. 决策树算法8. 数据挖掘中,以下哪个步骤不是数据预处理的一部分?A. 数据清洗B. 数据集成C. 数据转换D. 数据降维9. 在建立数据挖掘模型时,以下哪个步骤不是特征选择的一部分?A. 特征提取B. 特征选择C. 特征验证D. 特征排序10. 数据挖掘中,以下哪个工具不是常用的数据挖掘工具?A. SQLB. ExcelC. PythonD. R二、问答题2. 什么是SQL语言?请列举几种常见的SQL语句。
3. 什么是数据库的完整性约束?请举例说明。
4. 什么是数据库的设计原则?请列举几个常用的设计原则。
5. 什么是数据库的范式?请简要解释第一范式和第二范式。
6. 什么是数据库索引?请简述索引的作用和分类。
7. 什么是数据库的事务处理?请简述事务的定义和特性。
数据仓库与数据挖掘试题
武汉大学计算机学院20XX级研究生“数据仓库和数据挖掘”课程期末考试试题要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。
每张答题纸都要写上姓名和学号。
一、单项选择题(每小题2分,共20分)1. 下面列出的条目中,()不是数据仓库的基本特征。
BA.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的2. 数据仓库是随着时间变化的,下面的描述不正确的是()。
A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容CD.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合3. 以下关于数据仓库设计的说法中()是错误的。
AA.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型C.在进行数据仓库主题数据模型设计时要强调数据的集成性D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域4. 以下关于OLAP的描述中()是错误的。
AA.一个多维数组可以表示为(维1,维2,…,维n)B.维的一个取值称为该维的一个维成员C.OLAP是联机分析处理D.OLAP是数据仓库进行分析决策的基础5. 多维数据模型中,下列()模式不属于多维模式。
DA.星型模式B.雪花模式C.星座模式D.网型模式6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。
CA.频繁项集⊂频繁闭项集⊂最大频繁项集B.频繁项集⊂最大频繁项集⊂频繁闭项集C.最大频繁项集⊂频繁闭项集⊂频繁项集D.频繁闭项集⊂频繁项集⊂最大频繁项集7. 决策树中不包含()结点。
CA.根结点B.内部结点C.外部结点D.叶结点8. 下面选项中t不是s的子序列的是()。
《数据仓库与数据挖掘》复习题
2014-2015-1《数据仓库与数据挖掘》期末考试题型一、单项选择题(每小题2分,共20分)二、填空题(每空1分,共20分)三、简答题(每题6分,共30分)四、析题与计算题(共30分)请同学们在考试时不要将复习资料带入考场!!!单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD?(A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法?(D)A变量代换B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。
数据仓库与数据挖掘试题
09数据仓库与数据挖掘试题(最后)(总3页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--数据仓库与数据挖掘试题一、什么是数据仓库数据仓库的主要特征有哪些它与传统的关系数据库系统有什么区别二、关系模型和多维模型在数据仓库设计中各有什么优缺点?三、数据仓库上的代数操作有哪些?如何定义的,举例说明。
四、什么是知识发现,知识发现的过程包括那几个步骤五、什么是关联规则如何利用Apriori算法在给定的数据集合上找出关联规则六、什么是分类什么是聚类二者的区别是什么常用的分类和聚类方法有哪些1、数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。
数据仓库的主要特征: 面向主题的、集成的、时变的、非易失的数据仓库与数据库的区别数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
2、关系模型先建立企业级数据仓库,再在其上开发具体的应用。
企业级数据仓库固然是我们所追求的目标,但在缺乏足够的技术力量和数据仓库建设经验的情况下,按照这种模型设计的系统建设过程长,周期长,难度大,风险大,容易失败。
这种模型的优点是信息全面、系统灵活。
由于采用了第三范式,数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等,但同时会存在大量的数据表,表之间的联系比较多,也比较复杂,跨表操作多,查询效率较低,对数据仓库系统的硬件性能要求高等问题。
另一方面,数据模式复杂,不容易理解,对于一般计算机用户来说,增加了理解数据表的困难。
多维模型降低了范式化,以分析主题为基本框架来组织数据。
数据仓库与数据挖掘期末考试题库
复习内容填空题(每空1分)第1章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理(OLTP)和联机分析处理。
4、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立数据集市、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库。
8、操作型数据存储(ODS)实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
P159、“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、数据挖掘的分析方法可以分为直接数据挖掘和间接数据挖掘两类。
第2章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
数据仓库与数据挖掘技术-试题答案
数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理?数据预处理主要包括哪些工作(需要对数据进行哪些方面预处理)?(1)现实世界的数据是杂乱的,数据多了什么问题会出现。
数据库极易受到噪音数据(包含错误或孤立点)、遗漏数据(有些感兴趣的属性缺少属性值或仅包含聚集数据)和不一致数据(在编码或者命名上存在差异)的侵扰,因为数据库太大,常常多达几G或更多。
进行数据预处理,提高数据质量,从而提高挖掘结果质量。
(2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将数据由多个源合并成一致的数据存储,如数据仓库或数据方;数据交换:规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性;数据归约:通过聚集、删除冗余特征或聚类等方法来压缩数据。
数据离散化:属于数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要。
2. 什么叫有监督学习?什么叫无监督学习?监督学习(Supervised learning)是通过发现数据属性和类别属性之间的关联模式,并通过利用这些模式来预测未知数据实例的类别属性。
监督学习又称为分类Classification或归纳学习Inductive Learning。
无监督学习(Unsupervised learning)即聚类技术。
在一些应用中,数据的类别属性是缺失的,用户希望通过浏览数据来发现其的某些内在结构。
聚类就是发现这种内在结构的技术。
3.什么是数据仓库的星形模式?它与雪花模式有何不同?雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。
这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。
然而,与巨大的事实表相比,这种空间的节省可以忽略。
此外,由于执行查询更多的连接操作,雪花结构可能降低浏览的性能。
这样系统的性能可能受影响。
因此,在数据仓库设计中,雪花模式不如星形模式流行。
二、写出伪代码三答:(1)所有频繁项集为:[E,K,O] [K,M] [K,Y] (2)关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.0[M] -> [K] 1.0[Y] -> [K] 1.0答:a)决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。
数据仓库与数据挖掘考试试题
数据仓库与数据挖掘考试试题
1. 简答题
a) 数据仓库的定义是什么?
b) 数据挖掘的基本任务有哪些?
c) 数据清洗在数据挖掘中的作用是什么?
2. 选择题
请从以下选项中选择正确答案:
a) 数据仓库的主要特点是:
A. 面向主题
B. 面向过程
C. 面向对象
D. 面向细节
b) 数据挖掘的主要方法包括:
A. 分类
B. 聚类
C. 关联分析
D. 回归分析
c) 数据清洗的过程包括:
A. 数据标准化
B. 数据去重
C. 数据缺失值处理
D. 数据转换
3. 算法题
使用Apriori算法来进行关联规则挖掘,假设有以下购物篮数据集:{牛奶,面包,尿布}
{可乐,面包,尿布}
{牛奶,可乐,尿布}
{牛奶,面包,可乐}
请按照步骤描述如何使用Apriori算法来找出频繁项集和关联规则。
4. 应用题
某电商网站的用户行为数据包括用户ID、商品ID、购买时间等字段,试设计一个数据挖掘任务,根据历史数据预测用户未来可能购买
的商品。
请描述具体的数据处理流程和算法选择,以及如何评估模型
的准确性。
5. 论述题
数据仓库和数据挖掘在实际应用中的价值和意义是什么?结合具体案例或行业来说明,并探讨未来数据仓库和数据挖掘的发展方向。
以上为数据仓库与数据挖掘考试试题的内容,希望您认真针对每个问题进行回答,考试时间为2小时,请自行安排时间和注意事项,祝您考试顺利!。
数据仓库与数据挖掘考试试题
一、填空题(15分)1。
数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。
2。
元数据是描述数据仓库内数据的结构和建立方法的数据。
根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。
3。
OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。
4。
基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。
5。
ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。
二、多项选择题(10分)6。
在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A 分类B 关联C 估值D 预言7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A 数据抽取B 数据转换C 数据加载D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值9。
层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法10。
贝叶斯网络由两部分组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表三、计算题(30分)11。
一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。
(15分)解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1—候选C1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3〉 conf minconfidence({花生酱}→{面包})=(3/5)/(4/5)=3/4〉 conf min所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
数据仓库与数据挖掘考试题
6.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()
A第一个B第二个C第三个D第四个
7.上题中,等宽划分时(宽度为50),15又在哪个箱子里?()
3.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()
A.分类B.聚类C.关联分析D.隐马尔可夫链
4.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?()
A.探索性数据分析B.建模描述
C.预测建模D.寻找模式和规则
5.下面哪种不属于数据预处理的方法?()
A第一个B第二个C第三个D第四个
8.只有非零值才重要的二元属性被称作:()
A计数属性B离散属性C非对称的二元属性D对称属性
9.以下哪种方法不属于特征选择的标准方法:()
A嵌入B过滤C包装D抽样
10.下面不属于创建新属性的相关方法的是:()
A特征提取B特征修改C映射数据到新的空间D特征构造
填空
1、调和数据是存储在和操作型数据存储中的数据。
10、支持向量机中常用的核函数有、和。
简答、简述题
1、什么是数据仓库?数据仓库的特点主要有哪些?
2、什么是聚类?它与分类有什么异同?
3、简述处理空缺值的方法。
4、简述ID3算法的基本思想及其主算法的基本步骤。
5、何谓OLTP和OLAP?它们的主要异同有哪些?
6、简述你对数据仓库未来发展趋势的看法。
数据仓库与数据挖掘
姓名:
分数:
选择题
数据库与数据挖掘阶段考试试题及答案
一、名词解释(5个,10分)1、数据库:长期储存在计算机内的、有组织的、可共享的数据集合。
2、数据库系统:数据库系统是指在计算机系统中引入数据库后的系统构成,一般由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员构成。
3、数据库管理系统:位于用户与操作系统之间的一层数据管理软件,用于科学地组织和存储数据、高效地获取和维护数据。
4、视图:从一个或几个基本表导出的表,它与基本表不同,是一个虚表,数据库中只存放视图的定义,而不存放视图对应的数据。
5、实体:现实世界中客观存在并能相互区别的事物。
6、模式是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图。
7、实体完整性:关系R的所有元组在主码上的值必须唯一,并且在主码的任何属性上都不能取空值。
二、单选题(30个,30分)1、SQL中,下列涉及空值的操作,不正确的是(C)。
A. AGE IS NULLB. AGE IS NOT NULLC. AGE = NULLD. NOT (AGE IS NULL)2、数据库管理系统是一个(A )。
(A) 软件系统(B) 硬件系统(C)软硬件结合的系统(D) 数据集合3.数据模型是(A )数据特征的抽象。
(A)计算机世界(B)现实世界(C) 模型空间(D) 概念世界4、关系模式R为3NF, 则R不存在( D )。
(A) 部分依赖(B) 传递依赖(C)非主属性对码的传递依赖(D) 主属性对码的传递依赖5、关系R的实体完整性控制是指( A )。
(A)主键非空(B)主键唯一(C)主键非空且唯一(D)主键非空或唯一6、实体联系模型属于( D )。
A. 层次模型B. 网状模型C. 关系模型 D 概念模型7、在一个关系中,任意两个元组的值( C )。
A. 可以全同B. 必须全同C. 不能全同D. 以上都不是8、关系R和S进行自然连接时,要求R和S含有一个或多个公共( B )A. 行B. 属性C. 记录D.元组9、SQL是( C )的缩写。
数据仓库与数据挖掘期末考试题库
复习内容填空题(每空1分)第1章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理(OLTP)和联机分析处理。
4、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立数据集市、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库。
8、操作型数据存储(ODS)实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
P159、“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、数据挖掘的分析方法可以分为直接数据挖掘和间接数据挖掘两类。
第2章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
数据仓库与数据挖掘试题
《数据仓库与数据挖掘试题》一、判断题(每小题1分,计30分,答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。
(X)2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。
(X)3.关系数据库是二维数据(平面),多维数据库是空间立体数据。
(v)4.数据进入数据仓库之前,必须经过加工与集成。
(V)5.OLAP使用的是当前数据;OLTP使用的是历史数据。
(V)6.对数据仓库操作不明确,操作数据量少。
(X)7.数据集市实现难度超过数据仓库。
(X)8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。
(X)9.数据集市可升级到完整的数据仓库。
(V)10.数据库中存放的数据基本上是保存当前综合数据。
(X)11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。
(V)12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。
(V)13.OLTP的事务处理量大,处理内容比较简单但重复率高。
(V)14.数据仓库的用户有两类:信息使用者和探索者。
(V)15.对数据库的操作比较明确,操作数据量大。
(X)16.数据库用于事务处理,数据仓库用于决策分析。
(V)17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。
(V)18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。
(V)19.OLTP每次操作的数据量不大且多为当前的数据。
(V )20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。
(V)21.随着业务的变化,数据仓库中的数据会随时更新。
(X)22.数据集市的规模比数据仓库更大。
(X)23.数据集市具有更详细的、预先存储在数据仓库的数据。
(V)24.不同维值的组合及其对应的度量值构成了不同的查询和分析。
(V)25.OLAP使用细节性数据,OLTP使用综合性数据。
(X)26.数据集市由企业管理和维护。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、填空题(15分)
1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。
2.元数据是描述数据仓库内数据的结构和建立方法的数据。
根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。
3.OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。
4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。
5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。
二、多项选择题(10分)
6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD)
A 分类
B 关联
C 估值
D 预言
7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)
A 数据抽取
B 数据转换
C 数据加载
D 数据稽核
8.数据分类的评价准则包括( ABCD )
A 精确度
B 查全率和查准率
C F-Measure
D 几何均值
9.层次聚类方法包括( BC )
A 划分聚类方法
B 凝聚型层次聚类方法
C 分解型层次聚类方法
D 基于密度聚类方法
10.贝叶斯网络由两部分组成,分别是( A D )
A 网络结构
B 先验概率
C 后验概率
D 条件概率表
三、计算题(30分)
11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。
(15分)
解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:
(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:
至此,所有频繁集都被找到,算法结束,
所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf min
confidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min
所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
12.给定以下数据集(2 ,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。
(15分)
解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m1=2,m2=4:
(2)对于X中的任意数据样本x m(1<x m<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为2,8,10,13,1,19。
当m2=4时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。
最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3),另一个聚类m2=4为(4,10,12,15,21)。
(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=2.5,m2=12:
(4)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-0.5,0.5,1.5,7.5,9.5,12.5,18.5。
当m2=12时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,-8,2,3,9。
最小距离是1.5将该元素放入m1=2.5的聚类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。
(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的
新的代表点,由此得到k个均值代表点:m1=3, m2=14.5:
(6)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=3时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-1,1,7,9,12,18,。
当m2=14.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-12.58,-11.5,-10.5,-4.5,-2.5,0.5,6.5。
最小距离是0.5将该元素放入m1=3的聚类中,则该聚类为(2,3,4),另一个聚类m2=14.5为(10,12,15,21)。
至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。
四.设计题(45分)
13.按照题目给定的3个数据文件,任选一个建立数据流图,要求至少包括记录选项、字段选项、图形结点各一个。
任选关联规则Apriori算法、贝叶斯网络、K-Means聚类、决策树C5.0(C4.5)算法、神经网络中的一个进行挖掘,并给出数据流图。
(10分)
14.对以上数据流图中使用的每个结点做一简短说明。
(10分)
选择:age>25.
过滤:过滤后的字段。
Region,tenure,age,marital,churn.
类型:
15.给出以上数据流图中模型的执行结果(生成模型完全展开后的数据),对于执行结果太多的,可节选部分结果。
(10分)
16.对以上模型生成的结果做一简要的分析,包括算法采用的基本原理、数学模型、算法步骤等。
(15分)
答:k-means聚类算法基本原理:将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚集类性能的准则函数达到最优,从而使生成的每个聚集类的紧凑,类间独立。
操作步骤:
输入:数据集,其中的数据样本只包含描述属性,不包含类别属性。
聚类个数K
输出:
(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别
(2)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中
(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点
(4)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中
(5)重复3.4,直到各个聚类不再发生变化为止。
即误差平方和准则函数的值达到最优。