《数据仓库与数据挖掘》复习题
12《数据仓库与数据挖掘》复习题

《数据仓库与数据挖掘》复习大纲三、简答题(5×6分=30分)四、分析计算题(3×10分=30分)考试范围:第一讲数据挖掘概述考点:1、数据挖掘、知识发现(KDD)基本概念;2、数据挖掘的过程;3、数据挖掘过技术的三个主要部分。
复习参考题:一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。
(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理。
(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习。
(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘。
(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据。
二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:BA、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析。
A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能。
A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析。
A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B)。
A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )。
A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题1、何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。
【免费下载】数据仓库与数据挖掘复习题

A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法?(D)A变量代换B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15在第几个箱子内?(B)A 第一个B 第二个C 第三个D 第四个13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A)A 第一个B 第二个C 第三个D 第四个14.下面哪个不属于数据的属性类型:(D)A 标称B 序数C 区间D相异15. 在上题中,属于定量的属性类型是:(C)A 标称B 序数C区间 D 相异16. 只有非零值才重要的二元属性被称作:( C )A 计数属性B 离散属性C非对称的二元属性 D 对称属性17. 以下哪种方法不属于特征选择的标准方法:(D)A嵌入 B 过滤 C 包装 D 抽样18.下面不属于创建新属性的相关方法的是:(B)A特征提取B特征修改C映射数据到新的空间D特征构造19. 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是(C)A 2B 3C 3.5D 520. 下面哪个属于映射数据到新的空间的方法?(A)A 傅立叶变换B特征加权 C 渐进抽样D维归约21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:(B)A 1比特B 2.6比特C 3.2比特D 3.8比特22. 假设属性income的最大最小值分别是12000元和98000元。
利用最大最小规范化的方法将属性的值映射到0至1的范围内。
对属性income的73600元将被转化为:(D)A 0.821B 1.224C 1.458D 0.71623.假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
数据仓库与数据挖掘复习大全

数据仓库与数据挖掘复习大全湖北文理学院湖北襄阳王茂林1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, RecallB. Recall, PrecisionC. Precision, ROCD. Recall, ROC分类是一种重要的数据挖掘算法。
分类的目的是构造一个分类函数或分类模型(即分类器),通过分类器将数据对象映射到某一个给定的类别中。
分类器的主要评价指标有准确率(Precision)、召回率(Recall)、F b-score、ROC、AOC等。
准确率(Precision) 和召回率(Recall)是信息检索领域两个最基本的指标。
准确率也称为查准率,召回率也称为查全率。
它们的定义如下:Precision=系统检索到的相关文件数量/系统检索到的文件总数量Recall=系统检索到的相关文件数量/系统所有相关文件数量F b-score是准确率和召回率的调和平均:F b=[(1+b2)*P*R]/(b2*P+R),比较常用的是F1。
在信息检索中,准确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是准确率高、召回率就低,或者召回率低、但准确率高。
所以在实际中常常需要根据具体情况做出取舍,例如对一般搜索的情况是在保证召回率的情况下提升准确率,而如果是疾病监测、反垃圾邮件等,则是在保证准确率的条件下,提升召回率。
但有时候,需要兼顾两者,那么就可以用F-score指标。
在信息检索中,准确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是准确率高、召回率就低,或者召回率低、但准确率高。
数据仓库与数据挖掘习题.doc

数据仓库与数据挖掘习题. .数据仓库与数据挖掘习题1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。
这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big- (a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。
这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们累积的GPA(学分平均)。
描述你要选取的结构。
该结构的每个成分的作用是什么?1.4 数据仓库和数据库有何不同?它们有那些相似之处?1.5简述以下高级数据库系统和应用:面向对象数据库,空间数据库,文本数据库,多媒体数据库和WWW。
1.6 定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。
使用你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。
1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?1.8 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。
它需要一种不同于本章列举的数据挖掘技术吗?1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。
1. 10 描述关于性能问题的两个数据挖掘的挑战。
2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。
数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。
数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库与数据挖掘考试试题

一、填空题(15分)1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。
2.元数据是描述数据仓库内数据的结构和建立方法的数据。
根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。
3.OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。
4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。
5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。
二、多项选择题(10分)6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A 分类B 关联C 估值D 预言7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A 数据抽取B 数据转换C 数据加载D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值9.层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法10.贝叶斯网络由两部分组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表三、计算题(30分)11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。
(15分)解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf minconfidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料一、单项选择题1. 数据挖掘技术包括三个主要的部份 ( C )A.数据、模型、技术C.数据、建模能力、算法与技术2.关于基本数据的元数据是指: ( D B.算法、技术、领域知识D.建模能力、算法与技术、领域知识)A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。
3. 关于 OLAP 和 OLTP 的说法,下列不正确的是: ( A)A.OLAP 事务量大,但事务内容比较简单且重复率高B.OLAP 的最终数据来源与 OLTP 不一样C.OLTP 面对的是决策人员和高层管理人员D.OLTP 以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? ( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 会萃D. 估计遗漏值6. 在 ID3 算法中信息增益是指(A.信息的溢出程度C.熵增加的程度最大D )B.信息的增加效益D.熵减少的程度最大7. 以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8. 以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻觅最佳决策树是 NP 彻底问题9. 假设收入属性的最小与最大分别是 10000 和 90000,现在想把当前值 30000 映射到区间[0,1], 若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375 D. 0.510. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离? ( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12. 设 X={1,2,3}是频繁项集,则可由X 产生( C )个关联规则。
数据仓库与数据挖掘试题

武汉大学计算机学院20XX级研究生“数据仓库和数据挖掘”课程期末考试试题要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。
每张答题纸都要写上姓名和学号。
一、单项选择题(每小题2分,共20分)1. 下面列出的条目中,()不是数据仓库的基本特征。
BA.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的2. 数据仓库是随着时间变化的,下面的描述不正确的是()。
A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容CD.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合3. 以下关于数据仓库设计的说法中()是错误的。
AA.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型C.在进行数据仓库主题数据模型设计时要强调数据的集成性D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域4. 以下关于OLAP的描述中()是错误的。
AA.一个多维数组可以表示为(维1,维2,…,维n)B.维的一个取值称为该维的一个维成员C.OLAP是联机分析处理D.OLAP是数据仓库进行分析决策的基础5. 多维数据模型中,下列()模式不属于多维模式。
DA.星型模式B.雪花模式C.星座模式D.网型模式6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。
CA.频繁项集⊂频繁闭项集⊂最大频繁项集B.频繁项集⊂最大频繁项集⊂频繁闭项集C.最大频繁项集⊂频繁闭项集⊂频繁项集D.频繁闭项集⊂频繁项集⊂最大频繁项集7. 决策树中不包含()结点。
CA.根结点B.内部结点C.外部结点D.叶结点8. 下面选项中t不是s的子序列的是()。
数据仓库与数据挖掘 阶段考试复习题

第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。
在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。
一个数据仓库是通过集成多个异种数据源来构造的。
由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。
数据立方体必须是3维的。
在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。
方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。
雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。
在事实星座模型中,有且仅能有一个事实表。
在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。
二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。
数据仓库与数据挖掘考试试题

数据仓库与数据挖掘考试试题
1. 简答题
a) 数据仓库的定义是什么?
b) 数据挖掘的基本任务有哪些?
c) 数据清洗在数据挖掘中的作用是什么?
2. 选择题
请从以下选项中选择正确答案:
a) 数据仓库的主要特点是:
A. 面向主题
B. 面向过程
C. 面向对象
D. 面向细节
b) 数据挖掘的主要方法包括:
A. 分类
B. 聚类
C. 关联分析
D. 回归分析
c) 数据清洗的过程包括:
A. 数据标准化
B. 数据去重
C. 数据缺失值处理
D. 数据转换
3. 算法题
使用Apriori算法来进行关联规则挖掘,假设有以下购物篮数据集:{牛奶,面包,尿布}
{可乐,面包,尿布}
{牛奶,可乐,尿布}
{牛奶,面包,可乐}
请按照步骤描述如何使用Apriori算法来找出频繁项集和关联规则。
4. 应用题
某电商网站的用户行为数据包括用户ID、商品ID、购买时间等字段,试设计一个数据挖掘任务,根据历史数据预测用户未来可能购买
的商品。
请描述具体的数据处理流程和算法选择,以及如何评估模型
的准确性。
5. 论述题
数据仓库和数据挖掘在实际应用中的价值和意义是什么?结合具体案例或行业来说明,并探讨未来数据仓库和数据挖掘的发展方向。
以上为数据仓库与数据挖掘考试试题的内容,希望您认真针对每个问题进行回答,考试时间为2小时,请自行安排时间和注意事项,祝您考试顺利!。
数据仓库与数据挖掘技术-试题答案

数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理?数据预处理主要包括哪些工作(需要对数据进行哪些方面预处理)?(1)现实世界的数据是杂乱的,数据多了什么问题会出现。
数据库极易受到噪音数据(包含错误或孤立点)、遗漏数据(有些感兴趣的属性缺少属性值或仅包含聚集数据)和不一致数据(在编码或者命名上存在差异)的侵扰,因为数据库太大,常常多达几G或更多。
进行数据预处理,提高数据质量,从而提高挖掘结果质量。
(2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将数据由多个源合并成一致的数据存储,如数据仓库或数据方;数据交换:规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性;数据归约:通过聚集、删除冗余特征或聚类等方法来压缩数据。
数据离散化:属于数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要。
2. 什么叫有监督学习?什么叫无监督学习?) 是通过发现数据属性和类别属性之间的关联模式,并通监督学习(Supervised learning或归纳过利用这些模式来预测未知数据实例的类别属性。
监督学习又称为分类Classification。
学习Inductive Learning无监督学习(Unsupervised learning)即聚类技术。
在一些应用中,数据的类别属性是缺失的,用户希望通过浏览数据来发现其的某些内在结构。
聚类就是发现这种内在结构的技术。
3.什么是数据仓库的星形模式?它与雪花模式有何不同?雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。
这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。
然而,与巨大的事实表相比,这种空间的节省可以忽略。
此外,由于执行查询更多的连接操作,雪花结构可能降低浏览的性能。
这样系统的性能可能受影响。
因此,在数据仓库设计中,雪花模式不如星形模式流行。
二、写出伪代码三答:(1)所有频繁项集为:[E,K,O] [K,M] [K,Y] (2) 关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.01.0[M] -> [K][Y] -> [K] 1.0答:a)决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。
数据仓库与数据挖掘 复习题

数据仓库与数据挖掘教程期末复习题1、数据挖掘来源于机器学习。
2、数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。
3、元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心。
4、Codd将数据分析模型分为四类:绝对模型、解释模型、思考模型和公式化。
5、数据立方体是在所有可能组合的维上进行分组聚集运算的总和。
6、数据质量是数据仓库的成败关键。
7、概括分析是探索者分析过程的第一步。
8、数据仓库的物理模型设计是对逻辑模型设计的数据模型确定物理存储结构和存取方法。
9、自组织网络以ART模型、Kohonen模型为代表,用于聚类。
10、预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。
11、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
12、SQL、SERVER SSAS提供了所有业务数据的同意整合试图,可以作为传统报表和数据挖掘、在线分析处理、关键性能指示器记分卡的基础。
13、数据仓库的概念模型通常采用信息包图法来进行设计。
14、关联规则(关联规则的定义)的经典算法包括()算法。
15、分类器设计阶段包含划分数据集、分类器构造、分类器测试。
16、雪花模型是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
17、数据处理通常分成两大类:联机事务处理和联机分析处理(英文缩写)。
18、数据抽取的两个常见类型是静态抽取和增量抽取。
19、维度表一般由主键、分类层次和描述属性组成。
20、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
21、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储、数据管理和数据表现等到。
22、KDD是数据集中识别出有效的、新颖的、潜在有用的、以及最终可理解的模式的高级处理过程。
23、遗传算法中的基本要素(P27):问题编码;初始群体的设宴设定;适应值函数的设计;遗传操作设计;控制参数设定;24、数据集市数据集市是指具有特定应用的数据仓库主针对某个具有应用战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要竞争优势或者找到进入市场的具体解决方案。
数据仓库与数据挖掘考试题

6.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()
A第一个B第二个C第三个D第四个
7.上题中,等宽划分时(宽度为50),15又在哪个箱子里?()
3.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()
A.分类B.聚类C.关联分析D.隐马尔可夫链
4.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?()
A.探索性数据分析B.建模描述
C.预测建模D.寻找模式和规则
5.下面哪种不属于数据预处理的方法?()
A第一个B第二个C第三个D第四个
8.只有非零值才重要的二元属性被称作:()
A计数属性B离散属性C非对称的二元属性D对称属性
9.以下哪种方法不属于特征选择的标准方法:()
A嵌入B过滤C包装D抽样
10.下面不属于创建新属性的相关方法的是:()
A特征提取B特征修改C映射数据到新的空间D特征构造
填空
1、调和数据是存储在和操作型数据存储中的数据。
10、支持向量机中常用的核函数有、和。
简答、简述题
1、什么是数据仓库?数据仓库的特点主要有哪些?
2、什么是聚类?它与分类有什么异同?
3、简述处理空缺值的方法。
4、简述ID3算法的基本思想及其主算法的基本步骤。
5、何谓OLTP和OLAP?它们的主要异同有哪些?
6、简述你对数据仓库未来发展趋势的看法。
数据仓库与数据挖掘
姓名:
分数:
选择题
数据仓库与数据挖掘复习资料

数据仓库与数据挖掘简答题资料1.数据库与数据仓库的本质差别?《第一章》答:a.数据库是用于事务处理,数据仓库用于决策分析;b.数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;c.数据仓库的数据是大量数据库的集成;d.对数据库的操作比较明确,操作数据量少。
对数据仓库操作不明确,操作数据量大。
e.数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面相分析且支持决策。
2.联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么?《第三章》联机分析处理简单定义:即OLAP是共享多维信息的快速分析。
体现了4个特征:a.快速性:用户对OLAP的快速反应能力有很高的要求。
b.可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
c.多维性:多维性是OLAP的特点,系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。
d.信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统都应能及时获得信息,并且管理大容量信息。
3.数据仓库两类用户有什么本质的不同?《第五章》数据仓库的用户有两类:信息使用者和探索者。
信息使用者是使用数据仓库的大量用户,信息使用者以一种可预测、重复性的方式使用数据仓库。
探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。
探索者查看海量详细数据,而概括数据则会妨碍探索者的数据分析。
探索者经常查看历史数据,且查看时间比使用者长的多。
探索者的任务是寻找公司数据内隐含的价值并且根据过去的事件努力预测未来决策的结果。
探索者是典型的数据挖掘者。
4.信息论的基本原理是什么?《第七章》一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。
信息论把通信过程看做是在随机干扰的环境中传递信息的过程。
数据仓库与数据挖掘试题

《数据仓库与数据挖掘试题》一、判断题(每小题1分,计30分,答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。
(X)2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。
(X)3.关系数据库是二维数据(平面),多维数据库是空间立体数据。
(v)4.数据进入数据仓库之前,必须经过加工与集成。
(V)5.OLAP使用的是当前数据;OLTP使用的是历史数据。
(V)6.对数据仓库操作不明确,操作数据量少。
(X)7.数据集市实现难度超过数据仓库。
(X)8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。
(X)9.数据集市可升级到完整的数据仓库。
(V)10.数据库中存放的数据基本上是保存当前综合数据。
(X)11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。
(V)12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。
(V)13.OLTP的事务处理量大,处理内容比较简单但重复率高。
(V)14.数据仓库的用户有两类:信息使用者和探索者。
(V)15.对数据库的操作比较明确,操作数据量大。
(X)16.数据库用于事务处理,数据仓库用于决策分析。
(V)17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。
(V)18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。
(V)19.OLTP每次操作的数据量不大且多为当前的数据。
(V )20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。
(V)21.随着业务的变化,数据仓库中的数据会随时更新。
(X)22.数据集市的规模比数据仓库更大。
(X)23.数据集市具有更详细的、预先存储在数据仓库的数据。
(V)24.不同维值的组合及其对应的度量值构成了不同的查询和分析。
(V)25.OLAP使用细节性数据,OLTP使用综合性数据。
(X)26.数据集市由企业管理和维护。
数据仓库与数据挖掘试题

《数据仓库与数据挖掘试题》一、判断题(每小题1分,计30分,答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。
(X)2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。
(X)3.关系数据库是二维数据(平面),多维数据库是空间立体数据。
(v)4.数据进入数据仓库之前,必须经过加工与集成。
(V)5.OLAP使用的是当前数据;OLTP使用的是历史数据。
(V)6.对数据仓库操作不明确,操作数据量少。
(X)7.数据集市实现难度超过数据仓库。
(X)8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。
(X)9.数据集市可升级到完整的数据仓库。
(V)10.数据库中存放的数据基本上是保存当前综合数据。
(X)11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。
(V)12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。
(V)13.OLTP的事务处理量大,处理内容比较简单但重复率高。
(V)14.数据仓库的用户有两类:信息使用者和探索者。
(V)15.对数据库的操作比较明确,操作数据量大。
(X)16.数据库用于事务处理,数据仓库用于决策分析。
(V)17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。
(V)18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。
(V)19.OLTP每次操作的数据量不大且多为当前的数据。
(V )20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。
(V)21.随着业务的变化,数据仓库中的数据会随时更新。
(X)22.数据集市的规模比数据仓库更大。
(X)23.数据集市具有更详细的、预先存储在数据仓库的数据。
(V)24.不同维值的组合及其对应的度量值构成了不同的查询和分析。
(V)25.OLAP使用细节性数据,OLTP使用综合性数据。
(X)26.数据集市由企业管理和维护。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2014-2015-1《数据仓库与数据挖掘》期末考试题型一、单项选择题(每小题2分,共20分)二、填空题(每空1分,共20分)三、简答题(每题6分,共30分)四、析题与计算题(共30分)请同学们在考试时不要将复习资料带入考场!!!单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D.数据流挖掘当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他4.标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD? (A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法? (D)估计遗漏值 D 聚集 C 离散化 B变量代换A.12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72,92, 204, 215 使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15在第几个箱子内? (B)A 第一个B 第二个C 第三个D 第四个13.上题中,等宽划分时(宽度为50),15又在哪个箱子里? (A)A 第一个B 第二个C 第三个D 第四个14.下面哪个不属于数据的属性类型:(D)A 标称B 序数C 区间 D相异15. 在上题中,属于定量的属性类型是:(C)A 标称B 序数 C区间 D 相异16. 只有非零值才重要的二元属性被称作:( C )A 计数属性B 离散属性 C非对称的二元属性 D 对称属性17. 以下哪种方法不属于特征选择的标准方法: (D)A嵌入 B 过滤 C 包装 D 抽样18.下面不属于创建新属性的相关方法的是: (B)A特征提取 B特征修改 C映射数据到新的空间 D特征构造19. 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 (C)A 2B 3C 3.5D 520. 下面哪个属于映射数据到新的空间的方法? (A)A 傅立叶变换 B特征加权 C 渐进抽样 D维归约21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:(B)比特 D 3.8比特 C 3.2比特 B 2.6比特A 1.22. 假设属性income的最大最小值分别是12000元和98000元。
利用最大最小规范化的方法将属性的值映射到0至1的范围内。
对属性income 的73600元将被转化为:(D)A 0.821B 1.224C 1.458D 0.71623.假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为:(A)A 18.3B 22.6C 26.8D 27.924. 考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是:(A)A 31B 24C 55D 325. 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。
则年级属性的众数是: (A)A 一年级 B二年级 C 三年级 D 四年级26. 下列哪个不是专门用于可视化时间空间数据的技术: (B)A 等高线图 B饼图 C 曲面图 D 矢量场图27. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: (D)A 有放回的简单随机抽样 B无放回的简单随机抽样 C分层抽样 D 渐进抽样28. 数据仓库是随着时间变化的,下面的描述不正确的是 (C)A. 数据仓库随时间的变化不断增加新的数据内容;B. 捕捉到的新数据会覆盖原来的快照;C. 数据仓库随事件变化不断删去旧的数据内容;这些综合数据会随着时间的变化不断地进行,数据仓库中包含大量的综合数据D.重新综合.29. 关于基本数据的元数据是指: (D)A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B. 基本元数据包括与企业相关的管理方面的数据和信息;C. 基本元数据包括日志文件和简历执行处理的时序调度信息;D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.30. 下面关于数据粒度的描述不正确的是: (C)A. 粒度是指数据仓库小数据单元的详细程度和级别;B. 数据越详细,粒度就越小,级别也就越高;C. 数据综合度越高,粒度也就越大,级别也就越高;D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.31. 有关数据仓库的开发特点,不正确的描述是: (A)A. 数据仓库开发要从数据出发;B. 数据仓库使用的需求在开发出去就要明确;C. 数据仓库的开发是一个不断循环的过程,是启发式的开发;D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式32. 在有关数据仓库测试,下列说法不正确的是: (D)A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试..在测试之前没必要制定详细的测试计划D.33. OLAP技术的核心是: (D)A. 在线性;B. 对用户的快速响应;C. 互操作性.D. 多维分析;34. 关于OLAP的特性,下面正确的是: (D)(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35. 关于OLAP和OLTP的区别描述,不正确的是: (C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.36. OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是: (D)A. OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;B. 由于OLAM的立方体和用于OLAP的立方体有本质的区别.C. 基于WEB的OLAM是WEB技术与OLAM技术的结合.D. OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级.立方体作一定的操作: (A) ,下列不正确的是37. 关于OLAP和OLTP的说法. 但事务内容比较简单且重复率高事务量大A. OLAP,. 不一样B. OLAP的最终数据来源与OLTP. 面对的是决策人员和高层管理人员C. OLTP.是应用驱动的D. OLTP以应用为核心, 38. 设X={1,2,3}是频繁项集,则可由X产生__(C)__个关联规则。
7 A、、5 C、6 D4 B、图。
40. 概念分层图是__(B)__ 、有向有环 D、无向有环 CA、无向无环 B、有向无环 (C) 41. 频繁项集、频繁闭项集、最大频繁项集之间的关系是: =最大频繁项集A、频繁项集频繁闭项集最大频繁项集、频繁项集B = 频繁闭项集最大频繁项集C、频繁项集频繁闭项集频繁闭项集、频繁项集 = = 最大频繁项集D,35}2,3},{1,,4},{1,2,,{1,{142. 考虑下面的频繁3-项集的集合:,2个项,采假定数据集中只有54,{3,,5}5}{235}{14},,3,,{2,,4},,3,)合并策略,由候选产生过程得到4-项集不包含(C用5 41、,3,,5 D4215 C3214B321A、,,,、,,,、,,, ( C ) 的子序列的是不是下面选项中43.ts> 、A> B、> C、>、D.44. 在图集合中发现一组公共子结构,这样的任务称为 ( B )A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘45. 下列度量不具有反演性的是 (D)A、系数B、几率C、Cohen度量D、兴趣因子46. 下列__(A)__不是将主观信息加入到模式发现任务中的方法。
A、与同一时期其他数据对比B、可视化C、基于模板的方法D、主观兴趣度量47. 下面购物篮能够提取的3-项集的最大数量是多少(C)ID 购买项1 牛奶,啤酒,尿布2 面包,黄油,牛奶3 牛奶,尿布,饼干4 面包,黄油,饼干5 啤酒,饼干,尿布6 牛奶,尿布,面包,黄油7 面包,黄油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黄油10 啤酒,饼干A、1B、2C、3D、4()BC4.5 C,K-Mean D,EM ,DBSCAN B,A以下哪些算法是分类算法,48.49. 以下哪些分类方法可以较好地避免样本的不平衡问题, A,KNN B,SVM C,BayesD,神经网络(A)50. 决策树中不包含一下哪种结点,A,根结点(root node) B,内部结点(internalnode) C,外部结点(external node) D,叶结点(leaf node) (C) 51. 不纯性度量中Gini计算公式为(其中c是类的个数) (A)A, B, C, D, (A)53. 以下哪项关于决策树的说法是错误的 (C)A. 冗余属性不会对决策树的准确率造成不利的影响B. 子树可能在决策树中重复多次C. 决策树算法对于噪声的干扰非常敏感D. 寻找最佳决策树是NP完全问题54. 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为 (B)A. 基于类的排序方案B. 基于规则的排序方案C. 基于度量的排序方案D. 基于规格的排序方案。