数据仓库与数据挖掘考试
数据仓库与数据挖掘考试试卷
数据仓库与数据挖掘考试试卷要求:1、在D盘下建立以自己“学号-姓名”命名的文件夹如;2、在要求1中所建立的文件夹下建立以下文件夹:OLAP, ETL, REPORTS一、OLAP设计与应用请建立多维数据集以分析在线销售的数据,要求如下:1、建立分析服务项目,并将项目的所有资料保存在OLAP文件夹中;2、数据源为Adventure Works DW数据库;3、建立的多维数据集名称为Fact Internet Sales;度量值组名为Internet Sales,度量值有Order Quantity, Total Product Cost, Sales Amount, Tax Amt, Freight;5、为事实表增加计算单元a)Gross Profit=[Sales Amount]-[Total Product Cost]; (销售毛利润)b)Gross Profit Margin=[Gross Profit]/[Sales Amount]。
(销售毛利润率)6、设置度量值的格式:金额类均为货币型,比率为百分比。
7、为维度表增加以下命名计算:a)为Customer表增加FullName:如果MiddleName不为空,则FullName=FirstName+”“+MiddleName+”“+LastName,否则FullName=FirstName+”“+LastName。
b)为Order Date表增加SimpleDate=”YY-MM-DD”8、为维度表设置以下层次结构:a)Order Date表:Calendar Year-- Calendar Quarter-- English MonthName—SimpleDateb)Customer表:, EnglishCountryRegionName--,StateProvinceName—City—FullNamec)Product表:ProductLine—Model Name—English Product Name.9、为上述多维数据集建立翻译:语言—中文(中华人民共和国),各字段的翻译根据英文意译。
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.非频繁项集的超集有可能是频繁的。
参考答案:错误2.决策树中不包含以下哪种节点。
参考答案:外部节点(external node)3.数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。
数据源可能涉及多个数据库、数据立方体或一般文件。
参考答案:正确4.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
参考答案:正确5.若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:参考答案:1.9766.朴素贝叶斯算法能够解决特征之间有相关性的问题。
参考答案:错误7.OLAP技术的核心是:参考答案:多维分析8.假定某属性的最小与最大值分别为8000元和14000元。
要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:参考答案:0.7679.后验概率P(H|X)表示条件X下H的概率。
参考答案:正确10.只要有两个频繁3项集,就一定能够生成一个候选4项集。
参考答案:错误11.先验概率是根据历史资料或主观估计的方法得到的概率。
参考答案:正确12.公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。
现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:参考答案:0.71413.数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。
参考答案:正确14.数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。
参考答案:正确15.假设吸烟的本科生比例为15%,而吸烟的研究生占23%。
如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?参考答案:0.27716.决策树构建之后,为了避免过度拟合,需要对树进行剪枝。
数据库数据挖掘与分析考试试卷
数据库数据挖掘与分析考试试卷(答案见尾页)一、选择题1. 数据挖掘的主要目的是什么?A. 提取数据库中的数据B. 分析数据库中的数据以发现隐藏的模式和关联C. 存储和管理数据库中的数据D. 传输数据库中的数据2. 在数据挖掘中,以下哪个过程是用来发现数据项之间的有趣关系和关联的?A. 数据清理B. 数据集成C. 数据转换D. 数据挖掘3. 数据挖掘任务通常不包括以下哪项?A.分类B.聚类C.回归D. 数据库优化4. 关联规则学习是数据挖掘中的一个重要技术,它主要关注什么?A. 发现数据集中不同项之间的因果关系B. 发现数据集中频繁出现的模式和关联C. 建立数据模型以预测未来趋势D. 优化数据库查询性能5. 在聚类分析中,以下哪个选项不是常用的距离度量方法?A. 曼哈顿距离B. 欧氏距离C. 切比雪夫距离D. 余弦相似度6. 数据挖掘中经常使用哪种图表来展示聚类结果?A. 条形图B. 饼图C. 网络图D. 散点图7. 在数据挖掘中,以下哪个算法主要用于发现连续数值型数据中的异常值或离群点?A. K-均值算法B. DBSCANC. 谱聚类算法D. 决策树算法8. 数据挖掘中,以下哪个步骤不是数据预处理的一部分?A. 数据清洗B. 数据集成C. 数据转换D. 数据降维9. 在建立数据挖掘模型时,以下哪个步骤不是特征选择的一部分?A. 特征提取B. 特征选择C. 特征验证D. 特征排序10. 数据挖掘中,以下哪个工具不是常用的数据挖掘工具?A. SQLB. ExcelC. PythonD. R二、问答题2. 什么是SQL语言?请列举几种常见的SQL语句。
3. 什么是数据库的完整性约束?请举例说明。
4. 什么是数据库的设计原则?请列举几个常用的设计原则。
5. 什么是数据库的范式?请简要解释第一范式和第二范式。
6. 什么是数据库索引?请简述索引的作用和分类。
7. 什么是数据库的事务处理?请简述事务的定义和特性。
数据仓库与数据挖掘试题
武汉大学计算机学院20XX级研究生“数据仓库和数据挖掘”课程期末考试试题要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。
每张答题纸都要写上姓名和学号。
一、单项选择题(每小题2分,共20分)1. 下面列出的条目中,()不是数据仓库的基本特征。
BA.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的2. 数据仓库是随着时间变化的,下面的描述不正确的是()。
A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容CD.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合3. 以下关于数据仓库设计的说法中()是错误的。
AA.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型C.在进行数据仓库主题数据模型设计时要强调数据的集成性D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域4. 以下关于OLAP的描述中()是错误的。
AA.一个多维数组可以表示为(维1,维2,…,维n)B.维的一个取值称为该维的一个维成员C.OLAP是联机分析处理D.OLAP是数据仓库进行分析决策的基础5. 多维数据模型中,下列()模式不属于多维模式。
DA.星型模式B.雪花模式C.星座模式D.网型模式6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。
CA.频繁项集⊂频繁闭项集⊂最大频繁项集B.频繁项集⊂最大频繁项集⊂频繁闭项集C.最大频繁项集⊂频繁闭项集⊂频繁项集D.频繁闭项集⊂频繁项集⊂最大频繁项集7. 决策树中不包含()结点。
CA.根结点B.内部结点C.外部结点D.叶结点8. 下面选项中t不是s的子序列的是()。
数据仓库与数据挖掘考试习题汇总
第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
数据仓库与数据挖掘考试试题
一、填空题(15分)1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。
2.元数据是描述数据仓库内数据的结构和建立方法的数据。
根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。
3.OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。
4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。
5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。
二、多项选择题(10分)6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A 分类B 关联C 估值D 预言7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A 数据抽取B 数据转换C 数据加载D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值9.层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法10.贝叶斯网络由两部分组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表三、计算题(30分)11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。
(15分)解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf minconfidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
数据仓库与数据挖掘试题
09数据仓库与数据挖掘试题(最后)(总3页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--数据仓库与数据挖掘试题一、什么是数据仓库数据仓库的主要特征有哪些它与传统的关系数据库系统有什么区别二、关系模型和多维模型在数据仓库设计中各有什么优缺点?三、数据仓库上的代数操作有哪些?如何定义的,举例说明。
四、什么是知识发现,知识发现的过程包括那几个步骤五、什么是关联规则如何利用Apriori算法在给定的数据集合上找出关联规则六、什么是分类什么是聚类二者的区别是什么常用的分类和聚类方法有哪些1、数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。
数据仓库的主要特征: 面向主题的、集成的、时变的、非易失的数据仓库与数据库的区别数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
2、关系模型先建立企业级数据仓库,再在其上开发具体的应用。
企业级数据仓库固然是我们所追求的目标,但在缺乏足够的技术力量和数据仓库建设经验的情况下,按照这种模型设计的系统建设过程长,周期长,难度大,风险大,容易失败。
这种模型的优点是信息全面、系统灵活。
由于采用了第三范式,数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等,但同时会存在大量的数据表,表之间的联系比较多,也比较复杂,跨表操作多,查询效率较低,对数据仓库系统的硬件性能要求高等问题。
另一方面,数据模式复杂,不容易理解,对于一般计算机用户来说,增加了理解数据表的困难。
多维模型降低了范式化,以分析主题为基本框架来组织数据。
数据仓库与数据挖掘技术复习资料
数据仓库与数据挖掘技术复习资料一、单项选择题1. 数据挖掘技术包括三个主要的部份 ( C )A.数据、模型、技术C.数据、建模能力、算法与技术2.关于基本数据的元数据是指: ( D B.算法、技术、领域知识D.建模能力、算法与技术、领域知识)A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。
3. 关于 OLAP 和 OLTP 的说法,下列不正确的是: ( A)A.OLAP 事务量大,但事务内容比较简单且重复率高B.OLAP 的最终数据来源与 OLTP 不一样C.OLTP 面对的是决策人员和高层管理人员D.OLTP 以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? ( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 会萃D. 估计遗漏值6. 在 ID3 算法中信息增益是指(A.信息的溢出程度C.熵增加的程度最大D )B.信息的增加效益D.熵减少的程度最大7. 以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8. 以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻觅最佳决策树是 NP 彻底问题9. 假设收入属性的最小与最大分别是 10000 和 90000,现在想把当前值 30000 映射到区间[0,1], 若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375 D. 0.510. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离? ( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12. 设 X={1,2,3}是频繁项集,则可由X 产生( C )个关联规则。
数据仓库与数据挖掘 阶段考试复习题
第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。
在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。
一个数据仓库是通过集成多个异种数据源来构造的。
由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。
数据立方体必须是3维的。
在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。
方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。
雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。
在事实星座模型中,有且仅能有一个事实表。
在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。
二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。
数据仓库与数据挖掘考试试题
数据仓库与数据挖掘考试试题
1. 简答题
a) 数据仓库的定义是什么?
b) 数据挖掘的基本任务有哪些?
c) 数据清洗在数据挖掘中的作用是什么?
2. 选择题
请从以下选项中选择正确答案:
a) 数据仓库的主要特点是:
A. 面向主题
B. 面向过程
C. 面向对象
D. 面向细节
b) 数据挖掘的主要方法包括:
A. 分类
B. 聚类
C. 关联分析
D. 回归分析
c) 数据清洗的过程包括:
A. 数据标准化
B. 数据去重
C. 数据缺失值处理
D. 数据转换
3. 算法题
使用Apriori算法来进行关联规则挖掘,假设有以下购物篮数据集:{牛奶,面包,尿布}
{可乐,面包,尿布}
{牛奶,可乐,尿布}
{牛奶,面包,可乐}
请按照步骤描述如何使用Apriori算法来找出频繁项集和关联规则。
4. 应用题
某电商网站的用户行为数据包括用户ID、商品ID、购买时间等字段,试设计一个数据挖掘任务,根据历史数据预测用户未来可能购买
的商品。
请描述具体的数据处理流程和算法选择,以及如何评估模型
的准确性。
5. 论述题
数据仓库和数据挖掘在实际应用中的价值和意义是什么?结合具体案例或行业来说明,并探讨未来数据仓库和数据挖掘的发展方向。
以上为数据仓库与数据挖掘考试试题的内容,希望您认真针对每个问题进行回答,考试时间为2小时,请自行安排时间和注意事项,祝您考试顺利!。
数据仓库与数据挖掘考试题
6.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()
A第一个B第二个C第三个D第四个
7.上题中,等宽划分时(宽度为50),15又在哪个箱子里?()
3.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()
A.分类B.聚类C.关联分析D.隐马尔可夫链
4.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?()
A.探索性数据分析B.建模描述
C.预测建模D.寻找模式和规则
5.下面哪种不属于数据预处理的方法?()
A第一个B第二个C第三个D第四个
8.只有非零值才重要的二元属性被称作:()
A计数属性B离散属性C非对称的二元属性D对称属性
9.以下哪种方法不属于特征选择的标准方法:()
A嵌入B过滤C包装D抽样
10.下面不属于创建新属性的相关方法的是:()
A特征提取B特征修改C映射数据到新的空间D特征构造
填空
1、调和数据是存储在和操作型数据存储中的数据。
10、支持向量机中常用的核函数有、和。
简答、简述题
1、什么是数据仓库?数据仓库的特点主要有哪些?
2、什么是聚类?它与分类有什么异同?
3、简述处理空缺值的方法。
4、简述ID3算法的基本思想及其主算法的基本步骤。
5、何谓OLTP和OLAP?它们的主要异同有哪些?
6、简述你对数据仓库未来发展趋势的看法。
数据仓库与数据挖掘
姓名:
分数:
选择题
数据仓库与数据挖掘考试知识点
数据仓库与数据挖掘考试闭卷
填空(2*10)判断(2*15)简答(2*10)计算(3*10)
1.数据仓库,数据挖掘概念以及其之间的联系。
2.数据仓库里的模型有哪些?(5类)
OLAP的操作有哪些?(4类)
数据仓库中的数据如何组织?(4类)
什么是数据立方体?什么是数据提示?
数据仓库体系结构?(3层)
什么是多维数据模型?
ROLAP ,MOLAP有什么区别?
数据仓库的特点和理解?OLAP ,OLTP的区别?
3.数据挖掘的分类?按什么分为?
数据顶处理的方法有哪些?分箱方法的操作。
源数据的操作分类,源处理,源数据的分类。
4.关联规则Apriovi算法,给定>=I 得出频繁过程。
关联规则分类?
判断关联规则的两个标准?
5.分类与顶测的区别?
重点:决策树
如何结合公式计算信息增益值
贝叶斯分类
贝叶斯分类之间有什么联系,区别?
什么是聚类?分哪5大类?
方法的思想
不同数据对象之间的距离?(二元,多元)哪些方法属于哪一类?
聚类:概念
5大类
K-ming 方法的思想
二元变量的距离,方元变量分类
判断方法属于哪一类。
数据仓库与数据挖掘复习资料
数据仓库与数据挖掘简答题资料1.数据库与数据仓库的本质差别?《第一章》答:a.数据库是用于事务处理,数据仓库用于决策分析;b.数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;c.数据仓库的数据是大量数据库的集成;d.对数据库的操作比较明确,操作数据量少。
对数据仓库操作不明确,操作数据量大。
e.数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面相分析且支持决策。
2.联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么?《第三章》联机分析处理简单定义:即OLAP是共享多维信息的快速分析。
体现了4个特征:a.快速性:用户对OLAP的快速反应能力有很高的要求。
b.可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
c.多维性:多维性是OLAP的特点,系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。
d.信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统都应能及时获得信息,并且管理大容量信息。
3.数据仓库两类用户有什么本质的不同?《第五章》数据仓库的用户有两类:信息使用者和探索者。
信息使用者是使用数据仓库的大量用户,信息使用者以一种可预测、重复性的方式使用数据仓库。
探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。
探索者查看海量详细数据,而概括数据则会妨碍探索者的数据分析。
探索者经常查看历史数据,且查看时间比使用者长的多。
探索者的任务是寻找公司数据内隐含的价值并且根据过去的事件努力预测未来决策的结果。
探索者是典型的数据挖掘者。
4.信息论的基本原理是什么?《第七章》一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。
信息论把通信过程看做是在随机干扰的环境中传递信息的过程。
数据库与数据挖掘阶段考试试题及答案
一、名词解释(5个,10分)1、数据库:长期储存在计算机内的、有组织的、可共享的数据集合。
2、数据库系统:数据库系统是指在计算机系统中引入数据库后的系统构成,一般由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员构成。
3、数据库管理系统:位于用户与操作系统之间的一层数据管理软件,用于科学地组织和存储数据、高效地获取和维护数据。
4、视图:从一个或几个基本表导出的表,它与基本表不同,是一个虚表,数据库中只存放视图的定义,而不存放视图对应的数据。
5、实体:现实世界中客观存在并能相互区别的事物。
6、模式是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图。
7、实体完整性:关系R的所有元组在主码上的值必须唯一,并且在主码的任何属性上都不能取空值。
二、单选题(30个,30分)1、SQL中,下列涉及空值的操作,不正确的是(C)。
A. AGE IS NULLB. AGE IS NOT NULLC. AGE = NULLD. NOT (AGE IS NULL)2、数据库管理系统是一个(A )。
(A) 软件系统(B) 硬件系统(C)软硬件结合的系统(D) 数据集合3.数据模型是(A )数据特征的抽象。
(A)计算机世界(B)现实世界(C) 模型空间(D) 概念世界4、关系模式R为3NF, 则R不存在( D )。
(A) 部分依赖(B) 传递依赖(C)非主属性对码的传递依赖(D) 主属性对码的传递依赖5、关系R的实体完整性控制是指( A )。
(A)主键非空(B)主键唯一(C)主键非空且唯一(D)主键非空或唯一6、实体联系模型属于( D )。
A. 层次模型B. 网状模型C. 关系模型 D 概念模型7、在一个关系中,任意两个元组的值( C )。
A. 可以全同B. 必须全同C. 不能全同D. 以上都不是8、关系R和S进行自然连接时,要求R和S含有一个或多个公共( B )A. 行B. 属性C. 记录D.元组9、SQL是( C )的缩写。
数据仓库与数据挖掘技术考试试题汇总
33. ID3 算法主要存在的缺点有:
46. 数据从集结区加载到数据仓库中的主要方法?
1 ID3 算法在选择根结点和各内部结点中的分枝
1 SQL 命令;
属性时,使用信息增益作为评价标准。信息增益的缺点是
2 由 DW 供应商或第三方提供专门的加载工具;
倾向于选择取值较多的属性,在有些情况下这类属性可能
3 由 DW 管理员编写自定义程序。
不会提供太多有价值的信息。
47. 数据库、TPS、MIS 属于面向业务操作的数据资源管
2 ID3 算法只能对描述属性为离散型属性的数据
理。
集构造决策树。
48. 面向决策分析的数据资源管理包括数据仓库以及与
34. 数据字典是数据库中各类数据描述的集合,通常包括
之紧密相关的 DSS。
的数据量很大;数据仓库软硬件要求很高。
也即频繁 k-项集为空。
9. ETL 过程的主要步骤可以概括为:
14. 调和数据是存储在企业级数据仓库和操作型数据存
1 决定数据仓库中需要的所有的目标数据;
储中的数据。
2 决定所有的数据源,包括内部和外部的数据源; 15. SQL Server SSAS 提供了所有业务数据的同意整合
8 为所有的数据装载编写规程;
18. 分类器设计阶段包含划分数据集 、分类器构造 、分
9 维度表的抽取、转换和装载;
类器测试。
10 事实表的抽取、转换和装载。
19. 数据处理通常分成两大类:联机事务处理和联机分析
10. 数据分割的好处有:
处理。
1 对当前细节数据进行分割的总体目的就是把数 20. ROLAP 是基于关系数据库的 OLAP 实现,而 MOLAP
31. 常见的聚类算法可以分为基于划分的聚类算法,基于 转换规则和数据刷新规则及安全(用户授权和存取控制)。
数据仓库与数据挖掘期末考试题库
复习内容填空题(每空1分)第1章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理(OLTP)和联机分析处理。
4、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立数据集市、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库。
8、操作型数据存储(ODS)实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
P159、“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、数据挖掘的分析方法可以分为直接数据挖掘和间接数据挖掘两类。
第2章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
数据仓库与数据挖掘试题
《数据仓库与数据挖掘试题》一、判断题(每小题1分,计30分,答题时每5个答案写在一起)1.数据库作为数据资源用于管理业务中的信息分析处理。
(X)2.数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。
(X)3.关系数据库是二维数据(平面),多维数据库是空间立体数据。
(v)4.数据进入数据仓库之前,必须经过加工与集成。
(V)5.OLAP使用的是当前数据;OLTP使用的是历史数据。
(V)6.对数据仓库操作不明确,操作数据量少。
(X)7.数据集市实现难度超过数据仓库。
(X)8.OLAP使用的数据经常更新;OLTP使用的数据不更新,但周期性刷新。
(X)9.数据集市可升级到完整的数据仓库。
(V)10.数据库中存放的数据基本上是保存当前综合数据。
(X)11.OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。
(V)12.OLAP支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。
(V)13.OLTP的事务处理量大,处理内容比较简单但重复率高。
(V)14.数据仓库的用户有两类:信息使用者和探索者。
(V)15.对数据库的操作比较明确,操作数据量大。
(X)16.数据库用于事务处理,数据仓库用于决策分析。
(V)17.信息使用者以一种可预测的、重发性的方式使用数据仓库平台。
(V)18.OLAP一次处理的数据量大;OLTP一次性处理的数据量小。
(V)19.OLTP每次操作的数据量不大且多为当前的数据。
(V )20.数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。
(V)21.随着业务的变化,数据仓库中的数据会随时更新。
(X)22.数据集市的规模比数据仓库更大。
(X)23.数据集市具有更详细的、预先存储在数据仓库的数据。
(V)24.不同维值的组合及其对应的度量值构成了不同的查询和分析。
(V)25.OLAP使用细节性数据,OLTP使用综合性数据。
(X)26.数据集市由企业管理和维护。
数据仓库与数据挖掘技术-试题答案
数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理?数据预处理主要包括哪些工作(需要对数据进行哪些方面预处理)?(1)现实世界的数据是杂乱的,数据多了什么问题会出现.数据库极易受到噪音数据(包含错误或孤立点)、遗漏数据(有些感兴趣的属性缺少属性值或仅包含聚集数据)和不一致数据(在编码或者命名上存在差异)的侵扰,因为数据库太大,常常多达几G或更多。
进行数据预处理,提高数据质量,从而提高挖掘结果质量。
(2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将数据由多个源合并成一致的数据存储,如数据仓库或数据方;数据交换:规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性;数据归约:通过聚集、删除冗余特征或聚类等方法来压缩数据。
数据离散化:属于数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要。
2. 什么叫有监督学习?什么叫无监督学习?监督学习(Supervised learning)是通过发现数据属性和类别属性之间的关联模式,并通过利用这些模式来预测未知数据实例的类别属性.监督学习又称为分类Classification或归纳学习Inductive Learning.无监督学习(Unsupervised learning)即聚类技术。
在一些应用中,数据的类别属性是缺失的,用户希望通过浏览数据来发现其的某些内在结构.聚类就是发现这种内在结构的技术。
3.什么是数据仓库的星形模式?它与雪花模式有何不同?雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。
这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大.然而,与巨大的事实表相比,这种空间的节省可以忽略。
此外,由于执行查询更多的连接操作,雪花结构可能降低浏览的性能。
这样系统的性能可能受影响。
因此,在数据仓库设计中,雪花模式不如星形模式流行.二、写出伪代码三答:(1)所有频繁项集为:[E,K,O] [K,M][K,Y](2)关联规则:[O]—>[E,K]1.0[E,O] -> [K] 1.0[K,O]—> [E] 1.0[M] —〉 [K] 1.0[Y] -〉 [K] 1.0答:a)决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Data Mining Exam Manual
By Ronel Li, Zhangwei Tuo, Jia Li, Info dept
I. fill in the blanks (20%)
1. From a data analysis point of view, data mining can be classified into two categories: ( predictive ) and ( descriptive ) data mining.
2. Data model in data warehouse contains conceptual model, ( logical model ),( physical ) model ) and metadata model.
3. From user view, metadata can be divided into ( business ) and ( technical ) metadata.
4. OLAP operations in the multidimensional data model are ( slice ), dice ( drill-down ), ( roll-up ) and rotate.
5. Methods of data preprocessing include(data cleaning, data integration & transformation, data reduction )
6. In data warehouse, Data can be organized ( current detailed ), older detailed, ( lightly summarized ) and highly summarized.
7. A three-tier data warehousing architecture include a warehouse database server ( OLAP server ) and client.
8. ( Data discretization ) techniques can be used to reduce the number of values for a given continuous attributes, by dividing the range of the attribute into intervals.
9. ( A concept hierarchy ) defines a sequence of mappings from a set of low-level concepts to higher-level, more general concepts.
10. ( A data cube ) allows data to be modeled and viewed in multiple dimensions, it is defined by dimensions and facts.
11. In general, major clustering methods can be classified into the following categories: partitioning methods, hierarchical methods, ( density-based methods ) ( grid-based methods ) and model-based methods.
II.True-false question (30%)
Please try your own luck …
III.Short Answer Questions (20%)
1.How the noisy data is smoothed with binning during preprocessing?
Answer:
Binning methods smooth a sorted data value by consulting the values around it.
Binning Techniques includes:
1)Smoothing by bin means,
2)Smoothing by bin medians,
3)Smoothing by bin boundries.
2.The theory or basic steps of k-means algorithm.
Answer:
Following is the theory structure of K-means algorithm:
arbitrarily choose k objects from D as the initial cluster centers;
repeat
(re)assign each object to the cluster to which the object is the most similar, based on the mean value of the objects in the cluster;
update the cluster means, i.e., calculate the mean value of the objects for each cluster;
until no change.
3.How to fill the empty property values?
Answer:
The methods of filling the empty property values are below:
1)Ignore the tuple
2)Fill in the missing value manually
3)Use a global constant to fill in the missing va lue
4)Use the attribute mean to fill in the missing value
5)Use the attributemean for all samples belonging to the same class as the given tuple
6)Use the most probable value to fill in the missing value
IV.Calculation (20%) (Simple Instructions Here)
1.Given minimum support factor, How to find the frequent item sets of association rules.
English textbook page: 233
Chinese textbook page: 148
2. Calculate the value of a property's information gain using the decision tree algorithm (A specific dataset would be given).
Gain(A)=Info(D)-Info A (D)
Info(D)=()i m i i D D
21
log ∑=
Info A (D)=)(||||1j v j j D
Info D D ⨯∑=
English textbook page: 192
Chinese textbook page: 287
3. How to measure the dissimilarity of two objects in the cluster? How to calculate the distance of binary attributes d(i, j) = t
s r q s r ++++ symmetric binary dissimilarity. d(i, j) =
s r q s r +++ asymmetric binary dissimilarity.
English textbook page: 256
Chinese textbook page: 343。