数据挖掘作业集答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、简答题
(1)常用的数值属性概念分层的方法有哪些?
答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。
(2)典型的生成分类数据的概念分层的方法有哪些?
答:典型的生成分类数据的概念分层的方法包括:
(1)由用户或专家在模式级显示的说明属性的部分序;
(2)通过显示数据分组说明分层结构的一部分。
三、简答题
(1)什么是数据挖掘?
答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?
答:一个典型的数据挖掘系统应该包括以下部分:
数据库、数据仓库或其他信息库
数据库或数据仓库服务器
知识库
数据挖掘引擎
(a)为数据仓库画出雪花模式图。
(b)由基本方体[student, course, semester, instructor]开始,为列出Big_University每个学生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年)。
(c)如果每维有5层(包括all),如student < major < status < university <all,该数据方包含多少方体(包含基本方体和顶点方体)?
(5)什么是模式兴趣度的客观度量和主观度量?
答:客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如:支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:出乎意料的、新颖的、可行动的等等。
(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?
答:一个模式是有趣的,如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。
(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?
答:根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。
第二章数据仓库和数据挖掘的OLAP技术
一、填空题
(1)星形模式、雪花模式和事实星座模式
(2)不物化、部分物化和全物化
半紧密耦合:除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)可以在DB/DW系统中实现。如此一来,一些中间的挖掘结果可以在DB/DW上实现计算或有效的即时计算,性能会有较大提高。
(6)使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于推断的方法
(4)常见的数据归约策略包括哪些?
答:数据归约策略包括:
(1)数据立方体聚集
(2)维归约
(3)数据压缩
(4)数值归约
(5)离散化和概念分层产生
第四章数据挖掘原语、语言和系统结构
一、填空题
(1)模式分层,集合分组分层,操作导出的分层,基于规则的分层
(7)在数据仓库中,元数据的主要用途包括哪些?
答:在数据仓库中,元数据的主要用途包括:
(1)用作目录,帮助决策支持系统分析者对数据仓库的内容定义
(2)作为数据仓库和操作性数据库之间进行数据转换时的映射标准
(3)用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。
1990年代:研究的重点转移到数据挖掘,数据仓库,多媒体数据库和网络数据库。
2000年代:人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML数据库和整合的信息系统。
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)
答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。
(2)数据仓库不需要事务处理,恢复,和并发控制等机制。
(3)数据仓库只需要两种数据访问:数据的初始转载和数据访问(读操作)。
(6)假定Big_University的数据仓库包含如下4个维:student, course, semester和instructor;2个度量:count和avg_grade。在最低得到概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。在较高的概念层,avg_grade存放给定组合的平均成绩。
(3)两者有着不同的数据
数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。
(2)为什么说数据仓库具有随时间而变化的特征?
答:(1)数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去5-10年)。
(2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。
(1)提高两个系统的性能
操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询,多维视图,汇总等OLAP功能提供了优化。
(2)两者有着不同的功能
操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。
(4)请简述几种典型的多维数据的OLAP操作
答:典型的OLAP操作包括以下几种
上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集;
下钻:上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;
切片:在给定的数据立方体的一个维上进行选择,导致一个子方;
(3)面向主题、数据集成、随时间而变化和数据不易丢失
(4)事务操作,只读查询
(5)分布的、代数的和整体的
(6)自顶向下视图、数据源视图、数据仓库视图、商务查询视图
(7)关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)
(8)分布的
(9)海量数据,有限的内存和时间
用于指导挖掘的背景知识;
模式评估、兴趣度量;
如何显示发现的知识。
(2)为什么需要数据挖掘原语和语言来指导数据挖掘?
答百度文库如果不使用数据挖掘原语和语言来指导数据挖掘
(1)会产生大量模式(重新把知识淹没)
(2)会涵盖所有数据,使得挖掘效率低下
(3)大部分有价值的模式集可能被忽略
(4)挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感兴趣。
(8)数据仓库后端工具和程序包括哪些?
答:数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括:
(1)数据提取:从多个外部的异构数据源收集数据
(2)数据清理:检测数据种的错误并作可能的订正
(3)数据变换:将数据由历史或主机的格式转化为数据仓库的格式
(4)装载:排序、汇总、合并、计算视图,检查完整性,并建立索引和分区
(1)忽略元组。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。
(2)人工填写空缺值。这种方法工作量大,可行性低
(3)使用一个全局变量填充空缺值:比如使用unknown或-∞
(4)使用属性的平均值填充空缺值
(5)使用与给定元组属同一类的所有样本的平均值
(3)说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。
(4)对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。
(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。
答:处理空缺值的方法有:
(3)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法?
答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。
(3)整合不同数据源中的元数据,实体识别问题
(4)沿概念分层向上概化
(5)有损压缩,无损压缩
(6)线性回归方法,多元回归,对数线性模型
(7)五数概括、中间四分位数区间、标准差
二、单选题
(1)C;(2)A;(3)D;(4)C;(5)C;(6)B
三、多选题
(1)ABC;(2)BD;(3)ABC;(4)BD;(5)ACD
(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。
答:不耦合:DM系统不利用DB/DW系统的任何功能。这种集成结构简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。
松散耦合:DM系统将使用DB/DW系统的某些功能。这种集成结构简单地利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差。
(2)简单性、确定性、实用性、新颖性
(3)最小置信度临界值、最小支持度临界值
二、单选题
(1)C;(2)D
三、多选题
(1)AC
四、简答题
(1)定义数据挖掘任务的原语,主要应该包括哪些部分?
答:一个定义数据挖掘任务的原语主要应该包括以下部分的说明:
说明数据库的部分或用户感兴趣的数据集;
要挖掘的知识类型;
模式评估模块
图形用户界面
(3)请简述不同历史时代数据库技术的演化。
答:1960年代和以前:研究文件系统。
1970年代:出现层次数据库和网状数据库。
1980年代早期:关系数据模型,关系数据库管理系统(RDBMS)的实现
1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。
切块:通过对两个或多个维执行选择,定义子方;
转轴:转动数据的视角,提供数据的替代表示;
钻过:执行涉及多个事实表的查询;
钻透:使用关系SQL机制,钻到数据立方体的底层,到后端关系表
(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?
答:(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。
(5)刷新:将数据源的更新传播到数据仓库中
五、计算题
(1)答:a.内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序分别如下图所示:
b.这两个次序下计算二维平面所需要的内存空间的大小:
内存空间需求最小的次序:10,000×1,000(用于整个BC平面)+(100,000/10)×1,000(用于AC平面的一行)+(100,000/10)×(10,000/10)(用于AB平面的一格)=30,000,000
《数据挖掘》作业集答案
第一章引言
一、填空题
(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示
(2)算法的效率、可扩展性和并行处理
(3)统计学、数据库技术和机器学习
(4)WEB挖掘
(5)一些与数据的一般行为或模型不一致的孤立数据
二、单选题
(1)B;(2)D;(3)D;(4)B;(5)A;(6)B;(7)C;(8)E;
二、单选题
(1)B;(2)D;(3)C;(4)A;(5)B
三、多选题
(1)ABD;(2)ABC;(3)BCD;(4)ACD;
四、简答题
(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。
答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:
内存空间需求量最大的块计算次序:
100,000×10,000(用于整个AB平面)+100,000×(1,000/10)(用于AC平面的一行)+(10,000/10)×(1,000/10)=1,010,100,000
第三章数据预处理
一、填空题
(1)数据清理、数据集成、数据变换、数据规约
(2)分箱、聚类、计算机和人工检查结合、回归
相关文档
最新文档