数据挖掘离线作业答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。
(2)数据仓库不需要事务处理,恢复,和并发控制等机制。
(3)数据仓库只需要两种数据访问:数据的初始转载和数据访问(读操作)。
(6)在数据仓库中,元数据的主要用途包括哪些?
答:在数据仓库中,元数据的主要用途包括:
(1)用作目录,帮助决策支持系统分析者对数据仓库的内容定义
(2)作为数据仓库和操作性数据库之间进行数据转换时的映射标准
b、计算k个标准正交向量,即主成分;
c、每个输入数据的向量都是这k个主成分向量的线性组合;
d、主成分按照重要程度降序排序。
(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。
答:处理空缺值的方法有:
(1)忽略元组。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。
(3)高类内相似度、低类间相似度
(4)数据矩阵和相似度矩阵
(5)处理数度快
二、简答题
(1)简述基于划分的聚类方法。划分的准则是什么?
答:基于划分的聚类方法:给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k<=n。划分方法要求每个组至少包含一个对象并且每个对象属于且仅属于一个组。聚类目标可以是最优化某种度量,比如最小化数据点与类中心的距离平方和等。
划分准则是同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的原理或不同。
(2)列举离群点挖掘的常见应用。
答:离群点检测的应用很多,列举一些如下:
a、欺诈检测;
b、网络入侵;
c、故障诊断;
d、可疑金融交易监控。
第四章数据仓库与OLAP技术
一、填空题
(1)星形模式、雪花模式和事实星座模式
(2)不物化、部分物化和全物化
(7)频繁谓词集
二、简答题
(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。
答:优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。缺点:最小支持度值设置困难:太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。
二、简答题
(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。
答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:
(1)提高两个系统的性能
操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询,多维视图,汇总等OLAP功能提供了优化。
第八章分类
一、填空题
(1)分类规则、决策树、数学公式
(2)类条件独立
二、简答题
(1)在判定树归纳中,为什么树剪枝是有用的?
答:决策树建立时,许多分枝反映的是训练数据中的噪声和离群点点,树剪枝可以识别并剪去这种分枝,以提高对未知数据分类的准确性。
(2)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点。
答:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开销。他的优点是容易实现并在大多数情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用中缺乏准确性,因为变量之间经常存在依赖关系;这种依赖关系影响了朴素贝叶斯分类器的准确性。
选择用来进行数据挖掘的数据
数据挖掘(选择适当的算法来找到感兴趣的模式)
展现挖掘结果
将模式或者知识应用或者存入知识库
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)
答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。
(4)简述数据分类的两步过程。
第一步,建立模型:建立描述预先定义的数据类或概念集的分类器;
第二步,在独立测试集上评估模型的预测准确率,通过测试后再使用模型,对新的数据进行分类。
四、算法题
判定树buys_PCGame如下所示:
第十章聚类分析
一、填空题
(1)划分方法、层次方法、基于密度的方法
(2)数据分布的情况
切块:通过对两个或多个维执行选择,定义子方;
转轴:转动数据的视角,提供数据的替代表示;
钻过:执行涉及多个事实表的查询;
钻透:使用关系SQL机制,钻到数据立方体的底层,到后端关系表
(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?
答:(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。
答:(1)数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去5-10年)。
(2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。
(3)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法?
(4)请简述几种典型的多维数据的OLAP操作
答:典型的OLAP操作包括以下几种
上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集;
下钻:上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;
切片:在给定的数据立方体的一个维上进行选择,导致一个子方;
(3)数据变换:将数据由历史或主机的格式转化为数据仓库的格式
(4)装载:排序、汇总、合并、计算视图,检查完整性,并建立索引和分区
(5)刷新:将数据源的更新传播到数据仓库中
答:数据归约策略包括:
(1)数据立方体聚集
(2)维归约
(3)数据压缩
(4)数值归约
(5)离散化和概念分层产生
第六—七章挖掘频繁模式、关联和相关
一、填空题
(1)支持度和置信度
(2)连接和剪枝
(3)包含项集的事务数
(4)找出所有频繁项集、由频繁项集产生强关联规则
(5)布尔关联规则、量化关联规则
(6)频繁项集的所有非空子集也必须是频繁的
(2)沿概念分层向上概化
(3)有损压缩,无损压缩
(4)线性回归方法,多元回归,对数线性模型
二、简答题
(1)常用的数值属性概念分层的方法有哪些?
答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。
(2)主成份分析步骤为:
a、规范化输入的数据:所有属性落在相同的区间内;
(2)如何提高Apriori算法的有效性?有哪些常见方法?
可以使用以下几个思路提升Apriori算法有效性:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法。常见方法包括:a、基于hash表的项集计数;b、事务压缩(压缩进一步迭代的事务数)c、划分;d、选样(在给定数据的一个子集挖掘);e、动态项集计数。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?
答:一个典型的数据挖掘系统应该包括以下部分:
数据库、数据仓库或其他信息库
数据库或数据仓库服务器
知识库
数据挖掘引擎
模式评估模块
图形用户界面
(3)Web挖掘一般包括以下步骤:
数据清理: (这个可能要占全过程60%的工作量)
数据集成
将数据存入数据仓库
建立数据立方体
(3)面向主题、数据集成、随时间而变化和数据不易丢失
(4)事务操作,只读查询
(5)分布的、代数的和整体的
(6)自顶向下视图、数据源视图、数据仓库视图、商务查询视图
(7)关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)
(8)分布的
(9)海量数据,有来自百度文库的内存和时间
(2)人工填写空缺值。这种方法工作量大,可行性低
(3)使用一个全局变量填充空缺值:比如使用unknown或-∞
(4)使用属性的平均值填充空缺值
(5)使用与给定元组属同一类的所有样本的平均值
(6)使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于推断的方法
(4)常见的数据归约策略包括哪些?
(3)用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。
(7)数据仓库后端工具和程序包括哪些?
答:数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括:
(1)数据提取:从多个外部的异构数据源收集数据
(2)数据清理:检测数据种的错误并作可能的订正
(2)对称的和不对称的二元属性有什么区别?
答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的。对称的二元属性可以使用简单匹配系数评估它们的相异度;不对称的二元属性使用Jaccard系数评估它们的相异度。
第三章数据预处理
一、填空题
(1)数据清理、数据集成、数据变换、数据规约
浙江大学远程教育学院
《数据挖掘》课程作业答案
第一章引言
一、填空题
(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示
(2)算法的效率、可扩展性和并行处理
(3)统计学、数据库技术和机器学习
(4)一些与数据的一般行为或模型不一致的孤立数据
二、简答题
(1)什么是数据挖掘?
答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
(2)两者有着不同的功能
操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。
(3)两者有着不同的数据
数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。
(2)为什么说数据仓库具有随时间而变化的特征?
第二章认识数据
一、填空题
(1)5/13
(2)极差、分位数、四分位数、百分位数、四分位数极差和标准差
(3)出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值
二、单选题
(1)C;(2)C;
三、简答题
(1)什么是基于像素的可视化技术?它有什么缺点?
答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。
(3)分类方法的常用评估度量都有哪些?
精度(Precision):标记为正类的元组实际为正类所占的百分比
召回率:正元组标记为正的百分比
F度量:精度和召回率的调和评估指标
准确率(accuracy),识别率:测试数据中被正确分类的元组所占的百分比;
灵敏度(Sensitivity):真正例(识别)率
特效性(Specificity):真负例率
相关文档
最新文档