数据挖掘离线作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘离线作业文档编制序号:[KK8UY-LL9IO69-TTO6M3-MTOL89-FTT688]
浙江大学远程教育学院
《数据挖掘》课程作业
姓名:皇甫旭丹学号:
年级:2015秋学习中心:奉化学习中心—————————————————————————————第一章引言
一、填空题
(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、
数据集成、
数据选择、数据变换、数据挖掘、模式评估
和知识表示
(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性
和并行处理
(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计
学、数据库技术和机器学习
(4)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、简答题
(1)什么是数据挖掘?
答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?
答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评估模块、图形用户界面。
(3)Web挖掘包括哪些步骤?
答:数据清理:(这个可能要占全过程60%的工作量);数据集成(数据存入数据仓库建立数据立方体,选择用来进行数据挖掘的数据);数据挖掘(选择适当的算法来找到感兴趣的模式);展现挖掘结果(将模式或者知识应用或者存入知识库)。
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)
答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。
第二章认识数据
一、填空题
(1)两个文档向量d1和d2的值为:d1= (1, 0, 3, 0, 2),d2 = (3, 2, 0, 0, 1),则它们的余弦相似度为: 5/13
(2)数据离散度的常用度量包括极差、分位数、四分位数、
百分位数四分位数极差和标准差
(3)一种常用的确定离群点的简单方法是:出落在至少高于第三个四分卫数或低于第一个四分卫数1.5×IQR处的
值。
二、单选题
(1)对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关
系是:
A、中位数=平均值=众数;B中位数>平均值>众数;
C、平均值>中位数>众数;D;众数>中位数>平均值
答:C。
(2)下面的散点图显示哪种属性相关性?
A不相关;B正相关;C负相关;D 先正相关然后负相关;
答:C。
三、简答题
(1)什么是基于像素的可视化技术?它有什么缺点?
答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术特点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。
(2)对称的和不对称的二元属性有什么区别?
答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的。对称的二元属性可以使用简单匹配系统评估它们的相异度;不对称的二元属性使用Jaccard系数评估它们的相异度。
第三章数据预处理
一、填空题
(1)进行数据预处理时所使用的主要方法包括:数据清理、数据集成、
数据变换和数据规约
(2)数据概化是指:沿概念分层向上概化
(3)数据压缩可分为:有损压缩和无损压缩两种类型。
(4)进行数值归约时,三种常用的有参方法是:线性回归方法、多元回归
和对数线性模型
二、简答题
(1)常用的数值属性概念分层的方法有哪些?
答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。
(2)请描述主成份分析(PCA)算法步骤
答:1)规范化输入的数据:所有属性落在相同区间内;2)计算k个标准正交向量,即主成分;3)每个输入数据的向量都是这k个主成分向量的线性组合;4)主成分按照重要程度降序排列。
(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。
答:处理空缺值的方法有:1)忽略元祖。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。2)人工填写空缺值。这种方法工作量大,可行性低。3)使用一个全局变量填充空缺值:比如使用unknown或-∞。4)使用属性的平均值填充空缺值。5)使用与给定元祖属同一类所有样本的平均值。6)使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于推断的方法。
(4)常见的数据归约策略包括哪些?
答:数据归约策略包括:(1)数据立方体聚集(2)维归约(3)数据压缩(4)数值归约(5)离散化和概念分层产生
第六—七章挖掘频繁模式、关联和相关
一、填空题
(1)关联规则挖掘中,两个主要的兴趣度度量是:支持度和置信度
(2)Aprior算法包括连接和剪枝两个基本步骤
(3)项集的频率是指包含项集的事务数
(4)大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集和由频繁项集产生强关联规则
(5)根据规则中所处理的值类型,关联规则可分为:布尔关联规则和量化关联规则
(6)Apriori性质是指:频繁项集的所有非空子集也必须是频繁的(7)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集
二、简答题
(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。
答:优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。缺点:最小支持度值设置困难,太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。
(2)如何提高Apriori算法的有效性?有哪些常见方法?