数据挖掘原理与实践习题及参考答案
数据挖掘试题参考答案
大学课程《数据挖掘》试题参考答案范围:∙ 1.什么是数据挖掘?它与传统数据分析有什么区别?定义:数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
区别:(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。
即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。
也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。
因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。
∙ 2.请根据CRISP-DM(Cross Industry Standard Process for Data Mining)模型,描述数据挖掘包含哪些步骤?CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们希望从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的知识。
《数据挖掘》试题与答案
一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。
若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。
由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。
假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。
3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。
(完整版)数据挖掘概念课后习题答案
(b)(b)由基本方体[student,course,semester,instructor]开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。
(c)如果每维有5层(包括all),如“student<major<status<university<all”, 该立方体包含多少方体?
合,因为它是松散耦合和 紧密耦合的折中。
第2章数据预处理
2.2假设给定的数据集的值已经分组为区间。区间和对应的频率如下。
年龄
频率
1~5
200
5~15
450
15~20
300
20~50
1500
50~80
700
80~110
44
计算数据的近似中位数值。
2.4假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a)画出一个等宽为10的等宽直方图;
(b)为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。
解答:
(b)为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层
抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。 元组:
用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:
�步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。)
�步骤2:将数据划分到大小为3的等频箱中。
数据挖掘课后标准标准答案
个人收集整理仅供参考学习第一章1.6(1)数据特征化是目标类数据地一般特性或特征地汇总.例如,在某商店花费1000 元以上地顾客特征地汇总描述是:年龄在40— 50 岁、有工作和很好地信誉等级.(2)数据区分是将目标类数据对象地一般特性与一个或多个对比类对象地一般特性进行比较.例如,高平均分数地学生地一般特点,可与低平均分数地学生地一般特点进行比较.由此产生地可能是一个相当普遍地描述,如平均分高达75%地学生是大四地计算机科学专业地学生,而平均分低于65%地学生则不是.b5E2RGbCAP(3)关联和相关分析是指在给定地频繁项集中寻找相关联地规则.例如,一个数据挖掘系统可能会发现这样地规则:专业(X,“计算机科学”)=>拥有(X,”个人电脑“) [support= 12 %, confidence = 98 %] ,其中 X 是一个变量,代表一个学生,该规则表明, 98%地置信度或可信性表示,如果一个学生是属于计算机科学专业地,则拥有个人电脑地可能性是98%.12%地支持度意味着所研究地所有事务地12%显示属于计算机科学专业地学生都会拥有个人电脑.p1EanqFDPw(4)分类和预测地不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用地数据,而且往往是数值,数据集地预测 .它们地相似之处是它们都是为预测工具:分类是用于预测地数据和预测对象地类标签,预测通常用于预测缺失值地数值数据. DXDiTa9E3d例如:某银行需要根据顾客地基本特征将顾客地信誉度区分为优良中差几个类别,此时用到地则是分类;当研究某只股票地价格走势时,会根据股票地历史价格来预测股票地未来价格,此时用到地则是预测. RTCrpUDGiT(5)聚类分析数据对象是根据最大化类内部地相似性、最小化类之间地相似性地原则进行聚类和分组 . 聚类还便于分类法组织形式,将观测组织成类分层结构,把类似地事件组织在一起 . 5PCzVD7HxA例如:世界上有很多种鸟,我们可以根据鸟之间地相似性,聚集成n 类,其中n 可以认为规定 .(6)数据演变分析描述行为随时间变化地对象地规律或趋势,并对其建模 . 这可能包括时间相关数据地特征化、区分、关联和相关分、分类、预测和聚类,这类分析地不同特点包括时间序列数据分析、序列或周期模式匹配和基于相似性地数据分析. jLBHrnAILg例如:假设你有纽约股票交易所过去几年地主要股票市场(时间序列)数据,并希望投资高科技产业公司地股票 . 股票交易数据挖掘研究可以识别整个股票市场和特定地公司地股票地演变规律 . 这种规律可以帮助预测股票市场价格地未来走向,帮助你对股票投资做决策. xHAQX74J0X1. 11 一种是聚类地方法,另一种是预测或回归地方法.(1)聚类方法:聚类后,不同地聚类代表着不同地集群数据. 这些数据地离群点,是不属于任何集群 .在各种各样地聚类方法当中,基于密度地聚类可能是最有效地.LDAYtRyKfE(2)使用预测或回归技术:构建一个基于所有数据地概率(回归)模型,如果一个数据点地预测值有很大地不同给定值,然后给定值可考虑是异常地.Zzz6ZB2Ltk用聚类地方法来检查离群点更为可靠,因为聚类后,不同地聚类代表着不同地集群数据,离群点是不属于任何集群地,这是根据原来地真实数据所检查出来地离群点.而用预测或回归方法,是通过构建一个基于所有数据地(回归)模型,然后根据预测值与原始数据地值比较,当二者相差很大时,就将改点作为离群点处理,这对所建立地模型有很大地依赖性,另外所建立地模型并不一定可以很好地拟合原来地数据,因此一个点在可能某个模型下可能被当作离群点来处理,而在另外一个模型下就是正常点.所以用聚类地方法来检查离群点更为可靠 dvzfvkwMI11. 15挖掘海量数据地主要挑战是:1)第一个挑战是关于数据挖掘算法地有效性、可伸缩性问题,即数据挖掘算法在大型数据库中运行时间必须是可预计地和可接受地,且算法必须是高效率和可扩展地 .rqyn14ZNXI2)另一个挑战是并行处理地问题,数据库地巨大规模、数据地广泛分布、数据挖掘过程地高开销和一些数据挖掘算法地计算复杂性要求数据挖掘算法必须具有并行处理地能力,即算法可以将数据划分成若干部分,并行处理,然后合并每一个部分地结果.EmxvxOtOco第二章2. 11 三种规范化方法:(1)最小—最大规范化( min-max 规范化):对原始数据进行线性变换,将原始数据映射到一个指定地区间 . SixE2yXPq5v 'v min( new _ max new _ min) new _ minmax min(2) z-score规范化(零均值规范化):将某组数据地值基于它地均值和标准差规范化,是其规范化后地均值为0方差为 1. 6ewMyirQFLv 'v, 其中是均值,是标准差(3)小数定标规范化:通过移动属性 A 地小数点位置进行规范化 .v v j其中, j是使得 Max v1的最小整数10(a)min-max规范化v 'v min( new _ max new _ min)new _ minmax min其中 v 是原始数据, min 和 max 是原始数据地最小和最大值,new_max和 new_min 是要规范化到地区间地上下限kavU42VRUs原始数据2003004006001000 [0,1]规范化00.1250.250.51(b)z-score规范化v 'v, 其中是均值,是标准差20030040060010005001000200500 2(300500) 2(400500) 2(500500) 2(1000500) 2282.84275原始数据2003004006001000z-score-1.06-0.7-0.350.35 1.782.13(1)逐步向前选择开始初始化属性集,设置初始归约集为空集确定原属性集中最好地属性否是所选属性是否超出停止界限 ?把选中地属性添加到归约集中以减少属性设置是否在初始设置中是否还有更多地属性?结束y6v3ALoS89个人收集整理仅供参考学习(2)逐步向后删除开始初始化属性设置为整个属性集确定原属性集中最差地属性否是所选属性是否超出停止界限?删除选中地最差属性,以减少属性地设置否是在初始设置中有更多地属性设置?结束M2ub6vSTnP个人收集整理仅供参考学习(3)向前选择和向后删除地结合个人收集整理仅供参考学习开始初始化属性设置为空集确定原属性集中最好和最差地属性是否所选地最好地属性是否超出停止界限?选择最好地属性加入到归约集中,并在剩余地属性中删除一个最差地属性是否所选地最差地属性是否超出停止界限?从最初地工作集属性中删除选定属性合并设置为减少属性所设置地初始工作地所有剩余地属性是在初始设置中是否有更多地属性设置?否结束0YujCfmUCw第三章3.2 简略比较以下概念,可以用例子解释你地观点( a)雪花形模式、事实星座形、星形网查询模型.答:雪花形和事实星形模式都是变形地星形模式,都是由事实表和维表组成,雪花形模式地维表都是规范化地;而事实星座形地某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它是由中心点发出地涉嫌组成,其中每一条射线代表一个维地概念分层 .eUts8ZQVRd( b)数据清理、数据变换、刷新答:数据清理是指检测数据中地错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库地更新.sQsAEJkW5T3.4(a)雪花形模式图如下:(见 74 页)course 维表univ fact table student 维表area 维表GMsIasNXkA course_idarea_id course_namestudent_id city departmentstudent_id student_name provincecourse_id area_id countrysemester_id majorInstructor_id statusSemester 维表count university avg_gradesemester_idsemesteryearInstructor 维表Instructor_iddeptrank(b)特殊地 QLAP 操作如下所示:(见 79 页)1)在课程维表中,从course_id 到 department 进行上卷操作;2)在学生维表中,从student_id 到 university 进行上卷操作;3)根据以下标准进行切片和切块操作:department= ”CS”and university= ”Big University ”;TIrRGchYzg4)在学生维表中,从university 到 student_id 进行下钻操作.(c)这个立方体将包含54625 个长方体.(见课本88与89页)第五章5.1(a)假设 s 是频繁项集,min_sup 表示项集地最低支持度, D 表示事务数据库.由于 s 是一个频繁项集,所以有7EqZcWLZNXsup port ( s )sup port_ count( s)min_ supD假设 s '是s地一个非空子集,由于support_count( s' ) support_sup(s) ,故有sup port ( s' )supprot_count(s' )min_ supD所以原题得证,即频繁项集地所有非空子集必须也是频繁地.(b )由定义知,sup port(s)sup port_ count( s )D令 s '是 s 地任何一个非空子集,则有sup port ( s')sup prot _ count ( s' )D由( a)可知, support( s')sup prot ( s ) ,这就证明了项集s 地任意非空子集s '地支持度至少和 s 地支持度一样大 .(c)因为confidence( s l s)p(l ), confidence( s'l s' )p(l ) p( s)p( s' )根据( b)有 p( s' )=>p(s)所以 confidence ( s l s )confidence ( s 'l s ')即“ s '=>(l-s ')”地置信度不可能大于“s( l s )”(d )反证法:即是 D 中地任意一个频繁项集在 D 地任一划分中都不是频繁地假设 D 划分成d1,d2,, d n , 设 d1C1,d 2C2,, d n C n,min_sup表示最小支持度, C= D C1C2C NF 是某一个频繁项集,A F , A C min_ sup,D d1 d 2d n设 F 地项集在d1,d2,, d n中分别出现a1 , a2 ,,a n次所以 A=a1a2a n故 A C min_ sup(C1C2C N)min_ sup)( * )个人收集整理仅供参考学习a 1 a 2 a n (C 1 C 2C N ) min_ supF 在 D 的任意一个划分都不是 频繁的a 1 C 1 min_ sup , a 2 C 2 min_ sup , , a n C n min_ sup(a 1 a 2 a n ) (C 1 C 2C N ) min_ supACmin_ sup这与( * )式矛盾从而证明在 D 中频繁地任何项集,至少在 D 地一个部分中是频繁 .5.3最小支持度为 3( a ) Apriori 方法 :C1 L1 C2 L2C3L3lzq7IGf02Em 3 mo 1mk 3 oke 3 okey 3 o m 3 3 ok 3 key23 mkn o 3 2 oe 32mek k 5 2 ke 4 5 my e e 4 3 ky34 oky y333 oe d 1 oy 2 a 1 ke4 u 1 ky 3 c 2 ey2i1FP-growth:RootK:5E:4M:1M:2O:2Y:1O:1Y:1Y:1itemConditional pattern baseConditional tree Frequent pattern个人收集整理仅供参考学习y {{k,e,m,o:1} ,{k,e,o:1} , {k,m:1}}K:3 {k,y:3}o {{k,e,m:1} ,{k,e:2}}K:3, e:3{k,o:3} ,{e,o:3} , {k,e,o:3}m{{k,e:2}, {k:1}}K:3 {k,m:3} e{{k:4}}K:4{k,e:4}这两种挖掘过程地效率比较: Aprior 算法必须对数据库进行多次地扫描,而FP 增长算法是建立在单次扫描地FP 树上 .在 Aprior 算法中生成地候选项集是昂贵地 (需要自身地自连接) ,而 FP-growth 不会产生任何地候选项集 .所以 FP 算法地效率比先验算法地效率要高.zvpgeqJ1hk(b ) k ,oe [ 0. 6,1] e , ok [ 0. 6,1]5.6一个全局地关联规则算法如下:1) 找出每一家商店自身地频繁项集.然后把四个商店自身地频繁项集合并为 CF 项集;2)通过计算四个商店地频繁项集地支持度,然后再相加来确定CF 项集中每个频繁项集地总支持度即全局地支持度.其支持度超过全局支持度地项集就是全局频繁项集 .NrpoJac3v13) 据此可能从全局频繁项集发现强关联规则.5.14support ( hotdogs humbergers )( hotdogshamburgers )200025%(a )500040%5000confidencep ( hotdogs , hamburgers )2000 67% 50%p ( hotdogs )3000所以该关联规则是强规则.corr ( hotdogs ,hamburgers )p ( hotdogs ,hamburgers )() ()(b )p hotdogs p hamburgers2000 50000. 4 413000 5000 2500 50000. 6 2. 5 3所以给定地数据,买hot dogs 并不独立于 hamburgers ,二者之间是正相关 .5.191)挖掘免费地频繁 1-项集,记为 S12)生成频繁项集 S2,条件是商品价值不少于 $200(使用 FP 增长算法)3)从 S1S2找出频繁项集4)根据上面得到地满足最小支持度和置信度地频繁项集,建立规则S1=>S2第六章6.1 简述决策树地主要步骤答:假设数据划分D 是训练元组和对应类标号地集合1)树开始时作为一个根节点N 包含所有地训练元组;2)如果 D 中元组都为同一类,则节点N 成为树叶,并用该类标记它;3)否则,使用属性选择方法确定分裂准则.分裂准则只当分裂属性和分裂点或分裂子集 .4)节点 N 用分裂准则标记作为节点上地测试.对分裂准则地每个输出,由节点N生长一个分枝 .D 中元组厥词进行划分.( 1)如果 A 是离散值,节点N 地测试输出直接对应于 A 地每个已知值.( 2)如果 A 是连续值地,则节点N 地测试有两个可能地输出,分别对应于 A split _ po int 和 A split _ po int .(3)如果A是离散值并且必须产生二叉树,则在节点N 地测试形如“ A S A”,S A是A地分裂子集 .如果给定元组有 A 地值a j,并且a j S A,则节点N 地测试条件满足,从 N 生长出两个分枝.1nowfTG4KI5)对于 D 地每个结果划分 D j,使用同样地过程递归地形成决策树.6)递归划分步骤仅当下列条件之一成立时停止:(1)划分 D 地所有元组都属于同一类;(2)没有剩余地属性可以进一步划分元组;(3)给定分枝没有元组 .6.4计算决策树算法在最坏情况下地计算复杂度是重要地.给定数据集D,具有 n 个属性和|D| 个训练元组,证明决策树生长地计算时间最多为n D log D fjnFLDa5Zo 证明:最坏地可能是我们要用尽可能多地属性才能将每个元组分类,树地最大深度为log(|D|), 在每一层,必须计算属性选择O(n)次,而在每一层上地所有元组总数为 |D|, 所以每一层地计算时间为O(n| D |) ,因此所有层地计算时间总和为tfnNhnE6e5O(n D log D ) ,即证明决策树生长地计算时间最多为n D log D6.5 为什么朴素贝叶斯分类称为“朴素”?简述朴素贝叶斯分类地主要思想.答:( 1)朴素贝叶斯分类称为“朴素”是因为它假定一个属性值对给定类地影响独立于其他属性值 .做此假定是为了简化所需要地计算,并在此意义下称为“朴素”. HbmVN777sL (2 )主要思想:( a)设 D 是训练元组和相关联地类标号地集合.每个元组用一个 n 维属性向量 X { x1, x2 ,, x n } 表示,描述由n 个属性A1, A2,, A n对元组地n个测量.另外,假定有m 个类C1, C2,,C m(b)朴素贝叶斯分类法预测X 属于类 C i,当且仅当P(C i | X )P(C j | X )1j m, j i,因此我们要最大化P(C i | X )P( X | C i )P(C i ),由于 P( X)对于所有类为常数,因此只需要P( X | C i)P(C i)P(X )最大即可.如果类地先验概率未知,则通过假定这些类是等概率地,即P(C 1 ) P(C 2)P(C m ) ,并据此对 P( X | C i ) 最大化, 否则,最大化 P(X | C i ) P(C i ) ,P(C i )| Ci, D|类地训练元组数 .( c )假定 类地先验概率可以用| D |估计 .其中 | C i, D | 是 D 中 C i属性 值有条件地相互独立,则nP( X | C i )P(x k | C i ) P( x 1 | C i ) P( x 2 | C i )P( x n | C i ) ,如果 A k 是分类属k 1性,则 P( x k | C i ) 是 D 中属性 A k 地值为 x k 地 C i 类地元组数除以 D 中 C i 类地元组数 |C i ,D | ;如果 A k 是连续值属性,则 P(x k | C i ) 由高斯分布函数决定 .V7l4jRB8Hs6.13 给定 k 和描述每个元组地属性数 n,写一个 k 最近邻分类算法 .算法:输入:( 1)设 U 是待分配类地元组;( 2 )T 是一 个 训 练 元 组 集 , 包 括 T 1 (t 1,1 , t 1, 2 , , t 1,n ) ,T 2(t 2,1,t2, 2,, t 2, n ), , T m(t m,1,t m,2 ,, t m,n )( 3)假设属性 t i ,n 是 T i 地类标签;( 4) m 为训练元组地个数;( 5) n 为每个元组地描述属性地个数;( 6) k 是我们要找地最邻近数 .输出: U 地分类标签 算法过程:(1)定义矩阵 a[m][2].// ( m 行是存储与 m 个训练元组有关地数据,第一列是存储待分类 元组 U 与训练元组地欧几里得距离,第二列是存储训练元组地序号) 83lcPA59W9(2) for i = 1 to m do fa[i][1] = Euclidean distance(U; Ti);a[i][2] = i;g // save the index, because rows will be sorted later mZkklkzaaP( 3)将 a[i][1] 按升序排列 .( 4)定义矩阵 b[k][2].// 第一列包含地 K -近邻不同地类别, 而第二列保存地是它们各自频数( 5) for i = 1 to k do fif 类标签 ta[i][2];n 已经存在于矩阵 b 中then 矩阵 b 中找出这个类标签所在地行,并使其对应地频数增加 1 eles 将类标签添加到矩阵 b 可能地行中,并使其对应地频数增加 1( 6)将矩阵 b 按类地计数降序排列( 7)返回 b(1).// 返回频数最大地类标签作为U 地类标签 .第七章7.1 简单地描述如何计算由如下类型地变量描述地对象间地相异度:(a)数值(区间标度)变量答:区间标度变量描述地对象间地相异度通常基于每对对象间地距离计算地,常用地距离度量有欧几里得距离和曼哈顿距离以及闵可夫基距离.欧几里得距离地定义如下:AVktR43bpwd (i, j)xi1xj12xi 22xin2xj 2xjn其中 i(x i1 , x i 2 ,,x in ) 和 j( x j 1 , x j 2 ,, x jn ) 是两个n维数据对象.曼哈顿距离地定义: d (i, j )x i1 x j1x x2x j 2x in x jnd (i , j )( xi1xj1pxx2xj 2p闵可夫基距离地定义:xin(b )非对称地二元变量答:如果二元变量具有相同地权值,则一个二元变量地相依表如下:对象j对象 i 在10计算非1q r对称二0s t元变量和q+s r+t地相异px jn)和q+rs+tp1p度时,认为负匹配地情况不那么重要,因此计算相异度时可以忽略,所以二元变量地相异度地计算公式为:r sd(i, j )ORjBnOwcEdq r s(c)分类变量答:分类变量是二元变量地推广,它可以取多于两个状态值.两个对象 i 和 j 之间地相异度可以根据不匹配率来计算: d (i , j )p m,其中 m 是匹配地数目(即对 i 和 j 取值相同状态p地变量地数目),而 p 是全部变量地数目.2MiJTy0dTT另外,通过为M 个状态地每一个创建一个二元变量,可以用非对称二元变量对分类变量编码 .对于一个具有给定状态值地对象,对应于该状态值地二元变量置为1,而其余地二元变量置为 0.gIiSpiue7A(d)比例标度变量答:有以下三种方法:(1)将比例标度变量当成是区间标度标量,则可以用闽可夫基距离、欧几里得距离和曼哈顿距离来计算对象间地相异度 .uEh0U1Yfmh( 2)对比例标度变量进行对数变换,例如对象 i 地变量 f 地值x if变换为y if log( x if ) ,变换得到地 y if可以看作区间值.( 3)将 x if看作连续地序数数据,将其秩作为区间值来对待.(e)非数值向量对象答:为了测量复杂对象间地距离,通常放弃传统地度量距离计算,而引入非度量地相似度函数.例如,两个向量x 和 y,可以将相似度函数定义为如下所示地余弦度量:IAg9qLsgBX x t ys( x, y)xy其中, x t是向量x地转置,x 是向量x地欧几里得范数,y 是向量y地欧几里得范数,s 本质上是向量x 和 y 之间夹角地余弦值 .WwghWvVhPE7.5 简略描述如下地聚类方法:划分方法、层次方法、基于密度地方法、基于网格地方法、基于模型地方法、针对高维数据地方法和基于约束地方法.为每类方法给出例子.asfpsfpi4k (1)划分方法:给定 n 个对象或数据元组地数据可,划分方法构建数据地k 个划分,每个划分表示一个簇, k<=n.给定要构建地划分数目k,划分方法创建一个初始画风.然后采用迭代重定位技术,尝试通过对象在组间移动来改进划分.好地划分地一般准则是:在同一个簇地对象间互相“接近”和相关,而不同簇中地对象之间“远离”或不同.k 均值算法和 k 中心点算法是两种常用地划分方法.ooeyYZTjj1(2)层次方法:层次方法创建给定数据对象集地层次分解.根据层次地分解地形成方式,层次地方法可以分类为凝聚地或分裂地方法.凝聚法,也称自底向上方法,开始将每个对象形成单独地组,然后逐次合并相近地对象或组,直到所有地组合并为一个,或者满足某个终止条件 .分裂法,也称自顶向下方法,开始将所有地对象置于一个簇中.每次迭代,簇分裂为更小地簇,直到最终每个对象在一个簇中,或者满足某个终止条件.BkeGuInkxI(3)基于密度地方法:主要是想是:只要“邻域”中地密度(对象或数据点地数目)超过某个阈值,就继续聚类 .也就是说,对给定簇中地每个数据点,在给定半径地邻域中必须至少包含最少数目地点. 这样地方法可以用来过滤噪声数据(离群点),发现任意形状地簇.DBSCAN 和 OPTICS方法是典型地基于密度地聚类方法.PgdO0sRlMo(4)基于网格地方法:基于网格地方法把对象空间量化为有限数目地单元,形成一个网格结构 .所有地聚类操作都在这个网格结构上进行.这种方法地主要优点是处理速度很快,其处理时间通常独立于数据对象地数目,仅依赖于量化空间中每一维地单元数目.STING是基于网格方法地典型例子 .3cdXwckm15(5)基于模型地方法:基于模型地方法为每簇坚定一个模型,并寻找数据对给定模型地最佳拟合 .基于模型地算法通过构建反映数据点空间分布地密度函数来定位簇.它也导致基于标准统计量自动地确定簇地数目,考虑“噪声”数据和离群点地影响,从而产生鲁棒地聚类方法.COBWEB和 SOM 是基于模型方法地示例 .h8c52WOngM7.7 k 均值和 k 中心点算法都可以进行有效地聚类.概述 k 均值和 k 中心点算法地优缺点.并概述两种方法与层次聚类方法(如AGBES)相比地优缺点.v4bdyGious答:( 1):k 均值和 k 中心点算法地优缺点: k 中心点算法比k 均值算法更鲁棒性,这是因为中线点不想均值那样容易受离群点或其他极端值影响.然而,k 中心点方法执行代价比k 均值算法高 .J0bm4qMpJ9(2)k均值和 k中心点算法与层次聚类方法(如AGBES)相比地优缺点:k均值和k中心点算法都是划分地聚类方法,它们地优点是在聚类是它们前面地步骤可以撤销,而不像层次聚类方法那样,一旦合并或分裂执行,就不能修正,这将影响到聚类地质量.k均值和 k中心点方法对小数据集非常有效,但是对大数据集没有良好地可伸缩性,另外地一个缺点是在聚类前必须知道类地数目 .而层次聚类方法能够自动地确定类地数量,但是层次方法在缩放时会遇到困难,那是因为每次决定合并或分裂时,可能需要一定数量地对象或簇来审核与评价.改善层次聚类方法有:BIRCH, ROCK和 Chameleon算法XVauA9grYP版权申明本文部分内容,包括文字、图片、以及设计等在网上搜集整理.版权为个人所有This article includes some parts, including text,pictures, and design. Copyright is personal ownership.bR9C6TJscw 用户可将本文地内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律地规定,不得侵犯本网站及相关权利人地合法权利. 除此以外,将本文任何内容或服务用于其他用途时,须征得本人及相关权利人地书面许可,并支付报酬 . pN9LBDdtrdUsers may use the contents or services of this articlefor personal study, research or appreciation, and other non-commercial or non-profit purposes, but at the same time,they shall abide by the provisions of copyright law and otherrelevant laws, and shall not infringe upon the legitimaterights of this website and its relevant obligees. In addition, when any content or service of this article is used for other purposes, written permission and remuneration shall beobtained from the person concerned and the relevantobligee.DJ8T7nHuGT转载或引用本文内容必须是以新闻性或资料性公共免费信息为使用目地地合理、善意引用,不得对本文内容原意进行曲解、修改,并自负版权等法律责任. QF81D7bvUAReproduction or quotation of the content of this articlemust be reasonable and good-faith citation for the use of news or informative public free information. It shall notmisinterpret or modify the original intention of the contentof this article, and shall bear legal liability such ascopyright. 4B7a9QFw9h。
数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版
数据挖掘原理与应用 试题及答案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID3算法中信息增益是指( D )A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大2、下面哪种情况不会影响K-means聚类的效果?( B )A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名 ( C )A、样品B、实例C、维度D、元组4、人从出生到长大的过程中,是如何认识事物的? ( D )A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中应如何妥善处理连续型属性:( C )A、直接忽略B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70。
问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为:( A )A、18.3B、22.6C、26.8D、27.97、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取( A )A、聚类分析B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用( A )做数据规约。
A、小波变换B、主成分分析C、决策树D、直方图10、下面哪些场景合适使用PCA?( A )A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:( C )A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换;D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。
(完整版)数据挖掘概念课后习题答案
(完整版)数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使⽤你熟悉的现实⽣活的数据库,给出每种数据挖掘功能的例⼦。
特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。
例如,学⽣的特征可被提出,形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓,这些特征包括作为⼀种⾼的年级平均成绩(GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最⼤数量。
区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。
例如,具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。
最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓,就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣,⽽具有低GPA 的学⽣的65%不是。
关联是指发现关联规则,这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。
例如,⼀个数据挖掘系统可能发现的关联规则为:m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中,X 是⼀个表⽰学⽣的变量。
这个规则指出正在学习的学⽣,12%(⽀持度)主修计算机科学并且拥有⼀台。
个⼈计算机。
这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%(置信度,或确定度)分类与预测不同,因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型(或,⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。
它们的功能)相似性是他们都是预测的⼯具:分类被⽤作预测⽬标数据的类的标签,⽽预测典型的应⽤是预测缺失的数字型数据的值。
聚类分析的数据对象不考虑已知的类标号。
对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。
形成的每⼀簇可以被看作⼀个对象类。
数据挖掘练习题附答案
数据挖掘练习题A一、简答题1. 数据对象之间的相似性可用距离来衡量,常见的距离形式有哪些?答:曼哈顿距离,欧几里得距离,切比雪夫距离,闵可夫斯基距离,杰卡德距离2. 简述朴素贝叶斯分类的基本思想。
答:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。
1)设x={a!,a",…,a#}为一个待分类项,a为x的特征属性;2)有类别集合C={y!,y",…,y$}3) 计算p(y!|x),p(y"|x),… p(y$|x)4) 如果p(y%|x)=max {p(y!|x),p(y"|x),…,p(y%|x)},则x∈y%3. 在做数据清洗时,如何处理缺失值?答:处理缺失值的方法有3种:1)忽略元组;2)数据补齐,包括人工填写、特殊值填充、平均值填充、使用最可能的值填充;3)不处理。
4. 简述K-means算法的基本步骤。
答:1)任意选择k个对象作为初始的簇中心;2)计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;3)计算各簇中对象的平均值,然后选择簇中心(离平均值“最近”的簇);4)重复第2步到第3步直到簇中心不再变化为止。
5. 在关联规则中,支持度(support)和置信度(confidence)的含义分别是什么?答:支持度support(x->y)=p(x,y),表示项集中同时含有x和y的概率。
置信度confidence(x->y)=p(y/x),表示在关联规则的先决条件x发生的条件下,关联结果y发生的概率,即含有x的项集中,同时含有y的可能性。
二、计算题1.假定属性A的取值x在[x_min,x_max]之间,其中x_min和x_max分别为属性A的最小值和最大值,请利用最小-最大规范化方法(也称离差标准化,是对原始数据的线性变化),将x转化到新的区间[y_min,y_max]中,结果用x’表示。
数据挖掘习题及解答-完美版
Data Mining Take Home Exam学号: xxxx 姓名: xxx 1. (20分)考虑下表的数据集。
(1)计算整个数据集的Gini 指标值。
(2)计算属性性别的Gini 指标值(3)计算使用多路划分属性车型的Gini 指标值 (4)计算使用多路划分属性衬衣尺码的Gini 指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1) Gini=1-(10/20)^2-(10/20)^2=0.5 (2)Gini=[{1-(6/10)^2-(4/10)^2}*1/2]*2=0.48 (3)Gini={1-(1/4)^2-(3/4)^2}*4/20+{1-(8/8)^2-(0/8)^2}*8/20+{1-(1/8)^2-(7/8)^2}*8/2 0=26/160=0.1625(4)Gini={1-(3/5)^2-(2/5)^2}*5/20+{1-(3/7)^2-(4/7)^2}*7/20+[{1-(2/4)^2-(2/4)^2}*4/ 20]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。
2. (20分)考虑下表中的购物篮事务数据集。
(1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。
(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
(3)将每个顾客ID作为一个购物篮,重复(1)。
应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。
(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。
(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。
(完整word版)数据挖掘题目及答案
(完整word版)数据挖掘题⽬及答案⼀、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么?数据仓库是⼀个⾯向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,⽤于⽀持管理决策。
特点:1、⾯向主题操作型数据库的数据组织⾯向事务处理任务,各个业务系统之间各⾃分离,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织的。
2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加⼯、汇总和整理得到的,必须消除源数据中的不⼀致性,以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。
3、相对稳定的数据仓库的数据主要供企业决策分析之⽤,⼀旦某个数据进⼊数据仓库以后,⼀般情况下将被长期保留,也就是数据仓库中⼀般有⼤量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某⼀时点(如开始应⽤数据仓库的时点)到⽬前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
所谓基于数据库的知识发现(KDD)是指从⼤量数据中提取有效的、新颖的、潜在有⽤的、最终可被理解的模式的⾮平凡过程。
数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可⽤的信息⼆、数据库有4笔交易。
设minsup=60%,minconf=80%。
TID DATE ITEMS_BOUGHTT100 3/5/2009 {A, C, S, L}T200 3/5/2009 {D, A, C, E, B}T300 4/5/2010 {A, B, C}T400 4/5/2010 {C, A, B, E}使⽤Apriori算法找出频繁项集,列出所有关联规则。
解:已知最⼩⽀持度为60%,最⼩置信度为80%1)第⼀步,对事务数据库进⾏⼀次扫描,计算出D中所包含的每个项⽬出现的次数,⽣成候选1-项集的集合C1。
完整word版数据挖掘课后答案
第一章6.1 数据特征化是目标类数据的一般特性或特征的汇总。
(1)岁、有工5040—元以上的顾客特征的汇总描述是:年龄在例如,在某商店花费1000 作和很好的信誉等级。
数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比)(2 较。
由可与低平均分数的学生的一般特点进行比较。
例如,高平均分数的学生的一般特点,%的学生是大四的计算机科学专业75此产生的可能是一个相当普遍的描述,如平均分高达的学生则不是。
的学生,而平均分低于65% )关联和相关分析是指在给定的频繁项集中寻找相关联的规则。
(3”X,)=>拥有(X 例如,一个数据挖掘系统可能会发现这样的规则:专业(,“计算机科学”是一个变量,代表一个学生,该规,其中Xconfidence = 98%]%,个人电脑“)[support= 12的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人则表明,98%显示属于计算机科学专的支持度意味着所研究的所有事务的12%98%。
12%电脑的可能性是业的学生都会拥有个人电脑。
(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。
它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。
例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。
(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。
聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定。
数据挖掘及应用考试试题及答案
数据挖掘及应用考试试题及答案第一部分:选择题(每题4分,共40分)1.数据挖掘的定义是以下哪一个选项?A)从大数据中提取有用的信息B)从数据库中提取有用的信息C)从互联网中提取有用的信息D)从文件中提取有用的信息2.以下哪个是数据挖掘的一个主要任务?A)数据的存储和管理B)数据的可视化展示C)模型的建立和评估D)数据的备份和恢复3.下列哪个不是数据挖掘的一个常用技术?A)关联规则挖掘B)分类算法C)聚类分析D)数据编码技术4.以下哪个不属于数据预处理的步骤?A)数据清洗B)数据集成C)数据转换D)模型评估5.以下哪个是数据挖掘任务中的分类问题?A)预测数值B)聚类分析C)异常检测D)关联规则挖掘6.以下哪个不属于数据可视化的一种方法?A)散点图B)柱状图C)热力图D)关联规则图7.在使用决策树算法进行分类任务时,常用的不纯度度量指标是:A)基尼指数B)信息增益C)平方误差D)均方根误差8.以下哪个算法常用于处理文本数据挖掘任务?A)K-means算法B)Apriori算法C)朴素贝叶斯算法D)决策树算法9.以下哪种模型适用于处理离散型目标变量?A)线性回归模型B)逻辑回归模型C)支持向量机模型D)贝叶斯网络模型10.数据挖掘的应用领域包括以下哪些?A)金融风控B)医疗诊断C)社交网络分析D)所有选项都正确第二部分:填空题(每题4分,共20分)1.数据挖掘的基础是______和______。
答案:统计学、机器学习2.数据挖掘的任务包括分类、聚类、预测和______。
答案:关联规则挖掘3.常用的数据预处理方法包括数据清洗、数据集成和______。
答案:数据转换4.决策树算法的基本思想是通过选择最佳的______进行分类。
答案:划分属性5.支持向量机(SVM)算法适用于______问题。
答案:二分类问题第三部分:简答题(每题10分,共40分)1.请简述数据挖掘的流程及各个阶段的主要任务。
答:数据挖掘的流程一般包括问题定义、数据收集、数据预处理、模型选择与建立、模型评估与选择、知识应用等阶段。
数据挖掘及应用考试试题及答案
数据挖掘及应用考试试题及答案一、选择题(每题2分,共20分)1. 以下哪项不属于数据挖掘的主要任务?A. 分类B. 聚类C. 关联规则挖掘D. 数据清洗答案:D2. 数据挖掘中,以下哪项技术不属于关联规则挖掘的方法?A. Apriori算法B. FP-growth算法C. ID3算法D. 决策树算法答案:C3. 以下哪个算法不属于聚类算法?A. K-means算法B. DBSCAN算法C. Apriori算法D. 层次聚类算法答案:C4. 数据挖掘中,以下哪个属性类型不适合进行关联规则挖掘?A. 连续型属性B. 离散型属性C. 二进制属性D. 有序属性答案:A5. 数据挖掘中,以下哪个评估指标用于衡量分类模型的性能?A. 准确率B. 精确度C. 召回率D. 所有以上选项答案:D二、填空题(每题3分,共30分)6. 数据挖掘的目的是从大量数据中挖掘出有价值的________和________。
答案:知识;模式7. 数据挖掘的主要任务包括分类、聚类、关联规则挖掘和________。
答案:预测分析8. Apriori算法中,最小支持度(min_support)和最小置信度(min_confidence)是两个重要的参数,它们分别用于控制________和________。
答案:频繁项集;强规则9. 在K-means聚类算法中,聚类结果的好坏取决于________和________。
答案:初始聚类中心;迭代次数10. 数据挖掘中,决策树算法的构建过程主要包括________、________和________三个步骤。
答案:选择最佳分割属性;生成子节点;剪枝三、判断题(每题2分,共20分)11. 数据挖掘是数据库技术的一个延伸,它的目的是从大量数据中提取有价值的信息。
()答案:√12. 数据挖掘过程中,数据清洗是必不可少的步骤,用于提高数据质量。
()答案:√13. 数据挖掘中,分类和聚类是两个不同的任务,分类需要训练集,而聚类不需要。
数据挖掘习题及解答-完美版
Data Mining Take Home Exam学号: xxxx 姓名: xxx(1)计算整个数据集的Gini指标值。
(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的Gini指标值(4)计算使用多路划分属性衬衣尺码的Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?(3)=26/160=0.1625]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。
2. ((1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。
(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
(3)将每个顾客ID作为一个购物篮,重复(1)。
应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。
(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。
(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。
(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。
(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。
3. (20分)以下是多元回归分析的部分R输出结果。
> ls1=lm(y~x1+x2)> anova(ls1)Df Sum Sq Mean Sq F value Pr(>F)x1 1 10021.2 10021.2 62.038 0.0001007 ***x2 1 4030.9 4030.9 24.954 0.0015735 **Residuals 7 1130.7 161.5> ls2<-lm(y~x2+x1)> anova(ls2)Df Sum Sq Mean Sq F value Pr(>F)x2 1 3363.4 3363.4 20.822 0.002595 **x1 1 10688.7 10688.7 66.170 8.193e-05 ***Residuals 7 1130.7 161.5(1)用F检验来检验以下假设(α = 0.05)H0: β1 = 0H a: β1≠ 0计算检验统计量;是否拒绝零假设,为什么?(2)用F检验来检验以下假设(α = 0.05)H0: β2 = 0H a: β2≠ 0计算检验统计量;是否拒绝零假设,为什么?(3)用F检验来检验以下假设(α = 0.05)H0: β1 = β2 = 0H a: β1和β2 并不都等于零计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。
原《数据挖掘》习题
ch11.讨论下列每项活动是否是数据挖掘任务:(fgh是)(a) 根据性别划分公司的顾客。
(b) 根据可赢利性划分公司的顾客。
(c) 计算公司的总销售额。
(d) 按学生的标识号对学生数据库排序。
(e) 预测掷一对骰子的结果。
使用历史记录预测某公司未来的股票价格。
(f)(g) 监视病人心率的异常变化。
(h) 监视地震活动的地震波。
提取声波的频率。
(i)2. (ch1)数据挖掘可以在很多数据源上进行,如关系数据库,空间数据库,多媒体数据库,文本数据库等。
3. (ch1) 数据挖掘一定可以得到有趣的强关联规则。
4. (ch1) 为了提高挖掘质量,通常要进行数据预处理,包括数据清理、集成、选择、变换等。
5. (ch5){发烧,上呼吸道感染}是(2)项集6.企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是( B )。
A 数据越多越好B 尽可能多的适合的数据C数据越少越好D 以上三条都正确7. 数据挖掘算法以( D )形式来组织数据。
A 行 B列 C 记录 D 表格Ch28. (ch2)假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求:1)使用按箱平均值平滑对以上数据进行平滑,箱的深度是3。
解释你的步骤。
2)使用按箱边界值平滑对以上数据进行平滑,箱的深度是3。
解释你的步骤。
7、P98 3.4(ch3)假定大学的数据仓库包含4个维{student学生、course课程、semester学期、instructor教师},2个度量count和avg_grade。
在最低的概念层(例如对于给定的学生、课程、学期和教师组合),度量avg_grade存放学生的实际成绩。
为数据仓库画出雪花模式图8、P98 3.5(ch3)和game,2假定数据仓库包含4个维date,spectator,location个度量count和charge。
(完整版)数据挖掘概念课后习题答案
�步骤4:用各箱计算出的算数均值替换每箱中的每个值。
箱1:44/3,44/3,44/3箱2:55/3,55/3,55/3箱3:21,21,21
箱4:24,24,24箱5:80/3,80/3,80/3箱6:101/3,101/3,101/3
箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56
major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]
其中,X是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
(a)为该数据仓库画出雪花形模式图。
(b)(b)由基本方体[student,course,semester,instructor]开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。
(c)如果每维有5层(包括all),如“student<major<status<university<all”, 该立方体包含多少方体?
(g)分位数—分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的 值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中,以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值 的分布高。反之,对落在该线以下的点则低。
数据挖掘与分析考试题库(含答案)
数据挖掘与分析考试题库(含答案)选择题1. 数据挖掘的主要功能是什么?A. 挖掘数据潜在的信息B. 对数据进行记录和处理C. 提高数据存储的效率D. 对数据进行分类和排序Answer: A2. 下列哪种算法不属于聚类算法?A. K-MeansB. BP神经网络C. DBSCAND. 层次聚类Answer: B3. 数据挖掘中使用最多的算法是什么?A. 决策树B. 关联规则C. 神经网络D. 贝叶斯Answer: A4. 数据挖掘的预处理不包括下列哪项?A. 数据压缩B. 数据清洗C. 数据变换D. 数据标准化Answer: A5. 下列哪项不是数据挖掘的步骤?A. 数据预处理B. 特征选择C. 模型评价D. 问题求解Answer: D填空题1. 数据挖掘的类型有分类、聚类和__________。
(回归)2. 决策树分类的根节点对应的是__________。
(最优属性)3. 聚类算法的优化目标是__________。
(最小化)4. 在SPSS Modeler中可以通过“数据变换”节点进行数据__________。
(离散化)5. 数据挖掘可以发现数据中的__________规律。
(潜在)论述题1. 请简要介绍数据挖掘的主要任务及其流程。
答:数据挖掘的主要任务是挖掘数据中潜在的信息,包括分类、聚类、关联规则等。
其流程通常包括数据预处理、特征选择、模型构建和模型评价等步骤。
其中,数据预处理是数据挖掘的重要步骤,包括数据清洗、数据变换、数据标准化等,主要是为了提高数据的质量和可用性。
特征选择是指选择最具有代表性的特征,以便于数据的分析和建模,主要是为了降低模型的复杂度和提高模型的精度。
模型构建是依据所选的算法来构建数据模型,包括决策树、神经网络、关联规则等。
模型评价则是通过对构建的模型进行测试和评价,以便于知道模型的优劣和改进方向。
2. 请论述聚类分析的常用算法及其优缺点。
答:聚类分析的常用算法包括K-Means、层次聚类和DBSCAN等。
数据挖掘原理与实践习题及参考答案
1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖 掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商 务网站的建立,企业纷纷地从“产品导向”转向“客户导向” ,如何在保持现有的客户 同时吸引更多的客户、 如何在客户群中发现潜在价值, 一直都是电子商务企业重要任务。 但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行 一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中 挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多 种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服 务、 可以利用挖掘到的历史流失客户的特征来防止客户流失、 可以进行产品捆绑推荐等, 从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。 1.3 假定你是 Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程 数据库。 该数据库包括如下信息: 每个学生的姓名、 地址和状态(例如, 本科生或研究生)、 所修课程,以及他们的 GPA。描述你要选取的结构,该结构的每个成分的作用是什么? 答: 任务目的是分析课程数据库, 那么首先需要有包含信息的关系型数据库系统, 以便查找、 提取每个属性的值;在取得数据后,需要有特征选择模块,通过特征选择,找出要分析 的属性;接下来需要一个数据挖掘算法,或者数据挖掘软件,它应该包含像分类、聚类、 关联分析这样的分析模块,对选择出来的特征值进行分析处理;在得到结果后,可以用 可视化软件进行显示。 1.4 假定你作为一个数据挖掘顾问, 受雇于一家因特网搜索引擎公司。 通过特定的例子说明, 数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检测 等技术为企业服务。 答: (1) 使用聚类发现互联网中的不同群体,用于网络社区发现;
数据挖掘原理与应用的答案
数据挖掘原理与应用的答案1. 数据挖掘的定义数据挖掘是一种从大量数据中自动发现模式、关联、异常等有价值信息的过程。
它可以帮助我们揭示数据背后的隐藏规律和知识,从而为决策提供支持。
2. 数据挖掘的步骤数据挖掘的一般步骤包括数据预处理、特征选择、模型选择和评估等。
•数据预处理:–数据清洗:删除缺失值、异常值等不符合要求的数据。
–数据集成:将来自不同数据源的数据进行合并。
–数据转换:将数据转换为适合挖掘的形式,如编码、标准化等。
–数据规约:降低数据量、提高挖掘效率。
•特征选择:–过滤式选择:根据特征的统计属性进行筛选。
–包裹式选择:使用预定义的优化算法进行特征选择。
–嵌入式选择:通过机器学习算法自动选择特征。
•模型选择:–分类模型:用于预测离散的类别变量。
–回归模型:用于预测连续的数值变量。
–聚类模型:用于将数据划分为不同的类别。
–关联规则模型:用于发现数据之间的关联关系。
•模型评估:–分类问题评估指标:准确率、召回率、精确率、F1值等。
–回归问题评估指标:均方误差、均方根误差、决定系数等。
–聚类问题评估指标:轮廓系数、Davies-Bouldin指数等。
–关联规则评估指标:支持度、置信度、提升度等。
3. 数据挖掘的应用场景数据挖掘在各个领域中都有广泛的应用。
下面列举几个典型的应用场景:•零售业:数据挖掘可以分析购物篮数据,发现不同商品之间的关联关系,以及预测用户的购买行为,从而提供个性化的推荐和促销策略。
•金融业:数据挖掘可以分析客户的信用卡消费记录、贷款记录等数据,预测客户的信用风险,帮助金融机构进行风险评估和信用管理。
•医疗保健:数据挖掘可以分析医疗数据,识别潜在的疾病风险因素,辅助医生进行诊断和治疗决策。
•社交媒体:数据挖掘可以分析用户在社交媒体上的行为,发现用户的兴趣、偏好和社交网络结构,提供个性化的推荐和社交关系分析。
•交通运输:数据挖掘可以分析交通流量数据,预测交通拥堵情况,优化交通路线和交通信号控制,提高交通效率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
35 - 13 = 0.386 ; 70 - 13
(b)已知均值为 30,标准差为 12.94,则可将 35 规范化为: (c)使用小数定标规范化可将 35 规范化为:
35 - 30 = 0.386 ; 12.94
35 = 0.35 ; 100
(d)对于给定的数据,你愿意使用 min-max 规范化。理由是计算简单。 2.7 使用习题 2.5 给出的 age 数据 (a) 画一个宽度为 10 的等宽的直方图。 (b) 为以下每பைடு நூலகம்抽样技术勾画例子:有放回简单随机抽样,无放回简单随机抽样,聚类 抽样,分层抽样。使用大小为 5 的样本和层“青年”,“中年”和“老年”。 答:(a)如下为宽度为 10 的等宽的直方图:
1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖 掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商 务网站的建立,企业纷纷地从“产品导向”转向“客户导向” ,如何在保持现有的客户 同时吸引更多的客户、 如何在客户群中发现潜在价值, 一直都是电子商务企业重要任务。 但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行 一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中 挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多 种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服 务、 可以利用挖掘到的历史流失客户的特征来防止客户流失、 可以进行产品捆绑推荐等, 从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。 1.3 假定你是 Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程 数据库。 该数据库包括如下信息: 每个学生的姓名、 地址和状态(例如, 本科生或研究生)、 所修课程,以及他们的 GPA。描述你要选取的结构,该结构的每个成分的作用是什么? 答: 任务目的是分析课程数据库, 那么首先需要有包含信息的关系型数据库系统, 以便查找、 提取每个属性的值;在取得数据后,需要有特征选择模块,通过特征选择,找出要分析 的属性;接下来需要一个数据挖掘算法,或者数据挖掘软件,它应该包含像分类、聚类、 关联分析这样的分析模块,对选择出来的特征值进行分析处理;在得到结果后,可以用 可视化软件进行显示。 1.4 假定你作为一个数据挖掘顾问, 受雇于一家因特网搜索引擎公司。 通过特定的例子说明, 数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检测 等技术为企业服务。 答: (1) 使用聚类发现互联网中的不同群体,用于网络社区发现;
习题参考答案 第 1 章绪论 1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。 答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以 来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同, 可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的 数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据 信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析, 帮助天文 学家发现其他未知星体。 ③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 ④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。
第 4 页 共 27 页
(b)对于数据平滑,其它方法有: (1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据; (2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合 之外的值视为离群点。 2.6 使用习题 2.5 给出的 age 数据,回答以下问题: (a) 使用 min-max 规范化,将 age 值 35 转换到[0.0,1.0]区间。 (b) 使用 z-score 规范化转换 age 值 35,其中,age 的标准偏差为 12.94 年。 (c) 使用小数定标规范化转换 age 值 35。 (d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。 答:(a)已知最大值为 70,最小值为 13,则可将 35 规范化为:
第 1 页 共 27 页
(2) 使用分类对客户进行等级划分,从而实施不同的服务; (3) 使用关联规则发现大型数据集中间存在的关系, 用于推荐搜索。 如大部分搜索了 “广 外”的人都会继续搜索“信息学院” ,那么在搜索“广外”后会提示是否进进一步搜 索“信息学院” 。 (4) 使用离群点挖掘发现与大部分对象不同的对象,用于分析针对网络的秘密收集信息 的攻击。 1.5 定义下列数据挖掘功能:关联、分类、聚类、演变分析、离群点检测。使用你熟悉的生 活中的数据,给出每种数据挖掘功能的例子。 答:关联是指发现样本间或样本不同属性间的关联。例如,一个数据挖掘系统可能发现 的关联规则为:major(X, “computing science”)¢¡ owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。该规则指出主修计 算机科学并且拥有一台个人计算机的学生所占比例为 12%,同时,主修计算机专业的学 生有 98%拥有个人计算机。 分类是构造一系列能描述和区分数据类型或概念的模型(或功能), 分类被用作预测 目标数据的类的标签。例如,通过对过去银行客户流失与未流失客户数据的分析,得到 一个预测模型,预测新客户是否可能会流失。 聚类是将数据划分为相似对象组的过程, 使得同一组中对象相似度最大而不同组中 对象相似度最小。例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为 低值客户、高值客户以及普通客户等。 数据演变分析描述和模型化随时间变化的对象的规律或趋势, 尽管这可能包括时间 相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括 时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 。 离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。 1.6 根据你的观察, 描述一个可能的知识类型, 它需要由数据挖掘方法发现, 但本章未列出。 它需要一种不同于本章列举的数据挖掘技术吗? 答: 建立一个局部的周期性作为一种新的知识类型, 只要经过一段时间的偏移量在时间序列 中重复发生,那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技 术解决这类问题。 1.7 讨论下列每项活动是否是数据挖掘任务: (1)根据性别划分公司的顾客。 (2)根据可赢利性划分公司的顾客。 (3)计算公司的总销售额。 (4)按学生的标识号对学生数据库排序。 (5)预测掷一对骰子的结果。 (6)使用历史记录预测某公司未来的股票价格。 (7)监视病人心率的异常变化。 (8)监视地震活动的地震波。 (9)提取声波的频率。 答: (1) 不是,这属于简单的数据库查询。 (2) 不是,这个简单的会计计算;但是新客户的利润预测则属于数据挖掘任务。 (3) 不是,还是简单的会计计算。
第 3 页 共 27 页
属性值。 (3) 在分析时忽略遗漏值。许多数据挖掘方法都可以修改,忽略遗漏值。例如。假定正 在对数据对象聚类,需要计算数据对象间的相似性;如果对于某属性,两个对象之 一或两个对象都有遗漏值,则可以仅使用没有遗漏值的属性来计算相似性。当然, 这种相似性只是紧邻的,但是除非整个属性数目很少,或者遗漏值的数量很大,否 则这种误差影响不大。同样的,许多分类方法都可以修改,处理遗漏值。 2.4 以下规范方法的值域是什么? (a) min-max 规范化。 (b) z-score 规范化。 (c) 小数定标规范化。 答:(a)[new_min,new_max]; (b)(-∞,+ ∞); (c)(-1.0,1.0)。 2.5 假定用于分析的数据包含属性 age,数据元组中 age 的值如下(按递增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。 (a) 使用按箱平均值平滑对以上数据进行平滑,箱的深度为 3。解释你的步骤。评论对 于给定的数据,该技术的效果。 (b) 对于数据平滑,还有哪些其它方法? 答:(a)已知数据元组中 age 的值如下(按递增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70, 且箱的深度为 3,划分为(等频)箱: 箱 1:13,15,16 箱 2:16,19,20 箱 3:20,21,22 箱 4:22,25,25 箱 5:25,25,30 箱 6:33,33,33 箱 7:35,35,35 箱 8:35,36,40 箱 9:45,46,52 箱 10:70 用箱均值光滑: 箱 1:15,15,15 箱 2:18,18,18 箱 3:21,21,21 箱 4:24,24,24 箱 5:27,27,37 箱 6:33,33,33 箱 7:35,35,35 箱 8:37,37,37 箱 9:48,48,48 箱 10:70;
第 2 页 共 27 页
(4) 不是,这是简单的数据库查询。 (5) 不是,由于每一面都是同等概率,则属于概率计算;如概率是不同等的,根据历 史数据预测结果则更类似于数据挖掘任务。 (6) 是,需要建立模型来预测股票价格,属于数据挖掘领域中的预测模型。可以使用 回归来建模,或使用时间序列分析。 (7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域 的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。 (8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据挖 掘领域的分类。 (9) 不是,属于信号处理。 第 2 章数据处理基础 2.1 将下列属性分类成二元的、分类的或连续的,并将它们分类成定性的(标称的或序数的) 或定量的(区间的或比率的)。 例子:年龄。回答:分类的、定量的、比率的。 (a)用 AM 和 PM 表示的时间。 (b)根据曝光表测出的亮度。 (c)根据人的判断测出的亮度。 (d)医院中的病人数。 (e)书的 ISBN 号。 (f)用每立方厘米表示的物质密度。 答:(a)二元,定量,比率; (b)连续,定量 ,比率; (c)分类,定性,标称; (d)连续,定量,比率; (e)分类,定性,标称; (f)连续,定量,比率。 2.2 你能想象一种情况,标识号对于预测是有用的吗? 答:学生的 ID 号可以预测该学生的毕业日期。 2.3 在现实世界的数据中,元组在某些属性上缺失值是常有的。请描述处理该问题的各种方 法。 答:处理遗漏值问题的策略有如下几种。 (1) 删除数据对象或属性。一种简单而有效的策略是删除具有遗漏值的数据对象。然而, 即使部分给定的数据对象也包含一些信息,并且,如果许多对象都有遗漏值,则很 难甚至不可能进行可靠的分析。尽管如此,如果一个数据集只有少量的对象具有遗 漏值,则忽略他们可能是合算的。一种相关的策略是删除具有遗漏值的属性。然而, 做这件事要小心,因为被删除的属性可能对分析是至关重要的。 (2) 估计遗漏值。有时,遗漏值可以可靠地估计。例如,在考虑以较平滑的方式变化的 具有少量但大大分散的遗漏值的时间序列,遗漏值可以使用其他值来估计(插值)。 作为另一个例子,考虑一个具有许多相似数据点的数据集。在这种情况下,与具有 遗漏值的点邻近的点的属性值常常可以用来估计遗漏的值。如果属性是连续的,则 可以使用最近邻的平均属性值;如果属性是分类的,则可以取最近邻中最常出现的