数据挖掘课后答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章

1.6

(1)数据特征化是目标类数据的一般特性或特征的汇总。

例如,在某商店花费1000元以上的顾客特征的汇总描述是:年龄在40—50岁、有工作和很好的信誉等级。

(2)数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较。由此产生的可能是一个相当普遍的描述,如平均分高达75%的学生是大四的计算机科学专业的学生,而平均分低于65%的学生则不是。

(3)关联和相关分析是指在给定的频繁项集中寻找相关联的规则。

例如,一个数据挖掘系统可能会发现这样的规则:专业(X,“计算机科学”)=>拥有(X,”个人电脑“)[support= 12%,confidence = 98%],其中X是一个变量,代表一个学生,该规则表明,98%的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人电脑的可能性是98%。12%的支持度意味着所研究的所有事务的12%显示属于计算机科学专业的学生都会拥有个人电脑。

(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。

例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。

(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。

例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定。

(6)数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。这可能包括时间相关数据的特征化、区分、关联和相关分、分类、预测和聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于相似性的数据分析。

例如:假设你有纽约股票交易所过去几年的主要股票市场(时间序列)数据,并希望投资高科技产业公司的股票。股票交易数据挖掘研究可以识别整个股票市场和特定的公司的股票的演变规律。这种规律可以帮助预测股票市场价格的未来走向,帮助你对股票投资做决策。

1.11 一种是聚类的方法,另一种是预测或回归的方法。

(1)聚类方法:聚类后,不同的聚类代表着不同的集群数据。这些数据的离群点,是不属于任何集群。在各种各样的聚类方法当中,基于密度的聚类可能是最有效的。

(2)使用预测或回归技术:构建一个基于所有数据的概率(回归)模型,如果一个数据点的预测值有很大的不同给定值,然后给定值可考虑是异常的。

用聚类的方法来检查离群点更为可靠,因为聚类后,不同的聚类代表着不同的集群数据,离群点是不属于任何集群的,这是根据原来的真实数据所检查出来的离群点。而用预测或回归方法,是通过构建一个基于所有数据的(回归)模型,然后根据预测值与原始数据的值比较,当二者相差很大时,就将改点作为离群点处理,这对所建立的模型有很大的依赖性,另

外所建立的模型并不一定可以很好地拟合原来的数据,因此一个点在可能某个模型下可能被当作离群点来处理,而在另外一个模型下就是正常点。所以用聚类的方法来检查离群点更为可靠

1.15

挖掘海量数据的主要挑战是:

1)第一个挑战是关于数据挖掘算法的有效性、可伸缩性问题,即数据挖掘算法在大型数据库中运行时间必须是可预计的和可接受的,且算法必须是高效率和可扩展的。

2)另一个挑战是并行处理的问题,数据库的巨大规模、数据的广泛分布、数据挖掘过程的高开销和一些数据挖掘算法的计算复杂性要求数据挖掘算法必须具有并行处理的能力,即算法可以将数据划分成若干部分,并行处理,然后合并每一个部分的结果。

(2)逐步向后删除

(3)向前选择和向后删除的结合

第三章

3.2 简略比较以下概念,可以用例子解释你的观点

(a)雪花形模式、事实星座形、星形网查询模型。

答:雪花形和事实星形模式都是变形的星形模式,都是由事实表和维表组成,雪花形模式的维表都是规范化的;而事实星座形的某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它是由中心点发出的涉嫌组成,其中每一条射线代表一个维的概念分层。

(b)数据清理、数据变换、刷新

答:数据清理是指检测数据中的错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库的更新。

3.4

(a)雪花形模式图如下:(见74页)

(b)特殊的QLAP操作如下所示:(见79页)

1)在课程维表中,从course_id到department进行上卷操作;

2)在学生维表中,从student_id到university进行上卷操作;

3)根据以下标准进行切片和切块操作:department=”CS” and university=”Big University”;4)在学生维表中,从university到student_id进行下钻操作。

54 个长方体。(见课本88与89页)

(c)这个立方体将包含625

第五章

5.1

(a)假设s是频繁项集,min_sup表示项集的最低支持度,D表示事务数据库。由于s是一个频繁项集,所以有

sup min_)

(_sup )(sup ≥=

D

s count port s port

假设's 是s 的一个非空子集,由于support_count('

s )≥support_sup(s),故有

sup min_)

(_sup )(sup ''

≥=

D

s count prot s port

所以原题得证,即频繁项集的所有非空子集必须也是频繁的。

(b )由定义知,D

s count port s port )

(_sup )(sup

=

令'

s 是s 的任何一个非空子集,则有D

s count prot s port )

(_sup )(sup ''

=

由(a )可知,support('s ))(sup s prot ≥,这就证明了项集s 的任意非空子集'

s 的支持度至少和s 的支持度一样大。

(c )因为)

()

()(,)()()('

''s p l p s l s confidence s p l p s l s confidence =-=>=

-=> 根据(b )有p('

s )=>p(s)

所以)(s l s confidence

-=>≥ )(''

s l s confidence -=>

即“'

s =>(l- '

s )”的置信度不可能大于“)(s l s -=>”

(d )反证法:即是D 中的任意一个频繁项集在D 的任一划分中都不是频繁的 假设D 划分成n n n C d C d C d d d ===,,,d ,,,,221121 设,min_sup 表示最小

支持度,C=N 21C C C D +++=

F 是某一个频繁项集,F A =, sup min_⨯≥C A ,n d d d D ⋃⋃⋃= 21 设F 的项集在n d d d ,,,21 中分别出现n a a a ,,,21 次 所以A= n a a a +++ 21

故sup)min_)(sup min_21⨯+++=⨯≥N C C C C A (*)

相关文档
最新文档