聚类分析练习题20121105

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析和判别分析练习题

一、选择题

1.需要在聚类分析中保序的聚类分析是( )。

A.两步聚类

B.有序聚类

C.系统聚类

D.k-均值聚类 2.在系统聚类中2R 是( )。

A.组内离差平方和除以组间离差平方和

B.组间离差平方和除以组内离差平方和

C.组间离差平方和除以总离差平方和

D.组间均方除以总均方。 3.系统聚类的单调性是指( )。 A.每步并类的距离是单调增的 B.每步并类的距离是单调减的 C.聚类的类数越来越少 D.系统聚类2R 会越来越小

4.以下的系统聚类方法中,哪种系统聚类直接利用了组内的离差平方和。( ) A.最长距离法 B.组间平均连接法 C.组内平均连接法 D.WARD 法

5.以下系统聚类方法中所用的相似性的度量,哪种最不稳健( )。 A.2

1()p

ik jk k x x =-∑ B.

1p

ik jk

k ik

jk

x x x

x =-+∑

C.

21p

k =∑ D. 1()()i j i j -'x -x Σx -x

6. 以下系统聚类方法中所用的相似性的度量,哪种考虑了变量间的相关性( )。

A.2

1()p

ik jk k x x =-∑ B.

1

p

ik jk

k ik

jk

x x x

x =-+∑

C.

21

p

k =∑ D. 1()()i j i j -'x -x Σx -x

7.以下统计量,可以用来刻画分为几类的合理性统计量为( )? A.可决系数或判定系数2R

B.

G

G

W P P -

C.()/(1)

/()

G

G

W P G

P n G

--

-

D.()

G W P

W

-

8.以下关于聚类分析的陈述,哪些是正确的()

A.进行聚类分析的统计数据有关于类的变量

B.进行聚类分析的变量应该进行标准化处理

C.不同的类间距离会产生不同的递推公式

D.递推公式有利于运算速度的提高。D(3)的信息需要D(2)提供。

9.判别分析和聚类分析所要求统计数据的不同是()

A.判别分析没有刻画类的变量,聚类分析有该变量

B.聚类分析没有刻画类的变量,判别分析有该变量

C.分析的变量在不同的样品上要有差异

D.要选择与研究目的有关的变量

10.距离判别法所用的距离是()

A.马氏距离

B. 欧氏距离

C.绝对值距离

D. 欧氏平方距离

11.在一些条件同时满足的场合,距离判别和贝叶斯判别等价,是以下哪些条件。

()

A.正态分布假定

B.等协方差矩阵假定

C.均值相等假定

D.先验概率相等假定

12.常用逐步判别分析选择不了的标准是()

A.Λ统计量越小变量的判别贡献更大

B.Λ统计量越大变量的判别贡献更大

C.判定系数越小变量的判别贡献更大

D.判定系数越大变量的判别贡献更大

二、填空题

1、聚类分析是建立一种分类方法,它将一批样本或变量按照它们在性质上的_______________进行科学的分类。

2.Q型聚类法是按_________进行聚类,R型聚类法是按_______进行聚类。

3.Q型聚类相似程度指标常见是、、,而R型聚类相似程度指标通常采用_____________ 、。

4.在聚类分析中需要对原始数据进行无量纲化处理,以消除不同量纲或数量级的影响,达到数据间

可同度量的目的。常用的无量纲化方法有以下几种:_____________、____________、_____ ___。

5.六种Q 型聚类方法分别为____ 、_______ ___、____ ____、 _____________、___________、_____________。

6.判别分析是要解决在研究对象已知_________________的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。

7.用判别分析方法处理问题时,通常以__________作为衡量新样本点与各已知组别接近程度的指标。 8.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有____________、_____________。

9.类内样本点接近,类间样本点疏远的性质,可以通过_____________与___________的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越_____,分类效果越______。

10. 最大的错判概率为 ,这时两个总体的均值向量的关系是 。 11. 两个点x 和y 是从同一个总体中抽出的样本,二者的马氏距离可以表达为 。

三、总结系统聚类有哪些方法?他们的D (0)可以如何定义,其各种方法的递推公式式什么。证明类平均法的递推公式是

222

(,)(,)(,)K L K L

n D J K n D J L D J M n n +=+

四、系统聚类类别的确定有哪些方法或指标? 五、如果在系统聚类时,某步产生了如下的两个小类

()2,3,4,(3,4,5),(3,5,2)⎡⎤⎣⎦ ()8,4,4,(6,4,5)

⎡⎤⎣⎦ 如果用离差平方和法聚类,两个小类的距离是多少。

六、简述系统聚类法的基本思想及主要步骤。 六、简述快速聚类的基本思想及主要步骤。

七、某地区将农村经济类型分为三类:G1—较富裕类型,G2—中等类型,G3—较贫困类型。每种类型以五个指标为依据:x1=土地生产率=农村社会总产值/总土地面积(百元/每亩),x2=劳动生产率=农村社会总产值/农村劳动力(百元/每个劳动力),x3=人均收入=农村经济纯收入/农业人口(百元/每人),x4=费用水平=总费用/总收入, x5=农村工业比重=农村工业产值/农村社会总产值。每种类型分别有容量为n 1=5,n 2=8,n 3=4的样本(每个个体以县为单位),其数据如下:

相关文档
最新文档