第3章 聚类分析答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章 聚类分析

一、填空题

1.在进行聚类分析时,根据变量取值的不同,变量特性的测量尺度有以下三种类型: 间隔尺度 、 顺序尺度 和 名义尺度 。 2.Q 型聚类法是按___样品___进行聚类,R 型聚类法是按_变量___进行聚类。 3.Q 型聚类统计量是____距离_,而R 型聚类统计量通常采用_相似系数____。 4.在聚类分析中,为了使不同量纲、不同取值范围的数据能够放在一起进行比较,通常需要对原始数据进行变换处理。常用的变换方法有以下几种:__中心化变换_____、__标准化变换____、____规格化变换__、__ 对数变换 _。

5.距离ij d 一般应满足以下四个条件:对于一切的i,j ,有0≥ij d 、 j i =时,有

0=ij d 、对于一切的i,j ,有ji ij d d =、对于一切的i,j,k ,有kj ik ij d d d +≤。

6.相似系数一般应满足的条件为: 若变量i x 与 j x 成比例,则1±=ij C 、 对一

1≤ij 和 对一切的i,j ,有ji ij C C =。

7.常用的相似系数有 夹角余弦 和 相关系数 两种。 8.常用的系统聚类方法主要有以下八种: 最短距离法 、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法。 @

9.快速聚类在SPSS 中由__K-mean_____________过程实现。

10.常用的明氏距离公式为:()q

p

k q jk ik ij x x q d 11⎥⎦

⎤⎢⎣⎡-=∑=,当1=q 时,它表示 绝

对距离 ;当2=q 时,它表示 欧氏距离 ;当q 趋于无穷时,它表示 切比雪夫距离 。

11.聚类分析是将一批 样品 或 变量 ,按照它们在性质上 的 亲疏、相似程度 进行分类。

12.明氏距离的缺点主要表现在两个方面:第一 明氏距离的值与各指标的量纲有关 ,第二 明氏距离没有考虑到各个指标(变量)之间的相关性 。 13.马氏距离又称为广义的 欧氏距离 。

14,设总体G 为p 维总体,均值向量为()'

p μμμμ,,

,= 21,协差阵为∑,则样品()'

=p X X X X ,,,21 与总体G 的马氏距离定义为

()()()μμ-∑'

-=-X X G X d 12,。

15.使用离差平方和法聚类时,计算样品间的距离必须采用 欧氏距离 。 16.在SPSS 中,系统默认定系统聚类方法是 类平均法 。

17.在系统聚类方法中, 中间距离法和 重心法 不具有单调性。 18.离差平方和法的基本思想来源于 方差分析 。 ,

19.最优分割法的基本步骤主要有三个:第一,定义类的直径 ;第二, 定义目标函数 ;第三, 求最优分割 。

20.最优分割法的基本思想是基于 方差分析的思想 。 二、判断题

1.在对数据行进中心化变换之后,数据的均值为0,而协差阵不变,且变换后后的数据与变量的量纲无关。 ( )

2.根据分类的原理,我们可以把聚类分为样品聚类和变量聚类。 ( ) 3.兰氏距离不仅克服了明氏距离与各指标的量纲有关的缺点,而且也考虑了变量间的相关性。 ( )

4.当各变量之间相互独立时,马氏距离就退化为欧氏距离。 ( ) 5.在几种系统聚类法中,最短(长)距离法、(可边)类平均法、重心法和离差

平方和法都具有单调性,只有中间距离法不具有单调性。 ( )

6.重心法比离差平方和法使空间扩张。 ( )

7.离差平方和法的思想来源于方差分析.如果类分得比较合理,同类样品之间的离差平方和应当较大,类与类之间的离差平方和应当较小. ( ) 【

8.使用离差平方和法时,计算样品间的距离必须采用欧氏距离. ( ) 9.快速聚类法又称为动态聚类法,是一种非谱系聚类法,它可以应用于比系统聚类法大得多的数据组. ( ) 10.明氏距离的优点在于考虑了各个指标之间的相关性,而缺点在于它的值与各指标的量纲有关。 ( )

11.马氏距离考虑了便了之间观测变量之间的相关性。 ( )

12.兰氏距离对大的奇异值不敏感,适合高度偏倚的数据,但是它没有克服与各指标的量纲有关的缺点。 ( ) 三、简答题

1.简述聚类分析的基本思想和基本步骤 2.系统聚类法的基本思想是什么 3.系统聚类法的基本步骤是什么 4.简述最长聚类法的聚类步骤。 $

5.简述快速聚类的基本思想及主要步骤。

6.简述最优分割法的步骤

7.简述Ward 离差平方和法的基本思想.

8.在数据处理时,为什么通常要进行标准化处理 9.简述最优分割法的基本思想和基本步骤。 四、计算题

1.假设有一个二维正态总体,它的分布为:⎥⎦⎤

⎢⎣⎡⎪⎪⎭⎫ ⎝

⎛⎪⎪⎭⎫ ⎝⎛19.09.01,002N ,并且还已知有

两点()'=1,1A 和()'

-=1,1B ,

要求分别用马氏距离和欧氏距离计算这两点A 和B 各自到总体均值点()'

=0,0μ的距离.

2.设有5个样品,已知各样品之间的距离矩阵为:

54321G G G G G

\

⎥⎥⎥⎥⎥⎥⎦

⎤⎢⎢⎢⎢⎢⎢⎣⎡06

5

.32

7

05.24105.15.30

5054321G G G G G

试分别用最短距离法和最长距离法聚类。

3.为研究全国31个省区城镇居民生活消费的分布规律,根据2003年统计资料利用SPSS 软件中的系统聚类法做类型划分,其谱系图如下,你认为从全国各省区的消费情况看,分为几类较合适,结合我国区域社会及经济发展情况,对分类结果作简要分析。

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 青海 29 宁夏 30 )

河南 16 甘肃 28 河北 3 四川 23 陕西 27 湖北 17 湖南 18 内蒙古 5 新疆 31 吉林 7 \

黑龙江 8 山西 4 辽宁 6 云南 25 安徽 12 贵州 24 江西 14 江苏 10

重庆 22 山东 15 ]

福建 13 广西 20 海南 21

天津 2 西藏 26 浙江 11 广东 19 上海 9

北京 1

4.下面给出了八个样品的两个指标数据

相关文档
最新文档