sas聚类分析(SAS)分解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

个体与小类、小类与小类间“亲 疏程度”的度量方法
SPSS中提供了多种度量个体与小类、小类 与小类间“亲疏程度”的方法。与个体 间“亲疏程度”的测度方法类似,应首 先定义个体与小类、小类与小类的距离。 距离小的关系亲密,距离大的关系疏远。 这里的距离是在个体间距离的基础上定 义的,常见的距离有:
似程度通常可以用简单相关系数或者等 级相关系数等;一是个体间的差异程度 ,通常通过某种距离来测度。
1、定距型变量个体间距离的计算方式
欧式距离(Euclidean distance)
k
(xi yi )2 (73 66)2 (68 64)2 i1
平方欧式距离(Squared Euclidean distance ) 切比雪夫(Chebychev)距离
各变量间不应有较强的线性相关关系
学校
参加科研 人数
(人)
投入经费 (元)
立项课题 数(项)
样本的欧氏距离

万元
1
410
4380000
19
(1,2) 265000
81.623
2
336
1730000
21
(1,2) 218000
193.7
3
490
220000
8
(1,2)
47000
254.897
层次聚类
1 层次聚类的两种类型和两种方式 层次聚类又称系统聚类,简单地讲是指聚类过程
(1)间隔尺度。变量用连续的量来表示,如“ 各种奖金”、“各种津贴”等。
(2)有序尺度。指标用有序的等级来表示,如 文化程度分为文盲、小学、中学、中学以上 等有次序关系,但没有数量表示。
(3)名义尺度。指标用一些类来表示,这些类 之间没有等级关系也没有数量关系,如表中 的性别和职业都是名义尺度。
Байду номын сангаас
不同类型的指标,在聚类分析中,处理的方式是 大不一样的。总的来说,提供给间隔尺度的指 标的方法较多,对另两种尺度的变量处理的方 法不多。
聚类分析根据实际的需要可能有两个方向,一是 对样品,一是对指标聚类。第一位重要的问题 是“什么是类”?粗糙地讲,相似样品(或指 标)的集合称作类。由于经济问题的复杂性, 欲给类下一个严格的定义是困难的。
相似性度量
从一组复杂数据产生一个相当简单的类结构,必 然要求进行“相关性”或“相似性“度量。在 相似性度量的选择中,常常包含许多主观上的 考虑,但是最重要的考虑是指标(包括离散的 、连续的和二态的)性质或观测的尺度(名义 的、次序的、间隔的和比率的)以及有关的知 识。
简单匹配系数表
个体x
1
0
个体 y
1
0
A
B
C
D
聚类分析的几点说明
所选择的变量应符合聚类的要求:所选变量应能够从不同的 侧面反映我们研究的目的;
各变量的变量值不应有数量级上的差异(对数据进行标准化 处理):聚类分析是以各种距离来度量个体间的“亲疏” 程度的,从上述各种距离的定义看,数量级将对距离产生 较大的影响,并影响最终的聚类结果。
max xi yi max( 7366 , 6864 )
Block距离 k xi yi 73 66 68 64 i1
2、计数变量个体间距离的计算方式
卡方(Chi-Square measure)距离
chisq(x, y) k [xi E(xi )]2 k [ yi E( yi )]2
例:下表是同一批客户对经常光顾的五座商场在购物 环境和服务质量两方面的平均得分,现希望根据这批 数据将五座商场分类。
编号
购物环境 服务质量
A商场
73
68
B商场
66
64
C商场
84
82
D商场
91
88
E商场
94
90
聚类分析中“亲疏程度”的度 量
对“亲疏程度”的测度一般有2个角度: 一是个体间的相似程度,衡量个体间的相
i1 E(xi )
i1 E( yi )
Phi方(Phi-Square measure)距离
phisq(x, y)
k [xi E(xi )]2 k [ yi E( yi )]2
i1 E(xi )
i1 E( yi )
n
3、二值(Binary)变量个体间距离的计算方式 简单匹配系数(Simple Matching) 雅科比系数(Jaccard)
是按照一定层次进行的。层次聚类有两种类型,分 别是Q型聚类和R型聚类;层次聚类的聚类方式又 有两种,分别是凝聚方式聚类和分解方式聚类。
Q型聚类:对样本进行聚类,使具有相似特征的样 本聚集在一起,差异性大的样本分离开来。
R型聚类:对变量进行聚类,使具有相似性的变量 聚集在一起,差异性大的变量分离开来,可在相 似变量中选择少数具有代表性的变量参与其他分 析,实现减少变量个数,达到变量降维的目的。
当对样品进行聚类时,“靠近”往往由某种距离 来刻画。另一方面,当对指标聚类时,根据相 关系数或某种关联性度量来聚类。
为定义个体间的距离应先将每个样本数据 看成k维空间的一个点,通常,点与点之 间的距离越小,意味着他们越“亲密” ,越有可能聚成一类,点与点之间的距 离越大,意味着他们越“疏远”,越有 可能分别属于不同的类。
凝聚方式聚类:其过程是,首先,每个个体自成一 类;然后,按照某种方法度量所有个体间的亲疏 程度,并将其中最“亲密”的个体聚成一小类, 形成n-1个类;接下来,再次度量剩余个体和小 类间的亲疏程度,并将当前最亲密的个体或小类 再聚到一类;重复上述过程,直到所有个体聚成 一个大类为止。可见,这种聚类方式对n个个体通 过n-1步可凝聚成一大类。
聚类分析的思想
聚类分析是统计学中研究“物以类聚”问 题的多元统计分析方法。
聚类分析是根据样品或指标的“相似”特 征进行分类的一种多元统计分析方法。
例10.1 若我们需要将下列11户城镇居民按 户主个人的收入进行分类,对每户作了 如下的统计,结果列于下表。
某市2001年城镇居民户主个人收入数据
表中的8个指标,前6个是定量的,后2个是定性 的。如果分得更细一些,指标的类型有三种 尺度:
分解方式聚类:其过程是,首先,所有个体都属一 大类;然后,按照某种方法度量所有个体间的亲 疏程度,将大类中彼此间最“疏远”的个体分离 出去,形成两类;接下来,再次度量类中剩余个 体间的亲疏程度,并将最疏远的个体再分离出去; 重复上述过程,不断进行类分解,直到所有个体 自成一类为止。可见,这种聚类方式对包含n个个 体的大类通过n-1步可分解成n个个体。
相关文档
最新文档