sas聚类分析(SAS)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、定距型变量个体间距离的计算方式
欧式距离(Euclidean distance)
2 2 2 (x y ) (73 66) (68 64) i i i 1
k
平方欧式距离(Squared Euclidean distance ) 切比雪夫(Chebychev)距离
max xi yi max( 73 66 , 68 64)
PROC TREE语句的重要选项有: DATA=数据集,指定从CLUSTER过程生成的OUTTREE= 数据集作为输入。 OUT=数据集,指定包含最后分类结果(每一个观测 属于哪一类,用一个CLUSTER变量区分)的输出数据 集。 NCLUSTERS=选项,由用户指定最后把样本观测分为 多少个类。 GRAPHICS,这是指定画谱系聚类的树图时使用高分辨 率图形(要求有SAS/GRAPH模块)。 HORIZONTAL,画树图时横向画。
(2 3)2 (4 3)2 2
2,4
(6 5.5)2 (5 5.5)2 0.5
6,5
(1 3)2 (5 3)2 8
1,5
红绿(2,4,6,5)8.75 离差平方和增加8.75-2.5=6.25 黄绿(6,5,1,5)14.75 离差平方和增加14.75-8.5=6.25 黄红(2,4,1,5)10-10=0 故按该方法的连接和黄红首先连接。
编号 A商场 B商场 C商场 D商场 E商场 购物环境 73 66 84 91 94 服务质量 68 64 82 88 90
聚类分析中“亲疏程度”的度 量
对“亲疏程度”的测度一般有2个角度: 一是个体间的相似程度,衡量个体间的相 似程度通常可以用简单相关系数或者等 级相关系数等;一是个体间的差异程度 ,通常通过某种距离来测度。
Block距离
x i yi 73 66 68 64
i 1
k
2、计数变量个体间距离的计算方式
卡方(Chi-Square measure)距离
[ xi E ( xi )] 2 k [ yi E ( yi )] 2 chisq ( x, y ) E ( xi ) E ( yi ) i 1 i 1
TREE过程用法
TREE过程可以把CLUSTER过程产生的OUTTREE= 数据集作为输入,画出谱系聚类的树图,并按 照用户指定的聚类水平(类数)产生分类结果 数据集。一般格式如下: PROC TREE DATA=输入聚类结果数据集 OUT=输 出数据集 GRAPHICS NCLUSTER=类数 选项; COPY 复制变量; RUN;
不同类型的指标,在聚类分析中,处理的方式是 大不一样的。总的来说,提供给间隔尺度的指 标的方法较多,对另两种尺度的变量处理的方 法不多。 聚类分析根据实际的需要可能有两个方向,一是 对样品,一是对指标聚类。第一位重要的问题 是“什么是类”?粗糙地讲,相似样品(或指 标)的集合称作类。由于经济问题的复杂性, 欲给类下一个严格的定义是困难的。
凝聚方式聚类:其过程是,首先,每个个体自成一 类;然后,按照某种方法度量所有个体间的亲疏 程度,并将其中最“亲密”的个体聚成一小类, 形成n-1个类;接下来,再次度量剩余个体和小类 间的亲疏程度,并将当前最亲密的个体或小类再 聚到一类;重复上述过程,直到所有个体聚成一 个大类为止。可见,这种聚类方式对n个个体通过 n-1步可凝聚成一大类。 分解方式聚类:其过程是,首先,所有个体都属一 大类;然后,按照某种方法度量所有个体间的亲 疏程度,将大类中彼此间最“疏远”的个体分离 出去,形成两类;接下来,再次度量类中剩余个 体间的亲疏程度,并将最疏远的个体再分离出去; 重复上述过程,不断进行类分解,直到所有个体 自成一类为止。可见,这种聚类方式对包含n个个 体的大类通过n-1步可分解成n个个体。
准则1:任何类都必须在邻近各类中是突出的 ,即各类重心之间距离必须大。 准则2:各类所包含的元素都不要过分地多。 准则3:分类的数目应该符合使用的目的。 准则4:若采用几种不同的聚类方法处理,则 在各自的聚类图上应发现相同的类。
根据样本统计量确定类的个数
1.R2统计量:值越大,聚类效果越好。但需 动态考察,即聚类到某一步时,样品已经 被分为k个类,下一步分为k-1类时,R2值 有明显下降,则认为分k个类合适。 2.伪F统计量:数值越大越可显著分为k个类 3.伪T统计量:数值越大上一次聚类的效果越 好。 4.半偏R2统计量:值越大上一次聚类的效果 越好。
CLUSTER过程用法
CLUSTER过程的一般格式为: PROC CLUSTER DATA=输入数据集 METHOD=聚类方法 选项; VAR 聚类用变量; COPY 复制变量; RUN;
•METHOD=选项,这是必须指定的,此选项决定我们要用的聚 类方法,主要由类间距离定义决定。方法有AVERAGE、 CENTROID、COMPLETE、SINGLE、DENSITY、WARD、 EML、FLEXIBLE、MCQUITTY 、MEDIAN等 •DATA=数据集,可以是原始观测数据集,也可以是距离矩阵 数据集。 •OUTTREE=输出谱系聚类树数据集,把谱系聚类树输出到一个 数据集,可以用TREE过程绘图并实际分类。 •STANDARD选项,把变量标准化为均值0,标准差1。 •PSEUDO选项和CCC选项。PSEUDO选项要求计算伪F和 伪 统计量,CCC选项要求计算 、半偏 和CCC统计量。其中CCC统计量也是一种考察聚类效果的统计 量,CCC较大的聚类水平是较好的。
个体与小类、小类与小类间“亲 疏程度”的度量方法
SPSS中提供了多种度量个体与小类、小类 与小类间“亲疏程度”的方法。与个体 间“亲疏程度”的测度方法类似,应首 先定义个体与小类、小类与小类的距离。 距离小的关系亲密,距离大的关系疏远。 这里的距离是在个体间距离的基础上定 义的,常见的距离有:
最近邻居(Nearest Neighbor)距离:个体与小类中每 个个体距离的最小值。
学校 参加科研 人数 (人) 410 336 490 投入经费 (元) 4380000 1730000 220000 立项课题 数(项) 19 21 8
(1,2) (1,2) (1,2) 样本的欧氏距离 元 265000 218000 47000 万元 81.623 193.7 254.897
1 2 3
聚类分析的思想
聚类分析是统计学中研究“物以类聚”问 题的多元统计分析方法。 聚类分析是根据样品或指标的“相似”特 征进行分类的一种多元统计分析方法。 例10.1 若我们需要将下列11户城镇居民按 户主个人的收入进行分类,对每户作了 如下的统计,结果列于下表。
某市2001年城镇居民户主个人收入数据
表中的8个指标,前6个是定量的,后2个是定性 的。如果分得更细一些,指标的类型有三种 尺度: (1)间隔尺度。变量用连续的量来表示,如“ 各种奖金”、“各种津贴”等。 (2)有序尺度。指标用有序的等级来表示,如 文化程度分为文盲、小学、中学、中学以上 等有次序关系,但没有数量表示。 (3)名义尺度。指标用一些类来表示,这些类 之间没有等级关系也没有数量关系,如表中 的性别和职业都是名义尺度。
d1 d 2 d3 d 4 d5 d6 6
x11• x12•
x21• x22•
重心(Centroid clustering)距离:个体 与小类的重心点的距离。重心点通常是 由小类中所有样本在各变量上的均值所 确定的点。
•
x1 , y1
•
x2 , y2
离差平方和法(Ward’s method):聚类过 程中使小类内离差平方和增加最小的两 小类应首先合并为一类。
系统聚类法 (hierarchical clustering method) 是聚类分析中诸方 法中用的最多者。 它包含下列步骤 ,见 右图
分类数的确定
到目前为止,我们还没有讨论过如何确定分类数 ,聚类分析的目的是要对研究对象进行分类, 因此如何选择分类数成为各种聚类方法中的主 要问题之一。谱系聚类法(系统聚类法)中我 们最终得到的只是一个树状结构图,从图中可 以看出存在很多类,但问题是如何确定类的最 佳个数。 实际应用中人们主要根据研究的目的,从实用的 角度出发,选择合适的分类数。Demir-men曾 提出了根据树状结构图来分类的准则:
个体 y
1 0
个体x
1
0
A
C
B
D
聚类分析的几点说明
所选择的变量应符合聚类的要求:所选变量应能够从不同的 侧面反映我们研究的目的; 各变量的变量值不应有数量级上的差异(对数据进行标准化 处理):聚类分析是以各种距离来度量个体间的“亲疏” 程度的,从上述各种距离的定义看,数量级将对距离产生 较大的影响,并影响最终的聚类结果。 各变量间不应有较强的线性相关关系
系统聚类中每次合并的类与类之间的距离也可以 作为确定类数的一个辅助工具。在系统聚类过 程中,首先把离得近的类合并,所以在并类过 程中聚合系数(Agglomeration Coefficients) 呈增加趋势,聚合系数小,表示合并的两类的 相似程度较大,两个差异很大的类合到一起, 会使该系数很大。如果以y轴为聚合系数,x轴 表示分类数,画出聚合系数随分类数的变化曲 线,会得到类似于因子分析中的碎石图,可以 在曲线开始变得平缓的点选择合适的分类数。
层次聚类
1 层次聚类的两种类型和两种方式 层次聚类又称系统聚类,简单地讲是指聚类过 程是按照一定层次进行的。层次聚类有两种类型, 分别是Q型聚类和R型聚类;层次聚类的聚类方式又 有两种,分别是凝聚方式聚类和分解方式聚类。 Q型聚类:对样本进行聚类,使具有相似特征的样 本聚集在一起,差异性大的样本分离开来。 R型聚类:对变量进行聚类,使具有相似性的变量 聚集在一起,差异性大的变量分离开来,可在相 似变量中选择少数具有代表性的变量参与其他分 析,实现减少变量个数,达到变量降维的目的。
相似性度量
从一组复杂数据产生一个相当简单的类结构,必 然要求进行“相关性”或“相似性“度量。在 相似性度量的选择中,常常包含许多主观上的 考虑,但是最重要的考虑是指标(包括离散的 、连续的和二态的)性质或观测的尺度(名义 的、次序的、间隔的和比率的)以及有关的知 识。 当对样品进行聚类时,“靠近”往往由某种距离 来刻画。另一方面,当对指标聚类时,根据相 关系数或某种关联性度量来聚类。
k
Phi方(Phi-Square measure)距离
[ xi E ( xi )]2 k [ yi E ( yi )]2 E ( xi ) E ( yi ) i 1 i 1 phisq( x, y) n
k
3、二值(Binary)变量个体间距离的计算方式 简单匹配系数(Simple Matching) 雅科比系数(Jaccard) 简单匹配系数表
最远邻居(Furthest Neighbor )距离: 个体与小类中每个个体距离的最大值。
组间平均链锁(Between-groups linkage )距离:个体与小类中每个个体距离的 平均值。
组内平均链锁(Within-groups linkage) 距离:个体与小类中每个个体距离以及 小类内各个体间距离的平均值。
为定义个体间的距离应先将每个样本数据 看成k维空间的一个点,通常,点与点之 间的距离越小,意味着他们越“亲密” ,越有可能聚成一类,点与点之间的距 离越大,意味着他们越“疏远”,越有 可能分别属于不同的类。
例:下表是同一批客户对经常光顾的五座商场在购物wenku.baidu.com环境和服务质量两方面的平均得分,现希望根据这批 数据将五座商场分类。