SAS聚类输出结果详细说明
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SAS软件——VARCLUS过程变量聚类
如果没有为VARCLUS过程提供初始分类情况,VARCLUS过程开始把所有变量看成一个类,然后它重复以下步骤:
(1)首先挑选一个将被分裂的类。
通常这个被选中的类的类分量所解释的方差百分比最小(选项PRECENT=)或者同第二主成分有关的特征值为最大(选项MAXETGH=)。
(2)把选中的类分裂成两个类。
首先计算前两个主成分,再进行斜交旋转,并把每个变量分配到旋转分量对应的类里,分配的原则是使变量与这个主成分的相关系数为最大。
(3)变量重新归类。
通过多次反复重复,变量被重新分配到这些类里,使得由这些类分量所解释的方差为最大。
当每一类满足用户规定的准则时,VARCLUS过程停止。
所谓准则,或是每个类分量所解释的方差的百分比,或是每一类的第二特征值达到预设定的标准为止。
如果没有准则,则当每个类只有一个特征值大于1时,VARCLUS过程停止。
SAS程序
输入如下程序:
OPTION PS=800;
/* 要求输出的结果中每页包括800行内容,可避免不必要的SAS标题反复出现。
*/
PROC VARCLUS DA TA=WORK.XLSSAS;
VAR X1-X12;
RUN;
说明:过程语句中没有任何选择项,默认的聚类方法为主成分聚类法。
过程步最终会聚成多少类,将由默认的临界值来决定,即当每个类只有一个特征值大于1时,VARCLUS过程停止。
结果分析:
The SA S System 10:04 Wednesday, November 24, 2010 17
这是用分解法思想进行斜交主成分聚类的第1步,将全部12个变量聚成1类,能解释的方差为2.134427,占总方差的17.79%;
第二特征值为1.5146.,并预告这一类将被分裂。
Oblique Principal Component Cluster Analysis
Observations 1018 PROPORTION 0
Variables 12 MAXEIGEN 1
Clustering algorithm converged.
Cluster summary f or 1 cluster
Cluster Variation Proportion Second
Cluster Members Variation Explained Explained Eigenvalue
------------------------------------------------------------------------
1 1
2 12 2.134427 0.1779 1.5146
Total variation explained = 2.134427 Proportion = 0.1779
Cluster 1 will be split.
Clustering algorithm converged.
第2步将1类分裂成2类,分别含4个和8个变量
Variation Explained 解释方差,即第一特征值;Proportion Explained解释方差占本类总方差的百分比;Second Eigenvalue 类中的第二特征值。
Cluster summary f or 2 clusters
Cluster Variation Proportion Second
Cluster Members Variation Explained Explained Eigenvalue
------------------------------------------------------------------------
1 4 4 1.999789 0.4999 0.8503
2 8 8 1.50050
3 0.1876 1.2034
Total variation explained = 3.500292 Proportion = 0.2917
相关系数的平方
第三列R-squared with Own Cluster是指每个变量与所属类分量之间相关系数的平方R2,
变量X6,X7,X10,X12在第1类中,它与第1类分量(相当于主成分分析中的第1主成分)之间的R2是0.7550;
第4列R-squared with Next Closest是指每个变量与相邻类的类分量之间的相关系数的R2为0.0080,该值越小,说明分类越合理;第5列R-squared with 1-R**2 Ratio 是由同一横行的数据求得:1-R**2Ratio=[1-(R-squared with Own Cluster)]/[ 1-(R-squared with Next Closet)],此值越小,表明分类越合理。
由此列可以看出,很多比值较大,说明这10个变量分成2类是不太合适的。
R-squared with
------------------
Own Next1-R**2 Variable
Cluster Variable Cluster Closest Ratio Label
------------------------------------------------------------------
Cluster 1 X6 0.7550 0.0080 0.2470 X6
X7 0.3534 0.0073 0.6514 X7
X10 0.5714 0.0002 0.4287 X10
X12 0.3200 0.0026 0.6818 X12
------------------------------------------------------------------
Cluster 2 X1 0.0007 0.0000 0.9993 X1
X2 0.2843 0.0024 0.7175 X2
X3 0.2888 0.0010 0.7119 X3
X4 0.0013 0.0000 0.9987 X4
X5 0.1607 0.0000 0.8393 X5
X8 0.2198 0.0199 0.7961 X8
X9 0.2234 0.0520 0.8193 X9
X11 0.3216 0.0036 0.6808 X11
从标准化变量预测类分量的标准回归系数
若设C1、C2为这两类,则有:
C1=0.434500X6-.297257X7+0.377990X10+0.282886X12
Standardized Scoring Coeff ici ents
Cluster 1 2
--------------------------------------------
X1 X1 0.000000 0.018208
X2 X2 0.000000 -.355324
X3 X3 0.000000 0.358174
X4 X4 0.000000 -.023689
X5 X5 0.000000 -.267146
X6 X6 0.434500 0.000000
X7 X7 -.297257 0.000000
X8 X8 0.000000 0.312420
X9 X9 0.000000 -.314963
X10 X10 0.377990 0.000000
X11 X11 0.000000 0.377930
X12 X12 0.282886 0.000000
类结构
类结构相当于因子分析中的因子模型,即每个标准化变量可以表示成全部类分量的线性组合。
例如X1=0.004387C1+0.027322C2
Cluster Structure
Cluster 1 2
--------------------------------------------
X1 X1 0.004387 0.027322
X2 X2 -.049085 -.533165
X3 X3 -.032370 0.537442
X4 X4 0.003068 -.035546
X5 X5 0.002935 -.400853
X6 X6 0.868907 0.089540
X7 X7 -.594452 -.085225
X8 X8 -.141021 0.468787
X9 X9 -.228078 -.472604
X10 X10 0.755901 0.015031
X11 X11 0.059668 0.567086
X12 X12 0.565711 -.051333
类分量之间的相关系数阵
Inter-Cluster Correlations
Cluster 1 2
1 1.00000 0.05540
2 0.05540 1.00000
Cluster 2 will be split. 这里预告第2类将被分裂
Clustering algorithm converged.
Cluster summary f or 3 clusters
Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue
------------------------------------------------------------------------
1 4 4 1.999789 0.4999 0.8503
2 3 3 1.253031 0.4177 0.9270
3 5 5 1.318546 0.2637 1.0410
Total variation explained = 4.571366 Proportion = 0.3809
R-squared with
------------------
Own Next 1-R**2 Variable Cluster Variable Cluster Closest Ratio Label
------------------------------------------------------------------
Cluster 1 X6 0.7550 0.0098 0.2474 X6
X7 0.3534 0.0167 0.6576 X7
X10 0.5714 0.0012 0.4291 X10
X12 0.3200 0.0056 0.6838 X12
------------------------------------------------------------------
Cluster 2 X2 0.4730 0.0068 0.5306 X2
X3 0.4971 0.0123 0.5092 X3
X5 0.2829 0.0038 0.7198 X5
------------------------------------------------------------------
Cluster 3 X1 0.1555 0.0081 0.8514 X1
X4 0.0784 0.0038 0.9250 X4
X8 0.3920 0.0199 0.6203 X8
X9 0.2780 0.0520 0.7616 X9
X11 0.4146 0.0250 0.6005 X11
Standardized Scoring Coeff ici ents
Cluster 1 2 3
----------------------------------------------------------
X1 X1 0.000000 0.000000 0.299038
X2 X2 0.000000 0.548880 0.000000
X3 X3 0.000000 -.562657 0.000000
X4 X4 0.000000 0.000000 -.212413
X5 X5 0.000000 0.424515 0.000000
X6 X6 0.434500 0.000000 0.000000
X7 X7 -.297257 0.000000 0.000000
X8 X8 0.000000 0.000000 0.474852
X9 X9 0.000000 0.000000 -.399912
X10 X10 0.377990 0.000000 0.000000
X11 X11 0.000000 0.000000 0.488318
X12 X12 0.282886 0.000000 0.000000
Cluster Structure
Cluster 1 2 3
----------------------------------------------------------
X1 X1 0.004387 0.089750 0.394295
X2 X2 -.049085 0.687764 -.082508
X3 X3 -.032370 -.705027 0.110813
X4 X4 0.003068 -.061367 -.280076
X5 X5 0.002935 0.531930 -.061359
X6 X6 0.868907 0.005406 0.098953
X7 X7 -.594452 -.017322 -.129087
X8 X8 -.141021 -.103095 0.626114
X9 X9 -.228078 0.118370 -.527302
X10 X10 0.755901 -.035072 -.016183
X11 X11 0.059668 -.158229 0.643870
X12 X12 0.565711 -.006093 -.074965
Inter-Cluster Correlations
Cluster 1 2 3
1 1.00000 -0.00748 0.05404
2 -0.00748 1.00000 -0.13368
3 0.0540
4 -0.13368 1.00000 Cluster 3 will be split.
Clustering algorithm converged.
Cluster summary f or 4 clusters
Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue
------------------------------------------------------------------------
1 4 4 1.9997890.4999 0.8503
2 3 3 1.253031 0.4177 0.9270
3 2 2 1.120256 0.5601 0.8797
4 3 3 1.1785040.3928 0.9474
Total variation explained = 5.55158 Proportion = 0.4626
R-squared with
------------------
Own Next 1-R**2 Variable Cluster Variable Cluster Closest Ratio Label
------------------------------------------------------------------
Cluster 1 X6 0.7550 0.0554 0.2594 X6
X7 0.3534 0.0217 0.6610 X7
X10 0.5714 0.0071 0.4317 X10
X12 0.3200 0.0023 0.6815 X12
------------------------------------------------------------------
Cluster 2 X2 0.4730 0.0062 0.5303 X2
X3 0.4971 0.0133 0.5097 X3
X5 0.2829 0.0030 0.7192 X5
------------------------------------------------------------------
Cluster 3 X1 0.5601 0.0081 0.4434 X1
X8 0.5601 0.0220 0.4497 X8
------------------------------------------------------------------
Cluster 4 X4 0.2693 0.0038 0.7335 X4
X9 0.4466 0.0520 0.5837 X9
X11 0.4626 0.0250 0.5512 X11
标准回归系数
Standardized Scoring Coeff ici ents
Cluster 1 2 3 4
------------------------------------------------------------------------
X1 X1 0.000000 0.000000 0.668077 0.000000
X2 X2 0.000000 0.548880 0.000000 0.000000
X3 X3 0.000000 -.562657 0.000000 0.000000
X4 X4 0.000000 0.000000 0.000000 0.440343
X5 X5 0.000000 0.424515 0.000000 0.000000
X6 X6 0.434500 0.000000 0.000000 0.000000
X7 X7 -.297257 0.000000 0.000000 0.000000
X8 X8 0.000000 0.000000 0.668077 0.000000
X9 X9 0.000000 0.000000 0.000000 0.567079
X10 X10 0.377990 0.000000 0.000000 0.000000
X11 X11 0.000000 0.000000 0.000000 -.577107
X12 X12 0.282886 0.000000 0.000000 0.000000
Cluster Structure
Cluster 1 2 3 4
------------------------------------------------------------------------
X1 X1 0.004387 0.089750 0.748417 -.046682
X2 X2 -.049085 0.687764 0.007102 0.078952
X3 X3 -.032370 -.705027 0.024408 -.115498
X4 X4 0.003068 -.061367 -.009986 0.518946
X5 X5 0.002935 0.531930 0.002167 0.054407
X6 X6 0.868907 0.005406 -.123094 -.235407
X7 X7 -.594452 -.017322 -.025528 0.147398
X8 X8 -.141021 -.103095 0.748417 -.148181
X9 X9 -.228078 0.118370 -.075518 0.668305
X10 X10 0.755901 -.035072 -.084362 -.069923
X11 X11 0.059668 -.158229 0.143754 -.680123
X12 X12 0.565711 -.006093 -.047717 0.035731
类分量之间的相关系数阵
Inter-Cluster Correlations
Cluster 1 2 3 4
1 1.00000 -0.00748 -0.09128 -0.16242
2 -0.00748 1.00000 -0.00892 0.13142
3 -0.09128 -0.00892 1.00000 -0.13018
4 -0.16242 0.13142 -0.13018 1.00000
No cluster meets the criterion f or splitting. 此时已达到默认的停止分裂的临界值(即每个类中只有一个特征值大于1),停止分裂。
意思就是说每一类中第1特征值(Variation Explained)与第2特征值(Second Eigenvalue)中只有一个特征值大于1。
(见四中的第一个表)
最后,给出整个聚类过程的汇总信息:
第2列表示分成1类、2类、3类、4类时分别能解释的总方差量;
第3列表示分成1类、2类、3类、4类时分别能解释的方差占全部12个变量的总方差的百分比;
第4列表示分成1类、2类、3类、4类时由1个类成分能解释的方差占全部12个变量的总方差的最小百分比;
第5列表示各类中最大的第2特征值;
第6列表示各类中1个变量与其所在类的类分量的最小相关系数平方R2;
第7列表示列为各类中(1-R2)own/(1-R2)next的最大比值。
说明:如果设定分类的个数,或是设定其他停止分裂的准则,则每次分裂按第2特征值最大选择分裂的类。
Total Proportion Minimum Maximum Minimum Maximum Number Variation of Variation Proportion Second R-squared 1-R**2 Ratio of Explained Explained Explained Eigenvalue f or a f or a
Clusters by Clusters by Clusters by a Cluster in a Cluster Variable Variable
----------------------------------------------------------------------------------------------------
1 2.134427 0.1779 0.1779 1.514596 0.0000
2 3.500292 0.2917 0.1876 1.203449 0.0007 0.9993
3 4.571366 0.3809 0.2637 1.041046 0.078
4 0.9250
4 5.551580 0.4626 0.3928 0.947418 0.2693 0.7335
说明:对于一批给定的数据,究竟应聚成几类合适,没有统一的规则。
可先将数据聚成类,然后结合专业知识和各类能解释总方差的百分比来权衡。