聚类分析操作
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X2
13.0 10.0 20.0 33.3 20.5 10.0 12.7 36.5
X3
9.7 7.5 12.5 19.0 14.2 6.7 5.7 15.7
X4
1.5 1.5 2.3 2.8 1.9 2.2 2.9 2.3
PH 值 X 5 6.4 6.5 7.0 5.8 6.9 7.0 6.7 7.2
系统聚类
选 择 Analyze→Classify→HierarchicalCluster 进 入系统聚类分析对话框,如下:
图5.9
系统聚类法主界面
将聚类的变量移入 Variable(s) 框中,将标签变量移入 Lable cases by框中。 ■ Cluster选项: 1. Cases 对样本进行分类 2. Variables 对变量进行分类 ■Statistics对话框 用于给出一些统计量。 Agglomeration schedule 聚类过程的详细记录,给出每 一步聚类时合并的具体情况及相应类之间的距离。 Proximity matrix 列出样本(变量)之间的距离矩阵
K均值聚类方法
选择Analyze→Classify→K-Means Cluster进入K 均值聚类分析对话框,如下:
图5.15
K均值聚类分析主界面
1.首先选择用于聚类的变量(Variables)
2.希望将样本分成的类别数(Number of clusters)
3.选择聚类的方法 Iterate and classify 在起始类凝聚点的基础上不断迭代 和更新凝聚点 。 Classify only 只使用起始的凝聚点进行分类。这样可
◘ Transform measures 转换距离测量所得的值 1. 绝对值(Absolute value) 2. 变更正负号 (change sign) 将相似转换为相异或者将相异 转换为相似。 3. 化为0-1(rescale to 0-1 range)
• 例2我国各地 区 2003 年三次 产 业 产 值 如表 5.17 所 示 , 试 根据三次产业 产值利用K均 值法对我国 31 个 省 、 自 治区 和直辖市进行 聚类分析。
聚类分析试验课
• 例:设有20个土壤样品分别对5个变量的观测数据 如表5.16所示,试利用系统聚类法对其进行样品聚 类分析。
表5.16
样品号 1 2 3 4 5 6 7 8 含沙量
土壤样本的观测数据
粘土含量 有机物
淤泥含量
X1
77.3 82.5 66.9 47.2 65.3 83.3 81.6 47.8
定量数据的相似性度量 设样本为:
X (i ) xi1 , xi 2 , , xip
1.欧氏距离 2.欧氏距离的平方 3.余弦(cosine)
X ( j ) ( x j1 , x j 2 ,, x jp )
p
cos ij
wk.baidu.com
k 1
x x
k 1
k 1 p
xik x jk
i 1,n i 1,n
3.Range 0 to 1
* xij
xij min( xij )
i 1, 2 ,, n
Rj
(i 1,2,3,, n; j 1,2,3,, p)
4.Maximum magnitude of 1
xij x max( xij )
* ij i 1, 2 ,, n
样品号 9 10 11 12 13 14 15 16 17 18 19 20
含沙量
淤泥含量
粘土含量
有机物
X1
48.6 61.6 58.6 69.3 61.8 67.7 57.2 67.2 59.2 80.2 82.2 69.7
X2
37.1 25.5 26.5 22.3 30.8 25.3 31.2 22.7 31.2 13.2 11.1 20.7
2 ik n 2 jk
4.Pearson相关系数 即为通常所说的相关系数 5.切比雪夫距离(Chebychev)距离
dij max xik x jk
k
6.组块距离(block)
dij xik x jk
k
7.明氏(Minkowski)距离
dij ( k | x x | ) ik jk 1
◘Cluster Membership ► Single solution 列出聚为指定类数时,各样本所属
的类。
► Range of solution 列出某个范围中每一步聚类过程
和各样本所属的类。
► None 不显示类成员表
■ Plots 用于选择可输出的聚类图
◘Dendrogram 输出树状图 ◘Icicle 输出冰状图 ■ Metheod对话框 ◘ Measure 用以选择数据类型的距离或相似系数可 用的测度方法 ► Interval(区间)即定量的数据 ► Counts 用于计数数据 ►Binary 用于二元数据 ◘ cluster metheod 用于选择聚类的方法,包含以下 几种方法:组间连接法(between-groups linkage)、 组 内 连 接 法 ( within-groups linkage ) 、 最 小 距 离 法 (nearest neighbor)、最远距离法(furthest-neighbor )、 重 心 法 (centroid clustering) 、 中 间 距 离 法 (median clustering)和离差平方和方法(ward’s method)。
X3
14.3 12.6 14.9 8.4 7.4 7.0 11.6 10.1 9.6 6.6 6.7 9.6
X4
2.1 1.9 2.4 4.0 2.7 4.8 2.4 33.3 2.4 2.0 2.2 3.1
PH 值 X 5 7.2 7.3 6.7 7.0 6.4 7.3 6.3 6.2 6.0 5.8 7.2 5.9
(i 1,2,3,, n; j 1,2,3,, p)
6. Mean of 1
x
* ij
xij
xij
i 1 n
(i 1,2,3,, n; j 1,2,3,, p)
7.Standard deviation of 1
xij x sj
* ij
1 n 2 sj ( xij x j ) n 1 i 1
(凝聚点)的改变量,是介于0和1之间的数。
◘ Use running means
过程默认是所有样本都有
了分类结果后才重新计算类的中心位置,如果选中 这个复选框则是每对一个样本进行分类后都会重新
计算新的类别中心。这样样本的排列次序可能会对
分类结果有影响。
■ Save对话框 ◘ Cluster membership 输出聚类后每个样本所 属的类别。 ◘ Distance form cluster center 输出样本与所在 类别中心的距离。 ■ options对话框 ◘ Initial cluster center 初始类的中心。 ◘ ANOVA table 方差分析表。以聚类结果为因 变量,分析中所用的变量为自变量的单因素方差分 析。可以用它来判断各个变量对分类是否有用。 ◘ Cluster informations for each case 每个样本 的分类信息,包括被分到哪一类,该观测值距离所 属类别中心的距离。
g
p
1 g
8.自定义(customized)距离
dij ( | xik x jk | p )
k 1
p
1 r
可以输入p和r的值。
◘ Transform values 用于选择数据的变换方法,包含以下的 几种方法: 1. Z scores 即为通常所说的数据标准化处理
x
* ij
xij x j sj
以节省运算时间,但一般来说使用第一种方法。
Read initial form 要求使用指定数据文件中的观测量 作为初始类的中心 Write final as 要求把聚类结果中各类中心数据保存到 指定的文件中。
■ Iterate对话框 ◘Maximum Iterations:设定最大迭代次数
◘ Convergence Criterion 收敛准则,是指类中心
表 5.17 我国各地区三次产业产值(单位:亿元)
地区 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 第一产 业 X1 95.64 89.66 1064.33 215.19 420.10 615.80 486.90 500.80 90.64 1106.35 728.00 732.81 692.94 560.00 1480.67 1239.70 第二产 业 X2 1311.86 1245.29 3657.19 1389.33 973.94 2898.89 1143.39 2532.45 3130.72 6787.11 4941.00 1780.60 2492.73 1227.38 6656.85 3551.94 第三产 业 X3 2255.60 1112.71 2377.04 852.07 756.38 2487.85 892.33 1396.75 3029.45 4567.37 3726.00 1458.97 2046.50 1043.08 4298.41 2256.95 地区 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 第一产 业 X1 798.35 886.47 1093.52 652.28 248.33 336.36 1128.61 298.37 502.84 40.62 320.03 236.61 46.15 55.50 412.90 第二产 业 X2 2580.58 1794.21 7307.08 1007.96 151.16 977.30 2266.06 579.31 1069.29 47.99 1133.56 607.62 184.26 192.00 796.84 第三产 业 X3 2022.78 1958.05 5225.27 1074.89 271.44 936.90 2061.65 478.43 893.16 95.89 944.99 460.37 159.80 137.84 667.87
(i 1,2,3,, n; j 1,2,3,, p)
1 n 2 sj ( xij x j ) n 1 i 1
2. Range -1 to 1
xij x Rj
* ij
(i 1,2,3,, n; j 1,2,3,, p)
极差 : R j max xij min xij