聚类分析与判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:以我国新疆地区6个地点和4个指标 为例,用最短距离法进行聚类分析.
第一步,将原始数据经标准化处理后,以 欧氏距离作为分类统计量,得初始距离 矩阵D(0),如下表所示.
G1 G2 G3 G4 G5 G6 0.375 0.483 1.749 1.516 1.972 0.776 1.596 1.336 1.743 1.926 1.662 2.154 0.501 0.693 0.589 G2 G3 G4 G5
二、判别分析的基本原理
1.判别分析的基本准则
1)费歇Fisher准则
2)贝叶斯Bayes准则
应用费歇准则进行判别分析时,要对原始地
理数据经—定方式进行线性组合,使其形成 一个新变量,即判别函数:要使判别函数值 能充分地区分开地理类型,就需要使各类均 值之间的差别最大(即使不同类之间的差别最 大),而使各类内部的离差平方和为最小(即 使同类间的差别最小)换句话说,即要求类间 (或组间)均值差与类内(或组内)方差之比最大, 这样就能把地理类型区分得最清楚。
第四步,在D(1)表中,最小元素为D37=0.483, 再将G3与G7合成一新类G8,G8 G3 , G7 ,然后 再计算新类G8与其它类间的距离.
D8, 4 min(d 34 , d 47 ) min( 1.926,1.596) 1.596 D8,5 min(d 35 , d 57 ) min( 1.662,1.336) 1.336 D8, 6 min(d 36 , d 67 ) min(2.154,1.743) 1.743
间的距离Drk。
3.将D(0)表中的第p、q行和p、q列删去,加上第r行和第r列。这 样就得到了一个新距离矩阵D(1)表。为了清楚计算,应在表下方 注明新类是由哪两类聚合成的。 4.对D(1)表,重复上面的步骤,最后绘出聚类图。
例:以我国新疆地区6个地点和4个指标 为例,用最短距离法进行聚类分析.
第五步,作D(2)表.先从D(1)表中删去G3类 和G7类所在行与列中的元素,再把新计算 出来的D8,4,D8,5和D8,6的值填到D(1)中,即 成D(2)表.
G4 G5 G6 G8 0.501 0.693 1.596 0.589 1.336 1.743 G5 G6
第六步,在D(2)表中,最小元素为 D45=0.501,再将G4和G5合成一新类 G9, G9 G4 , G5 ,然后再计算新类G9与其 它类间的距离
第一步,将原始数据经标准化处理后,以 欧氏距离作为分类统计量,得初始距离 矩阵D(0),如下表所示.
G1 G2 G3 G4 G5 G6 0.375 0.483 1.749 1.516 1.972 0.776 1.596 1.336 1.743 1.926 1.662 2.154 0.501 0.693 0.589 G2 G3 G4 G5
第二步,在D(0)中,最小元素为D12=0.375,将 G1与G2合并成一新类G7,G7 G1, G2 ,然后再 计算新类G7与其它各类间的距离.
D7 ,3 min(d13 , d 23 ) min(0.483,0.776) 0.483 D7 , 4 min(d14 , d 24 ) min( 1.749,1.596) 1.596 D7 ,5 min(d15 , d 25 ) min( 1.516,1.336) 1.336 D7 ,6 min(d16 , d 26 ) min( 1.972,1.743) 1.743
G8
G9
1.743
0.589 1.336
第八步,在D(3)表中,最小元素为 D69=0.589,再将G6和G9合成一新类 G10, G10 G8 , G9 G6 , G4 , G5 ,然后再计 算G10与其它类间的距离
D10,8 min(d68 , d89 ) min( 1.743 ,1.336) 1.336
d rk min{ d pk , d qk }
(k p, q)
计算原来各类与新类之间的距离,这样就得到一个新的(m -1)阶的距离矩阵; 再从新的距离矩阵中选出最小者dij,把 Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去, 直至各分类对象被归为一类为止。
步骤: 1.确定计算距离方法,计算出各地点间距离,列出初始距离矩阵 D (0)表, 2.在初始距离矩阵D(0)中,选出非对角线上的最短距离,即最小 元素Dpq,将Gp和Gq合并成一新类Gr,再计算新类Gr与其他各类
k 1
m
式中,xk为要素或特征值,ck为判别系数,它可反映各要素 或特征值的作用方向和贡献率的大小。只要确定了ck,判 别函数y也就确定了。
为了使判别函数(y)能充分地反映出 A、B两种地理类型的差 别,就要使两类之间的均值差 [( y ( A) y ( B)]2 尽可能的大,而各 类内部的离差平方和
联结顺序 1 2 3 4 5
联结法 新类
G7 G8 G9 G10 G11
类别
G1,G2 G3,G1,G2 G4,G5 G6,G4,G5 G3,G1,G2,G6,G4,G5
距离系数 0.375 0.483 0.501 0.589 1.336
A
16
D 5
9 10 B 8
E
C
作业:对下表应用最短距离法进行系统聚类分析
G1 G1 G2 0
G2
G3
G4
G5
G6
G7
1.52 0
G3
G4 G5 G6 G7
3.1
2.7
0
5.86 6.02 3.64 0 4.72 4.46 1.86 1.78 0 5.79 5.53 2.93 0.83 1.07 0 1.32 0.88 2.24 5.14 3.96 5.03 0
五、最远距离聚类法
第九步,作D(4)表,先从D(3)表中删去G6 类和G9类所在行列中的元素,再把新计 算出来的D10,8的值填到D(3)中,即成 D(4)表.
G8 G10 1.336
由此表可知,G8类与G10类最后合成一 类为G11类,计算过程结束.
Baidu Nhomakorabea十步,将上述计算结果整理成联结表 ,然后再绘成聚类图.
联结表
1)费歇Fisher准则
判别分析依其判别类型的多少与方式不同,可分为两类判别 ,多类判别等,我们主要掌握应用费歇准则进行两类判别分析。 依费歇准则的要求,就要根据已知的地理特征值进行线性组 合,构造一个线性判别函数y,即
y c1 x1 c2 x2 cm xm ck xk
一、判别分析概述
1. 判别分析的概念 判别分析是判别样品所属类型的一种统 计方法,是在已知研究对象分成若干类型(或 组别)并已取得各种类型的一批已知样品的观 测数据,在此基础上根据某些准则建立判别 式,然后对未知类型的样品进行判别分类。
判别分析应用非常广泛。 在生产、科研和日常生活中经常需要根据观测 到的数据资料,对所研究的对象进行分类。例如在 经济学中,根据人均国民收入、人均工农业产值、 人均消费水平等多种指标来判定一个国家的经济发 展程度所属类型; 在市场预测中,根据以往调查所得的各种指标, 判别下季度产品是畅销、平常或滞销; 在医疗诊断中,根据某人多种体检指标(如体温、 血压、白血球等)来判别此人是有病还是无病。
式中,xik代表第i个地点第k个指标的值,xjk代表第j个地点第k个 指标的值,k=1,2,…,m个指标个数。 距离系数越小,两点的相似程度越大,反之则小。
四、地理系统的聚类方法 系统聚类法中的最短距离法 距离的计算是应用欧氏距离计算方法
原理:在n×n距离矩阵的非对角元素中找出
,
d pq min{ d ij } 把分类对象 Gp和 Gq归并为一新类Gr,然后按计算公式
这样变化后的新数据,其变化范围在0与1之间,而且消除了 量纲的影响。
三、聚类分析的统计量 1.绝对距离
d ij (1) xik x jk
k 1
m
i和j代表两个个体(或两个 样品),Xk代表第k个特征 值或指标
2.欧氏距离
d ij (2)
1 m 2 ( x x ) ik jk m k 1
第三步,作D(1)表.先从D(0)表中删去G1类和 G2类所在的行和列中的元素,然后把新计算 出来的 G7与其它类间的距离D7,3,D7,4,D7,5 填到D(0)中,即成D(1)表.
G3 G4 G5 G6 G7 1.926 1.662 2.154 0.483 0.501 0.693 1.596 0.589 1.336 1.743 G4 G5 G6
xij '
xij x j sj
这样标准化后的数据,均值为0,方差为1。
2.极差标准化 就是系列中的任一变量(Xij)与其第 j列中的最小值 Xj( min)之差和第j列中的最大值Xj(max)与最小值之差的比值 。
xij '
xij x j (min) x j (max) x j (min)
D9,6 min(d 46 , d 56 ) min(0.693,0.589) 0.589 D9,8 min(d 48 , d58 ) min( 1.596,1.336) 1.336
第七步,作D(3)表,先从D(2)表中删去G4类 和G5类所在的行与列中的元素,再把新计 算出来的D9,6和D9,8的值填到D(2)中,即成 D(3)表. G6 G8
2.判别分析与聚类分析
判别分析兼有判别与分类的两种性质,但以判别为
主。 判别分析判别分析与聚类分析不同之点在于:判别 分析必须事先己知分几类为前提;聚类分析则不必 事先确定类型,而类型的形成是聚类分析的结果。 判别分析和聚类分析往往联合起来使用,例如判别 分析是要求先知道各类总体情况才能判断新样品的 归类,当总体分类不清楚时,可先用聚类分析对原 来的一批样品进行分类,然后再用判别分析建立判 别式以对新样品进行判别。
直到把所有的站点都聚合完毕,最后便可根据各类之间的亲疏关 系,逐步画成一张完整的分类系统图,又称谱系图。
二、聚类分析的数据处理 (一)地理数据的对数变换 减小数据的变幅让数据变均匀 P131 表7-2
(二)地理数据的标准化, 消除数量级、量纲的不同
1. 标准差标准化 就是把变换后的数据(xij),再除以其标准差(Sj),即:
最远距离聚类法与最短距离聚类法的区别 在于计算原来的类与新类距离时采用的公式不 同。 最远距离聚类法的计算公式是
d rk max{ d pk , d qk } (k p, q)
(3.4.11)
类平均法、重心法、离差平方和等
第二节 地理系统的判别分析 (Discriminant Analysis )
聚类分析的基本特点:事先无需知道分类对象分类标准,而 只需要一批数据;数据单位可不同。
基本步骤: 在这种分类系统中,首先我们要根据一批地理数据或 指标找出能度量这些数据或指标之间相似程度的统计量;然后以 统计量作为划分类型的依据,把一些相似程度较大的站点(或样
品)首先聚合为一类,而把另一些相似程度较小的聚合为一类。
3. 地理研究中判别分析的作用
概括为以下三点:
1)对已分好的类型进行合理性检验; 2)判别某地地理类型的归属问题和确定区域
界线(两类判别可以用于划分地理区的界线, 这时,把界线两边视为不同的类型; 3)评价各要素特征值在判别分析中贡献率的 大小。
4. 判别分析的类型
判别分析按判别的级数来区分,有两组判别分析和
多组判别分析; 按区分不同总体的所用的数学模型来分,有线性判 别和非线性判别; 按判别时所处理的变量方法不同,有逐步判别和序 贯判别等。 判别分析可以从不同角度提出问题,因此有不同的 判别准则,如马式距离最小准则、Fisher准则、平 均损失最小准则、最小平方准则、最大似然准则、 最大概率准则等等, 仅学习Fisher\贝叶斯两类判别。
第七章 地理系统的聚类分析 和判别分析
第一节
聚类分析
16种饮料的热量、咖啡因、钠及价格四种变量
一、地理系统分类的概念及基本步骤原理 聚类分析是根据地理变量(或指标或样品)的属性或特征的相 似性、亲疏程度,用数学的方法把他们逐步地分型划类,最后得到
一个能反映个体或站点之间、群体之间亲疏关系的分类系统。