N05第五章聚类分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两样本间的失配数 dij (匹配) 二态变量总数
3 d13 , 7 2 d16 , 7 4 d 26 7
对于①与③企业,如果再加上其 他变量的值: X8、X9、X10、X11、X12 怎样计算其距离呢?首先定义间 隔变量的失配数:
令 R8 max xi 8 x j 8 为的X8极差,这①与③在X8上的失配
Dr Dp Dq Dk
由于计算类与类之间距离的方法 不同,就产生了不同的系统聚类法, 我们分别介绍 一、最短距离法
Dkr
xi D p,Dq , x j Dk
min
d
ij
二、最长距离法
Dkr
xi D p、Dq , x j Dk
max
d
ij
三、中间距离法
1 2 1 2 1 2 D Dkp Dkq Dpq 2 2 4
4、对每个变量先人为定一个正数 [ xij d j (整数 d j (1 j m) ,令 xij ] 部分),若 xlj xkj (j=1,2,…,m),则 xl 与 xk 归为一类。 y 这种方法相当于 把空间划成若干 长方体,同一长 1 方体内的样本归 0 1 x 为一类。
x18 x38 数为 R8
同理可定义在其它变量上的失配 数。于是可定义
所有变量失配数之和 dij 变量总个数
d11 D0 d n1 d1n d nn
0 dij 1
dii 0
第三节 系统聚类法
在系统聚类法中,我们用dij表 示样本X(i)与X(j)之间的距离 ,Gi、Gj 表示i类和j类,Dij表示i类与j类之间 的距离。
xik x jk 1 dij , xij 0 p k 1 xik x jk
p
6、标准化的欧氏距离 标准化后的
xik x jk dij sk k 1 其中
p
2
1 x j xij n i 1
n
1 2 sk xik xk n i 1
第五章
聚 类 分 析
第一节 什么是聚类分析
聚类分析是对所研究的对象(样本 或变量)按着性质相近程度进行分类的 一种统计分析方法。 聚类分析广泛应用于各个领域。随 着计算机的发展及各种统计分析软件的 诞生,这一方法越来越多的被采用。如: 工业企业按效益分类、矿物标本分类、 土壤分类、学生分类等。
聚类分析的方法:
是X1=1,否X1=0
X2表示中型以上否?
是X2=1 ,否X2=0
大型 中型
小型 0 0
x1 X2 x2
1 1
0 1
这样,我们就把所有变量都数量 化了。 下面我们就要研究相近性的度量 问题。由于我们在统计中,指标或变 量多数都是间隔尺度的,所以我们先 就间隔尺度的变量所刻画对象的相近 性给出度量,最后再就名义尺度、有 序尺度变量所刻画对象的相近性给出 度量。
3、将n个样本再从头到尾输入 一遍,若分类没有改变,则终止。 否则再重复(3)。
第五节
有序样本的聚类
2 kr
np
nq
八、离差平方和法(warld)
D Sr S p Sq
2 pq
nk 2 D D D Dpq nr nk nr nk nr nk
2 kr 2 kp 2 kq
nk n p
nk nq
第四节
动态聚类法
动态聚类法的大体框架:
修改分类 是 选凝聚点 初始分类 否 是 分类是否合理 分类结束
三、修改分类 (一)按批修改法 1、选择凝聚点,并定义样本间 的距离。 2、将所有样本按最近凝聚点归 类。
3、计算每类重心,将重心作为新 的凝聚点,如果所有新凝聚点与上次老 凝聚点重合,则分类终止。否则回到2, 再重复上述过程。(也可能定一个标准, 新凝聚点与老凝聚点距离小于一个数, 终止)。
(二)逐个修改法(K-means方法) 1、决定分类数k,并确定凝聚点(程 序可自动选凝聚点,也可从外部读入凝 聚点,亦可取前k个样本为凝聚点)。 2、将除了凝聚点以外的样本,逐个 进入,每进入一个样本,将它归入最近 凝聚点的那一类,并重新计算这类重心, 用重心代替原凝聚点。
样本 变量
① 1 0 0 0 0 1 1
② 0 0 1 0 0 0 0
③ 0 1 0 0 0 0 1
④ 0 0 0 1 0 0 1
⑤ 0 0 0 0 1 0 1
⑥ 0 1 0 0 0 1 1
x1 (国有否) x2 (集体否) x3 (个体否)
x4 (股份制否)
x5 (其它否) x6 (大型否) x7 (中型以上否)
系统聚类法的具体步骤如下: ⑴ 定义样本之间的距离,计算 两两样本之间的距离,得初始距离矩 阵D(0) ,开始每个样本自成一类,这 时Dij = dij 。 ⑵ 找出D(0)中最小者(下三角 阵),记为Dpq,将Gp、Gq合并成一 类,记为Gr={Gp, Gq}。
⑶ 计算新类Gr到其它类的距离 Drk得第一次并类后的距离矩阵D(1) 。 ⑷ 对D(1)重复以上⑵、⑶步得 D(2) ,如此下去,直到所有元素合并 为一类为止。
由于多元统计中的所有方法都是 基于变量的数量表示进行分析的,所 以,我们有必要对名义尺度和有序尺 度的变量进行数量化。对于名义变量:
令 X1表示国有企业否? 是X1=1,否X1=0,(二态变量) X2表示集体企业否? 是X2=1,否X2=0
……
国有 集体
其它 0 0 0 0 1
1 i j i j
应用中常用样本协方差阵S代Σ。
二、相似系数 研究样本之间的关系,除了用 距离表示外,还有相似系数。相似 系数是描写样本(或变量)之间相 似程度的一个量。相似系数的绝对 值在0与1之间,越接近于1,相似性 越大,反之越小。
1、夹角余选弦
x x
1 i n 2 n 1 i n
系统聚类 动态聚类 有序样本聚类(如经济发展阶段) 模糊聚类 图论聚类等 我们主要介绍系统聚类和动态聚类
样本数据矩阵
x11 x 21 X x n1
x12 x22 xn 2
x1 p x2 p xnp
第二节
距离和相似系数
由于聚类分析是按着样本或变量的 相近性进行分类的,这就涉及到相近性 的度量问题。而在定义相近性的度量之 前,首先还应了解多元变量的测量尺度 问题。 比如,我们要研究企业规模、类型 和经济效益问题,并对所研究的企业进 行分类。我们调查这样一些指标:
动态聚类每一步都有多种方法
一、选择凝聚点 1、凭经验选择。对样本大体分几 类及类特征心中有数,在每类中选一个 代表(或在样本外选n个代表,如游泳 运动员标准)。 2、将样本人为地分成几类,计算 每类均值作为凝聚点。
3、密度法。人为规定两个正数 d1<d2(一般d2=2d1),以每个样本为球 心,以d1为半径,计算落在这个球内的 样本数,也就是这个点的密度。密度最 大的点作第一个凝聚点,次大的点到最 大点距离小于d2,则不作凝聚点,否则 作为第二个凝聚点,依此下去,找出首 批凝聚点。
一、距离 如前例,如果我们只研究企业的经 济效益,那么就用后五项指标。每个企 业有五项指标,相当于五维空间中的一 个点。如果两个企业这五项指标很接近, 这两个企业的经济效益也很相近,作为 空间中的点来讲,这两点的距离也将很 近。因此,我们可以用距离来刻划对象 的相近程度。第i个企业和第j个企业的 距离常用dij表示。一般定义距离dij应满 足
x1 x 2 X 1 x3 则 x4 x 5
1 0 0 0 0
0 1 0 0 0
对于有序变量,按着顺序分类,
我们可以这样表示:
令X1表示大型否?
2
3、闵氏距离(Minkowski)
q dij xik x jk k 1 p 1 q
4、切贝雪夫距离
dij max xik x jk
1 k p
前四个距离与量纲有关,(有 大数吃小数现象)
5、兰氏距离(Lance and williams)
cij cos ij
j
x x
1
2 j
2、相Hale Waihona Puke Baidu系数
x
n 1 i
rij
xi
2
x
n
j
xj
2
( x
1
n
i
xi ) ( x j x j )
1
一般情况下,我们用距离来刻划 样本之间的相似性,用相似系数来刻 划变量之间的相似性。 最后我们再来介绍名义变量,有 序变量及混型变量所刻划的对象之间 的距离的定义。 我们仍用以前例子为例,对于企 业经济类型及规模,我们可以用 7个 二态变量来刻划:
1、企业的经济类型:国有、集体、个 体、股份制、其他; 2、企业的规模:大、中、小; 3、百元固定资产实现利税; 4、资产利税率; 5、产值利税率; 6、百元销售收入实现利润; 7、全员劳动生产率。
每一个企业对应七个变量,这七个变 量具有三种不同的测量尺度: 1、名义尺度:第一个变量就是名义尺 度变量,它没有数量表示,也没有次序关 系。 2、有序尺度:第二个变量就是有序尺 度变量,它没有数量表示,但是有次序关 系。 3、间隔尺度:第三个变量以后的变量 都是可用连续的数量来刻划的间隔尺度变 量,它们既有数量表示,也有次序关系。
A1
A2
不作
d1 A1 A2
4、先人为选一个正数d,将全部样 本均值作为第一个凝聚点,然后依次输 入样本,如样本到 X 的距离大于d,则 作为第二个凝聚点。依此下去,输入样 本到先前凝聚点距离都大于d,则作为下 一个凝聚点,则否不作凝聚点。 5、当n很大时,先取部分样本聚类, 计算各类重心,作为首批凝聚点。
① dij≥0,对一切i, j ② dij = 0, i, j各指标值相同 ③ dij = dji ④ dij≤ dik + dkj 对一切i, j, k
距离的定义有多种,下面作介绍:
1、绝对值距离
dij xik x jk
k 1
p
2、欧式距离
dij
x
k 1
p
ik
x jk
2 kr
Dp
Dq
Dk
四、重心法
D
2 kr
np nr
D
2 kp
nq nr
D
2 kq
n p nq n
2 r
D
2 pq
n p nq 即为中间距离
五、类平均法(组间连接)
1 D n p nq
2 pq
d
xiD x D p j q
2 ij
i
j
D
2 kr
np nr
D
2 kp
n
前六个距离没考虑变量相关性。
7、马氏距离(Mahalanobis) 令 xi xi1 , xi 2 xip 11 1p pp p1 是 ( x1 , x2 x p )的协方矩阵,则
dij
x x x x
nq nr
D
2 kq
六、可变类平均法 np 2 2 Dkr 1 Dkp nr nq 2 2 1 Dkq Dpq nr
0 1
七、可变法
1 (上式取 ) nr nr 2
1 2 2 2 D Dkp Dkq Dpq 2
二、初始分类(也可没有凝聚点) 1、定义样本到凝聚点距离,每个 样本按最近凝聚点归类 2、凝聚点各成一类。样本依次进 入最近的一类,进入后重新计算这类重 心,并用之代替原来的凝聚点,再进入 下一个样本……
3、先人为选一个正数d,第一个样 本 x1为第一类,如果 x2到 x1的距离小于d, x1 x2 这类,否则 则 归入 x2另成一类,当 某一步轮到 xl,而先前正形成了k类,每 类第一次进入的样本为 xi1、xi 2 xik xi1 x1 ,计算 xl 到 xij 的距离,哪个最 小,且小于d,xl 就归哪类。否则 xl 另成 一类,即k+1类……