聚类分析与判别分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(xi yi )2
i
平方欧氏距离(Squared Euclidean) (xi yi )2 i
绝对距离(Block): Si|xi-yi|
切比雪夫距离 (Chebychev ) Maxi|xi-yi|
1
明考夫斯基距离(Minkowski)
(
xi
yi
)q
q
i
10
(2)相似系数
向量x =(x1,…, xp)与y =(y1,…, yp)之间的相似系数:
1
提纲
1 聚类分析
1-1 概述
1-1-1聚类分析的原理 1-1-2 距离和相似系数 1-1-3 类间距离的算法
1-2系统聚类分析(Hierarchical clustering) 1-2-1 基本思想
1-2-2 分类
1-2-3 SPSS 实现
1-3 k-均值聚类 ( K-Means Cluster)
17
(5)离差平方和法(ward method)
– D2=WM-WK-WL
即 DK2L
nL nk nM
XK XL XK XL
Cluster K
Cluster M
Cluster L
对异常值很敏感;对较大的类倾向产生较大的距离, 从而不易合并,较符合实wenku.baidu.com需要。
18
类Gp与类Gq之间的距离Dpq
1-3-1 基本思想 1-3-2 SPSS 实现
1-4 PCA 与聚类分析连用实例解析
2 判别分析
2-1 距离判别法
2-2 Fisher判别法 2-3 Bayes 判别法
2-4 逐步判别分析
2-5 应用SPSS 实现判别分析
3 综合性实例解析
2
1 聚类分析 1-1 概述
1-1-1聚类分析的原理
定义:根据事物本身特性来研究个体分类的 统计方法,是按照物以类聚的原则来研究的 事物分类。
– 可能被极大值扭曲,删除这些值之后再聚类
15
(3)重心法(centroid hierarchical method)
– 类的重心之间的距离 – 对异常值不敏感,结果更稳定
16
(4) 类平均距离法(average linkage method) 类间所有样本点的平均距离
– 利用了所有样本的信息,是较好的系统聚类法
每一种样品都具有多种特性,或称之为具有多种变量。聚类分析是基于
多变量数据,对n个样品进行分类的一种方法,即将那些相似的样品归为一类, 不相似的样品分别归到各自不容的类别中。
目的:寻找数据中潜在的自然分组结构 和感兴趣的关系。
3
自然分组结构 Natural grouping : 例如:有16张牌,如何将他们分为一组一组的牌?
(d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离)
最短距离法: Dpq min d (xi , x j )
最长距离法: Dpq max d (xi , x j )
重心法: Dpq min d (xp , xq )
类平均法:
Dpq
1 n1n2
d (xi , xj )
xiGp x j Gq
A K Q J
4
分成四组: 每组里花色相同,组与组之间花色相异
A K Q J
花色相同的牌为一副
Individual suits
5
分成四组: 符号相同的牌为一组
A K Q J
符号相同的的牌
Like face cards
6
分成两组: 颜色相同的牌为一组
A K Q J
颜色相同的配对 Black and red suits 7
i
(xi x )2 ( yi y)2
i
i
11
当变量的测量值相差悬殊时,要先进行标准化. 如R为极差, s 为标准偏差(标准差), 则标准化的数据为每个观测值减去 均值后再除以R或s:
当观测值大于0时, 有人采用Lance和 Williams的距离
1 | xi yi |
p i xi yi
离差平方和: D1 xiGp (xi xp ) '(xi xp ), D2 xjGq (x j xq ) '(x j xq ),
(Ward)
D12
( xk
x ) '(xi
x)
Dpq
D12
D1
19
D2
xk Gp Gq
聚类的方法
系统聚类:事先不用确定分多少类 k-均值聚类:事先要确定分多少类 (快速样本聚类)
夹角余弦cosine
Cxy (1) cos xy
xi yi i
xi2 yi2
i
i
cosθ =1,说明x和y完全相似;接近1,x和y比较相似。
cosθ=0,说明x和y完全不一样;接近0,x和y差别很大。
相关系数
(xi x )( yi y)
Pearson correlation Cxy (2) rxy
第7章 聚类分析与判别分析
Cluster analysis & Discriminant Analysis
中心问题:分类 解决方法:聚类分析—— 无管理的模式识别
判别分析—— 有管理的模式识别 授课思路:基本思想;
用 SPSS软件解决问题。
聚类分析是将一群具有相关性的资料(样本、变量) 加以有意义的分类。 判别分析是在已知的分类之下,选定一判别标准, 将新样本归类。
各种点间距离和类间距离的计算可通过统计软件的选项实现。
13
1-1-3 类间距离的算法
(1) 最小距离法(single linkage method) (nearest neighbor)
– 极小异常值在实际中不多出现,避免极大值的影响
14
(2) 最大距离法(complete linkage method) ( fartherst neighbor)
12
两个距离概念
✓ 点间距离:
每个样本之间的距离。
✓ 类间距离:
由一个点组成的类是最基本的类;如果每一类都由一个点 组成,那么点间的距离就是类间距离。但是如果某一类包 含不止一个点,那么就要确定类间距离。
类间距离是基于点间距离定义的: 两类之间最近点之间的距离可以作为这两类之间的距离; 两类中最远点之间的距离作为这两类之间的距离; 各类的重心之间的距离来作为类间距离; ……
1-1-2 距离和相似系数
——相似性的度量
样本之间距离有很多定义方式,最简单的是欧氏距离,还有其他的距离。 和距离相反但起同样作用的概念,比如相似性等,两点相似度越大,就 相当于距离越短。
9
(1)点间距离的计算方法
向量x =(x1,…, xp)与y =(y1,…, yp)之间的距离:
欧氏距离(Euclidean)
相关文档
最新文档