聚类分析PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
M i n d i j : x i G p U G q , x j G l
M i n d i j : x i G p U G q , x j G l
M inD ql,D pl
.
16
G7
G4
G5
G7
0
G4
3.5
0
G5
5.5
2
0
.
17
G8
G7
0 G8
3.5
0
G7
.
18
各步聚类的结果: (1,2) (3) (4) (5) (1,2,3) (4) (5) (1,2,3) (4,5) (1,2,3,4,5)
D(0)
G1
G2
G 3
G4
G 5
G
0
1
G2
1
0
G 3 2.5 1.5 0
G4
6
5 3.5 0
G
8
7 5.5 2
0
5
.
13
然后 G 1 和 G 2 被聚为新类 G 6 ,得D(1) :
G6
G 3
G4
G 5
G6
0
G3
1.5
0
G4
5
3.5
0
G5
7
5.5
2
0
.
14
定义 D p q M d 距 i: jx i i n G p , 离 x j G q : 递D 推 r lM D p 公 , D l iq n l 式 l p , q:
p
2
d xit xjt
t1
chebychev distance 切比雪夫距离
minkowski distance 明考斯基距离 (明氏距离)
dMaxxitxjt t
1
d
tp1xi
txjt
q
q
当q=1,2时,为绝对值、欧式距离;
若趋近无穷时,则为切比雪夫距离
.
9
明氏距离在实际的运用很多,但有一些
.
2
2.起源
起源于分类学,考古分类学中,人们主 要依靠专业知识和经验来实现分类,但随 着科学的发展,分工的细化,人类认识的 不断加深,就需要定性和定量分析结合, 于是数学工具逐渐被引进到分类学当中, 形成了数值分类学。再后来随着多元分析 析的引进,聚类分析又逐渐从数值分析中 分离出来从而形成一个相对独立的分支。
缺点。例如观测值的单位问题;指标间
的相关问题,因此改进得到以下两种距
离:
Lanberra 兰氏距离
dij(L)1ptp1
| xit (xit
xjt | xjt)
Mahalanobis 马氏距离
d i( jM ) (X (i) X (j)) S 1 (X (i) X (j))
以上都是样本间距离的定义。
dij=dji,对于一i切,j
dij dik dkj,对于一切 i,j,k
.
8
常见的距离有:
block distance 绝对值距离:
d
p
x t1
i
txjt
euclidean distance 欧式距离
p
x x d
2
it
jt
t1
squared euclidean distance 平方欧式距离
聚类分析
§3.1聚类思想 §3.2相关度分析 §3.3聚类分析常用方法 §3.4聚类分析的步骤
.
1
§3.1聚类分析的思想
聚类分析是应用多元统计分析原理研究分类问 题的一种统计方法,尽管它理论上还不是很完 善,但发展很快,已广泛运用到作物品种分类, 土壤分类,经济分析,地质勘测,天气预报等 各个领域。 一、定义 聚类分析定义:又称群分析,是研究分类问题 的一种方法。类指的是相似元素的集合。
1
1
R型聚类
rij
n
(xi xi )(x j xj )
1
n
n
(xi xi )2 (x j xj )2
1
1
.
12
§3.3聚类分析常用方法
1、 最短距离法
设抽取五个样品,每个样品只有一个变量,它们 是1,2,3.5,7,9。用最短距离法对5个样品进行分类。 首先采用绝对距离计算距离矩阵:
得出科学的分析。诸如此类的例子很多,需
要分类的问题很多,因此聚类分析这个有用
的数学工具越来越多的受到重视,在许多领
域都得到了广泛的应用。
.
4
3.聚类分析的基本程序
1.根据样本的多个观测指标,具体找出一些能够 度量样品或指标之间相似程度的统计量
2.利用统计量将样品或指标进行分类。
根据分类对象不同可分为样品聚类和变量聚类。
.
10
相关系数
通常所说的相关系数是指变量之 间的相关系数,用来说明任意两 样品之间由各个变量表现出的相 似关系,其计算方法可参照统计 学中的相关系数给出 。
其值介于-1与+1之间
.
Βιβλιοθήκη Baidu
11
计算公式:
Q型聚类 rij
p
(xi x )(xj x )
1
p
p
(xi xi )2 (xj xj )2
样品聚类在统计学中又称为Q型聚类,用SPSS 的术语来说就是对事件或案例(CASE)进行聚 类。是根据被观测的对象各种特征,即反映被 观测对象特征的各变量值进行分类。
变量聚类在统计学中又称为R型聚类。反映事物 特征的变量有很多,我们往往根据所研究的问 题选择部分变量对事物的某一方面进行研究
.
5
4.聚类分析内容:
.
7
⒈距离
每个样本有p个指标,因此每个样本可以看
成p维空间中的一个点,n个样本就组成p维
空间中的n个点,这时很自然想到用距离来
度量n个样本间的接近程度。
用d ij
表示第i个样本与第j个样本之间的距离。
一切距离应满足以下条件:
dij 0,对于一切 i,j
dij 0,等价于样i本与样本j的指标相同
.
15
最短距离法的递推公式
定义 D p q M d 距 i: jx i i n G p , 离 x j G q :
递D 推 r lM D p 公 , D l iq n l 式 l p , q:
假设第p类和第q类合并成第类,第r类与其它
各旧类的距离按最短距离法为:
D r l M i n d i j : x i G r , x j G l
系统聚类法, 序样品聚类法, 动态聚类法, 模糊聚类法, 凸轮聚类法, 聚类预报法等。
本章主要介绍常用的系统聚类法
.
6
§ 3.2相关度
一组复杂数据产生一个相当简单的类结构,必 然要求进行“相关性”或“相似性”度量。 目前研究样品之间这种关系的用得最多的方法 主要有两种: 一种方法是定义空间距离。 一种方法是用相似系数;
.
3
如:对我国30个省市自治区独立核算工业企
业经济效益进行分析,一般不是逐个省市自
治区分析,而是选取能反映企业经济效益的
代表性指标,如百元固定资产实现利税,资
金利税率,产值利税率,百元销售收入实现
利润,全员劳动生产率等等,根据这些指标
对30个省市自治区技能型分类,然后根据分
类结果对企业经济效益进行综合评价就易于