多元统计分析第三章聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
j 个指标
1 ,2 , p )为第
i
一、相似系数:
这是大家最熟悉的统计量,它是将数据标准化后的夹
角的余弦。
常用 rij 表示。
p
(xik X i )(x jk X j )
rij
k1 p
p
1
( (xik X i )2 (x jk X j )2 ) 2
k1
k1
Xi (i 1,2, ,n) 为第 i 个样品的p个观测数据的均值
目前研究样品之间这种关系的用得最多的方法 主要有两种:
一种方法是用相似系数;
一种方法是定义空间距离。
设有n个样品,每个样品测得p项指标, 原始资料矩阵为:
x11 x12
x1p
X (X1,X2, ,Xn)'
x21 x22
x2p
xn1 xn2
xnp
其中 x ij(i
个样品的第
1 ,2 , ,n ;j
如:对我国30个省市自治区独立核算工业企 业经济效益进行分析,一般不是逐个省市自 治区分析,而是选取能反映企业经济效益的 代表性指标,如百元固定资产实现利税,资 金利税率,产值利税率,百元销售收入实现 利润,全员劳动生产率等等,根据这些指标 对30个省市自治区技能型分类,然后根据分 类结果对企业经济效益进行综合评价就易于 得出科学的分析。诸如此类的例子很多,需 要分类的问题很多,因此聚类分析这个有用 的数学工具越来越多的受到重视,在许多领 域都得到了广泛的应用。
变量聚类在统计学中又称为R型聚类。反映事 物特征的变量有很多,我们往往根据所研究的 问题选择部分变量对事物的某一方面进行研究
4.聚类分析内容:
系统聚类法, 序样品聚类法, 动态聚类法, 模糊聚类法, 凸轮聚类法, 聚类预报法等。
本章主要介绍常用的系统聚类法
§3.2相似性度量
一组复杂数据产生一个相当简单的类结构,必 然要求进行“相关性”或“相似性”度量。
1 至均值 1
解: 由假设可算得
1 1 1 0.9
0.9 0.9 1
从而有
dA2u (M )
(1,1)
11 1
0.2 0.19
dB2u (M )
(1, 1)
11 1
3.8 0.19
如果用欧氏距离,则有两者相等,而按马氏距离 两者相差19倍之多。由前面讨论,我们知道本例 的分布密度是
f(y 1 ,y 2 ) 21 0 .1 9 e x p0 .1 3 8 y 1 2 1 .8 y 1 y 2 y 2 2
所有样品之间的样品相关系数矩阵记为:
Cij (2) ,定义为:
r11 r12
r1 p
Cij (2) (rij )
r21 r22
r2 p
rn1 rn2
rnp
Q型聚类 R型聚类
计算公式p :
xi x j
cosij
1 p
p
xi2
x
2 j
1 1 n
x i x j
wenku.baidu.com
cosij
1 n
n
x2i x2 j
1 1
相关系数
通常所说的相关系数是指变量之 间的相关系数,用来说明任意两 样品之间由各个变量表现出的相 似关系,其计算方法可参照统计 学中的相关系数给出 。
其值介于-1与+1之间
计算公式:
Q型聚类 rij
p
(xi xi )(xj xj )
1
p
p
(xi xi )2 (xj xj )2
第三章 聚类分析
§3.1聚类思想 §3.2 相似性度量 §3.3类和类的特征 §3.4系统聚类法
内容和要求:
熟练掌握聚类分析的基本分析原理 熟练掌握分析手段和技能 系统聚类法为本章重要内容
§3.1聚类分析的思想
聚类分析是应用多元统计分析原理研究分类问 题的一种统计方法,尽管它理论上还不是很完 善,但发展很快,已广泛运用到作物品种分类, 土壤分类,经济分析,地质勘测,天气预报等 各个领域。 一、定义 聚类分析定义:又称群分析,是研究分类问题 的一种方法。类指的是相似元素的集合。
2、马氏(Mahalanobis)距离
d
2 ij
(
M
)
( x(i)
x( j) )'
1 ( x(i)
x( j))
其 中 x(i)表 示 矩 阵 行 向 量 的 转 置 ,
是数据矩阵的协方差阵。
例 :已知一个二维正态总体G的
分布为:
0 1 0.9 N2 0 0.9 1
求点 A 1 和 B 1
u 0 的距离 0
3.聚类分析的基本程序
1.根据样本的多个观测指标,具体找出一些能 够度量样品或指标之间相似程度的统计量
2.利用统计量将样品或指标进行分类。
根据分类对象不同可分为样品聚类和变量聚类。
样品聚类在统计学中又称为Q型聚类,用SPSS 的术语来说就是对事件或案例(CASE)进行聚 类。是根据被观测的对象各种特征,即反映被 观测对象特征的各变量值进行分类。
1
1
R型聚类
n
(xi xi )(x j xj )
rij
1
n
n
(xi xi )2 (x j xj )2
1
1
二、距离
1、明考斯基(Minkowski)距离
p
dij(q) (
x i
1
当q=1时
q1
x )q j
p
dij(q)
称为绝对距离
xx
i
j
1
当q=2时
p
dij(q) (
x i
称为欧氏距离 1
A,B两点的密度分别为
f( 1 , 1 )0 . 2 1 5 7 ,f( 1 ,1 )0 . 0 0 0 0 1 6 5 8
设空间中的两点
P (x 1 ,x 2 , ,x p )',Q (y 1 ,y 2 , ,y p )'
s11,s22, ,spp
表示p个变量n次观测的样本方差,则定义 P到Q 的统计距离为:
d (P ,Q ) (x 1y 1 )2 s 1 1
(x 2y 2 )2 s2 2
(x py p )2 sp p
当q=∞时
21
x )2 j
dij(
)
maxx
1 pi
x j
称为切比雪夫距离
当变量的观测数据值相差较悬殊时,需要先
对数据进行标准化处理,再用标准化处理后 的数据计算距离。
明考斯基(Minkowski)距离的不足之处: 与各指标的量纲有关;没有考虑指标之间 的相似性。较理想的处理是对坐标加权。 即产生“统计距离”
2.起源
起源于分类学,考古分类学中,人们主 要依靠专业知识和经验来实现分类,但 随着科学的发展,分工的细化,人类认 识的不断加深,就需要定性和定量分析 结合,于是数学工具逐渐被引进到分类 学当中,形成了数值分类学。再后来随 着多元分析析的引进,聚类分析又逐渐 从数值分析中分离出来从而形成一个相 对独立的分支。
1 ,2 , p )为第
i
一、相似系数:
这是大家最熟悉的统计量,它是将数据标准化后的夹
角的余弦。
常用 rij 表示。
p
(xik X i )(x jk X j )
rij
k1 p
p
1
( (xik X i )2 (x jk X j )2 ) 2
k1
k1
Xi (i 1,2, ,n) 为第 i 个样品的p个观测数据的均值
目前研究样品之间这种关系的用得最多的方法 主要有两种:
一种方法是用相似系数;
一种方法是定义空间距离。
设有n个样品,每个样品测得p项指标, 原始资料矩阵为:
x11 x12
x1p
X (X1,X2, ,Xn)'
x21 x22
x2p
xn1 xn2
xnp
其中 x ij(i
个样品的第
1 ,2 , ,n ;j
如:对我国30个省市自治区独立核算工业企 业经济效益进行分析,一般不是逐个省市自 治区分析,而是选取能反映企业经济效益的 代表性指标,如百元固定资产实现利税,资 金利税率,产值利税率,百元销售收入实现 利润,全员劳动生产率等等,根据这些指标 对30个省市自治区技能型分类,然后根据分 类结果对企业经济效益进行综合评价就易于 得出科学的分析。诸如此类的例子很多,需 要分类的问题很多,因此聚类分析这个有用 的数学工具越来越多的受到重视,在许多领 域都得到了广泛的应用。
变量聚类在统计学中又称为R型聚类。反映事 物特征的变量有很多,我们往往根据所研究的 问题选择部分变量对事物的某一方面进行研究
4.聚类分析内容:
系统聚类法, 序样品聚类法, 动态聚类法, 模糊聚类法, 凸轮聚类法, 聚类预报法等。
本章主要介绍常用的系统聚类法
§3.2相似性度量
一组复杂数据产生一个相当简单的类结构,必 然要求进行“相关性”或“相似性”度量。
1 至均值 1
解: 由假设可算得
1 1 1 0.9
0.9 0.9 1
从而有
dA2u (M )
(1,1)
11 1
0.2 0.19
dB2u (M )
(1, 1)
11 1
3.8 0.19
如果用欧氏距离,则有两者相等,而按马氏距离 两者相差19倍之多。由前面讨论,我们知道本例 的分布密度是
f(y 1 ,y 2 ) 21 0 .1 9 e x p0 .1 3 8 y 1 2 1 .8 y 1 y 2 y 2 2
所有样品之间的样品相关系数矩阵记为:
Cij (2) ,定义为:
r11 r12
r1 p
Cij (2) (rij )
r21 r22
r2 p
rn1 rn2
rnp
Q型聚类 R型聚类
计算公式p :
xi x j
cosij
1 p
p
xi2
x
2 j
1 1 n
x i x j
wenku.baidu.com
cosij
1 n
n
x2i x2 j
1 1
相关系数
通常所说的相关系数是指变量之 间的相关系数,用来说明任意两 样品之间由各个变量表现出的相 似关系,其计算方法可参照统计 学中的相关系数给出 。
其值介于-1与+1之间
计算公式:
Q型聚类 rij
p
(xi xi )(xj xj )
1
p
p
(xi xi )2 (xj xj )2
第三章 聚类分析
§3.1聚类思想 §3.2 相似性度量 §3.3类和类的特征 §3.4系统聚类法
内容和要求:
熟练掌握聚类分析的基本分析原理 熟练掌握分析手段和技能 系统聚类法为本章重要内容
§3.1聚类分析的思想
聚类分析是应用多元统计分析原理研究分类问 题的一种统计方法,尽管它理论上还不是很完 善,但发展很快,已广泛运用到作物品种分类, 土壤分类,经济分析,地质勘测,天气预报等 各个领域。 一、定义 聚类分析定义:又称群分析,是研究分类问题 的一种方法。类指的是相似元素的集合。
2、马氏(Mahalanobis)距离
d
2 ij
(
M
)
( x(i)
x( j) )'
1 ( x(i)
x( j))
其 中 x(i)表 示 矩 阵 行 向 量 的 转 置 ,
是数据矩阵的协方差阵。
例 :已知一个二维正态总体G的
分布为:
0 1 0.9 N2 0 0.9 1
求点 A 1 和 B 1
u 0 的距离 0
3.聚类分析的基本程序
1.根据样本的多个观测指标,具体找出一些能 够度量样品或指标之间相似程度的统计量
2.利用统计量将样品或指标进行分类。
根据分类对象不同可分为样品聚类和变量聚类。
样品聚类在统计学中又称为Q型聚类,用SPSS 的术语来说就是对事件或案例(CASE)进行聚 类。是根据被观测的对象各种特征,即反映被 观测对象特征的各变量值进行分类。
1
1
R型聚类
n
(xi xi )(x j xj )
rij
1
n
n
(xi xi )2 (x j xj )2
1
1
二、距离
1、明考斯基(Minkowski)距离
p
dij(q) (
x i
1
当q=1时
q1
x )q j
p
dij(q)
称为绝对距离
xx
i
j
1
当q=2时
p
dij(q) (
x i
称为欧氏距离 1
A,B两点的密度分别为
f( 1 , 1 )0 . 2 1 5 7 ,f( 1 ,1 )0 . 0 0 0 0 1 6 5 8
设空间中的两点
P (x 1 ,x 2 , ,x p )',Q (y 1 ,y 2 , ,y p )'
s11,s22, ,spp
表示p个变量n次观测的样本方差,则定义 P到Q 的统计距离为:
d (P ,Q ) (x 1y 1 )2 s 1 1
(x 2y 2 )2 s2 2
(x py p )2 sp p
当q=∞时
21
x )2 j
dij(
)
maxx
1 pi
x j
称为切比雪夫距离
当变量的观测数据值相差较悬殊时,需要先
对数据进行标准化处理,再用标准化处理后 的数据计算距离。
明考斯基(Minkowski)距离的不足之处: 与各指标的量纲有关;没有考虑指标之间 的相似性。较理想的处理是对坐标加权。 即产生“统计距离”
2.起源
起源于分类学,考古分类学中,人们主 要依靠专业知识和经验来实现分类,但 随着科学的发展,分工的细化,人类认 识的不断加深,就需要定性和定量分析 结合,于是数学工具逐渐被引进到分类 学当中,形成了数值分类学。再后来随 着多元分析析的引进,聚类分析又逐渐 从数值分析中分离出来从而形成一个相 对独立的分支。