第四章 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析举例: 例如,对一批环流形势图根据它们的相似程度进行分类(这些环流形 势图所造成的预报量的结果相同或未知,因此无法通过预报量对 其进行分类,只能根据这些图像的相似程度来划分它们的类别, 这就是聚类分析的内容)。
第四章1
相似性的度量
x x ... x 2n X = 21 22 M M M M x x ... x mn m1 m 2
1 (2 )
m /2
|V |
1 2
D2 exp( ) 2
于是,A、B两点处的概率密度值分别为:f(1,1)=0.2157; 密度值最大的均值μ处为:f (0,0) = 0.3651
所以,A点应当距离均值μ更近。
f(1,-1)=0.00001658;
图解马氏距离与欧氏距离的区别
4
x1 某研究对象含有两个因子x = , x2 n个样品绘成散点图(黄色圆点)
聚类分析与判别分析的区别
判别分析:事先已知研究对象可以分成哪几种类别。需要拥有一批 事先已经知道类别的历史样本,参考这些样本建立判别函数,对
某一新的样品,判断其分类。
聚类分析:事先不知道研究对象可以分成哪些类别。聚类分析要做 的就是根据数学方法定量地确定这些样品之间的亲疏关系,按照
相似程度来对他们进行分类。
x1
如果对该例计算欧氏距离的平方, 等值线如右图所示:
x2
1 0 -1 -2
可见,欧氏距离与各因子变量之间的相关 性(或协方差)无关。
5 3 10
1
-3 -4 -4
-3
-2
-1
0
1
2
3
4
x1
相似性的度量
夹角余弦(相似系数) xi与xj两个样品是m维空间中的两个列向量,则xi与xj之间的相似程度可用两个 m 向量之间的夹角余弦来表示: x1i xki xkj x xi x j xiT x j k 1 2i cos ij x i m m | xi || x j | | xi || x j | M 2 2 xki xkj k 1 k 1 cosθij的取值范围为[-1, 1]。 xmi
11 12 1n
设某研究对象有m个指标(因子), 若观测了n次(找到了n个样品), 这m×n个记录所构成的资料阵为: x x ... x
与判别分析类似, X中的任意一列表示一个样品,每个样品包括 m个成员。
从向量空间的观点来描述,每个样品就是m维空间的一个点。
聚类分析就是要对这n个样品进行分类,首先要衡量任意两个样 品之间的接近程度,有两类指标: (1) 距离系数 (2) 相似系数
x2
3 2 1
0 0 1 0.9 对于服从二元正态分布N ( , ), -1 0 0.9 1 -2 0 那么,空间中各点与均值 的马氏距离的等值线为右图所示: -3 0 -4 -4
4 3 2
1 3 5 10
-3 -2 -1 0 1 2 3 4
4
x11 x X = 21 M xm1
x12 ... x1n x22 ... x2 n M M M xm 2 ... xmn
dij≤dik+dkj, 对于一切i, j, k
(1)绝对距离
x2
3 2
两样品各因子之差的绝对值之和,即X矩阵中两列 向量作差、取绝对值、然后求和。
1 0 -1
dij | xki xkj | ,
k 1
m
(i, j 1, 2,..., n)
1 3 5
-2 -3 -4 -4
特别地,当m=2时,平面上各点与原点([0, 0]T) 的绝对距离的等值线如右图所示:
-3
-2
-1
0
1ห้องสมุดไป่ตู้
2
3
4
x1
(2)欧氏距离
X矩阵中两列向量xi和xj的差向量各元素的平方和的平方根。
由二元正态分布的密度公式知本例的概率密度函数为:
f ( x1 , x2 ) 1 1 2 exp[ ( x12 1.8 x1 x2 x2 )] 0.38 2 0.19
马氏距离与多元正态分布的概率密度函数存在如下关系: f ( x) (2 ) 1
m /2 1 2
|V |
1 exp[ ( x μ)TV 1 ( x μ)]= 2
马氏距离与欧式距离的不同之处是它考虑到了各因子之间的联系,又称为协 2 T 1 方差距离。
dij ( xi x j ) V ( xi x j )
其中,V 为各因子的协方差阵,可用样本计算协方差阵来估计,即: 1 T V= Xd Xd (X d 为X的距平资料阵)。 n 1
由马氏距离的表达式可知,若各因子变量已经过标准化处理(方差为1)且各因 子相互独立(不同因子的协方差为0),于是协方差阵V为单位阵,这时的马氏距 离就是欧氏距离的平方。 马氏距离有个重要性质是:已经消除了变量单位的影响。即:利用距平数据和 标准化数据算得的马氏距离是相同的。
马氏距离: 5.26 V -1 = -4.74 -4.74 ,代入公式求得A与B距离均值的马氏距离分别为: 5.26 1 2 dij (B) [1 1] V -1 20 1
1 2 dij (A) [1 1] V -1 1.053 ; 1
dij
2 T ( x x ) [( x x ) ( xi x j )] , ki kj i j k 1
m
1 2
(i, j 1, 2,..., n)
注意:上述两种距离的大小与各变量的单位有关,为消除个变量单位的影响, 需要先将数据进行标准化处理,然后再计算距离。
(3)马氏(Mahalanobis)距离
例:已知二维正态总体G的分布为:G ~ N ( μ, V), 并且: 1 1 0 请分别计算A= 和B= 到均值μ= 的距离。 1 -1 0
0 1 0.9 G ~N ( , ) 0 0.9 1
2 2 若采用欧氏距离: dij ( A) 12 12 2; dij (B) 12 (1)2 2
距离系数
任一样品i可以看成是m维空间中的一个点,用向量xj=[x1j , x2j, …, xmj]T表示,任 两个样品xi与xj之间的距离记为dij, 距离具有如下四条性质: dij ≥ 0, dij=0, dij=dji, 对于一切i,j 当两个样品的各项指标都相等,即xi=xj时 对于一切i与j
相关文档
最新文档