厦门大学《应用多元统计分析
合集下载
厦门大学《应用多元统计分析》第05章_聚类分析
归到不同的类内。
在实际聚类过程中,为了计算方便,我们把变量间相似性的 度量公式作一个变换为
或者
dij = 1 ∣cij∣
(5.9)
dij2 = 1 cij2
(5.10)
用表示变量间的距离远近,小则与先聚成一类,这比较符合
人们的一般思维习惯。
第三节 系统聚类分析法
一 系统聚类的基本思想 二 类间距离与系统聚类法 三 类间距离的统一性
聚类分析就是分析如何对样品(或变量)进行量化分类的问 题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样 品进行分类处理,R型聚类是对变量进行分类处理。
第二节 相似性的量度
一 样品相似性的度量 二 变量相似性的度量
一、样品相似性的度量
在聚类之前,要首先分析样品间的相似性。Q型聚类分析, 常用距离来测度样品之间的相似程度。每个样品有p个指标 (变量)从不同方面描述其性质,形成一个p维的向量。如 果把n个样品看成p维空间中的n个点,则两个样品间相似程 度就可用p维空间中的两点距离公式来度量。两点距离公式 可以从不同角度进行定义,令dij 表示样品Xi与Xj的距离,存 在以下的距离公式:
二、类间距离与系统聚类法
在进行系统聚类之前,我们首先要定义类与类之间的距离, 由类间距离定义的不同产生了不同的系统聚类法。常用的类 间距离定义有8种之多,与之相应的系统聚类法也有8种,分 别为最短距离法、最长距离法、中间距离法、重心法、类平 均法、可变类平均法、可变法和离差平方和法。它们的归类 步骤基本上是一致的,主要差异是类间距离的计算方法不同。 以下用dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj 之间的距离。
dij }
min{Dkp , Dkq}
(5.12)
在实际聚类过程中,为了计算方便,我们把变量间相似性的 度量公式作一个变换为
或者
dij = 1 ∣cij∣
(5.9)
dij2 = 1 cij2
(5.10)
用表示变量间的距离远近,小则与先聚成一类,这比较符合
人们的一般思维习惯。
第三节 系统聚类分析法
一 系统聚类的基本思想 二 类间距离与系统聚类法 三 类间距离的统一性
聚类分析就是分析如何对样品(或变量)进行量化分类的问 题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样 品进行分类处理,R型聚类是对变量进行分类处理。
第二节 相似性的量度
一 样品相似性的度量 二 变量相似性的度量
一、样品相似性的度量
在聚类之前,要首先分析样品间的相似性。Q型聚类分析, 常用距离来测度样品之间的相似程度。每个样品有p个指标 (变量)从不同方面描述其性质,形成一个p维的向量。如 果把n个样品看成p维空间中的n个点,则两个样品间相似程 度就可用p维空间中的两点距离公式来度量。两点距离公式 可以从不同角度进行定义,令dij 表示样品Xi与Xj的距离,存 在以下的距离公式:
二、类间距离与系统聚类法
在进行系统聚类之前,我们首先要定义类与类之间的距离, 由类间距离定义的不同产生了不同的系统聚类法。常用的类 间距离定义有8种之多,与之相应的系统聚类法也有8种,分 别为最短距离法、最长距离法、中间距离法、重心法、类平 均法、可变类平均法、可变法和离差平方和法。它们的归类 步骤基本上是一致的,主要差异是类间距离的计算方法不同。 以下用dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj 之间的距离。
dij }
min{Dkp , Dkq}
(5.12)
厦门大学应用多元统计分析第章多元正态分布的参数估计
x
F(x) f (t)dt ,则称 f (x) 为 X 的分布密度函数,简称为
密度函数。一个函数 f (x) 能作为某个随机变量 X 的分布密度
函数的重要条件是:
(1) f (x) 0 ,对一切实数 x ;
(2) f (x)dx 1。
定义 2.2 设 X ( X1, X 2 ,
的多元分布函数定义为
别记为 μ 和 i ,即 μ (1, 2 , , p ) ,容易推得均值(向
量)具有以下性质:
(1) E(AX ) AE(X ) (2) E(AXB) AE(X )B (3) E(AX BY ) AE(X ) BE(Y ) 其中, X 、 Y 为随机向量, A 、 B 为大小适合运算的常数
表 2.1 数据
变量
X1
X2
Xp
序号
1
X 11
X 12
X1p
2
X 21
X 22
X 2p
n
X n1
X n2
X np
在这里横看表 2.1,记为
X ( ) ( X 1, X 2, ,X p ), 1 , 2 , n, 表示第 个样品的观测值。竖看表 2.1,第 j 列的元素
X j ( X1 j , X 2 j , , X nj ) , j 1 , 2 , p,
其中
ij
Cov( Xi , X j ) ij D( Xi ) D( X j ) ii jj
阵为
Cov( X ,Y )E( X E( X ))(Y E(Y ))
Cov( X1,Y1)
Cov(
X
2
,
Y1
)
Cov( X1,Y2 ) Cov( X 2,Y2 )
Cov( X p ,Y1) Cov( X p ,Y2 )
F(x) f (t)dt ,则称 f (x) 为 X 的分布密度函数,简称为
密度函数。一个函数 f (x) 能作为某个随机变量 X 的分布密度
函数的重要条件是:
(1) f (x) 0 ,对一切实数 x ;
(2) f (x)dx 1。
定义 2.2 设 X ( X1, X 2 ,
的多元分布函数定义为
别记为 μ 和 i ,即 μ (1, 2 , , p ) ,容易推得均值(向
量)具有以下性质:
(1) E(AX ) AE(X ) (2) E(AXB) AE(X )B (3) E(AX BY ) AE(X ) BE(Y ) 其中, X 、 Y 为随机向量, A 、 B 为大小适合运算的常数
表 2.1 数据
变量
X1
X2
Xp
序号
1
X 11
X 12
X1p
2
X 21
X 22
X 2p
n
X n1
X n2
X np
在这里横看表 2.1,记为
X ( ) ( X 1, X 2, ,X p ), 1 , 2 , n, 表示第 个样品的观测值。竖看表 2.1,第 j 列的元素
X j ( X1 j , X 2 j , , X nj ) , j 1 , 2 , p,
其中
ij
Cov( Xi , X j ) ij D( Xi ) D( X j ) ii jj
阵为
Cov( X ,Y )E( X E( X ))(Y E(Y ))
Cov( X1,Y1)
Cov(
X
2
,
Y1
)
Cov( X1,Y2 ) Cov( X 2,Y2 )
Cov( X p ,Y1) Cov( X p ,Y2 )
厦门大学《应用多元统计分析》第08章_相应分析
超平面 y1 y2 yc 1的一点集。这里有
P{ i | j} P{ i, j} fij , i 1, 2, , r
P{ j}
f. j
最后,由(8.1)式和(8.2)式我们应该明确
Dr Ir FIc , IrDr Ir = IrFIc = 1 , (8.5)
Dc Ic F Ir , IcDc Ic IcF Ir 1 , (8.6)
f
i c
, i 1, 2,
,r 是 超 平 面
x1 x2 xr 1的一点集。 同理,因素 B 的第 j 个水平的分布轮廓为
frj
f1 j f. j
,
f2 j f. j
,
,
fcj f. j
Rr
( 8.4)
• 并称 Dc1F 为因素 B 的轮廓矩阵,同样 fr j , j 1, 2, , c 是
因素 B
B1
B2
A1
f11
f12
因 素
A2
f 21
f 22
A
Bc
f1c
f1.
f 2c
f 2.
Ar
f r1
fr2
f rc
f .1
f .2
f .c
表8.3 一般的二维频率表
f r.
1 f.. fij
• 表 8.3 中 fij kij / k 是样本中属于因素 A 的第 i 个水平和
c
r
因素 B 的第 j 个水平的百分比;fi. fij ,f. j fij ,
f. j
f .
这里
zi
fi f. f.i f. f.i
ki / x.. (k. / x..)(k.i / x..) (k. / x..)(k.i / x..)
厦门大学应用多元统计分析第章聚类分析
4.距离选择的原则
一般说来,同一批数据采用不同的距离公式,会得到不同 的分类结果。产生不同结果的原因,主要是由于不同的距离 公式的侧重点和实际意义都有不同。因此我们在进行聚类分 析时,应注意距离公式的选择。通常选择距离公式应注意遵 循以下的基本原则:
(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏 距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作 用。
1.明考夫斯基距离
p
dij (q) (
X ik X jk )q 1/ q
k 1
(5.1)
明考夫斯基距离简称明氏距离,按的取值不同又可分成:
(1)绝对距离( q 1)
p
dij (1) X ik X jk k 1
(2)欧氏距离( q 2)
p
dij (2) (
X ik X jk )2 1/ 2
p
( Xik Xi )( X jk X j )
rij
k 1 p
p
( Xik Xi )2 ( X jk X j )2
k 1
k 1
(5.8)
显然也有,∣rij∣ 1。
无论是夹角余弦还是相关系数,它们的绝对值都小于1,作 为变量近似性的度量工具,我们把它们统记为cij。当∣cij∣ = 1时,说明变量Xi与Xj完全相似;当∣cij∣近似于1时,说 明变量Xi与Xj非常密切;当∣cij∣ = 0时,说明变量Xi与Xj完 全不一样;当∣cij∣近似于0时,说明变量Xi与Xj差别很大。 据此,我们把比较相似的变量聚为一类,把不太相似的变量
聚类分析就是分析如何对样品(或变量)进行量化分类的问 题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样 品进行分类处理,R型聚类是对变量进行分类处理。
厦门大学《应用多元统计分析》第06章__主成分分析
一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主 成分只含有二维空间点的约一半信息,若仅用这一个综合变量, 则将损失约50%的信息,这显然是不可取的。造成它的原因是, 原始变量X1和X2的相关程度几乎为零,也就是说,它们所包含 的信息几乎不重迭,因此无法用一个一维的综合变量来代替。
另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成 分包含有二维空间点的全部信息,仅用这一个综合变量代替原 始数据不会有任何的信息损失,此时的主成分分析效果是非常 理想的,其原因是,第二主成分不包含任何信息,舍弃它当然 没有信息损失。
矩阵表示形
式为:
Y1 Y2
cos sin
sin cos
X1 X2
TX
(6.2)
其中, T为旋转变换矩阵,它是正交矩阵,即有 T T1
或 TT I 。
易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它 们为原始变量X1和X2的综合变量,n个点y1在轴上的方差达 到最大,即在此方向上包含了有关n个样品的最大量信息。
i 1
性质 3 主成分 Yk 与原始变量 X i 的相关系数为
(6.20) (6.21)
(Yk , Xi )
k ii
tki
并称之为因子负荷量(或因子载荷量)。
(6.22)
证明:事实上
(Yk , Xi )
Cov(Yk , Xi ) Cov(TkX, eiX)
D(Yk )D(Xi )
k ii
其中的 ei (0, , 0,1, 0, , 0) ,它是除第 i 个元素为 1 外其他元
素均为 0 的单位向量。而
Cov(TkX, eiX) TkΣei ei(ΣTk ) ei(kTk ) keiTk ktki
另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成 分包含有二维空间点的全部信息,仅用这一个综合变量代替原 始数据不会有任何的信息损失,此时的主成分分析效果是非常 理想的,其原因是,第二主成分不包含任何信息,舍弃它当然 没有信息损失。
矩阵表示形
式为:
Y1 Y2
cos sin
sin cos
X1 X2
TX
(6.2)
其中, T为旋转变换矩阵,它是正交矩阵,即有 T T1
或 TT I 。
易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它 们为原始变量X1和X2的综合变量,n个点y1在轴上的方差达 到最大,即在此方向上包含了有关n个样品的最大量信息。
i 1
性质 3 主成分 Yk 与原始变量 X i 的相关系数为
(6.20) (6.21)
(Yk , Xi )
k ii
tki
并称之为因子负荷量(或因子载荷量)。
(6.22)
证明:事实上
(Yk , Xi )
Cov(Yk , Xi ) Cov(TkX, eiX)
D(Yk )D(Xi )
k ii
其中的 ei (0, , 0,1, 0, , 0) ,它是除第 i 个元素为 1 外其他元
素均为 0 的单位向量。而
Cov(TkX, eiX) TkΣei ei(ΣTk ) ei(kTk ) keiTk ktki
厦门大学应用多元统计分析第章聚类分析
(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方 法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就 可采用欧氏距离。
(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选 择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象 的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选 择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分 析,以确定最合适的距离测度方法。
在生物、经济、社会、人口等领域的研究中,存在着大量量 化分类研究。例如:在生物学中,为了研究生物的演变,生 物学家需要根据各种生物不同的特征对生物进行分类。在经 济研究中,为了研究不同地区城镇居民生活中的收入和消费 情况,往往需要划分不同的类型去研究。在地质学中,为了 研究矿物勘探,需要根据各种矿石的化学和物理性质和所含 化学成分把它们归于不同的矿石类。在人口学研究中,需要 构造人口生育分类模式、人口死亡分类状况,以此来研究人 口的生育和死亡规律。
聚类分析就是分析如何对样品(或变量)进行量化分类的问 题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样 品进行分类处理,R型聚类是对变量进行分类处理。
第二节 相似性的量度
一 样品相似性的度量 二 变量相似性的度量
一、样品相似性的度量
在聚类之前,要首先分析样品间的相似性。Q型聚类分析, 常用距离来测度样品之间的相似程度。每个样品有p个指标 (变量)从不同方面描述其性质,形成一个p维的向量。如 果把n个样品看成p维空间中的n个点,则两个样品间相似程 度就可用p维空间中的两点距离公式来度量。两点距离公式 可以从不同角度进行定义,令dij 表示样品Xi与Xj的距离,存 在以下的距离公式:
二、类间距离与系统聚类法
在进行系统聚类之前,我们首先要定义类与类之间的距离, 由类间距离定义的不同产生了不同的系统聚类法。常用的类 间距离定义有8种之多,与之相应的系统聚类法也有8种,分 别为最短距离法、最长距离法、中间距离法、重心法、类平 均法、可变类平均法、可变法和离差平方和法。它们的归类 步骤基本上是一致的,主要差异是类间距离的计算方法不同。 以下用dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj 之间的距离。
(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选 择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象 的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选 择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分 析,以确定最合适的距离测度方法。
在生物、经济、社会、人口等领域的研究中,存在着大量量 化分类研究。例如:在生物学中,为了研究生物的演变,生 物学家需要根据各种生物不同的特征对生物进行分类。在经 济研究中,为了研究不同地区城镇居民生活中的收入和消费 情况,往往需要划分不同的类型去研究。在地质学中,为了 研究矿物勘探,需要根据各种矿石的化学和物理性质和所含 化学成分把它们归于不同的矿石类。在人口学研究中,需要 构造人口生育分类模式、人口死亡分类状况,以此来研究人 口的生育和死亡规律。
聚类分析就是分析如何对样品(或变量)进行量化分类的问 题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样 品进行分类处理,R型聚类是对变量进行分类处理。
第二节 相似性的量度
一 样品相似性的度量 二 变量相似性的度量
一、样品相似性的度量
在聚类之前,要首先分析样品间的相似性。Q型聚类分析, 常用距离来测度样品之间的相似程度。每个样品有p个指标 (变量)从不同方面描述其性质,形成一个p维的向量。如 果把n个样品看成p维空间中的n个点,则两个样品间相似程 度就可用p维空间中的两点距离公式来度量。两点距离公式 可以从不同角度进行定义,令dij 表示样品Xi与Xj的距离,存 在以下的距离公式:
二、类间距离与系统聚类法
在进行系统聚类之前,我们首先要定义类与类之间的距离, 由类间距离定义的不同产生了不同的系统聚类法。常用的类 间距离定义有8种之多,与之相应的系统聚类法也有8种,分 别为最短距离法、最长距离法、中间距离法、重心法、类平 均法、可变类平均法、可变法和离差平方和法。它们的归类 步骤基本上是一致的,主要差异是类间距离的计算方法不同。 以下用dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj 之间的距离。
厦门大学应用多元统计分析第判别分析
今按照欧氏距离计算,有
AB 102 52 125 ; CD 12 102 101
如果我们将长度单位变为 mm,那么,有
AB 102 502 2600 ; CD 12 1002 10001
量纲的变化,将影响欧氏距离计算的结果。
为此,我们引入一种由印度著名统计学家马哈拉诺比斯 (Mahalanobis, 1936)提出旳“马氏距离”旳概念。
其
中
μ
1 2
(μ1
μ2)
是
两
个
总
体
均
值
的
平
均
值
,
α Σ1 (μ1 μ 2 ) ,记 W (X) α(X μ)
(4.5)
则判别规则(4.4)式可表示为
X X
G1 G2
, ,
如果 如果
W (X) 0 W (X) 0
(4.6)
这里称W (X) 为两总体距离判别的判别函数,由于它是 X 的线性
设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总体 G
中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距离定
义为
D2 (X, Y) (X Y)Σ1(X Y) (4.2)
定义点 X 到总体 G 的马氏距离为
D2 (X,G) (X μ)Σ1(X μ)
(4.3)
一 Bayes鉴别旳基本思想 二 Bayes鉴别旳基本措施
从上节看距离鉴别法虽然简朴,便于使用。但是该措施也有 它明显旳不足之处。
第一,鉴别措施与总体各自出现旳概率旳大小无关;
第二,鉴别措施与错判之后所造成旳损失无关。Bayes鉴别 法就是为了处理这些问题而提出旳一种鉴别措施。
一、Bayes鉴别旳基本思想
AB 102 52 125 ; CD 12 102 101
如果我们将长度单位变为 mm,那么,有
AB 102 502 2600 ; CD 12 1002 10001
量纲的变化,将影响欧氏距离计算的结果。
为此,我们引入一种由印度著名统计学家马哈拉诺比斯 (Mahalanobis, 1936)提出旳“马氏距离”旳概念。
其
中
μ
1 2
(μ1
μ2)
是
两
个
总
体
均
值
的
平
均
值
,
α Σ1 (μ1 μ 2 ) ,记 W (X) α(X μ)
(4.5)
则判别规则(4.4)式可表示为
X X
G1 G2
, ,
如果 如果
W (X) 0 W (X) 0
(4.6)
这里称W (X) 为两总体距离判别的判别函数,由于它是 X 的线性
设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总体 G
中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距离定
义为
D2 (X, Y) (X Y)Σ1(X Y) (4.2)
定义点 X 到总体 G 的马氏距离为
D2 (X,G) (X μ)Σ1(X μ)
(4.3)
一 Bayes鉴别旳基本思想 二 Bayes鉴别旳基本措施
从上节看距离鉴别法虽然简朴,便于使用。但是该措施也有 它明显旳不足之处。
第一,鉴别措施与总体各自出现旳概率旳大小无关;
第二,鉴别措施与错判之后所造成旳损失无关。Bayes鉴别 法就是为了处理这些问题而提出旳一种鉴别措施。
一、Bayes鉴别旳基本思想
厦门大学应用多元统计分析-第10章_多维标度法
整数 r 和 Rr 中的 n 个点 X1, X 2 , , X n ,使得
di2j (Xi X j )(Xi X j )
i, j 1, 2, , n
则称 D 为欧氏距离阵
3.相似系数阵
定义 10.3 一个 n n 阶的矩阵 C (cij )nn ,如果满足条件:
(1) C C
(2) cij cii i, j 1, 2, , n
Shepard和Kruskal等人进一步加以发展完善。多维标度法 现在已经成为一种广泛用于心理学、市场调查、社会学、物 理学、政治科学及生物学等领域的数据分析方法。
多维标度法解决的问题是:当n个对象(object)中各对对象 之间的相似性(或距离)给定时,确定这些对象在低维空间 中的表示(感知图Perceptual Mapping),并使其尽可能与 原先的相似性(或距离)“大体匹配”,使得由降维所引起 的任何变形达到最小。多维空间中排列的每一个点代表一个 对象,因此点间的距离与对象间的相似性高度相关。也就是 说,两个相似的对象由多维空间中两个距离相近的点表示, 而两个不相似的对象则由多维空间两个距离较远的点表示。 多维空间通常为二维或三维的欧氏空间,但也可以是非欧氏 三维以上空间。
其中, X
1 n
n i 1
Xi
。用矩阵表示为:
B
(bij
)nn
(X1
X
)
(
X1
X
,
( X n X )
, Xn X) 0
这里,我们称 B 为 X 的中心化内积阵。 再来考虑充分性,如果假设 B 0 ,我们欲指出 X 正好为D 的
一个构图,且 D 是欧氏型的。
记 1 2 r 为 B 的正特征根,1, 2 , , r 对应的单位
厦门大学应用多元统计分析第章聚类分析
dij
,
max
xi Gk ,x j Gq
dij }
max{Dkp , Dkq}
( 5.14)
再找距离最小两类并类,直至所有的样品全归为一类为止。 可以看出最长距离法与最短距离法只有两点不同:
一是类与类之间的距离定义不同; 另一是计算新类与其它类的距离所用的公式不同。
3. 中间距离法 最短、最长距离定义表示都是极端情况,我们定义类间距离 可以既不采用两类之间最近的距离也不采用两类之间最远的 距离,而是采用介于两者之间的距离,称为中间距离法。
min
xi Gk ,x j Gq
dij }
min{Dkp , Dkq}
(5.12)
最短距离法进行聚类分析的步骤如下:
(1)定义样品之间距离,计算样品的两两距离,得一距离 阵记为D(0) ,开始每个样品自成一类,显然这时Dij = dij。
(2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个 新类,记为Gr,即Gr = {Gp,Gq}。 (3)按(5.12)计算新类与其它类的距离。 (4)重复(2)、(3)两步,直到所有元素。并成一类为 止。如果某一步距离最小的元素不止一个,则对应这些
1、夹角余弦
两 角变余量弦可Xi与用X下j看式作进p行维计空算间的两个向量,Xik X jk
k 1
p
p
(5.7)
(
X
2 ik
)(
X
2 jk
)
k 1
k 1
显然,∣cos ij∣ 1。
2.相关系数 相关系数经常用来度量变量间的相似性。变量Xi与Xj的相关 系数定义为
在生物、经济、社会、人口等领域的研究中,存在着大量量 化分类研究。例如:在生物学中,为了研究生物的演变,生 物学家需要根据各种生物不同的特征对生物进行分类。在经 济研究中,为了研究不同地区城镇居民生活中的收入和消费 情况,往往需要划分不同的类型去研究。在地质学中,为了 研究矿物勘探,需要根据各种矿石的化学和物理性质和所含 化学成分把它们归于不同的矿石类。在人口学研究中,需要 构造人口生育分类模式、人口死亡分类状况,以此来研究人 口的生育和死亡规律。
厦门大学应用多元统计分析-第10章_多维标度法
多维标度法(Multidimensional Scaling)就是解决这类问题 的一种方法,它是一种在低维空间展示“距离”数据结构的 多元数据分析技术,简称MDS。
多维标度法起源于心理测度学,用于理解人们判断的相似性。 Torgerson拓展了Richardson及Klingberg等人在三、四十年 代的研究,具有突破性地提出了多维标度法,后经
4 701 940 879 0
1374 968 1420 1645 1891 1220
5 1936 1745 831 1374 0
2339 2451 347 959 2300
6 604 1188 1726 968 2339 0
1092 2594 2734 923
7 748 713 1631 1420 2451 1092 0
这样说明 X 正好是 X 正好为 D 的一个构图,D 是欧氏型的。
通过上 面的讨论我们知道 ,只要按公式( 10.5)求出各 个点
对之间的内积,求得内积矩阵 B 的 r 个非零特征值及所对应 的一组特征向量,据公式(10.7)即可求出 X 矩阵的 r 个列 向量或空间 n 个点的坐标。
这里需要特别注意,并非所有的距离阵都存在一个r维的欧 氏空间和n个点,使得n个点之间的距离等于D。因而,并不 是所有的距离阵都是欧氏距离阵,还存在非欧氏距离阵。
2571 2408 205
8 2139 1858 949 1645 347 2594 2571 0
678 2442
9 2182 1737 1021 1891 959 2734 2408 678 0
2329
10 543 597 1494 1220 2300 923 205 2442 2329 0
1=Atlanta , 2=Chicago, 3=Denver, 4=Houston, 5=Los Angeles 6=Miami , 7=New York, 8=S an Francisco , 9=Seattle, 10=Washington. DC
多维标度法起源于心理测度学,用于理解人们判断的相似性。 Torgerson拓展了Richardson及Klingberg等人在三、四十年 代的研究,具有突破性地提出了多维标度法,后经
4 701 940 879 0
1374 968 1420 1645 1891 1220
5 1936 1745 831 1374 0
2339 2451 347 959 2300
6 604 1188 1726 968 2339 0
1092 2594 2734 923
7 748 713 1631 1420 2451 1092 0
这样说明 X 正好是 X 正好为 D 的一个构图,D 是欧氏型的。
通过上 面的讨论我们知道 ,只要按公式( 10.5)求出各 个点
对之间的内积,求得内积矩阵 B 的 r 个非零特征值及所对应 的一组特征向量,据公式(10.7)即可求出 X 矩阵的 r 个列 向量或空间 n 个点的坐标。
这里需要特别注意,并非所有的距离阵都存在一个r维的欧 氏空间和n个点,使得n个点之间的距离等于D。因而,并不 是所有的距离阵都是欧氏距离阵,还存在非欧氏距离阵。
2571 2408 205
8 2139 1858 949 1645 347 2594 2571 0
678 2442
9 2182 1737 1021 1891 959 2734 2408 678 0
2329
10 543 597 1494 1220 2300 923 205 2442 2329 0
1=Atlanta , 2=Chicago, 3=Denver, 4=Houston, 5=Los Angeles 6=Miami , 7=New York, 8=S an Francisco , 9=Seattle, 10=Washington. DC
厦门大学应用多元统计分析第章聚类分析
min
xi Gk ,x j Gq
dij }
min{Dkp , Dkq}
(5.12)
最短距离法进行聚类分析的步骤如下:
(1)定义样品之间距离,计算样品的两两距离,得一距离 阵记为D(0) ,开始每个样品自成一类,显然这时Dij = dij。
(2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个 新类,记为Gr,即Gr = {Gp,Gq}。 (3)按(5.12)计算新类与其它类的距离。 (4)重复(2)、(3)两步,直到所有元素。并成一类为 止。如果某一步距离最小的元素不止一个,则对应这些
归到不同的类内。
在实际聚类过程中,为了计算方便,我们把变量间相似性的 度量公式作一个变换为
或者
dij = 1 ∣cij∣
(5.9)
dij2 = 1 cij2
(5.10)
用表示变量间的距离远近,小则与先聚成一类,这比较符合
人们的一般思维习惯。
第三节 系统聚类分析法
一 系统聚类的基本思想 二 类间距离与系统聚类法 三 类间距离的统一性
聚类分析就是分析如何对样品(或变量)进行量化分类的问 题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样 品进行分类处理,R型聚类是对变量进行分类处理。
第二节 相似性的量度
一 样品相似性的度量 二 变量相似性的度量
一、样品相似性的度量
在聚类之前,要首先分析样品间的相似性。Q型聚类分析, 常用距离来测度样品之间的相似程度。每个样品有p个指标 (变量)从不同方面描述其性质,形成一个p维的向量。如 果把n个样品看成p维空间中的n个点,则两个样品间相似程 度就可用p维空间中的两点距离公式来度量。两点距离公式 可以从不同角度进行定义,令dij 表示样品Xi与Xj的距离,存 在以下的距离公式:
厦门大学应用多元统计分析-第05章_聚类分析
最小元素的类可以同时合并。
【例5.1】设有六个样品,每个只测量一个指标,分别是1, 2,5,7,9,10,试用最短距离法将它们分类。
(1)样品采用绝对值距离,计算样品间的距离阵D(0) ,见 表5.1
G1
G2
G3
G4
G5
G6
G1
0
G2
1
0
G3
4
3
0
G4
6
5
2
0
G5
8
7
4
2
0
G6
9
8
5
3
1
0
表5.1
但历史上这些分类方法多半是人们主要依靠经验作定性分类, 致使许多分类带有主观性和任意性,不能很好地揭示客观事 物内在的本质差别与联系;特别是对于多因素、多指标的分 类问题,定性分类的准确性不好把握。为了克服定性分类存 在的不足,人们把数学方法引入分类中,形成了数值分类学。 后来随着多元统计分析的发展,从数值分类学中逐渐分离出 了聚类分析方法。随着计算机技术的不断发展,利用数学方 法研究分类不仅非常必要而且完全可能,因此近年来,聚类 分析的理论和应用得到了迅速的发展。
3.兰氏距离
dij (L)
1p p k 1
X ik X jk X ik X jk
(5.6)
它仅适用于一切Xij>0的情况,这个距离也可以克服各个指标 之间量纲的影响。这是一个自身标准化的量,由于它对大的
奇异值不敏感,它特别适合于高度偏倚的数据。虽然这个距
离有助于克服明氏距离的第一个缺点,但它也没有考虑指标 之间的相关性。
(2)D(0)中最小的元素是D12=D56=1,于是将G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式计算新类与其 它类的距离D(1) ,见表5.2
【例5.1】设有六个样品,每个只测量一个指标,分别是1, 2,5,7,9,10,试用最短距离法将它们分类。
(1)样品采用绝对值距离,计算样品间的距离阵D(0) ,见 表5.1
G1
G2
G3
G4
G5
G6
G1
0
G2
1
0
G3
4
3
0
G4
6
5
2
0
G5
8
7
4
2
0
G6
9
8
5
3
1
0
表5.1
但历史上这些分类方法多半是人们主要依靠经验作定性分类, 致使许多分类带有主观性和任意性,不能很好地揭示客观事 物内在的本质差别与联系;特别是对于多因素、多指标的分 类问题,定性分类的准确性不好把握。为了克服定性分类存 在的不足,人们把数学方法引入分类中,形成了数值分类学。 后来随着多元统计分析的发展,从数值分类学中逐渐分离出 了聚类分析方法。随着计算机技术的不断发展,利用数学方 法研究分类不仅非常必要而且完全可能,因此近年来,聚类 分析的理论和应用得到了迅速的发展。
3.兰氏距离
dij (L)
1p p k 1
X ik X jk X ik X jk
(5.6)
它仅适用于一切Xij>0的情况,这个距离也可以克服各个指标 之间量纲的影响。这是一个自身标准化的量,由于它对大的
奇异值不敏感,它特别适合于高度偏倚的数据。虽然这个距
离有助于克服明氏距离的第一个缺点,但它也没有考虑指标 之间的相关性。
(2)D(0)中最小的元素是D12=D56=1,于是将G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式计算新类与其 它类的距离D(1) ,见表5.2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.8)
由( 4.8)式,可以取线性判别函数为
X C , 1,2,, k W (X) I
1 k
相应的判别规则为 X C ) X Gi 如果 Wi ( X) max(I 样 本 值 来 替 代 。 设 X1 ,
( )
( 4.9)
针对实际问题,当 μ1 , μ 2 ,, μ k 和 Σ 均未知时,可以通过相应的
D2 (X, G1 ) D2 (X, G2 )
( X μ1 )Σ 1 ( X μ1 ) ( X μ 2 )Σ 1 ( X μ 2 )
1 Σ 1μ1 ( XΣ 1X 2 XΣ1μ 2 μ XΣ 1X 2XΣ 1μ1 μ1 Σ μ2 ) 2 1 Σ 1μ1 μ 2XΣ 1 (μ 2 μ1 ) μ1 Σ μ2 2 2XΣ 1 (μ 2 μ1 ) (μ1 μ 2 )Σ 1 (μ1 μ 2 )
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不
相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在两个总体的距离判别问题中,利用 W ( X) α( X μ) 可
以得到空间 R p 的一个划分
R1 {X : W ( X) 0} ( 4.11) R2 {X : W ( X) 0} 新的样品 X 落入 R1 推断 X G1 ,落入 R2 推断 X G2 。
如果我们将长度单位变为 mm,那么,有
AB 102 502 2600; CD 12 1002 10001
量纲的变化,将影响欧氏距离计算的结果。
为此 , 我们引入一种由印度著名统计学家马哈拉诺比斯
(Mahalanobis, 1936)提出的“马氏距离”的概念。 设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总体 G 中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距离定 义为 (4.2) D2 (X, Y) (X Y)Σ1 (X Y)
第四章 判别分析
第一节
第二节 第三节 第四节 第五节
引言
距离判别法 贝叶斯(Bayes)判别法 费歇(Fisher)判别法 实例分析与计算机实现
第一节
引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题,
即根据历史上划分类别的有关资料和某种最优准则,确定一 种判别方法,判定一个新的样本归属哪一类。例如,某医院 有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记 录了每个患者若干项症状指标数据。现在想利用现有的这些 资料找出一种方法,使得对于一个新的病人,当测得这些症 状指标数据时,能够判定其患有哪种病。又如,在天气预报 中,我们有一段较长时间关于某地区每天气象的记录资料 (晴阴雨、气温、气压、湿度等),现在想建立一种用连续 五天的气象资料来预报第六天是什么天气的方法。这些问题 都可以应用判别分析方法予以解决。
则判别规则(4.4)式可表示为
X G1 , 如果 W ( X) 0 (4.6) X G2 , 如果 W ( X) 0 这里称 W ( X) 为两总体距离判别的判别函数, 由于它是 X 的线性 函数,故又称为线性判别函数, α 称为判别系数。
在实际应用中,总体的均值和协方差矩阵一般是未知的,可由样
这样我们将会发现,判别分析问题实质上就是在某种意义
上,以最优的性质对p维空间R p构造一个“划分”,这个 “划分”就构成了一个判别规则。这一思想将在后面的各节 中体现的更加清楚。
第三节 贝叶斯(Bayes)判别法别的基本方法
从上节看距离判别法虽然简单,便于使用。但是该方法也有
对于一个新的样品 X ,要判断它来自哪个总体。 该问题与两个总体的距离判别问题的解决思想一样。计算新样品 X 到每一个总体的距离,即
D2 (X, G ) (X μ )Σ1 (X μ )
Σ1X μ Σ1μ XΣ1X 2μ
1
X C ) XΣ X 2(I 1 1 1 Σ μ , 1,2,, k 。 这里 I Σ μ , C μ 2
它是 X 的二次函数,相应的判别规则为
X G1 , X G2 ,
如果 如果
W * ( X) 0 W * ( X) 0
2、多个总体的距离判别问题
设有 k 个总体 G1 , G2 ,,G k ,其均值和协方差矩阵分别是 问题:
μ1 , μ 2 ,, μ k 和 Σ1 , Σ 2 ,, Σ k ,而且 Σ1 Σ 2 Σ k Σ 。
它明显的不足之处。 第一,判别方法与总体各自出现的概率的大小无关; 第二,判别方法与错判之后所造成的损失无关。Bayes判别 法就是为了解决这些问题而提出的一种判别方法。
一、Bayes判别的基本思想
问题:设有 k 个总体 G1 , G2 ,,G k ,其各自的分布密度函数
f1 (x), f 2 (x),, f k (x) 互不相同的,假设 k 个总体各自出现
D2 (X, G ) (X μ )Σ 1 (X μ )
则判别规则为
1,2,, k
( 4.10)
X Gi
如果 D ( X, Gi ) min D ( X, G )
2 2 1 k
μ ( 1,2,, k ) 当 μ1 , μ 2 ,, μ k 和 Σ1 , Σ 2 ,, Σ k 均未知时,
μ μ 1 2 2 X 1 Σ (μ1 μ 2 ) 2 2( X μ)α 2α( X μ)
1 其 中 μ (μ 1 μ 2 ) 是 两 个 总 体 均 值 的 平 均 值 , 2 α Σ 1 (μ1 μ 2 ) ,记 (4.5) W ( X) α( X μ)
(1) 本均值和样本协方差矩阵分别进行估计。设 X1 , (2) 体 G1 的样本, X1 ,
, X(1) n1 来自总
, X(2) n2 是来自总体 G 2 的样本, μ1 和 μ 2 的
一个无偏估计分别为
1 n1 (1) X Xi n1 i 1
(1)
Σ 的一个联合无偏估计为
n
1 n2 (2) 和 X Xi n2 i 1 1 ˆ Σ (S1 S2 ) n1 n2 2
判别分析内容很丰富,方法很多。判断分析按判别的总体
数来区分,有两个总体判别分析和多总体判别分析;按区分 不同总体所用的数学模型来分,有线性判别和非线性判别; 按判别时所处理的变量方法不同,有逐步判别和序贯判别等。 判别分析可以从不同角度提出问题,因此有不同的判别准则, 如马氏距离最小准则、Fisher准则、平均损失最小准则、最 小平方准则、最大似然准则、最大概率准则等等,按判别准 则的不同又提出多种判别方法。本章仅介绍常用的几种判别 分析方法:距离判别法、Fisher判别法、Bayes判别法和逐 步判别法。
(2)
这里
S (Xi( ) X( ) )(Xi( ) X( ) ),
i 1
1, 2
此时,两总体距离判别的判别函数为
ˆ (X) α ˆ (X X) W
1 (1) (2) ˆ 1 (X(1) X(2) ) 。这样,判别规则为 ˆ Σ 其中 X ( X X ) , α 2 ˆ ( X) 0 X G1 , 如果 W (4.7) ˆ X G2 , 如果 W ( X) 0
和
S (Xi( ) X( ) )(Xi( ) X( ) ) , 1,2,, k
i 1
n
同样, 我们注意到, 如果总体 G1 , G2 ,,G k 的协方差矩阵分别是
Σ1 , Σ 2 ,, Σ k ,而且它们不全相等,则计算 X 到各总体的马氏
距离,即
的估计同前, Σ ( 1,2,, k )的估计为
ˆ Σ
1 S , n 1
1,2,, k
三、判别分析的实质
我们知道,判别分析就是希望利用已经测得的变量数据,找
出一种判别函数,使得这一函数具有某种最优性质,能把属 于不同类别的样本点尽可能地区别开来。为了更清楚的认识 判别分析的实质,以便能灵活的应用判别分析方法解决实际 问题,我们有必要了解“划分”这样概念。
X G1 , X G2 ,
如果 如果
D 2 ( X, G1 ) D 2 ( X, G2 ) D ( X, G1 ) D ( X, G2 )
2 2
(4.4)
这个判别规则的等价描述为:求新样品X到G1的距离与到G2
的距离之差,如果其值为正,X属于G2;否则X属于G1。
我们考虑
判别规则为
x G1 , x G2 ,
如果 如果
x x
(2) 当 μ1 μ 2 , Σ1 Σ 2 时,我们采用(4.4)式作为判别 规则的形式。选择判别函数为
W * (X) D2 (X, G1 ) D2 (X, G2 )
1 1 (X μ1 )Σ1 (X μ1 ) (X μ2 )Σ2 (X μ2 )
的概率分别为 q1 , q2 ,,q k(先验概率) ,qi 0 ,
q
i 1
) 是 来 自 总 体 G 中 的 样 本 , X(n
( 1,2,, k ) ,则 μ ( 1,2,, k )和 Σ 可估计为
n 1 X( ) Xi( ) , 1,2,, k n i 1 k 1 ˆ Σ S , 其中 n n1 n2 nk n k 1
把这类问题用数学语言来表达,可以叙述如下:设有n个样
本,对每个样本测得p项指标(变量)的数据,已知每个样 本属于k个类别(或总体)G1,G2, …,Gk中的某一类,且 它们的分布函数分别为F1(x),F2(x), …,Fk(x)。我们希望 利用这些数据,找出一种判别函数,使得这一函数具有某种 最优性质,能把属于不同类别的样本点尽可能地区别开来, 并对测得同样p项指标(变量)数据的一个新样本,能判定 这个样本归属于哪一类。