厦门大学《应用多元统计分析

合集下载

厦门大学《应用多元统计分析》第05章_聚类分析

归到不同的类内。
在实际聚类过程中，为了计算方便，我们把变量间相似性的度量公式作一个变换为
或者
dij = 1 ∣cij∣
(5.9)
dij2 = 1 cij2
(5.10)
用表示变量间的距离远近，小则与先聚成一类，这比较符合
人们的一般思维习惯。
第三节系统聚类分析法
一系统聚类的基本思想二类间距离与系统聚类法三类间距离的统一性
聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理，R型聚类是对变量进行分类处理。
第二节相似性的量度
一样品相似性的度量二变量相似性的度量
一、样品相似性的度量
在聚类之前，要首先分析样品间的相似性。Q型聚类分析，常用距离来测度样品之间的相似程度。每个样品有p个指标（变量）从不同方面描述其性质，形成一个p维的向量。如果把n个样品看成p维空间中的n个点，则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义，令dij 表示样品Xi与Xj的距离，存在以下的距离公式：
二、类间距离与系统聚类法
在进行系统聚类之前，我们首先要定义类与类之间的距离，由类间距离定义的不同产生了不同的系统聚类法。常用的类间距离定义有8种之多，与之相应的系统聚类法也有8种，分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。它们的归类步骤基本上是一致的，主要差异是类间距离的计算方法不同。以下用dij表示样品Xi与Xj之间距离，用Dij表示类Gi与Gj 之间的距离。
dij }
min{Dkp , Dkq}
(5.12)

厦门大学应用多元统计分析第章多元正态分布的参数估计

x
F(x) f (t)dt ，则称 f (x) 为 X 的分布密度函数，简称为
密度函数。一个函数 f (x) 能作为某个随机变量 X 的分布密度
函数的重要条件是：
（1） f (x) 0 ，对一切实数 x ；
（2） f (x)dx 1。
定义 2.2 设 X ( X1, X 2 ,
的多元分布函数定义为
别记为 μ 和 i ，即 μ (1, 2 , , p ) ，容易推得均值（向
量）具有以下性质：
（1） E(AX ) AE(X ) （2） E(AXB) AE(X )B （3） E(AX BY ) AE(X ) BE(Y ) 其中， X 、 Y 为随机向量， A 、 B 为大小适合运算的常数
表 2.1 数据
变量
X1
X2
Xp
序号
1
X 11
X 12
X1p
2
X 21
X 22
X 2p
n
X n1
X n2
X np
在这里横看表 2.1，记为
X ( ) ( X 1, X 2, ,X p )， 1 , 2 , n, 表示第个样品的观测值。竖看表 2.1，第 j 列的元素
X j ( X1 j , X 2 j , , X nj ) ， j 1 , 2 , p,
其中
ij
Cov( Xi , X j ) ij D( Xi ) D( X j ) ii jj
阵为
Cov( X ,Y )E( X E( X ))(Y E(Y ))
Cov( X1,Y1)
Cov(
X
2
,
Y1
)
Cov( X1,Y2 ) Cov( X 2,Y2 )
Cov( X p ,Y1) Cov( X p ,Y2 )

厦门大学《应用多元统计分析》第08章_相应分析

超平面 y1 y2 yc 1的一点集。这里有
P{ i | j} P{ i, j} fij ， i 1, 2, , r
P{ j}
f. j
最后，由（8.1）式和（8.2）式我们应该明确
Dr Ir FIc ， IrDr Ir = IrFIc = 1 ，（8.5）
Dc Ic F Ir ， IcDc Ic IcF Ir 1 ，（8.6）
f
i c
， i 1, 2,
,r 是超平面
x1 x2 xr 1的一点集。同理，因素 B 的第 j 个水平的分布轮廓为
frj
f1 j f. j
,
f2 j f. j
,
,
fcj f. j
Rr
（ 8.4）
• 并称 Dc1F 为因素 B 的轮廓矩阵，同样 fr j ， j 1, 2, , c 是
因素 B
B1
B2
A1
f11
f12
因素
A2
f 21
f 22
A
Bc
f1c
f1.
f 2c
f 2.
Ar
f r1
fr2
f rc
f .1
f .2
f .c
表8.3 一般的二维频率表
f r.
1 f.. fij
• 表 8.3 中 fij kij / k 是样本中属于因素 A 的第 i 个水平和
c
r
因素 B 的第 j 个水平的百分比；fi. fij ，f. j fij ，
f. j
f .
这里
zi
fi f. f.i f. f.i
ki / x.. (k. / x..)(k.i / x..) (k. / x..)(k.i / x..)

厦门大学应用多元统计分析第章聚类分析

4．距离选择的原则
一般说来，同一批数据采用不同的距离公式，会得到不同的分类结果。产生不同结果的原因，主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时，应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则：
（1）要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。
1．明考夫斯基距离
p
dij (q) (
X ik X jk )q 1/ q
k 1
(5.1)
明考夫斯基距离简称明氏距离，按的取值不同又可分成：
（1）绝对距离（ q 1）
p
dij (1) X ik X jk k 1
（2）欧氏距离（ q 2）
p
dij (2) (
X ik X jk )2 1/ 2
p
( Xik Xi )( X jk X j )
rij
k 1 p
p
( Xik Xi )2 ( X jk X j )2
k 1
k 1
(5.8)
显然也有，∣rij∣ 1。
无论是夹角余弦还是相关系数，它们的绝对值都小于1，作为变量近似性的度量工具，我们把它们统记为cij。当∣cij∣ = 1时，说明变量Xi与Xj完全相似；当∣cij∣近似于1时，说明变量Xi与Xj非常密切；当∣cij∣ = 0时，说明变量Xi与Xj完全不一样；当∣cij∣近似于0时，说明变量Xi与Xj差别很大。据此，我们把比较相似的变量聚为一类，把不太相似的变量
聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理，R型聚类是对变量进行分类处理。

厦门大学《应用多元统计分析》第06章__主成分分析

一种是椭圆的长轴与短轴的长度相等，即椭圆变成圆，第一主成分只含有二维空间点的约一半信息，若仅用这一个综合变量，则将损失约50％的信息，这显然是不可取的。造成它的原因是，原始变量X1和X2的相关程度几乎为零，也就是说，它们所包含的信息几乎不重迭，因此无法用一个一维的综合变量来代替。
另一种是椭圆扁平到了极限，变成y1轴上的一条线，第一主成分包含有二维空间点的全部信息，仅用这一个综合变量代替原始数据不会有任何的信息损失，此时的主成分分析效果是非常理想的，其原因是，第二主成分不包含任何信息，舍弃它当然没有信息损失。
矩阵表示形
式为：
Y1 Y2
cos sin
sin cos
X1 X2
TX
(6.2）
其中， T为旋转变换矩阵，它是正交矩阵，即有 T T1
或 TT I 。
易见，n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它们为原始变量X1和X2的综合变量，n个点y1在轴上的方差达到最大，即在此方向上包含了有关n个样品的最大量信息。
i 1
性质 3 主成分 Yk 与原始变量 X i 的相关系数为
(6.20） (6.21）
(Yk , Xi )
k ii
tki
并称之为因子负荷量（或因子载荷量）。
(6.22）
证明：事实上
(Yk , Xi )
Cov(Yk , Xi ) Cov(TkX, eiX)
D(Yk )D(Xi )
k ii
其中的 ei (0, , 0,1, 0, , 0) ，它是除第 i 个元素为 1 外其他元
素均为 0 的单位向量。而
Cov(TkX, eiX) TkΣei ei(ΣTk ) ei(kTk ) keiTk ktki

厦门大学应用多元统计分析第章聚类分析

（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。
（3）要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。
在生物、经济、社会、人口等领域的研究中，存在着大量量化分类研究。例如：在生物学中，为了研究生物的演变，生物学家需要根据各种生物不同的特征对生物进行分类。在经济研究中，为了研究不同地区城镇居民生活中的收入和消费情况，往往需要划分不同的类型去研究。在地质学中，为了研究矿物勘探，需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类。在人口学研究中，需要构造人口生育分类模式、人口死亡分类状况，以此来研究人口的生育和死亡规律。
聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理，R型聚类是对变量进行分类处理。
第二节相似性的量度
一样品相似性的度量二变量相似性的度量
一、样品相似性的度量
在聚类之前，要首先分析样品间的相似性。Q型聚类分析，常用距离来测度样品之间的相似程度。每个样品有p个指标（变量）从不同方面描述其性质，形成一个p维的向量。如果把n个样品看成p维空间中的n个点，则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义，令dij 表示样品Xi与Xj的距离，存在以下的距离公式：
二、类间距离与系统聚类法
在进行系统聚类之前，我们首先要定义类与类之间的距离，由类间距离定义的不同产生了不同的系统聚类法。常用的类间距离定义有8种之多，与之相应的系统聚类法也有8种，分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。它们的归类步骤基本上是一致的，主要差异是类间距离的计算方法不同。以下用dij表示样品Xi与Xj之间距离，用Dij表示类Gi与Gj 之间的距离。

厦门大学应用多元统计分析第判别分析

今按照欧氏距离计算，有
AB 102 52 125 ； CD 12 102 101
如果我们将长度单位变为 mm，那么，有
AB 102 502 2600 ； CD 12 1002 10001
量纲的变化，将影响欧氏距离计算的结果。
为此，我们引入一种由印度著名统计学家马哈拉诺比斯（Mahalanobis, 1936）提出旳“马氏距离”旳概念。
其
中
μ
1 2
(μ1
μ2)
是
两
个
总
体
均
值
的
平
均
值
，
α Σ1 (μ1 μ 2 ) ，记 W (X) α(X μ)
（4.5）
则判别规则（4.4）式可表示为
X X
G1 G2
, ,
如果如果
W (X) 0 W (X) 0
（4.6）
这里称W (X) 为两总体距离判别的判别函数，由于它是 X 的线性
设 X 和 Y 是来自均值向量为 μ ，协方差为 Σ( 0) 的总体 G
中的 p 维样本，则总体 G 内两点 X 与 Y 之间的马氏距离定
义为
D2 (X, Y) (X Y)Σ1(X Y) (4.2)
定义点 X 到总体 G 的马氏距离为
D2 (X,G) (X μ)Σ1(X μ)
(4.3)
一 Bayes鉴别旳基本思想二 Bayes鉴别旳基本措施
从上节看距离鉴别法虽然简朴，便于使用。但是该措施也有它明显旳不足之处。
第一，鉴别措施与总体各自出现旳概率旳大小无关；
第二，鉴别措施与错判之后所造成旳损失无关。Bayes鉴别法就是为了处理这些问题而提出旳一种鉴别措施。
一、Bayes鉴别旳基本思想

厦门大学应用多元统计分析-第10章_多维标度法

整数 r 和 Rr 中的 n 个点 X1, X 2 , , X n ，使得
di2j (Xi X j )(Xi X j )
i, j 1, 2, , n
则称 D 为欧氏距离阵
3．相似系数阵
定义 10.3 一个 n n 阶的矩阵 C (cij )nn ，如果满足条件：
（1） C C
（2） cij cii i, j 1, 2, , n
Shepard和Kruskal等人进一步加以发展完善。多维标度法现在已经成为一种广泛用于心理学、市场调查、社会学、物理学、政治科学及生物学等领域的数据分析方法。
多维标度法解决的问题是：当n个对象（object）中各对对象之间的相似性（或距离）给定时，确定这些对象在低维空间中的表示（感知图Perceptual Mapping），并使其尽可能与原先的相似性（或距离）“大体匹配”，使得由降维所引起的任何变形达到最小。多维空间中排列的每一个点代表一个对象，因此点间的距离与对象间的相似性高度相关。也就是说，两个相似的对象由多维空间中两个距离相近的点表示，而两个不相似的对象则由多维空间两个距离较远的点表示。多维空间通常为二维或三维的欧氏空间，但也可以是非欧氏三维以上空间。
其中， X
1 n
n i 1
Xi
。用矩阵表示为：
B
(bij
)nn
(X1
X
)
(
X1
X
,
( X n X )
, Xn X) 0
这里，我们称 B 为 X 的中心化内积阵。再来考虑充分性，如果假设 B 0 ，我们欲指出 X 正好为D 的
一个构图，且 D 是欧氏型的。
记 1 2 r 为 B 的正特征根，1, 2 , , r 对应的单位

厦门大学应用多元统计分析第章聚类分析

dij
,
max
xi Gk ,x j Gq
dij }
max{Dkp , Dkq}
（ 5.14）
再找距离最小两类并类，直至所有的样品全归为一类为止。可以看出最长距离法与最短距离法只有两点不同：
一是类与类之间的距离定义不同；另一是计算新类与其它类的距离所用的公式不同。
3. 中间距离法最短、最长距离定义表示都是极端情况，我们定义类间距离可以既不采用两类之间最近的距离也不采用两类之间最远的距离，而是采用介于两者之间的距离，称为中间距离法。
min
xi Gk ,x j Gq
dij }
min{Dkp , Dkq}
(5.12)
最短距离法进行聚类分析的步骤如下：
（1）定义样品之间距离，计算样品的两两距离，得一距离阵记为D（0），开始每个样品自成一类，显然这时Dij = dij。
（2）找出距离最小元素，设为Dpq，则将Gp和Gq合并成一个新类，记为Gr，即Gr = ｛Gp，Gq｝。（3）按（5.12）计算新类与其它类的距离。（4）重复（2）、（3）两步，直到所有元素。并成一类为止。如果某一步距离最小的元素不止一个，则对应这些
1、夹角余弦
两角变余量弦可Xi与用X下j看式作进p行维计空算间的两个向量，Xik X jk
k 1
p
p
(5.7)
(
X
2 ik
)(
X
2 jk
)
k 1
k 1
显然，∣cos ij∣ 1。
2．相关系数相关系数经常用来度量变量间的相似性。变量Xi与Xj的相关系数定义为
在生物、经济、社会、人口等领域的研究中，存在着大量量化分类研究。例如：在生物学中，为了研究生物的演变，生物学家需要根据各种生物不同的特征对生物进行分类。在经济研究中，为了研究不同地区城镇居民生活中的收入和消费情况，往往需要划分不同的类型去研究。在地质学中，为了研究矿物勘探，需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类。在人口学研究中，需要构造人口生育分类模式、人口死亡分类状况，以此来研究人口的生育和死亡规律。

厦门大学应用多元统计分析-第10章_多维标度法

多维标度法（Multidimensional Scaling）就是解决这类问题的一种方法，它是一种在低维空间展示“距离”数据结构的多元数据分析技术，简称MDS。
多维标度法起源于心理测度学，用于理解人们判断的相似性。 Torgerson拓展了Richardson及Klingberg等人在三、四十年代的研究，具有突破性地提出了多维标度法，后经
4 701 940 879 0
1374 968 1420 1645 1891 1220
5 1936 1745 831 1374 0
2339 2451 347 959 2300
6 604 1188 1726 968 2339 0
1092 2594 2734 923
7 748 713 1631 1420 2451 1092 0
这样说明 X 正好是 X 正好为 D 的一个构图，D 是欧氏型的。
通过上面的讨论我们知道，只要按公式（ 10.5）求出各个点
对之间的内积，求得内积矩阵 B 的 r 个非零特征值及所对应的一组特征向量，据公式（10.7）即可求出 X 矩阵的 r 个列向量或空间 n 个点的坐标。
这里需要特别注意，并非所有的距离阵都存在一个r维的欧氏空间和n个点，使得n个点之间的距离等于D。因而，并不是所有的距离阵都是欧氏距离阵，还存在非欧氏距离阵。
2571 2408 205
8 2139 1858 949 1645 347 2594 2571 0
678 2442
9 2182 1737 1021 1891 959 2734 2408 678 0
2329
10 543 597 1494 1220 2300 923 205 2442 2329 0
1＝Atlanta , 2＝Chicago, 3＝Denver, 4＝Houston, 5＝Los Angeles 6＝Miami , 7＝New York, 8＝S an Francisco , 9＝Seattle, 10＝Washington. DC

厦门大学应用多元统计分析第章聚类分析

min
xi Gk ,x j Gq
dij }
min{Dkp , Dkq}
(5.12)
最短距离法进行聚类分析的步骤如下：
（1）定义样品之间距离，计算样品的两两距离，得一距离阵记为D（0），开始每个样品自成一类，显然这时Dij = dij。
（2）找出距离最小元素，设为Dpq，则将Gp和Gq合并成一个新类，记为Gr，即Gr = ｛Gp，Gq｝。（3）按（5.12）计算新类与其它类的距离。（4）重复（2）、（3）两步，直到所有元素。并成一类为止。如果某一步距离最小的元素不止一个，则对应这些
归到不同的类内。
在实际聚类过程中，为了计算方便，我们把变量间相似性的度量公式作一个变换为
或者
dij = 1 ∣cij∣
(5.9)
dij2 = 1 cij2
(5.10)
用表示变量间的距离远近，小则与先聚成一类，这比较符合
人们的一般思维习惯。
第三节系统聚类分析法
一系统聚类的基本思想二类间距离与系统聚类法三类间距离的统一性
聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理，R型聚类是对变量进行分类处理。
第二节相似性的量度
一样品相似性的度量二变量相似性的度量
一、样品相似性的度量
在聚类之前，要首先分析样品间的相似性。Q型聚类分析，常用距离来测度样品之间的相似程度。每个样品有p个指标（变量）从不同方面描述其性质，形成一个p维的向量。如果把n个样品看成p维空间中的n个点，则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义，令dij 表示样品Xi与Xj的距离，存在以下的距离公式：

厦门大学应用多元统计分析-第05章_聚类分析

最小元素的类可以同时合并。
【例5.1】设有六个样品，每个只测量一个指标，分别是1， 2，5，7，9，10，试用最短距离法将它们分类。
（1）样品采用绝对值距离，计算样品间的距离阵D（0），见表5.1
G1
G2
G3
G4
G5
G6
G1
0
G2
1
0
G3
4
3
0
G4
6
5
2
0
G5
8
7
4
2
0
G6
9
8
5
3
1
0
表5.1
但历史上这些分类方法多半是人们主要依靠经验作定性分类，致使许多分类带有主观性和任意性，不能很好地揭示客观事物内在的本质差别与联系；特别是对于多因素、多指标的分类问题，定性分类的准确性不好把握。为了克服定性分类存在的不足，人们把数学方法引入分类中，形成了数值分类学。后来随着多元统计分析的发展，从数值分类学中逐渐分离出了聚类分析方法。随着计算机技术的不断发展，利用数学方法研究分类不仅非常必要而且完全可能，因此近年来，聚类分析的理论和应用得到了迅速的发展。
3．兰氏距离
dij (L)
1p p k 1
X ik X jk X ik X jk
(5.6)
它仅适用于一切Xij>0的情况，这个距离也可以克服各个指标之间量纲的影响。这是一个自身标准化的量，由于它对大的
奇异值不敏感，它特别适合于高度偏倚的数据。虽然这个距
离有助于克服明氏距离的第一个缺点，但它也没有考虑指标之间的相关性。
（2）D（0）中最小的元素是D12＝D56＝1，于是将G1和G2合并成G7，G5和G6合并成G8，并利用（5.12）式计算新类与其它类的距离D（1），见表5.2

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4.8）
由（ 4.8）式，可以取线性判别函数为
X C ， 1,2,, k W (X) I
1 k
相应的判别规则为 X C ) X Gi 如果 Wi ( X) max(I 样本值来替代。设 X1 ,
( )
（ 4.9）
针对实际问题，当 μ1 , μ 2 ,, μ k 和 Σ 均未知时，可以通过相应的
D2 (X, G1 ) D2 (X, G2 )
( X μ1 )Σ 1 ( X μ1 ) ( X μ 2 )Σ 1 ( X μ 2 )
1 Σ 1μ1 ( XΣ 1X 2 XΣ1μ 2 μ XΣ 1X 2XΣ 1μ1 μ1 Σ μ2 ) 2 1 Σ 1μ1 μ 2XΣ 1 (μ 2 μ1 ) μ1 Σ μ2 2 2XΣ 1 (μ 2 μ1 ) (μ1 μ 2 )Σ 1 (μ1 μ 2 )
设R1，R2，…，Rk是p维空间R p的k个子集，如果它们互不
相交，且它们的和集为R p，则称R1，R2， …，Rk为R p的一个划分。
在两个总体的距离判别问题中，利用 W ( X) α( X μ) 可
以得到空间 R p 的一个划分
R1 {X : W ( X) 0} （ 4.11） R2 {X : W ( X) 0} 新的样品 X 落入 R1 推断 X G1 ，落入 R2 推断 X G2 。
如果我们将长度单位变为 mm，那么，有
AB 102 502 2600； CD 12 1002 10001
量纲的变化，将影响欧氏距离计算的结果。
为此，我们引入一种由印度著名统计学家马哈拉诺比斯
（Mahalanobis, 1936）提出的“马氏距离”的概念。设 X 和 Y 是来自均值向量为 μ ，协方差为 Σ( 0) 的总体 G 中的 p 维样本，则总体 G 内两点 X 与 Y 之间的马氏距离定义为 (4.2) D2 (X, Y) (X Y)Σ1 (X Y)
第四章判别分析
第一节
第二节第三节第四节第五节
引言
距离判别法贝叶斯（Bayes）判别法费歇（Fisher）判别法实例分析与计算机实现
第一节
引言
在我们的日常生活和工作实践中，常常会遇到判别分析问题，
即根据历史上划分类别的有关资料和某种最优准则，确定一种判别方法，判定一个新的样本归属哪一类。例如，某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料，记录了每个患者若干项症状指标数据。现在想利用现有的这些资料找出一种方法，使得对于一个新的病人，当测得这些症状指标数据时，能够判定其患有哪种病。又如，在天气预报中，我们有一段较长时间关于某地区每天气象的记录资料（晴阴雨、气温、气压、湿度等），现在想建立一种用连续五天的气象资料来预报第六天是什么天气的方法。这些问题都可以应用判别分析方法予以解决。
则判别规则（4.4）式可表示为

X G1 , 如果 W ( X) 0 （4.6） X G2 , 如果 W ( X) 0 这里称 W ( X) 为两总体距离判别的判别函数，由于它是 X 的线性函数，故又称为线性判别函数， α 称为判别系数。
在实际应用中，总体的均值和协方差矩阵一般是未知的，可由样
这样我们将会发现，判别分析问题实质上就是在某种意义
上，以最优的性质对p维空间R p构造一个“划分”，这个 “划分”就构成了一个判别规则。这一思想将在后面的各节中体现的更加清楚。
第三节贝叶斯（Bayes）判别法别的基本方法
从上节看距离判别法虽然简单，便于使用。但是该方法也有
对于一个新的样品 X ，要判断它来自哪个总体。该问题与两个总体的距离判别问题的解决思想一样。计算新样品 X 到每一个总体的距离，即
D2 (X, G ) (X μ )Σ1 (X μ )
Σ1X μ Σ1μ XΣ1X 2μ
1
X C ) XΣ X 2(I 1 1 1 Σ μ ， 1,2,, k 。这里 I Σ μ ， C μ 2
它是 X 的二次函数，相应的判别规则为
X G1 , X G2 ,
如果如果
W * ( X) 0 W * ( X) 0
2、多个总体的距离判别问题
设有 k 个总体 G1 , G2 ,,G k ，其均值和协方差矩阵分别是问题：
μ1 , μ 2 ,, μ k 和 Σ1 , Σ 2 ,, Σ k ，而且 Σ1 Σ 2 Σ k Σ 。
它明显的不足之处。第一，判别方法与总体各自出现的概率的大小无关；第二，判别方法与错判之后所造成的损失无关。Bayes判别法就是为了解决这些问题而提出的一种判别方法。
一、Bayes判别的基本思想
问题：设有 k 个总体 G1 , G2 ,,G k ，其各自的分布密度函数
f1 (x), f 2 (x),, f k (x) 互不相同的，假设 k 个总体各自出现
D2 (X, G ) (X μ )Σ 1 (X μ )
则判别规则为
1,2,, k
（ 4.10）
X Gi
如果 D ( X, Gi ) min D ( X, G )
2 2 1 k
μ （ 1,2,, k ）当 μ1 , μ 2 ,, μ k 和 Σ1 , Σ 2 ,, Σ k 均未知时，
μ μ 1 2 2 X 1 Σ (μ1 μ 2 ) 2 2( X μ)α 2α( X μ)
1 其中 μ (μ 1 μ 2 ) 是两个总体均值的平均值， 2 α Σ 1 (μ1 μ 2 ) ，记（4.5） W ( X) α( X μ)
(1) 本均值和样本协方差矩阵分别进行估计。设 X1 , (2) 体 G1 的样本， X1 ,
, X(1) n1 来自总
, X(2) n2 是来自总体 G 2 的样本， μ1 和 μ 2 的
一个无偏估计分别为
1 n1 (1) X Xi n1 i 1
(1)
Σ 的一个联合无偏估计为
n
1 n2 (2) 和 X Xi n2 i 1 1 ˆ Σ (S1 S2 ) n1 n2 2
判别分析内容很丰富，方法很多。判断分析按判别的总体
数来区分，有两个总体判别分析和多总体判别分析；按区分不同总体所用的数学模型来分，有线性判别和非线性判别；按判别时所处理的变量方法不同，有逐步判别和序贯判别等。判别分析可以从不同角度提出问题，因此有不同的判别准则，如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等，按判别准则的不同又提出多种判别方法。本章仅介绍常用的几种判别分析方法：距离判别法、Fisher判别法、Bayes判别法和逐步判别法。
(2)
这里
S (Xi( ) X( ) )(Xi( ) X( ) ),
i 1
1, 2
此时，两总体距离判别的判别函数为
ˆ (X) α ˆ (X X) W
1 (1) (2) ˆ 1 (X(1) X(2) ) 。这样，判别规则为 ˆ Σ 其中 X ( X X ) ， α 2 ˆ ( X) 0 X G1 , 如果 W （4.7） ˆ X G2 , 如果 W ( X) 0
和
S (Xi( ) X( ) )(Xi( ) X( ) ) ， 1,2,, k
i 1
n
同样，我们注意到，如果总体 G1 , G2 ,,G k 的协方差矩阵分别是
Σ1 , Σ 2 ,, Σ k ，而且它们不全相等，则计算 X 到各总体的马氏
距离，即
的估计同前， Σ （ 1,2,, k ）的估计为
ˆ Σ
1 S ， n 1
1,2,, k
三、判别分析的实质
我们知道，判别分析就是希望利用已经测得的变量数据，找
出一种判别函数，使得这一函数具有某种最优性质，能把属于不同类别的样本点尽可能地区别开来。为了更清楚的认识判别分析的实质，以便能灵活的应用判别分析方法解决实际问题，我们有必要了解“划分”这样概念。
X G1 , X G2 ,
如果如果
D 2 ( X, G1 ) D 2 ( X, G2 ) D ( X, G1 ) D ( X, G2 )
2 2
（4.4）
这个判别规则的等价描述为：求新样品X到G1的距离与到G2
的距离之差，如果其值为正，X属于G2；否则X属于G1。
我们考虑
判别规则为
x G1 , x G2 ,
如果如果
x x
（2）当 μ1 μ 2 ， Σ1 Σ 2 时，我们采用（4.4）式作为判别规则的形式。选择判别函数为
W * (X) D2 (X, G1 ) D2 (X, G2 )
1 1 (X μ1 )Σ1 (X μ1 ) (X μ2 )Σ2 (X μ2 )
的概率分别为 q1 , q2 ,,q k（先验概率），qi 0 ，
q
i 1
) 是来自总体 G 中的样本 , X(n
（ 1,2,, k ），则 μ （ 1,2,, k ）和 Σ 可估计为
n 1 X( ) Xi( ) ， 1,2,, k n i 1 k 1 ˆ Σ S ，其中 n n1 n2 nk n k 1
把这类问题用数学语言来表达，可以叙述如下：设有n个样
本，对每个样本测得p项指标（变量）的数据，已知每个样本属于k个类别（或总体）G1，G2， …，Gk中的某一类，且它们的分布函数分别为F1(x)，F2(x)， …，Fk(x)。我们希望利用这些数据，找出一种判别函数，使得这一函数具有某种最优性质，能把属于不同类别的样本点尽可能地区别开来，并对测得同样p项指标（变量）数据的一个新样本，能判定这个样本归属于哪一类。