第五讲 判别分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四讲 判别分析
第一节 判别分析概述
1.1 判别分析的任务
假设事先存在若干个已知类(group),判别分析是研究将一个新的个体(case),用什么方法将它分到最合适的已知类中去。 1.2 数学描述
设有m 个已知类:G 1, G 2, … ,G m ,类的特征由p 个变量X 1,X 2,…,X p 决定,这p 个变量也叫判别指标。今后用一个p 维
向量),...,,(21'=p X X X x
表示;类G i 含n i 个个体,其弟k 个个
体(特征)为:
m i n k X
X
X
x i i kp
i k i k i k ,...,2,1,,...,2,1,
),...,,()()(2
)(1
)
(=='=
并且有:∑==m
i i
n
n 1。
现有一个新的个体),...,,()0()
0(2)0(1)0('
=p
X X X x
,设计一
种归类的方法,将)0(x
归入最适合它的已知类中去。
第二节 判别函数
2.1 判别的基本方法是把新个体归入与它性质最相近的类。在表达“性质最相近”时,有时候是的距离远近衡量,有时候用损失的大小表示。不管用什么方法表达,都离不开判别函数。 2.2 判别函数
1.形式 (线性)判别函数是判别指标(变量)的线性函数
q s x c X
c X c X c f s p
sp s s s ,...,2,1,
2211='=+++=
其中,向量:q s c c c c sp s s s ,...,2,1,
),...,,(21='= (
2.本质 判别函数是一组由R p →R q 的映射,它把一个原本属于高维空间的问题转换成为一个维数较低的空间问题。我们把空间R p 中原始已知类G i 经过f s 映射后在空间R q 中的像记为f s (G i )。
3.判别函数应具备的基本要求
判别函数是从高维空间R p 到较低维空间R q 的一组线性变换,为了使低维空间内的判别工作变得更容易,很自然地对判别函数提出两个基本要求:
(1)空间R p 中的原始类:G 1,G 2,…,G m 在空间R q 中的像集合f (G 1),f (G 2),…,f (G m )应该容易区分,即这些像集合之间应有较大的间隔空间;
(2)每个原始类G i 的像集合f (G i ),其元素在空间的分布上应较为集中,或者说f (G i )有较大的“密度”。 4.基本要求的数学表达 (1)引入一些符号: 像集合f (G i )的中心:
m
i x f n f
i n k i k i
i ,...,2,1,
)(11
)
()
(==
∑
=
像空间R q 中,所有像点的中心:
∑
∑
∑
====
=
m i i i m i n k i k f
n n
x f n
f i 1
)
(1
1
)
(1)(1
(2)定义两个平方和: 组内平方和(Within Groups)
∑
∑
==-=
m i n k i i k
i f
f
SW
1
1
2
)
()()
(
组间平方和(Between Groups)
2
1
)
()
(∑
=-=
m i i i f f
n SB
我们看到:SB 可以表示R q 中类间的间隔,SW 则是R q 中类的密度大小的一种度量。因此,对判别函数提出的两个基本要求就被表示成为:SB 要充分大,SW 要尽可能小。 5)特征值(Eigenvalue)
SW
SB Eigenvalue
=
可见,对于一个判别函数来说:特征值越大,区别已知类的能力就越强。这是比较判别函数好坏的一个重要指标。
第三节 典型判别函数(Cannonical Discriminant)
3.1 判别函数的获得
获得判别函数的过程就是根据样本对判别函数中的系数作出估计的过程。由于采用的估计方法不同,也就派生出不同的判别法:距离判别,F isher 判别,Bayes 判别等。 3.2 典型判别
基于典型相关分析原理估计判别参数,并用得到的判别函数进行判别分析,这种做法叫典型判别分析。
普通相关分析是在两个变量X 和Y 之间进行,典型相关分析则是在两组变量(X 1,…,X p )和(Y 1,…,Y m )之间进行,也就是考察
两个向量之间的相关关系。现在,向量),...,,(21'=p X X X x
代表
判别指标,而向量),,(1'=m Y Y y
其中
m i G x G x Y i
i i ,,2,10
1
=⎩⎨⎧∉∈=如果如果 如果判别函数是:
q
s X
c x f p
j j
sj s ,,2,1)(1
==
∑
=
它的系数c s j 的估计过程,也是求x
和y
的典型变量过程。