费希尔判别法理论
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
费希尔判别
费希尔判别(或称典型判别)的基本思想是投影(或降维):用p 维向量12(,,)p x x x x '=⋅⋅⋅的少数几个线性组合(称为费希尔判别函数或典型变量)1122,,r r y a x y a x y a x '''==⋅⋅⋅=(一般r 明显小于p )来代替原始的p 个变量12,,p x x x ⋅⋅⋅,以达到降维的目的,并根据这r 个判别函数12,,r y y y ⋅⋅⋅对样品的归属做出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前三个判别函数作图,从直观的几何图像上区别各组。
在降维的过程中难免会有部分有用信息的损失,但只要使用的方法得当,我们可以最大限度地减少这种损失,从而保留尽可能多的有用信息,即关于能够反应组之间差异的信息。为便于理解,我们以下用一个简单的二维例子来加以说明。
图 投影到某个方向再判别
如图 所示,两个组的所有样品都测量了两个变量1x 和2x ,将所有(12,x x )点画于直角坐标系上,一组的样品点用“×”表示,另一组的样品点用“○”表示。假定我们希望将二维空间的点投影到某个一维空间,即一条直线上,然后再对两组进行判别,则投影到不同的直线上,判别的效果一般是不同的。从图 中可见,如果两组的点都投影到直线z 上则这两组的投影点在该直线上的分布几乎无任何差异,他们完全混合在一起,我们无法将这两组的点区别开来,这样的降维把反应两组间差异的信息都给损失了,显然是不可取的。事实上,最好的投影是投
影到直线y 上,因为它把两组的投影点很清楚地区分了开来,这种降维把有关两组差异的信息很好地保留了下来,几乎没有任何损失,如此就完全可以在一维的直线上作判别分析。
我们现考虑在p R 中将k 组的p 维数据向量投影到某个具有最佳方向的a 上,即投影到a 上的点能最大限度地显现出各组之间的差异。
设来自组i π的p 维观测值为ij x ,1,2,,i j=n ⋅⋅⋅,1,2,,i=k ⋅⋅⋅,将它们共同投影到某一p 维常数向量a 上,得到的投影点可分别对应线性组合ij ij y =a x ',1,2,,i j=n ⋅⋅⋅,1,2,,i=k ⋅⋅⋅。这样,所有的p 维观测值就简化为一维观测值。下面我们用i y 表示组i π中ij y 的均值,y 表示所有组k 组的ij y 的总均值,即
11i n i ij i j i y y a x n ='==∑
11
1i n k i ij i j y y a x n =='==∑∑ 式中1
k i i n n ==∑,11i n i ij j i x x n ==∑,11k i i i x n x n ==∑。 对于任一用来投影的a ,我们需要给出一个能反映组之间分离程度的度量。比较图 中的上、下半图,上半图三组均值之间的差异程度与下半图是相同的,而前者组之间的分离程度却明显高于后者,原因就在于前者的组内变差要远小于后者,后者组之间有较多重叠。因此,可以考虑将组之间的分离程度度量为相对其组内变差的组间变差。在以下的讨论中,我们需假定各组的协方差矩阵相同,即12k ∑=∑=⋅⋅⋅=∑=∑。
图 三组之间的分离程度
ij y 的组间平方和
2
211()()k k
i i i i i i SSTR n y y n a x a x a Ha =='''=-=-=∑∑ 式中1()()k
i i i i H n x x x x ='=--∑为组间平方和及叉积和矩阵。ij y 的组内平方和
2
21111()()i i
n n k k ij i i ij i i j i j SSE n y y a x a x a Ea ===='''=-=-=∑∑∑∑ 式中111(1)()()i
n k k ij i ij i i i i i j E n S x x x x ==='=-=--∑∑∑为组内平方和及叉积和矩阵。
可用来度量ij y 的组之间分离程度的一个量是
()SSTR a Ha a SSE a Ea
∆'==' 我们应选择这样的a ,使得()a ∆达到最大。由于对任意非零常数c ,用ca 代替上式中的a ,()a ∆将保持不变,故考虑对a 加以约束。我们希望判别函数y a x '=具有单位方差,即()1V a x a a ''=∑=,但因∑未知,于是用其联合无偏估计1p S E n k
=-替代,所以a 的约束条件实际应为1p a S a '=,即判别函数的联合样本方差为1。
设1E H -的全部非零特征值依次为120s λλλ≥≥⋅⋅⋅≥>,这里()s rank H =,且
有 min(1,)s k p ≤- (5.4.2)
(通常情况下上式等号成立),相应的特征向量依次记为12,,,s t t t ⋅⋅⋅(标准化为1i p i t S t '=,1,2,,i s =⋅⋅⋅)。由(1.8.5)式知,当11a t =时1()a ∆达到最大值1λ。所以,选择投影到1t 上能使各组的投影点最大限度地分离,称11y =t x '为费希尔第一线性判别函数,简称第一判别函数。在许多情况下(如组数k 是大的,或者原始的数据向量维数p 是大的),仅仅使用第一判别函数也许不够,因为仅在这一个投影方向上组之间的差异可能还不够清晰,各组未能很好地分开。这时,我们应考虑建立第二线性组合22y =a x ',为使降维最具效率,应要求2y (在线性关系的意义上)不重复1y 中的信息,即
1212120Cov y ,y Cov t x,a x t a '''∑=()=()=
用p S 代替未知的∑,于是我们在约束条件
12120(0)p t S a t Ea ''==或
下寻找2a ,使得2a ∆()达到最大。按(1.8.6)式,当22a t =时2a ∆()达到最大值2λ,
称22y =t x '为第二判别函数。如还不够,可再建立第三判别函数3y ,依次类推。一般地,我们要求第i 个线性组合i i y =a x '不重复前1i -个判别函数中的信息,即
0j i j i j i Cov y ,y Cov t x,a x t a '''∑=()=()=,1,2,,1j=i ⋅⋅⋅-
用p S 代替∑,上式变为
0(0)j p i j i t S a t Ea ''==或,1,2,,1j=i ⋅⋅⋅-
我们希望在约束条件()下寻找i a ,使得i a ∆()达到最大。由(1.8.6)式知,当i i
a t =时i a ∆()达到最大值i λ,称i i y =t x '为第i 判别函数,2,3,,i=s ⋅⋅⋅。