费希尔判别法理论
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
费希尔判别
费希尔判别(或称典型判别)的基本思想是投影(或降维):用p维向量
x (X i,X2, X p)的少数几个线性组合(称为费希尔判别函数或典型变量)
y i a i x, y2 a?x, y x (—般r明显小于p )来代替原始的p个变量
X i,X2, X p,以达到降维的目的,并根据这r个判别函数y i,y2, *对样品的归属做出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前三个判别函数作图,从直观的几何图像上区别各组。
在降维的过程中难免会有部分有用信息的损失,但只要使用的方法得当,我们可以最大限度地减少这种损失,从而保留尽可能多的有用信息,即关于能够反
点画于直角坐标系上,一组的样品点用“肿表示,另一组的样品点用“c”表示。
假定我们希望将二维空间的点投影到某个一维空间,即一条直线上,然后再对两组进行判别,则投影到不同的直线上,判别的效果一般是不同的。从图中可见,
如果两组的点都投影到直线 z 上则这两组的投影点在该直线上的分布几乎无任
何差异,他们完全混合在一起,我们无法将这两组的点区别开来, 这样的降维把 反应两组间差异的信息都给损失了, 显然是不可取的。事实上,最好的投影是投 影到直线y 上,因为它把两组的投影点很清楚地区分了开来, 这种降维把有关两 组差异的信息很好地保留了下来,几乎没有任何损失,如此就完全可以在一维的 直线上作判别分析。
我们现考虑在R p
中将k 组的p 维数据向量投影到某个具有最佳方向的 a 上, 即投影到a 上的点能最大限度地显现出各组之间的差异。
设来自组i 的p 维观测值为X j ,j=1,2, ,n i ,i=l,2, ,k ,将它们共同投影 到某一 p 维常数向量a 上,得到的投影点可分别对应线性组合
y j =a x 0,
j=1,2, ,n i ,i=1,2, ,k 。这样,所有的p 维观测值就简化为一维观测值。下面 我们用%表示组i 中y j 的均值,y 表示所有组k 组的y 0的总均值,即
对于任一用来投影的a ,我们需要给出一个能反映组之间分离程度的度量 比较图 中的上、下半图,上半图三组均值之间的差异程度与下半图是相同的,
而前者组之间的分离程度却明显高于后者, 原因就在于前者的组内变差要远小于 后者,后者组之间有较多重叠。因此,可以考虑将组之间的分离程度度量为相对 其组内变差的组间变差。在以下的讨论中,我们需假定各组的协方差矩阵相同,
n i j i
y j
a X i
式中n
X i
1 ni
x
ij
, n j 1
a X i
1 k
- n i X i o n i 1
n i
n
可用来度量y j 的组之间分离程度的一个量是
(a)达到最大。由于对任意非零常数c ,用ca 代替上
式中的a , (a)将保持不变,故考虑对a 加以约束。我们希望判别函数y ax 具
1
S p — E 替代,所以a 的约束条件实际应为a S p a 1,即判别函数的联合样本 n k
方差为1。
y j 的组间平方和
SSTR
k _
_
_
式中 H n i (X i x)(x i
i 1
SSE
k
式中E
(n i i 1
1)S
mW
y)2
k
_
_
口 (a X i a x)2
a
Ha
x)为组间平方和及叉积和矩阵。y j 的组内平方和
n _
_
k
n i (y ij y i )2
j 1
山
_
_
(a x ij a X i )2 a Ea
j 1
ni _
_
_
_
(X ij X i )(X ij X i ) i 1 j 1
为组内平方和及叉积和矩阵。
(a)
SSTR a Ha SSE a Ea
我们应选择这样的a ,使得
有单位方差,即V(ax) a a 1,但因
未知,于是用其联合无偏估计
图三组之间的分离程度
设E 1H的全部非零特征值依次为i 2 s 0,这里s ran k(H),且有
s min(k 1, p)( 5.4.2 )(通常情况下上式等号成立),相应的特征向量依次记为 t1,t2, ,t s (标准化为 t j S p t j 1 , i 1,2, ,s )。由(1.8.5)式知,当 a i t i 时(aj 达到最大值i。所以,选择投影到t i上能使各组的投影点最大限度地分离,称y i=t i x为费希尔第一
线性判别函数,简称第一判别函数。在许多情况下(如组数 k 是大的,或者原始的数据向量维数 p 是大的),仅仅使用第一判别函数也许不够,因为仅在这一个投影方向上组之间的差异可能还不够清晰,各组未能很好地分开。这时,我们应考虑建立第二线性组合y2=a2 x,为使降维最具效率,应要求y2 (在线性关系的意义上)不重复 y i 中的信息,即
Co(v y i,y2)=Co(v t i x,a2 x)=t i a2 0
用S p代替未知的,于是我们在约束条件
t i S p a20(或 t| Ea20)
下寻找a2,使得(a?)达到最大。按(1.8.6)式,当a? t?时(a?)达到最大值2,称y2=t 2 x为第二判别函数。如还不够,可再建立第三判别函数 y3,依次类推。一般地,我们要求第i个线性组合y i=a i x不重复前i 1个判别函数中的信息,即
Co(v y j ,y i)=Co(v t j x,a i x)=t j a i 0, j= i,2, ,i i
用S p代替,上式变为
t j Spq 0(或 -Eq 0),j=1,2, ,i 1
我们希望在约束条件()下寻找a i,使得(a)达到最大。由(1.8.6)式知,当 a i t i时(a)达到最大值i,称y i=t i x为第i判别函数,i=2,3, ,s。