判别分析中Fisher判别法的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 绪 论
1.1课题背景
随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。多元统计分析是近年来发展迅速的统计分析方法之一,应用于自然科学和社会各个领域,成为探索多元世界强有力的工具。
判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有某种疾病等等。它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,使得利用判别准则对新的观测对象的类别进行判断时,出错的概率很小。而Fisher 判别方法是多元统计分析中判别分析方法的常用方法之一,能在各领域得到应用。通常用来判别某观测量是属于哪种类型。在方法的具体实现上,采用国内广泛使用的统计软件SPSS
(Statistical Product and Service Solutions ),它也是美国SPSS 公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一 1.2 Fisher 判别法的概述
根据判别标准不同,可以分为距离判别、Fisher 判别、Bayes 判别法等。Fisher 判别法是判别分析中的一种,其思想是投影,Fisher 判别的基本思路就是投影,针对P 维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x): ()j j x C x ∑=y
然后应用这个线性函数把P 维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P 维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大的原则来进行判别。
1.3 算法优缺点分析
优点:(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布。
(2)Fisher 方法可直接求解权向量*w ;
(3)Fisher 的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher 还可以进一步推广到多类问题中去
缺点:
(1)如果21M M =,0*=w ,则样本线性不可分; 21M M ≠,未必线性可分; w S 不可逆,未必不可分。
(2)对线性不可分的情况,Fisher 方法无法确定分类
2 实验原理
2.1 线性投影与Fisher 准则函数
各类在d 维特征空间里的样本均值向量:
∑∈=
i
k X x k
i
i x
n M 1,2,1=i (2.5-2)
通过变换w 映射到一维特征空间后,各类的平均值为:
∑∈=
i
k Y y k
i
i y
n m 1,2,1=i (2.5-3)
映射后,各类样本“类内离散度”定义为:
22
()k i
i k i y Y S y m ∈=
-∑,2,1=i (2.5-4)
显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。因此,定义Fisher 准则函数:
2
122
2
12||()F m m J w s s -=+ (2.5-5)
使F J 最大的解*w 就是最佳解向量,也就是Fisher 的线性判别式。 2.2 求解*w
从)(w J F 的表达式可知,它并非w 的显函数,必须进一步变换。 已知:∑∈=
i
k Y y k
i
i y
n m 1,2,1=i , 依次代入(2.5-1)和(2.5-2),有: i T
X x k
i
T k X x T i
i M w
x n w x w n m i
k i
k ===
∑∑∈∈)1(
1,2,1=i (2.5-6)
所以:221221221||)(||||||||M M w M w M w m m T T T -=-=-
w S w w M M M M w b T T T =--=))((2121 (2.5-7)
其中:T b M M M M S ))((2121--= (2.5-8)
b S 是原d 维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大小,因此,b S 越大越容易区分。
将(2.5-6)i T i M w m =和(2.5-2)∑∈=
i
k X x k
i
i x
n M 1代入(2.5-4)2i S 式中:
∑∈-=
i
k X x i T k
T i M w x
w S 22)(
∑∈⋅--⋅
=i
k X x T i k i k
T w M x M x
w ))((
w S w i T = (2.5-9)
其中:T i X x k i k
i M x M x
S i
k ))((--=
∑=,2,1=i (2.5-10)
因此:w S w w S S w S S w T T =+=+)(212
221 (2.5-11)
显然:21S S S w += (2.5-12)
i S 称为原d 维特征空间里,样本“类内离散度”矩阵。 w S 是样本“类内总离散度”矩阵。
为了便于分类,显然i S 越小越好,也就是w S 越小越好。 将上述的所有推导结果代入)(w J F 表达式: 可以得到:
)(211
*M M S w w
-=-λγ 其中,
λ
γ
是一个比例因子,不影响*w 的方向,可以删除,从而得到最后解: )(211
*M M S w w -=- (2.5-18)
*w 就使)(w J F 取得最大值,*w 可使样本由d 维空间向一维空间映射,其投影
方向最好。)(211
*M M S w w -=-是一个Fisher 线性判断式。
这个向量指出了相对于Fisher 准则函数最好的投影线方向。
2.3 Fisher 算法步骤
由Fisher 线性判别式)(211
*
M M S w w -=-求解向量*w 的步骤:
① 把来自两类21/w w 的训练样本集X 分成1w 和2w 两个子集1X 和2X 。