fisher判别式
判别分析(第4节_Fisher判别法)
第一节 第二节 第三节 第四节 第五节
绪论 距离判别法 贝叶斯判别法 Fisher判别法 判别效果检验问题
第三节 贝叶斯(BAYES)判别法
■
多元正态总体的贝叶斯判别法
设 Gi ~ N p ( (i ) , i )(i 1,2,, k ) ,并假定错判损失相等,先 验概率 q1 , q2 ,, qk ,有时先验概率确定起来不是很明 n qi i 确的,这时可用“样品频率”代替,即可令 。 n
第三节 贝叶斯(BAYES)判别法
其中 ( h ) , h 意义同前,已知后验概率为
P(Gh | x) qh f h ( x)
q f ( x)
i i i 1
k
由于上式中,分母部分为常数,所以有
P(Gh | x) max qh f h ( x) max
同时
1 1 qh f h ( x) qh (2 ) p / 2 | h |1/ 2 exp ( X ( h ) )h ( X (h) ) 2
* 故问题化简为 Z (Gh | x) max . h
ห้องสมุดไป่ตู้
注意:这里取对数可起到简化算式的作用,同时对数 函数是严格单调的,所以取对数不改变原问题的性质。
第三节 贝叶斯(BAYES)判别法
◆ 判别准则 下面分两种不同的情形考虑。
●
假设协方差阵都相等( 1 2 k )
2 2
exp[ y(G x]
i| i 1
k
注意:这意味着 P(Gh | x) max y(Gh | x) max
第三节 贝叶斯(BAYES)判别法
证明 因为 y(Gh | x) ln[qh f h ] ( x) ,其中 ( x) 是ln[ qh f h ]
模式识别FISHER线性判别实验
模式识别FISHER线性判别实验
人工知能领域中的模式识别是计算机实现人类识别物体的能力的一种
技术。
它的主要目的是根据给定模式的样本及其特征,自动识别出新的样
本的特征并做出判断。
其中最著名的技术之一就是FISHER线性判别法。
FISHER线性判别法基于正态分布理论,通过计算样本的统计特征来
分类,它是一种基于参数的最优分类算法。
算法的基本思想是通过计算两
个类别的最大类间差异度,以及最小类内差异度,来有效地分类样本。
具
体而言,FISHER线性判别法即求出一个线性超平面,使这个超平面把样
本区分开来,使样本离类中心向量之间的距离最大,同时使类中心向量之
间的距离最小。
FISHER线性判别法的具体实现过程如下:
1.准备好建立模型所需要的所有数据:训练样本集,其样本特征与对
应的类标号。
2.确定每个类的类中心向量c_1,c_2,…,c_m,其中m为类的数目。
3.根据类中心向量求出类间离散度矩阵S_b和类内离散度矩阵S_w。
4.将S_b与S_w相除,得到S_b/S_w,从而求出矩阵的最大特征值
λ_1及最小特征值λ_n。
5.将最大特征值λ_1进行特征值分解,求出其特征向量w,求出判
定函数:
f(x)=w·x+w_0。
6.根据判定函数,将样本进行分类。
Fisher判别函数
Fisher 判别函数的使用具体步骤Fisher 多类判别模型假定事物由p 个变量描述, 即: x=(p x x x ,...,,21)T该种事物有G 个类型, 从每个类型中顺次抽取p n n n ,...,,21个样品, 共计n=∑=Gi i1n个样品。
即从第g 类取了g n 个样品, g=1,2,⋯, G, 第g 类的第i 个样品, 用向量:gi x =(pgi gi gi x x ,...,,x 21)T (1)( 1) 式中, 第一个下标是变量号, 第二个下标是类型号,第三个下标是样品号。
设判别函数为:T x p p v x v x v x v =+++=...y 2211 (2)其中: V=(p v v v ,...,21)T按照组内差异最小, 组间差异最大同时兼顾的原则, 来确定判别函数系数。
(中间推导过程不在这里介绍了)最终就有个判别函数:,y x V Tj j=1,...,2,1s j = 一般只取前M=min(G- 1,p)个, 即:M j x v x v x v y p pj j j j ,...,2,1,...2211=+++= (3)根据上述M 个判别函数, 可对每一个待判样品做出判别。
),...,,(x 020100p x x x=其过程如下:1、把x0 代入式(3) 中每一个判别函数, 得到M 个数,,...,2,1,...y 202101j 0M j x v x v x v p pj j j =+++=记:TM y y y y ),...,,(020100= 2、把每一类的均值代入式(3)得Gg y y y y G g M j x v x v x v y M gggg pg pg g g g g j g ,...,2,1),,...,,(,...2,1,,...,2,1,...212211====+++=3、计算:∑=-=Mj j j g gy y D 1202)(,从这G 个值中选出最小值:)(min 212g Gg h D D ≤≤=。
魏尔斯特拉斯判别法
魏尔斯特拉斯判别法
拉斯判别法(Fisher discrimination),又称魏尔斯-拉普拉斯判别式,是概率论中的一种模式识别算法。
这种方法源于一九三五年爱因斯坦颁奖典礼上提出的魏尔斯定理,由Ronald A. Fisher利用贝叶斯定理建立而成。
该方法的基本思想是对类的期望总密度进行估计,在此基础上构造出把类别隔离开来的线性判别式,用来识别新样本。
它以类内样本的类内散度矩阵(within-class scatter matrix)和类间散度矩阵(between-class scatter matrix)为依据,构建决策边界,此处的决策边界满足最优类内距离和最大类间距离的性质。
拉斯判别法属于线性判别(linear discrimination)的一种,它的特点是用一个线性判别式来区分类型,具有计算简单、实现方便等特点,因而被人们广泛使用,拉斯判别法也称为线性判别分析(linear discriminant analysis, LDA)。
线性判别函数-Fisher
Fisher线性判别
问题中的维数问题
降低维数
把d维空间中的样本 投影到一条直线上
Fisher线性判别
把同一组样本点向两个不同的方向作投影。 (右图更易分开)
始于R.A.Fisher(1936年)
Fisher法解决的基本问题:
如何根据实际情况找到一条最好的、最易于分类的投 影线。
d维到一维的数学变换
1
2
1
2
b
化简分母:
S~2 y m~ 2 wT x wT m 2
i
yYi
i
xX i
i
wT x m x m T w wT S w
xX i
i
i
i
S~2 S~2 wT S S w wT S w
1
2
1
2
w
w
b
w* S S 1 w* S m 1 m R
w
b
w
1
2
忽略比
w* R S 1 m m 例因子
w
1
2
w* S m 1 m
w
1
2
w*为准则函数的极大值解,即为X空间到Y空间的最佳投影方向。
根据变换公式:
y wT x , n 1,2,..., N
广义线性判别函数
在一维空间中,线性函数不能解决下述分类问题 (黑红各代表一类数据),可见线性判别函数有一 定的局限性。
为解决上述分类问题,我们建立一个二次 判别函数
g(x)=(x–a)(x–b)
=c0+c1x + c2x*x 决策规则仍是:如果g(x)>=0,则判定x属
4-3_Fisher判别
整性。
在解决实际问题时,当总体参数未知,需要通过样本来估计,
我们仅对 k2 的情形加以说明。设样本分别为
X(1) 1
,
X(1) 2
,
X(1) n1
和
X(2) 1
,
X(2) 2
,
X(2) n2
,则
X n1X(1) n2X(2) n1 n2
X(1) X n2 (X(1) X(2) ) n1 n2
方法回顾
距离判别法 优点:简单,便于使用。 不足之处:
第一,判别方法与总体各自出现的概率的大小无关; 第二,判别方法与错判之后所造成的损失无关。 Bayes判别法 优点:错判率较小。 不足之处: 需要获取总体的分布及参数值,实现困难。 实际问题中有时也没必要知道其分布。
第四节 费歇(Fisher)判别法
E(uX) E(uX | Gi ) uE(X | Gi ) uμi i , i 1,2
D(uX) D(uX | Gi ) uD(X | Gi )u uΣiu
2 i
,
i 1,2
在求线性判别函数 时,尽量使得总体之间差异大,也就是要求
uμ1 uμ2 尽可能的大,即 1 2 变大;同时要求每一个总体内
的离差平方和最小,即
2 1
2 2
,则我们可以建立一个目标函数
(u) (1 2 )
2 1
2 2
(4.20)
这样,我们就将问题转化为,寻找 u 使得目标函数 (u) 达到
最大。从而可以构造出所要求的线性判别函数。
2、针对多个总体的情形
假设有 k 个总体 G1, G2 ,, Gk ,其均值和协方差矩阵分别为 μ i
数据挖掘——Fisher判别课件
组A
A A ( x11 , x12 ,, x1Ap ) A A A ( x 21 , x 22 ,, x 2 p ) A A ( x sA , x , , x ) 1 s 2 sp
组B
B B B ( x11 , x12 ,, x1 p ) B B B ( x , x , , x ) 21 22 2p B B ( x tB , x , , x ) 1 t 2 tp
9 8.29 7 8.29 10 8.29 A 8 8.29 9 8.29 8 8.29 7 8.29 8 6.43 7 6.00 6 6.43 6 6.00 7 6.43 8 6.00 4 6.43 5 6.00 9 6.43 3 6.00 6 6.43 7 6.00 5 6.43 6 6.00
x2
X X X
X X X X o o o X X
X X X X o o o o o o
?
o o o o o o o
若我们能找到分界直线 C0+c1x1+c2x2=0 则可用其进行预测。即判断(价格, 收入)点落在什么区域。
x1
判别分析的基本思想
假设有p个预测因子
x1, x2 ,, x p
,有n组观测值,
A B c x x 1 0.128 1 1 c S 1 x A x B 0.072 2 2 2 A B 0.099 c x x 3 3 3
判别分析公式Fisher线性判别二次判别
判别分析公式Fisher线性判别二次判别判别分析是一种常用的数据分析方法,用于根据已知的类别信息,将样本数据划分到不同的类别中。
Fisher线性判别和二次判别是两种常见的判别分析方法,在实际应用中具有广泛的应用价值。
一、Fisher线性判别Fisher线性判别是一种基于线性变换的判别分析方法,该方法通过寻找一个合适的投影方向,将样本数据投影到一条直线上,在保持类别间离散度最大和类别内离散度最小的原则下实现判别。
其判别函数的计算公式如下:Fisher(x) = W^T * x其中,Fisher(x)表示Fisher判别函数,W表示投影方向的权重向量,x表示样本数据。
具体来说,Fisher线性判别的步骤如下:1. 计算类别内离散度矩阵Sw和类别间离散度矩阵Sb;2. 计算Fisher准则函数J(W),即J(W) = W^T * Sb * W / (W^T * Sw * W);3. 求解Fisher准则函数的最大值对应的投影方向W;4. 将样本数据投影到求得的最优投影方向上。
二、二次判别二次判别是基于高斯分布的判别分析方法,将样本数据当作高斯分布的观测值,通过估计每个类别的均值向量和协方差矩阵,计算样本数据属于每个类别的概率,并根据概率大小进行判别。
二次判别的判别函数的计算公式如下:Quadratic(x) = log(P(Ck)) - 0.5 * (x - μk)^T * Σk^-1 * (x - μk)其中,Quadratic(x)表示二次判别函数,P(Ck)表示类别Ck的先验概率,x表示样本数据,μk表示类别Ck的均值向量,Σk表示类别Ck的协方差矩阵。
具体来说,二次判别的步骤如下:1. 估计每个类别的均值向量μk和协方差矩阵Σk;2. 计算每个类别的先验概率P(Ck);3. 计算判别函数Quadratic(x);4. 将样本数据划分到概率最大的类别中。
判别分析公式Fisher线性判别和二次判别是常见的判别分析方法,它们通过对样本数据的投影或概率计算,实现对样本数据的判别。
判别分析(2)费希尔判别
两总体的Fisher判别法 判别法 两总体的
其中, 其中,S 即
jl
= ∑ ( x Aij − x Aj )( x Ail − x Al ) + ∑ ( x Bij − x Bj )( x Bil − x Bl )
i =1 i =1
na
nb
F = ∑ ∑ c j c l s jl
j =1 l =1
Fisher判别 判别
内容:
1、建立判别准则; 2、建立判别函数 3、回代样本; 4、估计回代的错误率; 5、判别新的样本。
Fisher判别 判别
y 是线性函数, 由于 ( X ) 是线性函数,一般可将 y( X )表示为
(4.2) ) 对于线性函数 y( X ) ,它的几何表示就是空间中 的一条直线或平面,或超平面, 的一条直线或平面,或超平面,如果我们把两 B 看成空间的两个点集, 总体 A、 看成空间的两个点集,该平面所起的 B 分开, 作用就是尽可能将空间两个点集 A 、 分开,如 所示。 图4.1所示。 所示
Fisher判别 判别
Fisher判别 判别
Fisher判别 判别
费希尔判别的基本思想是投影(或降维)
Fisher方法是要找到一个(或一组)投 影轴w使得样本投影到该空间后能 在保证方差最小的情况下,将不同 类的样本很好的分开。并将度量类 别均值之间差别的量称为类间方差 (或类间散布矩阵);而度量这些均值 周围方差的量称为类内方差(或类内 散布矩阵)。Fisher判决的目标就是: 寻找一个或一组投影轴,能够在最 小化类内散布的同时最大化类间布。
两总体的Fisher判别法 判别法 两总体的
两总体的Fisher判别法 判别法 两总体的
max I = max ( ya − yb )
fisher判别函数
Fisher判别函数,也称为线性判别函数(Linear Discriminant Function),是一种经典的模式识别方法。
它通过将样本投影到一维或低维空间,将不同类别的样本尽可能地区分开来。
一、算法原理:Fisher判别函数基于以下两个假设:1.假设每个类别的样本都服从高斯分布;2.假设不同类别的样本具有相同的协方差矩阵。
Fisher判别函数的目标是找到一个投影方向,使得同一类别的样本在该方向上的投影尽可能紧密,而不同类别的样本在该方向上的投影尽可能分开。
算法步骤如下:(1)计算类内散度矩阵(Within-class Scatter Matrix)Sw,表示每个类别内样本之间的差异。
Sw = Σi=1 to N (Xi - Mi)(Xi - Mi)ᵀ,其中Xi 表示属于类别i 的样本集合,Mi 表示类别i 的样本均值。
(2)计算类间散度矩阵(Between-class Scatter Matrix)Sb,表示不同类别之间样本之间的差异。
Sb = Σi=1 to C Ni(Mi - M)(Mi - M)ᵀ,其中 C 表示类别总数,Ni 表示类别i 中的样本数量,M 表示所有样本的均值。
(3)计算总散度矩阵(Total Scatter Matrix)St,表示所有样本之间的差异。
St =Σi=1 to N (Xi - M)(Xi - M)ᵀ(4)计算投影方向向量w,使得投影后的样本能够最大程度地分开不同类别。
w= arg max(w) (wᵀSb w) / (wᵀSw w),其中w 表示投影方向向量。
(5)根据选择的投影方向向量w,对样本进行投影。
y = wᵀx,其中y 表示投影后的样本,x 表示原始样本。
(6)通过设置一个阈值或使用其他分类算法(如感知机、支持向量机等),将投影后的样本进行分类。
二、优点和局限性:Fisher判别函数具有以下优点:•考虑了类别内和类别间的差异,能够在低维空间中有效地区分不同类别的样本。
fisher判别法
1 实验1 Fisher 线性判别实验一、实验目的应用统计方法解决模式识别问题的困难之一是维数问题,在低维空间行得通的方法,在高维空间往往行不通。
因此,降低维数就成为解决实际问题的关键。
Fisher 的方法,实际上涉及维数压缩。
如果要把模式样本在高维的特征向量空间里投影到一条直线上,实际上就是把特征空间压缩到一维,这在数学上容易办到。
问题的关键是投影之后原来线性可分的样本可能变得混杂在一起而无法区分。
在一般情况下,总可以找到某个最好的方向,使样本投影到这个方向的直线上是最容易分得开的。
如何找到最好的直线方向,如何实现向最好方向投影的变换,是Fisher 法要解决的基本问题。
这个投影变换就是我们寻求的解向量*w本实验通过编制程序体会Fisher 线性判别的基本思路,理解线性判别的基本思想,掌握Fisher 线性判别问题的实质。
二、实验原理1.线性投影与Fisher 准则函数各类在d 维特征空间里的样本均值向量:∑∈=i k X x k i i x n M 1,2,1=i (4.5-2)通过变换w 映射到一维特征空间后,各类的平均值为:∑∈=i k Y y k i i y n m 1,2,1=i (4.5-3)映射后,各类样本“类内离散度”定义为:22()k i i k i y Y S y m ∈=-∑,2,1=i (4.5-4)显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。
因此,定义Fisher 准则函数:2122212||()F m m J w s s -=+ (4.5-5) 使F J 最大的解*w 就是最佳解向量,也就是Fisher 的线性判别式。
2.求解*w从)(w J F 的表达式可知,它并非w 的显函数,必须进一步变换。
2 已知:∑∈=i k Y y k ii y n m 1,2,1=i , 依次代入(4.5-1)和(4.5-2),有: i T X x k i T k X x T i i M w x n w x w n m i k i k ===∑∑∈∈)1(1,2,1=i (4.5-6) 所以:221221221||)(||||||||M M w M w M w m m T T T -=-=- w S w w M M M M w b T T T =--=))((2121 (4.5-7) 其中:T b M M M M S ))((2121--= (4.5-8) b S 是原d 维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大小,因此,b S 越大越容易区分。
fisher判别的决策面方程
fisher判别的决策面方程Fisher判别的决策面方程是一种常用的分类算法,在模式识别和机器学习领域有着广泛的应用。
它通过线性判别分析来寻找一个最优的超平面,将不同类别的样本点尽可能地分开。
本文将介绍Fisher 判别的决策面方程及其原理,以及在实际应用中的一些注意事项。
Fisher判别的决策面方程可以表示为:w^T * x + b = 0其中,w是一个n维的权重向量,x是一个n维的输入向量,b是一个常数。
决策面方程将输入向量映射到一个超平面上,根据超平面上的位置来判断输入向量属于哪个类别。
Fisher判别的原理是寻找一个投影矩阵W,通过将输入数据映射到一个低维的子空间中,使得同类样本点的投影尽可能的靠近,不同类样本点的投影尽可能的分开。
具体的步骤如下:1. 计算各个类别的均值向量:m1, m2, ..., mc。
其中c表示类别的个数,m表示均值向量。
2. 计算类内离散度矩阵Sw和类间离散度矩阵Sb。
类内离散度矩阵Sw表示类别内部的散布情况,计算公式为:Sw = Σ(xi - mi)(xi - mi)^T类间离散度矩阵Sb表示不同类别之间的散布情况,计算公式为:Sb = Σ(Ni)(mi - m)(mi - m)^T其中,xi表示第i个样本点,mi表示第i类样本的均值向量,N 表示每个类别的样本个数,m表示所有样本的总体均值向量。
3. 计算特征值和特征向量。
将Sw的逆矩阵与Sb相乘,得到矩阵M = Sw^(-1) * Sb。
计算矩阵M的特征值和特征向量,选择特征值最大的k个特征向量作为投影矩阵W。
4. 根据投影矩阵W,将输入向量x映射到低维的子空间中。
计算投影后的向量y = W^T * x,其中y是一个k维的向量。
5. 根据投影后的向量y,通过线性判别分析找到一个最优的超平面。
根据训练样本的类别信息,通过最小化类内离散度和最大化类间离散度的准则函数来确定超平面的权重向量w和常数b。
Fisher判别的决策面方程可以通过上述步骤得到,它能够有效地将不同类别的样本点分开,提高分类的准确性。
fisher判别式 -回复
fisher判别式-回复【Fisher判别式】一种经典的模式分类方法在机器学习领域,有很多用于模式分类的方法,其中之一就是Fisher判别式。
Fisher判别式是通过线性变换将样本投影到低维空间中,从而实现样本分类的一种方法。
本文将详细介绍Fisher判别式的原理和步骤,并解释该方法在实际应用中的意义。
一、Fisher判别式的原理Fisher判别式的思想是通过找到一个投影方向,使得在该方向上不同类别的样本具有最大的类间距离(即类别间的差异最大),同时最小化类内的方差(即类别内的相似性最小)。
通过这样的投影,我们可以将高维的数据映射到低维的空间中,从而方便进行分类。
具体而言,Fisher判别式考虑了两个指标:类间散度矩阵和类内散度矩阵。
类间散度矩阵衡量的是不同类别之间的差异,而类内散度矩阵则衡量的是同一类别内样本的相似程度。
通过最大化类间散度矩阵与最小化类内散度矩阵的比值,我们可以得到Fisher判别式。
二、Fisher判别式的步骤1. 数据预处理:首先,我们需要收集样本数据,确保该数据集包含了不同的类别。
在收集样本数据后,我们需要对其进行预处理,包括特征选择和数据标准化等操作,以确保数据符合Fisher判别式的前提条件。
2. 计算类内散度矩阵和类间散度矩阵:在第一步的基础上,我们需要计算类内散度矩阵和类间散度矩阵。
类内散度矩阵可以通过计算各类别样本的协方差矩阵并进行加权求和得到,而类间散度矩阵可以通过计算不同类别之间均值差的协方差矩阵得到。
3. 计算投影方向:接下来,我们需要计算投影方向。
这可以通过求解广义特征值问题来实现,其中需要同时考虑类内散度矩阵和类间散度矩阵。
通过求解该特征值问题,我们可以得到投影方向。
4. 数据投影和分类:最后,我们需要将原始数据投影到低维空间中,并进行分类预测。
对于新的样本数据,我们可以使用投影方向将其映射到低维空间,并使用训练得到的分类器对其进行分类。
三、Fisher判别式的应用意义Fisher判别式在实际应用中具有广泛的应用意义。
(模式识别)Fisher线性判别
Fisher 判别
各类样本均值
1
mi Ni yi y, i 1, 2
样本类内离散度和总类内离散度
Si ( y mi )2, i 1,2 yi
样本类间离散度
Sw S1 S2 Sb (m1 m2 )2
以上定义描述d维空间样本点到一向量投影的分 散情况,因此也就是对某向量w的投影在w上的 分布。样本离散度的定义与随机变量方差相类似
Sw1(m1 m2 )R
w*
R
Sw1(m1
m2 )
Sw1(m1 m2 )
10
8
判别函数的确定
Fisher 判别
前面讨论了使Fisher准则函数极大的d维向 量w*的计算方法,判别函数中的另一项w0 (阈值)可采用以下几种方法确定:
w0
m1
2
m2
w0
N1m1 N2m2 N1 N2
m
w0
m1
m2 2
lnP(1) / P( 1 y wT x w0 0 x 2
Fisher线性判别
线性判别函数y=g(x)=wTx:
• 样本向量x各分量的线性加权 • 样本向量x与权向量w的向量点积 • 如果|| w ||=1,则视作向量x在向量w上的投
影
Fisher准则的基本原理:找到一个最合适的 投影轴,使两类样本在该轴上投影之间的距 离尽可能远,而每一类样本的投影尽可能紧 凑,从而使分类效果为最佳。
Si (x mi )(x mi )T , i 1,2 xi
Sw S1 S2
样本类间离散度矩阵Sb:Sb (m1 m2 )(m1 m2 )T
离散矩阵在形式上与协方差矩阵很相似,但协方 差矩阵是一种期望值,而离散矩阵只是表示有限 个样本在空间分布的离散程度
Fisher判别
两类Fisher判别示意图
Y
G1
G2
L=b111 x1 l12 x 2 l1m x m y l x l x l x L1 1 L2 2 Lm m L
将原来m个变量综合成L个新变量
Fisher判别法
Fisher判别法(先进行投影)
• 所谓Fisher判别法,就是一种先投影的方法。 • 考虑只有两个(预测)变量的判别分析问题。 • 假定这里只有两类。数据中的每个观测值是二维空间的 一个点。见图(下一张幻灯片)。 • 这里只有两种已知类型的训练样本。其中一类有38个 点(用“o”表示),另一类有44个点(用“*”表示)。 按照原来的变量(横坐标和纵坐标),很难将这两种点 分开。 • 于是就寻找一个方向,也就是图上的虚线方向,沿着这 个方向朝和这个虚线垂直的一条直线进行投影会使得这 两类分得最清楚。可以看出,如果向其他方向投影,判 别效果不会比这个好。 • 有了投影之后,再用前面讲到的距离远近的方法来得到 判别准则。这种首先进行投影的判别方法就是Fisher判 别法。
判别分析中Fisher判别法的应用
1 绪 论1.1课题背景随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。
多元统计分析是近年来发展迅速的统计分析方法之一,应用于自然科学和社会各个领域,成为探索多元世界强有力的工具。
判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。
潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有某种疾病等等。
它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,使得利用判别准则对新的观测对象的类别进行判断时,出错的概率很小。
而Fisher 判别方法是多元统计分析中判别分析方法的常用方法之一,能在各领域得到应用。
通常用来判别某观测量是属于哪种类型。
在方法的具体实现上,采用国内广泛使用的统计软件SPSS(Statistical Product and Service Solutions ),它也是美国SPSS 公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一 1.2 Fisher 判别法的概述根据判别标准不同,可以分为距离判别、Fisher 判别、Bayes 判别法等。
Fisher 判别法是判别分析中的一种,其思想是投影,Fisher 判别的基本思路就是投影,针对P 维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x): ()j j x C x ∑=y然后应用这个线性函数把P 维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。
这个线性函数应该能够在把P 维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。
Fisher判别分析
机器学习笔记-----Fisher 判别式本文申明:本系列文章为本人原创,如有转载请注明文章原地址。
今天我们机器学习老师在说到周志华老师的《机器学习》这本书的时候,p60页讲到了LDA ,但是其中的公式推导省略了很多,现在我来补充一下。
一:LDA 的思想给定两个数据集一个是XX 一个是OO ,然后我们把XXOO 投影到一条直线上,但是啊,这个人是很坏的,人家XXOO 本来想分配到一起,但是你非要让人家两类离得越远越好,相同的呢离得越近越好,美其名:异性只是繁衍,同性才是真爱。
哎,你说这不是泯灭人性么,好吧,我们先不扯蛋了。
说正题:1.1首先我们定义m i ,它表示这个i 类样本d 维空间的均值。
也就是这个分别代表类xx 和oo 。
m i 表示如下。
1i x i m X n δ∈=∑那么我们既然知道了这个,我们是不是也要找一个投影到这条直线上的代表点啊,所以就有了:*11T T i i y i y i m y w X W m n n γγ∈∈===∑∑那么现在我们就可以知道两个分类之间的距离了:**1211||||||()||T m m W m m -=-从上述式子我们可以看出,改变直线的斜率,也就是方向,可以改变两者之间的大小。
刚刚我们说了我们的准则就是让类内之间的距离最小,这是不是有点像我们之前的指示函数,那么如下图公式:*2*2()i i y i s y m γ∈=-∑我们前面已经说过,这是一个二分类问题,现在已经给了一般形式的离散度(我们叫他离散度,其实就是真实值与预测值(这里用平方表示预测值)的平方),那我们是不是要把这个两个离散度相加,然后让这个达到最小?总得离散度为:*2*212all s s s =+为了让类内的距离越小,类间的距离越大,我给出下面的判别式。
你们看,能不能满足。
**211*2*211||||()m m J W s s -=+,现在只要让J(W)达到极大,是不是就可以让我们前面说的两个要求满足?那就让我们来求出J(W)的极大值。
fisher判别式
(4.5-14)
L 对 w 求偏导数:
L( w, ) 2( Sb w S w w) w
令
L( w, ) 0 得到: w
Sb w* S w w*
(4.5-15)
S w 是 d 维特征的样本协方差矩阵, 它是对称的和半正定的。 当样本数目 n 从上述推导(4.5-10)~(4.5-12)可知,
(4.5-6)
m2 |2 || wT M 1 wT M 2 ||2 || wT ( M 1 M 2 ) ||2
wT ( M 1 M 2 )( M 1 M 2 )T w wT Sb w
(4.5-7) (4.5-8)
其中: Sb
( M 1 M 2 )( M 1 M 2 )T
Mi
1 ni 1 ni
xk X i
x
k
,i
1,2
(4.5-2)
通过变换 w 映射到一维特征空间后,各类的平均值为:
mi
y k Yi
y
k
,i
1,2
(4.5-3)
映射后,各类样本“类内离散度”定义为:
Si2 ( yk mi )2 , i 1,2
yk Yi
1
(4.5-4)
*
1,2,...., n) 其中 n1 个样本来自 wi 类型, n2 个样本来自 w j 类
n1 n2 。两个类型的训练样本分别构成训练样本的子集 X 1 和 X 2 。
令:
yk wT xk , k 1,2,..., n
(4.5-1)
yk 是向量 xk 通过变换 w 得到的标量,它是一维的。实际上,对于给定的 w , yk 就是判决函数的值。
Fisher判别法
ii)计算判别临界值y0, 然后根据判别准则对 新样品判别分类。
假定所建立的判别函数为
组内离差阵 总体之间样本离差阵
这说明和C恰好是A、E矩阵的广义特征根
及其对应的特征向量,假设其正根的数目为m。
Fisher判别法 (canonical discriminant)
1、两总体Fisher判别法
两类Fisher判别示意图
YG1ຫໍສະໝຸດ G2L=b1X+b2Y
X
假设新建立的判别式为
y c1x1 c2 x2 ....... cp xp
将属于不同两总体的样品观测值带入判别式中去, 则得到
将上边两式分别左右相加,再除以相应的样品个 数,则有
结果来说没有影响。所以取 1 ,于是方程组变为:
有了判别函数之后,欲建立判别准则还要确定判别临界值, 在两总体先验概率相等的假设下,一般取临界值为 y (1) y (2)
的加权平均值即
y0
n1 y (1) n1
n2 y (2) n2
根据 y (1) y (2) 的大小确定判别准则。
两个正态总体等方差情况下的示意图形。
为了使判别函数能够很好的区别来自不同总体 的样品,希望判别式能够满足以下的条件:
综合以上两点,就是要求 越大越好。
由微积分求极值的必要条件(导数为0)可求出使 I 达到最大的值C1,C2…CP,由此就得到满足要求的 判别式。
是常数因子,不依赖于k,它对方程组的解只起到共同扩大
倍的作用,不影响C1,C2…,CP之间的相对比例关系。对判别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Fisher 线性判别式
前面讲过的感知器准则、最小平方和准则属于用神经网络的方法解决分类问题。
下面介绍一种新的判决函数分类方法。
由于线性判别函数易于分析,关于这方面的研究工作特别多。
历史上,这一工作是从R.A.Fisher 的经典论文(1936年)开始的。
我们知道,在用统计方法进行模式识别时,许多问题涉及到维数,在低维空间行得通的方法,在高维空间往往行不通。
因此,降低维数就成为解决实际问题的关键。
Fisher 的方法,实际上涉及维数压缩。
如果要把模式样本在高(d )维的特征向量空间里投影到一条直线上,实际上就是把特征空间压缩到一维,这在数学上容易办到。
另外,即使样本在高维空间里聚集成容易分开的群类,把它们投影到一条任意的直线上,也可能把不同的样本混杂在一起而变得无法区分。
也就是说,直线的方向选择很重要。
在一般情况下,总可以找到某个最好的方向,使样本投影到这个方向的直线上是最容易分得开的。
如何找到最好的直线方向,如何实现向最好方向投影的变换,是Fisher 法要解决的基本问题。
这个投影变换就是我们寻求的解向量*
w 。
1.线性投影与Fisher 准则函数
在21/w w 两类问题中,假定有n 个训练样本),....,2,1(n k x k =其中1n 个样本来自i w 类型,2n 个样本来自j w 类型,21n n n +=。
两个类型的训练样本分别构成训练样本的子集1X 和2X 。
令:k T
k x w y =,n k ,...,2,1= (4.5-1)
k y 是向量k x 通过变换w 得到的标量,它是一维的。
实际上,对于给定的w ,k y 就是判决函数的值。
由子集1X 和2X 的样本映射后的两个子集为1Y 和2Y 。
因为我们关心的是w 的方向,可以令1||||=w ,那么k y 就是k x 在w 方向上的投影。
使1Y 和2Y 最容易区分开的w 方向正是区分超平面的法线方向。
如下图:
图中画出了直线的两种选择,图(a)中,1Y 和2Y 还无法分开,而图(b)的选择可以使1Y 和2Y 区分开来。
所以图(b)的方向是一个好的选择。
下面讨论怎样得到最佳w 方向的解析式。
各类在d 维特征空间里的样本均值向量:
∑∈=
i
k X x k
i
i x
n M 1,2,1=i (4.5-2)
通过变换w 映射到一维特征空间后,各类的平均值为:
∑∈=
i
k Y y k
i
i y
n m 1,2,1=i (4.5-3)
映射后,各类样本“类内离散度”定义为:
2
2
()
k i
i k i y Y S y m ∈=
-∑
,2,1=i (4.5-4)
显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。
因此,定义Fisher
准则函数:
2
122
2
12
||()F m m J w s s -=
+ (4.5-5)
使F J 最大的解*
w 就是最佳解向量,也就是Fisher 的线性判别式。
2.求解*
w
从)(w J F 的表达式可知,它并非w 的显函数,必须进一步变换。
已知:∑∈=
i
k Y y k
i i y
n m 1,2,1=i , 依次代入(4.5-1)和(4.5-2),有:
i T
X x k i
T
k X x T i
i M w x n w x w n m i k i
k ===
∑
∑
∈∈)1(
1,2,1=i (4.5-6)
所以:2
212
2
12
21||)(||||||||M M w M
w M w m m T
T
T
-=-=-
w S w w M M M M w b T
T
T
=--=))((2121 (4.5-7) 其中:T
b M M M M S ))((2121--= (4.5-8)
b S 是原d 维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大小,因此,b S 越大越容易区分。
将(4.5-6)i T
i M w m =和(4.5-2)∑∈=
i
k X x k
i
i x
n M 1代入(4.5-4)2
i S 式中:
∑∈-=
i k X x i T k T
i M w x w
S 2
2
)(
∑∈⋅--⋅
=i
k X x T
i k i k
T
w M x M x
w ))((
w S w i T
= (4.5-9)
其中:T
i X x k i k
i M x M x
S i
k ))((--=
∑=,2,1=i (4.5-10)
因此:w S w w S S w S S w T
T
=+=+)(212
22
1 (4.5-11) 显然:21S S S w += (4.5-12)
i S 称为原d 维特征空间里,样本“类内离散度”矩阵。
w S 是样本“类内总离散度”矩阵。
为了便于分类,显然i S 越小越好,也就是w S 越小越好。
将上述的所有推导结果代入)(w J F 表达式:
w J w T
b T
F =
)( —— 广义Rayleigh 商 (4.5-13)
式中b S 和w S 皆可由样本集X 计算出。
用lagrange 乘子法求解)(w J F 的极大值点。
令分母等于非零常数,也就是:0≠==c w S w c w T。
定义lagrange 函数:
)(),(c w S w w S w w L w T
b T --=λλ (4.5-14)
L 对w 求偏导数:
)(2),(w S w S w
w L w b λλ-=∂∂
令
0),(=∂∂w
w L λ得到:
*
*w S w S w b λ= (4.5-15)
从上述推导(4.5-10)~(4.5-12)可知,w S 是d 维特征的样本协方差矩阵,它是对称的和半正定的。
当样本数目d n >时,w S 是非奇异的,也就是可求逆。
则:*
1
*
w S S w b w
-=λ (4.5-16)
问题转化为求一般矩阵b w
S S 1
-的特征值和特征向量。
令A S S b w
=-1
,则λ是A 的特征根,*
w 是A 的特征向量。
*
2121*
}))({(w M M M M w S T
b --=
})){((*
2121w M M M M T
--=
γ⋅-=)(21M M (4.5-17)
式中:
*
21)(w M M T -=γ
是一个标量。
所以*
w S b 总是在)(21M M -方向上。
将(4.5-17)代入到(4.5-15),可以得到:
)(211
*
M M S w w
-=
-λ
γ
其中,
λ
γ是一个比例因子,不影响*
w 的方向,可以删除,从而得到最后解:
)(211
*
M M S w w
-=- (4.5-18)
*
w 就使)(w J F 取得最大值,*
w 可使样本由d 维空间向一维空间映射,其投影方向最好。
)
(211
*
M M S w w
-=-是一个Fisher 线性判断式。
讨论:
如果21M M =,0*
=w ,则样本线性不可分。
21M M ≠,未必线性可分。
w S 不可逆,未必不可分。
3.Fisher 算法步骤
由Fisher 线性判别式)(211
*
M M S w w
-=-求解向量*
w 的步骤:
① 把来自两类21/w w 的训练样本集X 分成1w 和2w 两个子集1X 和2X 。
② 由∑∈=
i
k X x k
i
i x
n M 1,2,1=i ,计算i M 。
③ 由T
i X x k i k
i M x M x
S i
k ))((--=
∑=计算各类的类内离散度矩阵i S ,2,1=i 。
④ 计算类内总离散度矩阵21S S S w +=。
⑤ 计算w S 的逆矩阵1
-w S 。
⑥ 由)(211
*
M M S w w
-=-求解*
w 。
这一节所研究的问题针对确定性模式分类器的训练,实际上,Fisher 的线性判别式对于随机模式也是适用的。
Fisher 算法注释:
(1)Fisher 方法可直接求解权向量*
w ;
(2)对线性不可分的情况,Fisher 方法无法确定分类,Fisher 可以进一步推广到多类问题中去。