ch41线性判别函数

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

几个基本参量(2)
一维Y空间
➢各类样本均值 m%
i
:m%i
1 Ni
yiYi
y,i 1,2

样本类内离散度矩阵 S %
2 i
和总离散度矩阵
S% w
S% i2 (ym % i)2,i1,2; yYi
S%w S%12 S%22;
Fisher 准则函数
希望投影变换之后,在一维Y空间内,各类样
本尽可能的分得开,即两类均值之差越大越好;
线性分类器的设计步骤
设计线性分类器,就是利用训练集建立 线性判别函数式d(x)=wT x+b,或是广义 线性判别函数式。函数式中只含有两个 未知的量,即权向量和惩罚项常数(阈 值)。所以说线性分类器的设计过程, 实质上就是寻找最优的权向量以及阈值 常数。 其步骤如下:
设计步骤:
1. 已知一组具有类别标记的样本集,训练
设有c个类别的模式识别问题(分类问题), X{x1,L,xN}为训练集,每一类 i 中含有N i 个样本。 因此定,义决:策规d i(则x)为 :m k in||xxik||,k 1 ,L,N i 若 则,决d策j(x)x m iin j di(x),i1 ,L,c
最近邻的改进之一
设有ቤተ መጻሕፍቲ ባይዱ类已知类别的样本(模式),从每一 类中选择一个标准样本,例如样本均值:
同时各类样本内部尽量密集,即类内离散度越小
越好。
定义函数:
JF(w)
(m%1 m%2)2 S%12 S%22
(4.23)
要使得该函数值尽可能的大,就是说使得其分母 尽可能的小,同时使得其分子尽可能的大。
分析(4.23)
由于 m % iN 1 iy Y iyN 1 iy Y iw Tx w T(N 1 iy Y ix) w T m i
别属于两个集合Y1和 Y 2 。
几个基本参量(1)
d-维空间中
➢各类样本均值向量 m i :
1 mi Ni xXi x, i 1,2
➢ 样本类内离散度矩阵 S
为:
w
和总的类内离散度矩阵
S
i
Si (xmi)(xmi)T xXi
Sw S1S2
➢ 样本类间离散度矩阵
Sb(m 1m 2)(m 1m 2)T
上式中的 为Lagrange乘子。
将上式对w求偏导,并令其为零,得
wL SbwSww
Sbw*Sww*0
Sbw*Sww*
求极值
w * 是J F ( w ) 的极值解。由于 S w 是一个非奇异矩阵,所以
有: SwSbw*w*
而 Sbw *(m 2m 2)(m 2m 2)Tw *(m 2m 2)R
R(m 2m 2)Tw *
广义的线性判别函数
问题:若给定一个一维的模式空间,希望 的划分是 xa 或 x b ,则 x 1 ;
若axb ,则 x 2
a
b
解决的方法
a
b
解决的办法
通过对上图的分析,可以建立下面的一个 二次判别函数:d(x)(xa)(xb)
决策规则为:
若d(x) 0, 则决策 x1;
若d(x) 0, 则决策 x2
进一步的,有
w * S w 1 S b w * S w 1 (m 2 m 2 )R
故,w*RSw1(m1m2) 而我们所要求的是w的方向,故 w*Sw 1(m1m2) 实际上,这是一个由d维空间到一维空间的一个映射。
Fisher线性判别规则
上面的工作:把d维空间中的向量映射到一 维空间;因此d维空间中的分类问题便转 化为一维空间中的分类问题。
集 {x1,x2,L,xN};
2. 根据实际问题确定一个准则函数,使得
该函数的值能够反映分类器的性能;
3. 利用最优化技术,求出准则函数中最优 的w * 和 b * ;它们所对应的极值解即
为最优的分类决策。
4.2 Fisher 线性判别方法
在传统的模式识别方法中,降维技术是 被广泛研究的,这也是一个非常有效的 方法,至今一直被研究者所重视。 传统的降维方法包括:Fisher线性判别方 法,SOM方法等。 但是,在利用降维方法处理模式识别问 题时,经常遇到一些无法克服的问题, 例如,……。
这是由于在该超平面上任取两点,x 1 , x 2 则
有 wTx1bwTx2b
因此,有 wT(x1x2)0 上式说明:向量w超平面是正交的。
关于线性判别函数的说明(2)
d(x) 0
1 w
d(x) 0
d(x) 0
2
关于线性判别函数的说明(3)
w
x
xp
R2 : d (x) 0
R1 : d ( x ) 0
d(x) 0
关于线性判别函数的说明(4)
可以把 x 表示为如下的形式:
x
xp
x
||
w w
||
d 因(x 此) ,w T x b w T (x p r ||w w ||) b w T x p b r |w |w T w || r ||w ||
当 x 为坐标原点时,
d(x) b
若 b 0 ,则原点在超平面的正侧,若 b 0 原点在超平面的负侧。
4.1.1 线性判别函数的基本概念
线性判别函数的一般形式为:
d(x)wTxb
(4.1)
其中 x 是一个d维特征向量(模式向量),b是一
个常数,称为阈值。
x(x1,x2,L,xd)T w(w1,w2,L,wd)T
注意:上式中所涉及到的运算包括:
线性判别规则
对于2-类分类问题,设
d(x)wTxb
如果,设 d(x)d1(x)d2(x)
现在的问题是求出一个适当的阈值b。 实际上,只要确定一个 y 0 (将其视为阈值),
将投影点 y n 与 y 0 进行比较,即可做出决 策。
Fisher线性判别规则
(1)当维数d以及样本数N都很大时,可采用 Bayes分类决策规则。
(2)可以利用先验知识,选择阈值点 y 0 ,例
如:
y(1) 0
m%1 m%2 2
分析(4.23)
将上述结果代入(4.23),可以得到:
JF (w)
wT Sb w wT Sww
(4.27)
下面求使得上式取得极大值时的条件.利用 Lagrange乘子法求解。令其分母为一常 数c,即
c wT Sww
求极值
引入Lagrange函数如下:
L (w ,) w T S b w (w T S b w c )(4.28)
故(4.23)之分子便成为:
(m % 1m % 2)2(wTm1wTm2)2 wT(m1m2)(m1m2)wTSbw
分析(4.23)
(4.23)之分母:
S% i2 (ym%i)2 (wTxwTmi)2
yYi
xXi
wT[ (xmi)(xmi)T]wwTSiw yYi
因此,
S % 1 2S % 2 2w T(S1S2)w
Fisher线性判别函数的推广
问题:如何将2-类分类的情形推广至多类 分类情形?
4.3 基于距离的分类决策-近邻法简介
最近邻决策规则 最近邻的改进之一 k-近邻
近邻法
基本思想:
对于未知样本(输入模式、数据)x ,比较该 样本与所有已知样本之间的距离,并决策 x
与离它最近的样本同属一类。
最近邻(nearest neighbor)决策规则
m1,L ,mc
定义: d i(x ) ||x m i||2 ,i 1 ,2 ,L ,c 按照最小距离分类原则,决策规则为: 若 d i(x)dj(x),i 1 ,L,c,ji 则 xi
决策规则的简化
可以将上面的决策规则进行化简:
di(x)(xmi)(xmi)T xTx2miTxmiTmi
可以进一步的简化为: di(x)miTx12miTmi 因此决策规则可以表示为:
中含有 N c 个样本。 x的k个近邻分别含有来自 于1,L ,c 类的样本 k1,L , kc 个样本。 且有:
N1 L N2 N
k1 L kc k
k-近邻法判别规则
定义:判别函数为
di(x)ki,i1 ,2,L,c
决策规则:
若 dj(x)m a ixdi(x)m a ixki
则,决策 x j
当 d (x) 0 则,判决 x 属于第一类,即 x 1
当 d(x) 0 则,判决 x 属于第二类,即 x 2
当 d ( x)=0 则,判决 x 属于任一类,或拒绝
关于线性判别函数的说明(1)
方程 d(x) 0定义了空间中的一个超平面, 一般将其称为分类决策超平面。
其中向量w是该超平面的法向量。
y(2) 0
N1m%1 N2m%2 N1 N2
y0 (3)m % 1 2m % 2ln(P N ( 11 )N /ln 2 P 2 (1))
Fisher线性判别规则
对于任意给定的未知样本 x ,首先计算w *,然后
计算其投影点:
决策规则为: y w *T x
y y 0 时,有 x 1
y y1 时,有 x 2
d i(x)dj(x),i 1 ,L,c,ji
xi
决策函数的简化
若定义: di(x)||xmi ||
决策规则将如何?
k-近邻
基本思想是:观察未知样本x的k个最近邻,若
这k个近邻中的多数样本向量属于某一类,则就 把x判属这一类。
也就是说,在含有N个样本训练集中,找出x的k
个近邻。设 1 类中含有 N 1 个样本,…, c 类
Fisher 线性判别方法的基本思想
w1
w2
Fisher线性分类器的工作原理
设训练集为 X{x1,x2,L,xN},对于2类分类问题,其中属于 1 类的模式记为 子集 X 1 ,它含有 N 1 个样本,属于 2 类 的模式记为 X 2 ,它含有 N 2 个样本。
令 yn wT xn
这样便得到了N个一维样本 y n ,并且分
判别函数的规范化
上述的二次判别函数写成如下的一般形式,
便有
d(x)c0c1xc2x2
选择(构造)一个适当的变换,便可以把二
次判别函数变换为一次的:
1
d(x)aTy(a1,a2,a3)x 3 aiyi x2 i1
其中 1
y
x
x 2
c0
a
c
1
c 2
经过变换 d(x) aT y 后,得到一个形式上 类似于线性函数的判别函数。这种方法 称为广义的线性判别函数。
第四章线性判别函数
4.1 引言 4.2 Fisher线性判别函数 4.3 感知器准则函数 4.4 最小平方(MSE)误差准则 4.5 最小错分样本数准则 4.6 线性支持向量机
4.1 引言
Bayes 决策规则尽管是最优的,但是实 现困难。原因就是要求已知类条件概率 密度 p(x | i ) 和先验概率 P ( i ) 。 模式识别的最终任务是分类,可以直接 设计分类函数——分类器函数。 最简单的分类函数是分类超平面。 (2-维的情形,为一条直线,3-维的情形为 一个平面,高维的情形即为超平面)
相关文档
最新文档