第三章 线性判别分析_非参数判别分类方法-第二次课
《多元统计分析》第三章 判别分析
v (1) 回代法
Ø 令n(2|1)——样本中来自π1而误判为π2的个数,n(1|2)——样本中来自π2
而误判为π1的个数,则P(2|1) 和P(1|2) 可估计为
Pˆ
2
| 1
n
2
| 1
,
Pˆ 1 | 2 n 1 | 2
n1
n2
Ø 该方法简单、直观,且易于计算。但它给出的估计值通常偏低,当样
目标2(描述方面):分离。 就是用图形(通常二维,有时三维或一维,一般 通过降维实现)方法或代数方法描述来自各组的 样品之间的差异性,最大限度地分离各组。
判别分类方法: 距离判别、贝叶斯 (Bayes)判别和 费希尔(Fisher) 判别等。
判别分离方法: 费希尔判别(它 更多地是用于分 离)。
1
x x
1 2
, ,
若d 2 x,1 d 2 x, 2 若d 2 x,1 d 2 x, 2
Σ1=Σ2=Σ时的判别
v省略的 步骤见 书中第 115页。
d 2 x,1 d 2 x,2 x μ1 Σ 1 x μ1 x μ2 Σ 1 x μ2
Ø 令n*(2|1)——样本中来自π1而误判为π2的个数,n*(1|2)——样本中来自
π2而误判为π1的个数,则两个误判概率P(2|1)和P(1|2)的估计量为
Pˆ 2 |1 n* 2 |1 , Pˆ 1 | 2 n* 1 | 2
n1
n2
v 以上所述误判概率的这三种非参数估计方法同样适用于其它的判别方
v μi可估计为
xi
1 ni
ni
xij
第三章 线性与非线性判别函数ppt课件
正法
a(k1)a(k)rk(bka(k)Tyk)yk
编辑版pppt
27
MSE方法的例解
MSE 准则
例3.1:已知两类的训练样本:1: (0,0)T; (0,1)T,2: (1,0)T; (1,1)T
,试用最小均方误差算法求解向量 w *
0 0 1
解:训练样本的增广矩阵:
x
0
1
1
1 0 1
1
• 例:设计一个一维分类器,使其功能为:
如 果 xbb或 xxaa
则 决 策 x1 则 决 策 x2
判 别 函 数 : g (x ) (x a ) (x b )
二次函数的一般形式:
g(x)c0c1xc2x2
编辑版pppt
11
广义线性判别函数(2)
引言
二次函数的一般pppt
14
线性分类器设计步骤
引言
线性分类器设计任务:给定样本集K,确定线性 判别函数g(x)=wTx的各项系数w。步骤:
1. 收集一组样本K={x1,x2,…,xN} 2. 按需要确定一准则函数J(K,w),其值反映分类器的性
能,其极值解对应于“最好”决策。 3. 用最优化技术求准则函数J的极值解w*,从而确定判
N /N 1
...
b
N
N
/N 1
/
N
2
...
N
/N
2
N1个
N2个
MSE解等价于Fisher解
编辑版pppt
25
MSE方法与Bayes方法的关系
MSE 准则
当N→∞,b=uN= [1,1, …, 1]T 时,则它以 最小均方误差逼近Bayes判别函数:
g (x ) P (1|x ) P (2|x )
第三章线性判别分析非参数判别分类方法-第二次课
第3章 线性判别分析
(2) r g(x) w
g(x)是x到超平面距离的一种代数距离。
当x=0时, g(x)=w0,
若w0>0, 则原点在超平面的正侧; 若w0<0, 则原点在超平面的负侧; 若w0=0, 则超平面通过原点。
r0
w0 w
第3章 线性判别分析
结论: 对于两类情形, 利用线性函数进行分类, 实质上 就是用一个超平面H把Rd分成两个决策区域; H的方向由权向量w确定, 它的位置由阈值权w0 确定; 判别函数g(x)正比于x点到H的代数距离; 当x在H的正侧时, g(x)>0; 在负侧时, g(x)<0。
Cm2
1 2
m(m
1)
第3章 线性判别分析
Hij的方程为
gij (x) wTij x w0ij
g ji (x) gij (x)
其中, i<j, i, j=1, 2, …, m。
gij(x)判决准则为:
gij
(x)
0 0
x i (i, j 1, 2, , m) xj
对于3类问题, 可用3个超平面: g12(x)=0, g13(x)=0和g23(x)=0 把ω1、 ω2、 ω3
g(x) w0 wi xi vT y
i 1
第3章 线性判别分析
3.1.3
g(x) wT x w0
➢设计线性分类器, 是指所用的判别函数、分界面方程的类型 已选定为线性类型, 主要的设计任务是确定线性方程的两个参 数, 一个是权向量w, 另一个是阈值w0。 ➢使所设计的线性分类器在性能上要满足一定的要求, 这种要 求通过一种准则来体现, 并且要表示成一种准则函数, 以便能 通过将准则函数值优化的方法确定w和w0。
线性判别分析(LinearDiscriminantAnalysis,LDA)
线性判别分析(LinearDiscriminantAnalysis,LDA)⼀、LDA的基本思想线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引⼊模式识别和⼈⼯智能领域的。
线性鉴别分析的基本思想是将⾼维的模式样本投影到最佳鉴别⽮量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的⼦空间有最⼤的类间距离和最⼩的类内距离,即模式在该空间中有最佳的可分离性。
如下图所⽰,根据肤⾊和⿐⼦⾼低将⼈分为⽩⼈和⿊⼈,样本中⽩⼈的⿐⼦⾼低和⽪肤颜⾊主要集中A组区域,⿊⼈的⿐⼦⾼低和⽪肤颜⾊主要集中在B组区域,很显然A组合B组在空间上明显分离的,将A组和B组上的点都投影到直线L上,分别落在直线L的不同区域,这样就线性的将⿊⼈和⽩⼈分开了。
⼀旦有未知样本需要区分,只需将⽪肤颜⾊和⿐⼦⾼低代⼊直线L的⽅程,即可判断出未知样本的所属的分类。
因此,LDA的关键步骤是选择合适的投影⽅向,即建⽴合适的线性判别函数(⾮线性不是本⽂的重点)。
⼆、LDA的计算过程1、代数表⽰的计算过程设已知两个总体A和B,在A、B两总体分别提出m个特征,然后从A、B两总体中分别抽取出、个样本,得到A、B两总体的样本数据如下:和假设存在这样的线性函数(投影平⾯),可以将A、B两类样本投影到该平⾯上,使得A、B两样本在该直线上的投影满⾜以下两点:(1)两类样本的中⼼距离最远;(2)同⼀样本内的所有投影距离最近。
我们将该线性函数表达如下:将A总体的第个样本点投影到平⾯上得到投影点,即A总体的样本在平⾯投影的重⼼为其中同理可以得到B在平⾯上的投影点以及B总体样本在平⾯投影的重⼼为其中按照Fisher的思想,不同总体A、B的投影点应尽量分开,⽤数学表达式表⽰为,⽽同⼀总体的投影点的距离应尽可能的⼩,⽤数学表达式表⽰为,,合并得到求从⽽使得得到最⼤值,分别对进⾏求导即可,详细步骤不表。
第三章 线性判别分析_非参数判别分类方法-第四次课
Ri Ri1 Ri2 Rili
其中,
Ri j1 Ri j2 , j1 j2 。
用mli表示Rli中的均值向量, 并以此作为该子区的代表 点, 确定判别函数: 则判决准则为 若 g j ( x) min gi ( x) , 则x∈ωj
i1,2,,m
gi ( x) min x mli
Fisher 线性判决的基本思想
是寻找一个最好的投影方向 ,
当特征向量x从d维空间映射到
这个方向上时 , 两类能最好地 分开。
这个方法实际上涉及特征维
数的压缩问题。
第3章 线性判别分析
分析 w1 方向之所以比 w2 方向优 越, 可以归纳出这样一个准则:即向 量 w 的方向选择应能使两类样本投 影的均值之差尽可能大些, 而使类内 样本的离散程度尽可能小。这就是 Fisher准则函数的基本思路。
,则vTzi>0。
经过这样的变换后, 我们可以不考虑样本原来的类别标 志, 只要找到一个对全部样本zi都满足vTzi>0(i=1, 2, …, N)的
权向量即可。
第3章 线性判别分析 3. 解向量和解区
满足vTzi>0(i=1, 2, …, N)的
权向量称为解向量。 若把 v 看成是权向量空间中 的一点, 对于任一zi, vTzi=0在权向 量空间确定了一个超平面 , 这个 超平面把权空间分为两个半空间 , 该超平面的法向量为 zi , 超平面
在这种情况下,可以将各类 别划分成相对密集的子类, 每个子类以它们的均值作为 代表点,然后按最小距离分 类,可以有比较满意的效果。
对样本进 行子类的合适划 分是分段线性距离分类器性 能好坏的一个关键问题。 分段线性距离分类器示意图
第三章 线性与非线性判别函数
wT (11)x21 = (− 2 0 1)(− 1 0 − 1) = 1 > 0 ∴ w(12 ) = w(11) = (− 2 0 1)
T T T
w (12)x22 = (− 2 0 1)(− 1 − 1 − 1) = 1 > 0 ∴ w(13) = w(12 ) = (− 2 0 1)
T
权向量有修正,需进行第四轮迭代
感知器准则函数
例3.2解答(续)
wT (13)x11 = (− 2 0 1)(0 0 1) = 1 > 0 第四轮迭代:
T
∴ w(14 ) = w(13) = (− 2 0 1)
T
T T
w (14 )x12 = (− 2 0 1)(0 1 1) = 1 > 0 ∴ w(15) = w(14 ) = (− 2 0 1)
例3.1
有两类样本
ω1 : (0 0 0 ) , (1 0 1) , (1 0 0) , (1 1 0)
T T T
ω2
{ ( : {0
0 1) , (0 1 1) , (0 1 0 ) , (1 1
T T T
} 1) }
T T
试用Fisher准则降维分类。
Fisher线性判别
例3.1解答
由于原始样本为3维,采用Fisher准则降到 − ω * = sω1 (m1 − m2 ) 一维,知:投影方向为 时,投影后的一维样本最易分类。所以, 先求 ω * ,再投影分类。
Fisher线性判别
例3.1解答(续)
(2)求 yk = w*T xk y11 = (1 − 1 − 1)(0 0 0 ) = 0
T
y12 = (1 − 1 − 1)(1 0 1) = 0
非参数判别分类方法
2014-5-16
六、感知准则函数方法
这种方法提倡用错分类提供的信息修正错误,这种 思想对机器学习的发展以及人工神经元网络的发生 发展产生深远影响。
七、近邻法
近邻法训练样本数量较多时,从逐渐错误率角度看, 其错误率比较小,是经常使用的模式识别分类方法, 比较适合在多类别情况下使用。当每类的样本数很 多时,存储量与计算量要求都偏高,使用剪辑近邻 法与压缩近邻法,特别是压缩近邻法可大量减少训 练样本的数量。
支持向量机利用特征映射的思想
W * ai* yi xi
* 其中, ai , i 1,2,...,n
(3-104)
i
是以下式子求极大值的解 1 (3-105) LD ai ai a j yi y j xi .x j
i
计算上式的极大值只用到训练样本数据间的点积 <xi.xj>,而使用的分类器判别函数中权向量的作用也 是通过权向量与样本的点积体现出来的,而从(3104)式子中可以看出,权向量是训练样本中的支持 向量的线性组合,因此WTX 值的计算可以写成
核函数型式的函数 k ( x, xi ) exp(
| x xi |2
2
)
(3-112)
(3-113)
S行函数,如
k ( x, xi ) tanh( v xi x c)
2014-5-16
本章小结
一、参数判别分类方法与非参数判别分类方法的区别
参数判别方法:它的提前是对特征空间中的各类样 本的分布清楚,因此一旦要测试分类样本的特征向量值X 已知,就可以确定X对各类的后验概率,也就是可按相应 的准则计算与分类,所以判别函数等的确定取决于样本 统计分布的有关知识。
判别分析公式Fisher线性判别二次判别
判别分析公式Fisher线性判别二次判别判别分析是一种常用的数据分析方法,用于根据已知的类别信息,将样本数据划分到不同的类别中。
Fisher线性判别和二次判别是两种常见的判别分析方法,在实际应用中具有广泛的应用价值。
一、Fisher线性判别Fisher线性判别是一种基于线性变换的判别分析方法,该方法通过寻找一个合适的投影方向,将样本数据投影到一条直线上,在保持类别间离散度最大和类别内离散度最小的原则下实现判别。
其判别函数的计算公式如下:Fisher(x) = W^T * x其中,Fisher(x)表示Fisher判别函数,W表示投影方向的权重向量,x表示样本数据。
具体来说,Fisher线性判别的步骤如下:1. 计算类别内离散度矩阵Sw和类别间离散度矩阵Sb;2. 计算Fisher准则函数J(W),即J(W) = W^T * Sb * W / (W^T * Sw * W);3. 求解Fisher准则函数的最大值对应的投影方向W;4. 将样本数据投影到求得的最优投影方向上。
二、二次判别二次判别是基于高斯分布的判别分析方法,将样本数据当作高斯分布的观测值,通过估计每个类别的均值向量和协方差矩阵,计算样本数据属于每个类别的概率,并根据概率大小进行判别。
二次判别的判别函数的计算公式如下:Quadratic(x) = log(P(Ck)) - 0.5 * (x - μk)^T * Σk^-1 * (x - μk)其中,Quadratic(x)表示二次判别函数,P(Ck)表示类别Ck的先验概率,x表示样本数据,μk表示类别Ck的均值向量,Σk表示类别Ck的协方差矩阵。
具体来说,二次判别的步骤如下:1. 估计每个类别的均值向量μk和协方差矩阵Σk;2. 计算每个类别的先验概率P(Ck);3. 计算判别函数Quadratic(x);4. 将样本数据划分到概率最大的类别中。
判别分析公式Fisher线性判别和二次判别是常见的判别分析方法,它们通过对样本数据的投影或概率计算,实现对样本数据的判别。
线性判别分析(Linear Discriminant Analysis)
1. 问题之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。
回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。
我们可以使用PCA 来降维,但PCA没有将类别标签考虑进去,属于无监督的。
比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。
但假设我们的类别标签y是判断这篇文章的topic是不是有关学习方面的。
那么这两个特征对y几乎没什么影响,完全可以去除。
再举一个例子,假设我们对一张100*100像素的图片做人脸识别,每个像素是一个特征,那么会有10000个特征,而对应的类别标签y仅仅是0/1值,1代表是人脸。
这么多特征不仅训练复杂,而且不必要特征对结果会带来不可预知的影响,但我们想得到降维后的一些最佳特征(与y关系最密切的),怎么办呢?2. 线性判别分析(二类情况)回顾我们之前的logistic回归方法,给定m个n维特征的训练样例(i从1到m),每个对应一个类标签。
我们就是要学习出参数,使得(g 是sigmoid函数)。
现在只考虑二值分类情况,也就是y=1或者y=0。
为了方便表示,我们先换符号重新定义问题,给定特征为d维的N个样例,,其中有个样例属于类别,另外个样例属于类别。
现在我们觉得原始特征数太多,想将d维特征降到只有一维,而又要保证类别能够“清晰”地反映在低维数据上,也就是这一维就能决定每个样例的类别。
我们将这个最佳的向量称为w(d维),那么样例x(d维)到w上的投影可以用下式来计算这里得到的y值不是0/1值,而是x投影到直线上的点到原点的距离。
当x是二维的,我们就是要找一条直线(方向为w)来做投影,然后寻找最能使样本点分离的直线。
如下图:从直观上来看,右图比较好,可以很好地将不同类别的样本点分离。
接下来我们从定量的角度来找到这个最佳的w。
首先我们寻找每类样例的均值(中心点),这里i只有两个由于x到w投影后的样本点均值为由此可知,投影后的的均值也就是样本中心点的投影。
03第三章非参数判别分类方法31-32 共33页
• 基本思想:g(X)不再是x的线性函数,而是一个二次函数, 此时通过选择一种映射X→Y,即将原样本特征向量X映射成 另一向量Y,从而把二次函数转换成线性函数。
g(x)(xa)x (b)
g(x)c0c1xc2x2
10.07.2019
中国矿业大学 计算机科学与技术学院
(31)15
g(x)W*TXw0 *
g(x)a*TY
10.07.2019
中国矿业大学 计算机科学与技术学院
(31)21
第三章 非参数判别分类方法
3.2 Fisher线性判别
Fisher线性判别函数是研究线性判别函数中最有影响的方 法之一。对线性判别函数的研究就是从R.A.Fisher在1936 年发表的论文开始的。
• 用近邻法进行分类。
• 通过相应数学工具的运用进一步提高运用数学的本领。
10.07.2019
中国矿业大学 计算机科学与技术学院
(31)4
第三章 非参数判别分类方法
本章重点
1、非参数判别分类器的基本原理,与参数判别分类方法的 比较。
2、线性分类器的三种典型方法——以Fisher准则为代表的 传统模式识别方法,以感知准则函数为代表的机器自学 习方法,以及支持向量机代表的统计学习理论。
Y
x1
x2
1
X
x d
w0
a
w
1
w
2
w0
W
w d
Y为增广样本向量,a为增广权向量。
10.07.2019
第3章非参数判别分类方法
进一步化为W的显函数
分子
分母
分母:
3.3.2 最佳W值的确定
最佳W值的确定: 求取使JF达极大值时的 w* 设计一拉格朗日函数
对向量的求导(或偏导)的定义是
由于Sw非奇异,两边乘以Sw-1得
最佳法线向量
使Fisher准则函数JF达极大值的解,也就是按 Fisher准则将d维X空间投影到一维Y空间的最 佳投影方向。
使用什么典型的分类决策方法 利用训练样本集提供的信息确定这些函数中 的参数。
§3.2 线性分类器
3.2.1 线性判别函数的基本概念 两类别问题中线性判别函数的一般形式
ω0是一个常数,称 为阈值权
决策规则
g(X)=0就是相应的决策面方程,在线性判别 函数条件下它对应d维空间的一个超平面
a 2
共梯度法求解 1 sgn( yi a ) 2、jq 2 , 2 i 1
N
1 yi a 0 sgn( yi a ) 1 yi a 0
J q 2 ( a* ) max J q 2 ( a )
a
搜索法求解
最小平方误差准则
不等式组写为: aTyn=bn>0 方程组:Ya=b
线性可分性
设已知样本集{y1,y2,…,yN}, yn是d维增广样 本向量。分属于ω 1 和ω 2类。 若存在权向量a,使任何y∈ω 1 ,都有:aTy>0 y∈ω 2 ,都有:aTy<0 则称这组样本集线性可分。
或:若样本集是线性可分的,则必存在一个 权向量a,可使每个样本正确分类。
学习目的
掌握非参数判别分类法的原理 掌握机器自学习的原理。 学习线性分类器的几种典型算法 用近邻法进行分类 通过相应数学工具的运用进一步提高运用数 学的本领
线性判别函数
线性判别函数5.1引言在第三章中我们假设概率密度函数的参数形式已知,于是可以使用训练样本来估计概率密度函数的参数值.在本章中,我们将直接假定判别函数的参数形式已知,而用训练的方法来估计判别函数的参数值.我们将介绍求解判别函数的各种算法,其中一部分基于统计方法,而另一些不是.这里都不要求知道有关的概率密度函数的确切的(参数)形式,从这种意义上来说,它们都属于非参数化的方法.在这一章中,我们将关注以下形式的判别函数:它们或者是X的各个分量的线性函数,或者是关于以X为自变量的某些函数的线性函数.线性判别函数具有许多优良的特性,因而便于进行分析.就像我们在第二章看到的一样,如果内在的概率密度函数恰当的话,那么采用线性判别函数是最优的,比如通过适当的选择特征提取方法,可以使得各个高斯函数具有相等的协方差矩阵.即使它们不是最优的,我们也愿意牺牲一些分类准确率,以换取处理简便的优点.线性判别函数的计算是相当容易的,另外,当信息比较缺乏时,线性分类器对处于最初的.尝试阶段的分类器来说也是很有吸引力的选择.它们所展示的一些非常重要的原理在第6章的神经网络中将得到更充分的应用.寻找线性差别函数的问题将被形式为极小化准则函数的问题.以分类为目的的准则函数可以是样本风险,或者是训练误差,即对训练样本集进行分类所引起的平均损失.但在这里我们必须强调的是:尽管这个准则是很有吸引力的,但它却有很多的问题.我们的目标是能够对新的样本进行分类,但一个小的训练误差并不能保证测试误差同样的小-------这是一个吸引人而又非常微妙的问题,我们将在第9章中进一步论述这个问题.这里我们将看到,准确的计算极小风险判别函数通常是困难的,因此我们将考查一些有关的更易于分析的准则函数.我们的注意力将在很大程度上放在收敛性用各种应用于极小化准则函数的梯度下降法的计算复杂度上,它们当中一些方法的是很相似的,这使得清晰地保持它们之间的不同变得困难,因此,我们在后面的章节里会作出总结.5.2线性判别函数的判定面一个判别函数是指X的各个分量的线性组合而成的函数g(x)=w’x+w0 (1)这里W是权向量,w0被称为阈值权或偏置.和我们在第二章所看到的一样,一般情况下有C个这样的判别函数,分别对应C类的一类.我们在后面将讨论这样的情况,但首先考虑中人两个类别的简单情况.5.2.1两类情况对具有式(1)形式的判别函数的一个两类线性分类器来说,要求实现以下判定规则:如果G(x)>0则判定w1,如果g(x)<0,那么x可以被随意归到任意一类,但是在本章我们将它们归为未定义的.图5-1给出了一个典型的系统实现结构,是第二章所讨论的典型的模式识别系统结构的一个例子.图5-1一个简单线性分类器,有d个输入的单元,每个对应一个输入向量在各维上的分量值.每个输入特征值xi被乘以它对应的权wi, 输出单元为这些乘积的和∑wixi.因此这d个输入单元都是线性的,产生的是它对应的特征的值.惟一的一个偏差单元总是产生常数 1.0.如果w’x+w0>0的话,输出单元输出a+1,反之为a-1方程g(x)=0定义了一个判定面,它把归类于w1的点与归类于w2的眯分开来.当g(x)是线性的,这个平面被称为超平面.如果x1和x2都在判定面上,则w’x1+w0=w’x2+w0或W’(x1-x2)=0这表明,w和超平面上的任意向量正交.通常,一个超平面H将特征空间分成两个半空间,即对应于W1类的决策域R1和对应于W2的决策域R2.因为当X在R1中时,g(x)>0,所以判定面的法向量W指向R1,因此,有时称R1中的任何X在H的”正侧”,相应地,称R2中的任何向量在H的负侧.判别函数g(x)是特征空间中某点X到超平面的距离的一种代数度量.或许这一点最容易从表达式X=xp+r(w/IIwII)看出来,这里的XP是X在H上的投影向量,r是相应的算术距离------如果为正,表示X在H的正侧;如果为负,表示X在H的负侧.于是,由于g(xp)=0,有g(x)=w’x+w0=rIIwII或R=g(X)/IiwII特别,从原点到H的距离为W0/IiwII.如果W0>0表明原点在H的正侧,w0<0表明原点在H的负侧.如果W0=0,那么g(x)有齐次形式w’x,说明超平面H通过原点.图5---2对这些代数结果给出了几何解释.总之,线性判别函数利用一个超平面判定面把特征空间分割成两个区域.超平面的方向由法向量W确定,它的位置由阈值权W0确定.判别函数g(x)正比于x点到超平面的代数距离(带正负号).当X在H正侧时,g(x)>0,在负侧时,g(x)<0.5.2.2多类的情况利用线性判别函数设计多类分类器有多种方法,例如,可以把C类问题转化为C个两类问题,其中第I个问题是用线性判别函数把属于WI类的点与不属于W1类的分开.更复杂一些的方法是用c(c-1)/2个线性判别函数,把样本分为C个类别,每个线性判别函数只对其中的两个类别分类,如图5-3所示.这两种方法都会产生如无法确定其类型的区域.为此,我们采用在第二章采用的方法,通过定义C个判别函数Gt(x)=wt’xt+wi0 i=1......c (2)5.4二类线性可分的情况假设我们在一个包含N个样本的集合y1,y2,……yn,一些标记为w1,另一些标记为w2.我们希望用这样的样本确定一个判别函数g(x)=a’y的权向量a.假设我们有理由相信存在一个解,它产生错误的概率非常小.那么一个很合理的想法是寻找一个能将所有这些样本正确分类的权向量.如果这个权向量存在,这些样本就被称为线性可分的.对于一个样本yi,如果有a’yi>0就标记为w1,如果小于0,就标记为w2.这样,我们可以用一种规范化操作来简化二类样本的训练过程,也就是说对属于W2的样本,用负号表示而不是标记W2.有了规范化,我们可以忘掉这些标记,而寻找一个对所有样本都有a’yi>0的权向量a.这样的向量被称为分离向量,更正规的说法是解向量.5.4.1几何解释和术语求解权向量的过程可认为是确定权空间中的一点.每个样本都对解向量的可能位置给出限制.等式a’yi=0确定一个穿过权空间原点的超平面,yi为其法向量.解向量-----如果存在的话,必须在每个超平面的正侧.也就是说,解向里如果存在,必在N个正半空间的交叠区,而且该区中的任意向量都是解向量.我们称这样的区域为解区域,注意不要将它和任何特定类对应的特征空间的判决区域相混淆.对于二维问题.我们用图5.8说明解区域的情况,其中包含了规范化样本和未规范化样本.从以上讨论可知,解向量如果存在的话,通常不是惟一的.有许多方法引入一些附加要求来对解向量进行限制.一种可能的方法是找到一个单位长度的权向量,它使得从样本到分类平面最小距离达到最大.另一种方法是在所有I中寻找满足a’yi>=b的有最小长度的权向量,这里的b是被称为边沿裕量或间隔的正常数.正如图5—9所示的,新的解区域位于由a’yi>=b>0所产生的正半空间的交叠区,它是在原解区之中,且它和原解区边界被隔开的距离为b/IIyiII.我们一般试图在解区域的中间位置来寻找解向量,这背后的动机是一个自然的信念,认为这样的解更能将新测试样本正确地分类.但在大多数情况下,我们对解区域中的任何解都感到满意.而主要关心的是任何一种可行的递归算法,只是它的递归过程能够不收敛到边界点上即可.这个问题可通过引入一个边沿裕量来解决,比如要求对所有的I都有a’yi>=b>0.5.7不可分的情况当样本是线性可分的时候,感知器法和松弛法给我我们许多寻找分类向量的简单方法.这些都被称为误差校正方法,这是因为它们只在遇到错分样本时才对权向量进行校正.它们对可分问题的成功之处在于对求得一个无解进行坚持不懈的摸索.实际上只有在有理由认为最优线性判别函数的误差率比较低的时候才会考虑使用这些方法.当然,即使对训练样本的分离向量已经找到,也不能保证它对独立的测试数据都能很好地分类.我们感觉有种直觉印象,它表明数目少于2d的样本集很可能是线性可分的----我们会在第九章再次考察这一点.因此有人可能会想到:对设计好的样本集使用多次,综合多种因素来获得分类器,并由此确保它在训练和实际数据上的分类性能是相同的.不幸的是,如果使用非常多的数据的话,它们往往不是线性可分的.这样,当样本不是线性可分时了解误差校正方法的效果如何就变得非常重要了.由于不存在可以将不可分数据集中的样本都能正确分类的权向量(由定义可知),显然误差校正过程永远不会结束.这些算法都将产生一个无限的权向量序列,所有的成员都有可能或者不可能得到有用的解.在一些特殊的例子中,这些算法在不可分的情况下的行为被全面的研究过.比如,固定增量算法得到的权向量的幅值波动的趋势.从理论的观点来看,如果样本的分量是整数值的话,固定增量算法将产生一个有限状态过程.如果校正过程停在任意一个状态上,权向量可能正处于,也可能不处于好的状态上.如果对校正算法得到的权向量求均值的话,就可以降低偶然选到处于不好状态上的坏向量的风险.有许多类似的启发式规则被用于修改误差校正算法,并进行了实验研究.修改的目的是在不可分的问题中得到令人接受的结果,同时保持它对可分问题仍能正确分类的性质.最普通的想法是使用变增量Q(K),且当K趋向无穷大时Q(K)趋向0.Q(K)趋向0的速度是相当重要的.如果它太慢的话,得到的结果对那些使得集合为不可分的样本仍然敏感.如果太快,权向量在还没有得到最优结果的时候就收敛了.一种选择Q(K)的方法是今它为当前性能的函数,也即当性能提高的时候减小Q(K).另一种方法是选择Q(K)=Q(1)/K.当研究随机逼近技术的时候,我们发现后一种方法是一种类似问题的理论解.但在展开这个主题之前,我们先考一种在可分和不可分情况下都有很好性能的折中方法,它不再试图直接获取分离向量.本章小结本章给出了一些判别函数,它们都是某个参数集的线性函数,而这些参数一般被称为权系数.在所有两类样本集的情况下这些判别都能确定一个判定超平面,它可能是位于样本自身的原始特征空间中,也可能是位于原始特征通过一个非线性函数(通常是线性判别式)映射而得到的空间.从更广的角度看.感知器算法是一类技术是通过调整参数来提高与W1的样本的内积,而降低与W2的样本的内积.一个更通用的方法是构造准则函数进行梯度下降.不同的准则函数在计算复杂度和收敛性方面各有不同的优缺点,没有哪个方法说是比别的方法都好.我们也可以通过线性代数运算来直接求得权(参数).比如对小型问题采用伪逆的方法.在支持向量机中,输入被非线性函数映射到一个更高维的空间,最优超平面就是具有最大“间隔”(margin)的平面.支持向量就是用来确定间隔的(变换后的)样本,它们通常是那些最难被分类,却能给分类器提供最多信息的样本.分类器期望误差率的上界线性依赖于支持向量的期望个数.对多类问题,线性机产生了由一些部分超平面构成的判定面.为了证明多类算法的收敛性可先将它们转化成两类算法再用两类法的证明.单纯型算法用来寻找由(不等式)约束的一个线性函数的优化.它也能被用来训练线性分类器.线性判别函数虽然很有用,对任意的很具挑战性的模式识别问题却不有足够的通用性(比如那些包含多模的或非凸密度的问题),除非能找到一个适当的非线性映射(Q函数).这一章我们没有给出如何选择这些函数的原则,但我们会在第六章讲述这个主题.文献的历史评述因为线性判别函数是易于分析的,在这方面有极大量的文章,尽管它的内容有限而不值得有这么多的文章.历史上,所有这方面的工作都是从ronald A.Fisher(5)的经典论文开始的.文献9很好描述了线性判别函数在模式识别中的应用,它提出了最优化(最小风险)线性判别问题并建议采用适当的梯度下降从样本中求得解.然而,在不知道内在的分布时,我们对这些方法的适用程度的了解是很有限的,即使是有条件的分析也是很复杂的.用两类方法来设计多类分类器来自于文献16.Minsky和papert的感知器一书强有力地指出了线性分类器的弱点------但可以用我们将在第六章中学习的方法来解决.无差错情况下的Winnow算法10以及更一般情况下的后续工作在计算(机器)学习领域是非常有用,它们都允许导出收敛的界.虽然这些工作都是基于统计的,许多从其他观点出发的模式识别的文章出现在20世纪50年代末和60年代初.其中一种观点是神经网络的,每一个单独的神经无被建模成阈值元----即两类的线性机,这些工作都是从McCulloch和Pitts12的著名的论文开始的.。
3.第三章 判别函数与确定性分类器
第三章判别函数与确定性分类器引言♦第二章主要讨论了在概率密度或概率函数的基础上设计分类器。
在有些情况下,分类器等价于一组线性判别函数。
♦本章主要讨论线性分类器的设计,最主要的是了解它在模式识别技术中所处的地位。
这种方法绕过统计分布状况的分析,绕过参数估计这一环,而对特征空间实行划分,称为非参数判别分类法,即不依赖统计参数的分类法。
这是当前模式识别中主要使用的方法,并且涉及到人工神经元网络与统计学习理论等多方面,是本门课最核心的章节之一。
线性分类器主要的优点是简单和可计算性。
♦从这一章起,假设来自于已知类的所有特征向量都可以用线性分类器正确分类,我们将研究相应的线性函数的计算方法,然后讨论更一般问题。
对于不能将所有向量正确分类的线性分类器,我们寻找通过采用应的优化规则设计最优线性分类器的方法。
♦贝叶斯方法与线性、非线性分类器的关系与比较图4.1理想的概率分布♦ 学习这一章要体会模式识别中以确定准则函数并实现优化的计算框架。
第一节 线性判别函数与广义线性判别函数判别函数有线性和非线性之分,而非线性判别函数又可以转化为线性形式,故首先讨论线性判别函数。
一、 两类判别问题假定有1ω和2ω两类模式,在二维模式特征空间,可用一直线将其分开,如图3—1—1所示。
假定这一直线方程为d(x )=1250x x +-=,那么很明显,凡使d(x )>0的模式i x 必属于1ω类;反之,使d(x )<0的模式i x 必属于2ω类。
于是将d(x )=125x x +-作为判别函数。
一般说来,这种将直线作为界线的判别函数的形式为:式中,i w 为参数,1x 、2x 为模式样本的特征值。
,将此判别函数推广到n 维,且用向量12(,,...,)T n x x x =x 表示模式样本,则有内积形式12()n +...++n n 2d w x w w w x x x +=+11 (3-1-2)T 0n w w x +=+1式中w =)(,,...,T l w w w 12叫权向量,w 0是阈值,若将x 和w 写成增广向量,则121(,,...,,)T n n w w w w +=w ,12(,,...,,1)T n x x x =x则式(3-1-2)可以写成更简练的形式()d T x w x = (3-1-3)判别函数及决策超平面在n 维特征空间中,在线性可分得情况下,决策超曲面是一个超平面。
03第三章非参数判别分类方法36精品PPT课件
中国矿业大学 计算机科学与技术学院
(39)13
第三章 非参数判别分类方法
将(3.6-7)与(3.6-6)相比较,
(3.6-6)相当于(3.6-7)中k
=1的情况,而在(3.6-7)
中当k增大时PkN→∞(e|X) 是单调递减的。因此可
以得出结论,在N→∞的
条件下,k-近邻法的错
中国矿业大学 计算机科学与技术学院
(39)6
第三章 非参数判别分类方法
最近邻法错误率分析
• 如果所用训练样本集的样本数量N极大,即N→∞时,可以 想像X'将趋向于X,或者说处于以X为中心的极小邻域内, 此时分析错误率问题就简化为在X样本条件下X与一个X(X' 的极限条件)分属不同类别的问题。如果样本X的两类别后验 概率分别为P(ω1|X)与P(ω2|X),那么对X值,在N→∞条件下, 发生错误决策的概率为:
第三章 非参数判别分类方法
重点
• 弄清楚近邻法的定义(包括k近邻法),与基本做法
• 弄清“近邻法性能好”是在什么意义上讲的。知 道渐进平均错误率的定义
• 快速搜索方法是使用怎样的原理?
• 剪辑近邻法的原理是什么? 而压缩近邻法与剪辑近邻 法有什么不同之处?
08.10.2020
中国矿业大学 计算机科学与技术学院
(39)2
第三章 非参数判别分类方法
3.6.1 近邻法原理及其决策规则
近邻法是由Cover和Hart于1968年提出的,随后得到理 论上深入的分析与研究,是非参数法中最重要的方法之 一。这一节将讨论其基本原理,错误率分析及若干改进 方法。
08.10.2020
中国矿业大学 计算机科学与技术学院
(39)3
2 模式识别原理课件-第3章 判别函数及几何分类法
② 1 类的判决函数: d1 ( X ) - d2 ( X ) -2x1 1 0
d1 ( X ) - d3 ( X ) - x1 2 x2 0
x2
d1( X) - d2 X 0
2 类的判决函数:
d 2 ( X ) - d1 ( X )
d1( X) - d3 X 0 -
1
d ( X ) w1 x1 w2 x2 w3
若 d ( X ) 0,则 X 1 类; 若 d ( X ) 0 ,则 X 2 类; 若 d ( X ) 0 ,则 X ω1或 X ω2 x1 或拒绝
2
O
维数=3时:判别边界为一平面。
维数>3时:判别边界为一超平面。
d 21 0 d 23 0
d23(X)=0
-
2
d 12 0 d 13 0
d 31 0 d 32 0
3
1
x1
d 12 0 d 13 0 IR d 23 0
-
d13(X)=0
例3.3 一个三类问题,三个判决函数为: d12 ( X ) - x1 - x2 5 d13 ( X ) - x1 3
例:非线性判决函数
x2
x2
O
x1
Ox1ຫໍສະໝຸດ 2)判决函数d(X)的系数。用所给的模式样本确定。
3.2 线性判别函数
3.2.1 线性判别函数的一般形式 将二维模式推广到n维,线性判别函数的一般形式为: d X w1x1 w2 x2 wn xn wn1 W0T X wn1 (3-2)
3
+
—
2
d1(X) 0
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
性判别函数。
第3章 线性判别分析
这是广义线性判别函数的一个特例。
y=(1, x)T被称为增广样本向量, v称为增广权向量。
对于二次判决函数
1 g (x) w0 wi xi wij xi x j i 1 i 1 j 1 x1 1 y x2 有一种特殊的映射方法, 将x增广至 x w 0 并将g(x)中的向量w和w0统一表示成 x w 1 w d v w2 0 w 则线性判别函数g(x)可以表示成 w d d
确定权向量wi和阈值权wi0。
第3章 线性判别分析
1. 两类问题的讨论
在两类情况下, 判决函数具有简单的形式: 若 g1 (x) g 2 (x) , 则判决 x (或)ω2; 1 若 g (x) g (x) , 则判决 x 2 (或)ω1; 1 2 若 g1 (x) g 2 (x) , 则不作判决或作任意判决,
习
1. 对于线性判决函数:
题
g (x) x1 2 x2 2
(1) 将判别函数写成g(x)=wTx+w0的形式, 画出 H: g(x)=0的几何图形 , 标出权向量并确定决策区域 R1 和R2。
(2) 化成增广权向量和增广向量的形式: g(x)=vTy。
g ( x) 0 对应的决策规则:
g ( x) 0 x 2
x 1
第3章 线性判别分析
g(x)=(x-a)(x-b)=c0+c1x+c2x2
第3章 线性判别分析
任何形式的高次判别函数都可转化成线性判别函
数处理。譬如将非线性函数g(x)用级数展开, 并截取
其有限项, 使之成为高次多项式, 然后转化成广义线
g1 (x) 0 , g 2 (x) 0 , g 3 (x) 0
单个的g1(x)>0条件只能区分属于ω1和不属于ω1。 此时特征空间中还可能存在不确定区域, 如图中g1(x)<0,
g2(x)<0, g3(x)<0确定的区域, 在这个区域中的样本不属于任
何一类。
第3章 线性判别分析
类。
第3章 线性判别分析
g1 (x) x1 x2 g 2 (x) x1 x2 5 g ( x) x 5 1 2 3
对于x=(x1, x2)T=(6, 5)T, 代入判决函数可得g1(x)=-1, g2(x)=6, g3(x)=-4, 所以x∈ω2。
对于3类问题, 可用3个超平面: g12(x)=0, g13(x)=0和g23(x)=0
把ω1、 ω2、 ω3分开。
三类问题的情况
g12 (x) x1 x2 5 【例】一个三类问题, 三个判决函数为 g13 ( x) x1 3 g ( x) x x 1 2 23
设计线性判别函数的任务就是在一定条件下, 寻找 最好的w和w0 , 其关键在于最优准则以及相应的求解方 法。
第3章 线性判别分析
(1) 选择样本集z={x1, x2, …, xN}。 样本集中的样本来自两
类且类别已知。
(2) 确定一个准则函数J, 要求满足以下两个条件: ① J是样本集、 w和w0的函数;
第3章 线性判别分析
(3) 每一模式类都有一个判别函数。 对于m类的判决问
题, 可以确定m个超平面, 它的判决函数为
g i ( x) w T i x wi 0
判决准则为 gi (x) max( g j ( x)) , 则x∈ωi。
j
对于前面两种情况中
的不确定区域, 由于不确 定区域内任何两类的判别 函数值不相等, 按最大判 决思想, 可以做出类别判 决, 因此这种情况下不存 在不确定区域。
若w0>0, 则原点在超平面的正侧;
若w0<0, 则原点在超平面的负侧; 若w0=0, 则超平面通过原点。
第3章 线性判别分析
结论:
对于两类情形, 利用线性函数进行分类, 实质上 就是用一个超平面H把Rd分成两个决策区域;
H的方向由权向量w确定, 它的位置由阈值权w0 确定;
判别函数g(x)正比于x点到H的代数距离;
第3章 线性判别分析
第三章 线性判别分析 —— 非参数判别分类方法
第3章 线性判别分析
第3章 线性判别分析
本章的思路:利用样本直接设计分类器, 可以避
开各类的概率密度函数的估计, 其基本思想就是设定
一组判别函数, 并利用样本直接计算判决函数中的有
关参数。
第3章 线性判别分析
本章内容
3.1 3.2 3.3 3.4 总结 习题 线性判别函数 线性分类器 分段线性分类器 近邻分类器
第3章 线性判别分析
3.1 线性判别函数
3.1.1 线性判别函数的几何意义 线性判别函数的形式如下:
g i ( x) w T i x wi 0 , i 1, 2,, m
其中: wi 称为权向量; wi0 称为阈值权。 wi和wi0 的值
需根据样本集来确定。 线性分类器设计的关键在于
每一类具有一个判决函数的情况
第3章 线性判别分析
g 1 ( x) x1 x 2 g 2 ( x) x1 x 2 1 【例】一个三类问题, 三个判决函数为 g ( x) x 2 3
请画出各类判决区域, 并判断x=(x1, x2)T=(1, 1)T属于哪一类。 解 各类的判决区域如图
② J的值反映分类器性能, 它的极值对应于“最好”的决
策。 (3) 用最优化技术求解准则函数, 得到极值点对应的w*和w*0。 当准则函数J的求解比较困难, 不能得到全局最优解或是
求全局最优结果比较困难时, 往往通过求局部最优解(次优解)
来降低求解难度, 或者用计算解代替解析解。
第3章 线性判别分析
即可判成ω1、 ω2中的任意一类。
第3章 线性判别分析
两类判决区域的分界面为 g1 (x) g 2 (x)
g (x) w x w0 w1 x1 w2 x2 wd xd w0 0
T
其几何意义为d维欧几里德空间中的一个超平面。
第3章 线性判别分析
(1) w是超平面的法向量。
对于x=(x1, x2)T=(4, 3)T, 代入判决函数可得
g12 (x) 2, g13 (x) 1, g 23 (x) 1
所以判断x∈ω3。
第3章 线性判别分析
(2) 每一模式类与其他模式类之间用单个超平 面分开。 对于m类的判决问题, 可以确定m个超平面, 它的 判决函数为 gi (x) wT i x wi 0
0 gi(x)判决准则为 gi (x) 0 x i x i (i 1, 2, , m)
若 k {1, 2,, m}, 使gk(x)>0, gj(x)<0(j≠k, j∈{1, 2, …, m}), 则判断x∈ωk。
第3章 线性判别分析
图中每一类都用一
个简单的直线将它与 其他模式类分开, 例 如 x∈ω1 的样本 , 同 时满足下面三个条件
超平面示意图
第3章 线性判别分析
如果取最大判决,
g1 (x) g 2 (x) g1 (x) g 2 (x)
x 1
w指向R1, R1中的点在H的正第3章 线性判别分析
(2)
g ( x) r w
g(x)是x到超平面距离的一种代数距离。
w0 当x=0时, g(x)=w0, 即原点到超平面的代数距离为 r0 w
当x在H的正侧时, g(x)>0; 在负侧时, g(x)<0。
第3章 线性判别分析
2. 多类问题的讨论
所谓多类问题,
是指类别数m≥3的情形。多类
情况下可以按下述三种方法进行划分。
(1) 任意两个模式类之间分别用单个超平面分开。
对于m类中的任意两类: ωi、ωj, i≠j, 可以确定一 个超平面Hij, 能把ωi和ωj两类分开, 两类各占Hij的一 侧。显然, 对于m类的判决问题, 最多需要确定的超 平面个数为
对于两类分类问题, 线性判决函数的几何意义在于利用 一个超平面实现对特征空间Rd的划分。 若以H表示超平面, 则对H上的任意两点x1、x2有
g (x1 ) wT x1 w0 0
g (x2 ) wT x2 w0 0
w T ( x1 x 2 ) 0
w和H上任一向量正交,
即w是超平面H的法向量。
d d d
g ( x) w0 wi xi v T y
i 1
第3章 线性判别分析
3.1.3
线性判别函数设计的一般步骤
判决函数的形式为 g (x) w T x w0
设计线性分类器, 是指所用的判别函数、分界面方程的类型 已选定为线性类型, 主要的设计任务是确定线性方程的两个参 数, 一个是权向量w, 另一个是阈值w0。 使所设计的线性分类器在性能上要满足一定的要求, 这种要 求通过一种准则来体现, 并且要表示成一种准则函数, 以便能 通过将准则函数值优化的方法确定w和w0。
2 Cm
1 m(m 1) 2
第3章 线性判别分析
Hij的方程为
ij gij (x) wT x w ij 0
g ji (x) gij (x)
其中, i<j, i, j=1, 2, …, m。 gij(x)判决准则为:
0 g ij ( x) 0 x i x j (i, j 1, 2, , m)
请画出各类判决区域, 并判断
第3章 线性判别分析
x=(x1, x2)T=(4, 3)T属于哪一类。 解 各类的判决区 域如图所示 , 在三 条分界线相交组成 的三角形区域内的 样本无法判决所属 类别 , 该区域称为 不确定区域(IR)。