第三章 非参数判别分类方法

合集下载

《多元统计分析》第三章 判别分析

《多元统计分析》第三章  判别分析
8
v (3) 交叉验证法(或称刀切法)
Ø 从组π1中取出x1j,用该组的其余n1−1个观测值和组π2的n2个观测值构造 判别函数,然后对x1j进行判别,j=1,2,⋯ ,n1。同样,从组π2中取出x2j, 用这一组的其余n2−1个观测值和组π1的n1个观测值构造判别函数,再对 x2j作出判别,j=1,2,⋯ ,n2。
v (1) 回代法
Ø 令n(2|1)——样本中来自π1而误判为π2的个数,n(1|2)——样本中来自π2
而误判为π1的个数,则P(2|1) 和P(1|2) 可估计为

2
| 1

n
2
| 1
,
Pˆ 1 | 2 n 1 | 2
n1
n2
Ø 该方法简单、直观,且易于计算。但它给出的估计值通常偏低,当样
xΣ 1x 2 Iix ci
其中 Ii

Σ 1 μi , ci


1 2
μiΣ 1 μi ,i
1, 2,, k,判别规则简化为
x l,
若Ilx

cl

max
1 i k
Iix

ci

这里Ii′x+ci为线性判别函数。
x l,
若d
2
x,
l


v 当Σ1=Σ2=⋯ =Σk=Σ时,采用线性判 别函数。
v 当Σ1,Σ2,⋯ ,Σk不全相等时,采用二 次判别函数
v 实践中,Σ1,Σ2,⋯ ,Σk几乎不可能完 全相等。
x l ,
若Iˆlx

cˆl

max
1 i k
Iˆix cˆi
Iˆi

第三章线性判别分析非参数判别分类方法-第二次课

第三章线性判别分析非参数判别分类方法-第二次课

第3章 线性判别分析
(2) r g(x) w
g(x)是x到超平面距离的一种代数距离。
当x=0时, g(x)=w0,
若w0>0, 则原点在超平面的正侧; 若w0<0, 则原点在超平面的负侧; 若w0=0, 则超平面通过原点。
r0
w0 w
第3章 线性判别分析
结论: 对于两类情形, 利用线性函数进行分类, 实质上 就是用一个超平面H把Rd分成两个决策区域; H的方向由权向量w确定, 它的位置由阈值权w0 确定; 判别函数g(x)正比于x点到H的代数距离; 当x在H的正侧时, g(x)>0; 在负侧时, g(x)<0。
Cm2
1 2
m(m
1)
第3章 线性判别分析
Hij的方程为
gij (x) wTij x w0ij
g ji (x) gij (x)
其中, i<j, i, j=1, 2, …, m。
gij(x)判决准则为:
gij
(x)
0 0
x i (i, j 1, 2, , m) xj
对于3类问题, 可用3个超平面: g12(x)=0, g13(x)=0和g23(x)=0 把ω1、 ω2、 ω3
g(x) w0 wi xi vT y
i 1
第3章 线性判别分析
3.1.3
g(x) wT x w0
➢设计线性分类器, 是指所用的判别函数、分界面方程的类型 已选定为线性类型, 主要的设计任务是确定线性方程的两个参 数, 一个是权向量w, 另一个是阈值w0。 ➢使所设计的线性分类器在性能上要满足一定的要求, 这种要 求通过一种准则来体现, 并且要表示成一种准则函数, 以便能 通过将准则函数值优化的方法确定w和w0。

第三章 线性判别分析_非参数判别分类方法-第四次课

第三章 线性判别分析_非参数判别分类方法-第四次课

Ri Ri1 Ri2 Rili
其中,
Ri j1 Ri j2 , j1 j2 。
用mli表示Rli中的均值向量, 并以此作为该子区的代表 点, 确定判别函数: 则判决准则为 若 g j ( x) min gi ( x) , 则x∈ωj
i1,2,,m
gi ( x) min x mli
Fisher 线性判决的基本思想
是寻找一个最好的投影方向 ,
当特征向量x从d维空间映射到
这个方向上时 , 两类能最好地 分开。

这个方法实际上涉及特征维
数的压缩问题。
第3章 线性判别分析
分析 w1 方向之所以比 w2 方向优 越, 可以归纳出这样一个准则:即向 量 w 的方向选择应能使两类样本投 影的均值之差尽可能大些, 而使类内 样本的离散程度尽可能小。这就是 Fisher准则函数的基本思路。
,则vTzi>0。
经过这样的变换后, 我们可以不考虑样本原来的类别标 志, 只要找到一个对全部样本zi都满足vTzi>0(i=1, 2, …, N)的
权向量即可。
第3章 线性判别分析 3. 解向量和解区
满足vTzi>0(i=1, 2, …, N)的
权向量称为解向量。 若把 v 看成是权向量空间中 的一点, 对于任一zi, vTzi=0在权向 量空间确定了一个超平面 , 这个 超平面把权空间分为两个半空间 , 该超平面的法向量为 zi , 超平面

在这种情况下,可以将各类 别划分成相对密集的子类, 每个子类以它们的均值作为 代表点,然后按最小距离分 类,可以有比较满意的效果。
对样本进 行子类的合适划 分是分段线性距离分类器性 能好坏的一个关键问题。 分段线性距离分类器示意图

非参数判别分类方法

非参数判别分类方法

2014-5-16
六、感知准则函数方法
这种方法提倡用错分类提供的信息修正错误,这种 思想对机器学习的发展以及人工神经元网络的发生 发展产生深远影响。
七、近邻法
近邻法训练样本数量较多时,从逐渐错误率角度看, 其错误率比较小,是经常使用的模式识别分类方法, 比较适合在多类别情况下使用。当每类的样本数很 多时,存储量与计算量要求都偏高,使用剪辑近邻 法与压缩近邻法,特别是压缩近邻法可大量减少训 练样本的数量。
支持向量机利用特征映射的思想
W * ai* yi xi
* 其中, ai , i 1,2,...,n
(3-104)
i
是以下式子求极大值的解 1 (3-105) LD ai ai a j yi y j xi .x j
i
计算上式的极大值只用到训练样本数据间的点积 <xi.xj>,而使用的分类器判别函数中权向量的作用也 是通过权向量与样本的点积体现出来的,而从(3104)式子中可以看出,权向量是训练样本中的支持 向量的线性组合,因此WTX 值的计算可以写成
核函数型式的函数 k ( x, xi ) exp(
| x xi |2

2
)
(3-112)
(3-113)
S行函数,如
k ( x, xi ) tanh( v xi x c)
2014-5-16
本章小结
一、参数判别分类方法与非参数判别分类方法的区别
参数判别方法:它的提前是对特征空间中的各类样 本的分布清楚,因此一旦要测试分类样本的特征向量值X 已知,就可以确定X对各类的后验概率,也就是可按相应 的准则计算与分类,所以判别函数等的确定取决于样本 统计分布的有关知识。

第3章非参数判别分类方法

第3章非参数判别分类方法

进一步化为W的显函数
分子
分母
分母:
3.3.2 最佳W值的确定
最佳W值的确定: 求取使JF达极大值时的 w* 设计一拉格朗日函数
对向量的求导(或偏导)的定义是
由于Sw非奇异,两边乘以Sw-1得
最佳法线向量
使Fisher准则函数JF达极大值的解,也就是按 Fisher准则将d维X空间投影到一维Y空间的最 佳投影方向。
使用什么典型的分类决策方法 利用训练样本集提供的信息确定这些函数中 的参数。
§3.2 线性分类器
3.2.1 线性判别函数的基本概念 两类别问题中线性判别函数的一般形式
ω0是一个常数,称 为阈值权
决策规则
g(X)=0就是相应的决策面方程,在线性判别 函数条件下它对应d维空间的一个超平面
a 2
共梯度法求解 1 sgn( yi a ) 2、jq 2 , 2 i 1
N
1 yi a 0 sgn( yi a ) 1 yi a 0
J q 2 ( a* ) max J q 2 ( a )
a
搜索法求解
最小平方误差准则
不等式组写为: aTyn=bn>0 方程组:Ya=b
线性可分性
设已知样本集{y1,y2,…,yN}, yn是d维增广样 本向量。分属于ω 1 和ω 2类。 若存在权向量a,使任何y∈ω 1 ,都有:aTy>0 y∈ω 2 ,都有:aTy<0 则称这组样本集线性可分。
或:若样本集是线性可分的,则必存在一个 权向量a,可使每个样本正确分类。
学习目的
掌握非参数判别分类法的原理 掌握机器自学习的原理。 学习线性分类器的几种典型算法 用近邻法进行分类 通过相应数学工具的运用进一步提高运用数 学的本领

非参数判别

非参数判别

非参数判别从原理上说贝叶斯决策理论采用了在d维特征空间中样本分布的最一般描述方式,即统计分布来描述,并且采用分类器中最重要的指标——错误率作为产生判别函数和决策面的依据,因此它给出了最一般情况下适用的“最优”分类器设计方法,对各种不同的分类器设计技术在理论上都有指导意义。

但是直接使用贝叶斯决策理论需要首先得到有关样本总体分布的知识,具体说来包括各类先验概率P(ω1)及类条件概率密度函数,从而可以计算出样本的后验概率P(ω1|X),并以此作为产生判别函数的必要数据,设计出相应的判别函数与决策面。

然而直接采用贝叶斯决策方法并不是一种有效的手段,这是由于这种描述样本分布的方法的基本原则,加上在一般情况下要得到准确的统计分布知识是极其困难的事。

为此人们针对各种不同的情况,使用不同的准则函数,设计出满足这些不同准则要求的分类器。

这一类分类器设计技术统称为非参数方法的分类器设计技术。

一、核方法对需要非线性分类界面的情况,支持向量机提出的方法是利用特征映射方法,使非线性分类的问题可以利用线性分类的计算框架来实现。

利用特征映射方法的原理示意图如图1所示,其中左图表示的是在原特征空间两类需要非线性分界面的情况,而右图则表示采用特征映射后,样本X在新的特征空间中表示成,而两类样本之间的分界面可以用线性分界面方程。

图1现在举一个利用二次曲面的例子,假设对一个二维空间的分类问题,想用一个二次函数作为判别函数,则二次曲线函数的一般式可写成如果我们希望采用广义线性方程的方法,我们可以定义作为映射后的特征向量,而相应的广义权向量,则一个线性方程就可写成,其中w0=f。

这样一来,线性分类方法就可以直接采用。

这条路子在传统的模式识别技术中并没有持续研究下去,因为一个突出的问题是维数会急剧增加,在高维的空间中进行计算是传统方法所忌讳的。

但支持向量机方法的提出者们对这个问题进行了更深入一步的研究,他们坚持了利用特征映射的方法,从而保留了线性划分的计算框架。

03第三章非参数判别分类方法36(精)

03第三章非参数判别分类方法36(精)
2018/9/19
K-近邻法错误率上下界 与贝叶斯错误率的关系 中国矿业大学 计算机科学与技术学院
(39)14
第三章 非参数判别分类方法
3.6.3 改进的近邻法
• 近邻法的严重弱点与问题:需要存储全部训练样本, 以及繁重的距离计算量。 • 改进的方法大致分为两种原理:
(1)对样本集进行组织与整理,分群分层,尽可能将计算 压缩到在接近测试样本邻域的小范围内,避免盲目地 与训练样本集中每个样本进行距离计算。 (2)在原有样本集中挑选出对分类计算有效的样本,使样 本总数合理地减少,以同时达到既减少计算量,又减 少存储量的双重效果。
第三章 非参数判别分类方法 k—近邻法决策规划
基本规则是,在所有N个样本中找到与测试样本的k个最近邻 者,其中各类别所占个数表示成ki,i=1,…,c,则决策规划是:
如果
g j ( X ) max ki
i
则决策X∈ωj
k近邻一般采用k为奇数,跟投票表决一样,避免因两种票数 相等而难以决策。
2018/9/19
其中
而 则
2018/9/19 中国矿业大学 计算机科学与技术学院 (39)9
第三章 非参数判别分类方法
由 可得 上式减去 (3.6-4)
(3.6-5)
从式(3.6-5)可见在一般情况下△P是大于零的值, 只要P(ω1|X)>P(ω2|X)>0。 有以下两种例外情况△P=0, 这两种情况是P(ω1|X)=1或P(ω1|X)=P(ω2|X)=1/2。
2018/9/19
中国矿业大学 计算机科学与技术学院
(39)26
第三章 非参数判别分类方法 剪辑近邻法的基本思想
• 当不同类别的样本在分布上有交迭部分的,分类的错误率主 要来自处于交迭区中的样本。当我们得到一个作为识别用的 参考样本集时,由于不同类别交迭区域中不同类别的样本彼 此穿插,导致用近邻法分类出错。因此如果能将不同类别交 界处的样本以适当方式筛选,可以实现既减少样本数又提高 正确识别率的双重目的。为此可以利用现有样本集对其自身 进行剪辑。下面以两类别问题为例说明这种方法的原理。

机器学习非参数方法

机器学习非参数方法

p: 树中的一个结点,对 应一个样本子集Kp Np : Kp中的样本数 Mp : Kp中的样本均值 rp : 从Kp中任一样本到 Mp的最大距离
(2)快速搜索算法
要实现快速搜索近邻,需要有方法快速判断某个样本子集是否是该待识样本 的可能近邻样本集,从而可将无关的样本子集尽快排除。另一方面在某样本子 集内寻找哪个样本是近邻时,需快速排除不可能为近邻的样本。
假设以欧氏距离来衡量,O的最 近邻是A3,其次是B1,因此O应该 属于A类; 但若A3被拿开,O就会被判为B 类。
这说明计算最近邻法的错误率会有 偶然性,也就是指与具体的训练样本 集有关。 同时还可看到,计算错误率的偶然 性会因训练样本数量的增大而减小。 因此我们就利用训练样本数量增至 极大,来对其性能进行评价。这要使 用渐近概念,以下都是在渐近概念下 来分析错误率的。
• 对所有的x,有: PN-> ∞(e|x) ≤Ck[P*(e|x)] 根据Jensen不等式, P=E[PNk(e|x) ≤ E{Ck[P*(e|x)]} ≤ CkE{ [P*(e|x)]} = Ck( P*) • 不等式关系 P* ≤P ≤ Ck( P*) ≤ Ck-1( P*) ≤… ≤ C1( P*) ≤2 P* (1- P* )
最近邻法的错误率高于贝叶斯错误率,可以证明以 下关系式成立:* C * *
P P P (2
P*:贝叶斯错误率

C 1 P:最近邻法错误率
P)
由于一般情况下P*很小,因 此又可粗略表示成:
P* P 2P*

可粗略说最近邻法的渐近平 均错误率在贝叶斯错误率的 两倍之内。
小结 模式识别(机器自动分类)的基本方法有两大类:
(1)样本集的分级分解

3.第三章 判别函数与确定性分类器

3.第三章 判别函数与确定性分类器

第三章判别函数与确定性分类器引言♦第二章主要讨论了在概率密度或概率函数的基础上设计分类器。

在有些情况下,分类器等价于一组线性判别函数。

♦本章主要讨论线性分类器的设计,最主要的是了解它在模式识别技术中所处的地位。

这种方法绕过统计分布状况的分析,绕过参数估计这一环,而对特征空间实行划分,称为非参数判别分类法,即不依赖统计参数的分类法。

这是当前模式识别中主要使用的方法,并且涉及到人工神经元网络与统计学习理论等多方面,是本门课最核心的章节之一。

线性分类器主要的优点是简单和可计算性。

♦从这一章起,假设来自于已知类的所有特征向量都可以用线性分类器正确分类,我们将研究相应的线性函数的计算方法,然后讨论更一般问题。

对于不能将所有向量正确分类的线性分类器,我们寻找通过采用应的优化规则设计最优线性分类器的方法。

♦贝叶斯方法与线性、非线性分类器的关系与比较图4.1理想的概率分布♦ 学习这一章要体会模式识别中以确定准则函数并实现优化的计算框架。

第一节 线性判别函数与广义线性判别函数判别函数有线性和非线性之分,而非线性判别函数又可以转化为线性形式,故首先讨论线性判别函数。

一、 两类判别问题假定有1ω和2ω两类模式,在二维模式特征空间,可用一直线将其分开,如图3—1—1所示。

假定这一直线方程为d(x )=1250x x +-=,那么很明显,凡使d(x )>0的模式i x 必属于1ω类;反之,使d(x )<0的模式i x 必属于2ω类。

于是将d(x )=125x x +-作为判别函数。

一般说来,这种将直线作为界线的判别函数的形式为:式中,i w 为参数,1x 、2x 为模式样本的特征值。

,将此判别函数推广到n 维,且用向量12(,,...,)T n x x x =x 表示模式样本,则有内积形式12()n +...++n n 2d w x w w w x x x +=+11 (3-1-2)T 0n w w x +=+1式中w =)(,,...,T l w w w 12叫权向量,w 0是阈值,若将x 和w 写成增广向量,则121(,,...,,)T n n w w w w +=w ,12(,,...,,1)T n x x x =x则式(3-1-2)可以写成更简练的形式()d T x w x = (3-1-3)判别函数及决策超平面在n 维特征空间中,在线性可分得情况下,决策超曲面是一个超平面。

第三章(4) 非参数检验

第三章(4) 非参数检验
其中F0(x)是给定的连续分布函数。 2.选取检验统计量
Dn sup | Fn ( x) F ( x) |
x
当H0为真时,Dn有偏小趋势,则拟合的越好;
当H0不真时,Dn有偏大趋势,则拟合的越差。
84/25
实际使用的检验统计量 n Dn
• 推导检验统计量的分布时,使用 n Dn比Dn方便
– 对于正态总体,样本容量n与区间个数k要满 足渐近最优关系,即k =1.87(n-1)0.4 – 样本容量n与区间个数k对应表如下
n k 50 9 100 12 200 16 500 1000 2000 10000 22 30 56 74
84/10
几点说明
• 若分布函数F0(x) 含有r个未知参数,须先用 极大似然估计法求出未知参数的估计值, 然后再作假设 • 若理论频数vi=npi<5,则将相邻的小区间 合并,直至全部npi ≥5(合并区间的同时, 也将实测频数合并),合并后的小区间数 设为k*,则此时2统计量的自由度变为 df = k*-r-1
非参数检验方法
84/1
非参数检验方法
1.参数检验方法是基于总体分布为正态分布 的前提下对参数进行的检验。当条件不满 足时,不能用参数检验方法 2.非参数检验方法可以不考虑总体的参数和 总体的分布类型,也称为任意分布检验 3.不对总体参数进行比较,而是用于分布之 间的比较 4.适用条件无特殊要求
–实际应用中不满足参数统计条件的资料均可用
(原理)
• Glivenko-Cantelli引理证明了当n趋于无穷大时,Dn 以概率收敛到0,即
P lim Dn 0
• 检验统计量建立在Dn基础上
Dn sup | Fn ( x) F ( x) |

chap3-非参数模型的辨识(1)

chap3-非参数模型的辨识(1)
时钟脉冲

P.48,表3-3-3
1
2
"
k
n
prbs

模 2加 法 门
2014-3-14
31
典型随机过程
逆重复M 序列{s}: 幅值为 ± 1的矩形波 {m} 与2N位的M序列{x} 模2相加而成, 见P48,表3-3-4 周期T = 2 N ⋅ Δ, 周期内前一半与后一半逆对称,s ( k ) = − s ( k + N ) , k = 1," , N
10
-1
10
0
10
1
Frequency (rad/sec)
2014-3-14
17
频率特性法

0 -10 Magnitude (dB) -20 -30 -40 -50 0 -45 Phase (deg) -90 -1பைடு நூலகம்5 -180 Bode Diagram
G (s) =
1 s 2 + 2s + 1
10
G (s) =
1 s +1
Phase (deg)
-45
-90
10
-1
10
0
10
1
Frequency (rad/sec)
2014-3-14
15
频率特性法
x 10
-6
Bode Diagram
Magnitude (dB)
5 0 -5 -10 0 -45
G ( s ) = e −0.1s
Phase (deg)
22
相关分析法
v(t) y(t) u(t) h(t)
+ +
z(t)
若t < 0时u ( t ) = 0, 则 y (t ) = ∫ h(t − τ )u (τ )dτ = ∫ h(τ )u (t − τ )dτ

非参数分类方法-分析归纳很到位共26页文档

非参数分类方法-分析归纳很到位共26页文档
When n→∞, the variance is 0, we can use k/n to estimate P.
Pattern Recognition Lab 501
Tongji University
4
Density Estimation – Overview (4)
Important condition
This estimate becomes more accurate as we increase the number of sample points N and shrink the volume V
Pattern Recognition Lab 501
Tongji University
5
Density Estimation – Overview (5)
There are two basic approaches to perform density estimation:
Parametric: the density function is assumed (i.e., Gaussian) and the parameters of the function (i.e., mean and variance) are then optimized by fitting the model to the data set
We can choose a fixed value of k and determine the corresponding volume V from the data. This gives rise to the k Nearest Neighbor (kNN) approach.
Pattern Recognition Lab 501

非参数统计学讲义(第三章)两样本模型

非参数统计学讲义(第三章)两样本模型

非参数统计学讲义主讲:统计系 袁靖 第三章 两样本模型§1 两个相关样本的非参数检验一、问题的提出某种统计检验方法应用时,不仅与数据的测量层次有关,与抽样的特点有关。

在抽取样本时有两种形式:相关的和独立的。

苦第—次抽样的所有样本某一属性的测量结果,不影响第二次抽样的所有样本同一属性的测量结果,则这种抽样是独立的;若一次抽样的测量结果影响另一次抽样测量结果,则这种抽样是相关的。

本章介绍两个相关样本的非参数检验方法。

实际问题中,常会有这样的情况:某种药物对治疗某种疾病是否有效,某种训练方法是否能提高人的能力,某次宣传是否能提高人们的认识,价格上涨是否会产生不良影响等等。

当研究者希望知道两种处理结果是否相同,或哪种更好时,往往需要采用两个样本的统计检验。

这时,常用经过处理的一组和未经处理的一组比较,或者一种处理组与另一种处理组相比较,为了避免或尽量减少由于其它因素影引起的两组之间的附加差异,研究中通常采用两个相关样本。

例如,在接受两种不同训练方法的人员中,由于智力、接受能力、耐力等方面的不同,会导致不同处理的结果产生差异,这不是所要研究的问题,而是其它因素影响产生的附加差异。

这些因素在实施不同处理前必须排除。

为获取相关样本,常应用两种方式:一是让每一研究对象作为自身的对照者;一是将研究对象两两配对,分别给每一对两个成员以不同处理。

在进行配对时,应让每—对在可能影响处理结果的其它因素分面尽量相似,以尽量避免和减小附加差异。

一般来说,用研究对象自身作为对照者要优于配对方法。

因为很难在配对过程中,完全控制使其它的影响因素。

二、符号检验1.基本方法设有两个连续总体X 、Y ,累积的分布函狡分别为F(x),F(y)。

随机地分别从两个总体中抽取数目为n 的样本数据n x x x ,,,21 和n y y y ,,,21 ,将它们配对得到),(11y x ,),(22y x ,…,),(n n y x 。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章非参数判别分类方法学习指南:前一章重点学习的贝叶斯决策具有理论指导的意义,同时也指明了根据统计参数分类决策的方法。

沿这条路走就要设法获取样本统计分布的资料,要知道先验概率,类分布概率密度函数等。

然而在样本数不足条件下要获取准确的统计分析也是困难的。

这样一来人们考虑走另一条道路,即根据训练样本集提供的信息,直接进行分类器设计。

这种方法绕过统计分布状况的分析,绕过参数估计这一环,而企图对特征空间实行划分,称为非参数判别分类法,即不依赖统计参数的分类法。

这是当前模式识别中主要使用的方法,并且涉及到人工神经元网络与统计学习理论等多方面,是本门课最核心的章节之一。

非参数判别分类方法的核心是由训练样本集提供的信息直接确定决策域的划分方法。

这里最重要的概念是分类器设计用一种训练与学习的过程来实现。

机器自动识别事物的能力通过训练学习过程来实现,其性能通过学习过程来提高,这是模式识别、人工神经元网络中最核心的内容。

学习这一章要进一步体会模式识别中以确定准则函数并实现优化的计算框架。

由于决策域的分界面是用数学式子来描述的,如线性函数,或各种非线性函数等。

因此确定分界面方程,包括选择函数类型与确定最佳参数两个部分。

一般说来选择函数类型是由设计者确定的,但其参数的确定则是通过一个学习过程来实现的,是一个叠代实现优化的过程。

因此本章从最简单的函数类型讲起,再扩展到非线性函数。

学习的重点要放在线性判别函数的基本内容上,然后再注意如何扩展到非线性函数的应用上去。

该章的学习最好通过概念的反复推敲与思考,以加深对重要概念的理解,另一方面通过实验,亲自体验设计模式识别系统的完整过程,对学习才会更加真切。

学习目的(1) 通过本章学习掌握模式识别中最重要的非参数判别分类法的原理(2) 掌握机器自学习的原理,自学习功能已不仅在模式识别中应用,目前经常用机器学习这个词以涉及更为广泛的内容。

(3) 学习线性分类器的三种典型算法,这三种算法各自形成体系,分别形成了传统模式识别、人工神经元网络以及统计学习理论(4) 用近邻法进行分类(5) 通过相应数学工具的运用进一步提高运用数学的本领本章重点(1) 非参数判别分类器的基本原理,与参数判别分类方法的比较(2) 线性分类器的三种典型方法——以Fisher准则为代表的传统模式识别方法,以感知准则函数为代表的机器自学习方法,以及支持向量机代表的统计学习理论。

(3) 近邻法的工作原理及其改进(4) 线性分类器扩展到非线性分类器,两类别分类方法与多类别分类方法知识点思考题:(1) 机器能否像人类一样通过例证教育认知事物,修正观念中的错误的成分?(2) 机器学习过程中有教师吗?谁是教师?(3) 什么叫线性分类器? 按照基于最小错误率贝叶斯决策,什么条件下才能用线性分类器?§3.1引言在上一章中我们讨论了贝叶斯决策理论和统计判别方法。

从原理上说贝叶斯决策理论采用了在d维特征空间中样本分布的最一般描述方式,即统计分布来描述,并且采用分类器中最重要的指标——错误率作为产生判别函数和决策面的依据,因此它给出了最一般情况下适用的“最优”分类器设计方法,对各种不同的分类器设计技术在理论上都有指导意义。

但是直接使用贝叶斯决策理)论需要首先得到有关样本总体分布的知识,具体说来包括各类先验概率P(ωi|X),并以此作及类条件概率密度函数,从而可以计算出样本的后验概率P(ωi为产生判别函数的必要数据,设计出相应的判别函数与决策面。

按贝叶斯决策理论设计分类器的步骤可以表示成其中获取统计分布及其参数这部分是很困难的,实际问题中并不一定具备获取准确统计分布的条件,因此将模式识别的设计过程,主要是判别函数、决策面方程的确定过程改成:由于这种方法跳过了统计分布的参数估计,没有使用统计参数作为依据,因此称为非参数判别分类方法。

而以贝叶斯决策方法为基础的方法则称为参数判别方法。

直接采用贝叶斯决策方法并不是一种有效的手段,这是由于这种描述样本分布的方法太基本与原则,加上在一般情况下要得到准确的统计分布知识是极其困难的事。

为此人们针对各种不同的情况,使用不同的准则函数,设计出满足这些不同准则要求的分类器。

这一类分类器设计技术统称为非参数方法的分类器设计技术。

在这一章中我们将讨论线性分类器以及作为设计依据的一些准则函数。

对非线性分类器则着重讨论分段线性判别函数的基本概念与基本做法。

近邻法是分段线性判别函数的一种典型方法。

近邻法也是本章主要讨论内容。

这种方法主要依据同类物体在特征空间具有聚类特性的原理。

同类物体由于其性质相近,它们在特征空间中应具有聚类的现象,因此可以利用这种性质产生分类决策的规则。

值得注意的是这些准则的“最优”并不一定与错误率最小相一致,我们将在本章中进一步讨论这个问题。

另外本章还要涉及一些有关非线性分类器的问题。

按照基于统计参数的决策分类方法,判别函数及决策面方程的类别确定是由样本分布特点决定的,例如,符合某种条件就可使用线性分类器,正态分布条件下一般适合用二次函数决策面,但是在非参数判别方法的设计中,使用什么典型的分类决策方法却要预先由设计者确定,然后利用训练样本集提供的信息确定这些函数中的参数。

这是参数与非参数判别方法的一个重要不同点。

非参数判别分类方法选择函数类型与确定参数是两个过程,因此以下先对最简单的线性分类器进行讨论学习。

分析这种类型函数的特点,并讨论确定其参数的方法。

§3.2线性分类器3.2.1 线性判别函数的基本概念设样本在d维特征空间中描述,则两类别问题中线性判别函数的一般形式可表示成(3-1)其中而w是一个常数,称为阈值权。

相应的决策规则可表示成,g(X)=0就是相应的决策面方程,在线性判别函数条件下它对应d维空间的一个超平面,(3-3)为了说明向量W的意义,我们假设在该决策平面上有两个特征向量X1与X2,则应有(3-4)其中(X1-X2)也是一个向量,(3-4)式表明向量W与该平面上任两点组成的向量(X1-X2)正交,因此W就是该超平面的法线向量。

这就是向量W的几何意义。

dg(X)是d维空间中任一点X到该决策面距离的代数度量,该决策平面将这两类样本按其到该面距离的正负号确定其类别。

w 0则体现该决策面在特征空间中的位臵,当w=0时,该决策面过特征空间坐标系原点,而时,则表示了坐标原点到该决策面的距离。

设二维空间一直线方程表示为:w 2X2+w1X1+w=0其中w1和w2分别是X1和X2的系数。

w是直线方程的参数项,由于X1和X2是一个向量的两个分量,W=( w1, w2) T.则w2X2+ w1X1就是这两个向量的点积,表示成。

我们知道一个线性方程在二维空间唯一确定了一条直线,但一条直线却可以对应无穷多个直线方程。

w2、w1和w是该直线的方程参数,kw2、kw1和kw也是这条直线方程的参数。

如果我们定义,则也是该直线的方程,但却是模为1的向量,而W'T X就是直线上任一点到W'向量的投影,它的数值等于,因此则表示了这条直线到坐标原点的法向距离。

3.2.2 广义线性判别函数线性判别函数是形式最为简单的判别函数,但是它不能用于稍复杂一些的情况,例如,欲设计这样一个一维样本的分类器,使其性能为:则用线性判别函数显然就无能为力了。

针对这种情况,如果设计这样一个判别函数g(x)=(x-a)(x-b) (3-6)及其相应的决策规则(3-7)就能达到(3-5)所要求的分类效果。

此时g(x)不再是x的线性函数,而是一个二次函数,如图3.1所示。

由于线性判别函数具有形式简单,计算方便的优点,并且已被充分研究,因此人们希望能将其用适当方式扩展至原本适宜非线性判别函数的领域。

一种方法是选择一种映射X→Y,即将原样本特征向量X映射成另一向量Y,从而可以采用线性判别函数的方法。

例如对于图3.1的二次函数情况,其一般式可表示成(3-8)如果我们采用映射x→Y,使则判别函数g(x)又可表示成(3-9)此时g(x)被称为广义线性判别函数,称为广义权向量。

因此一个原属二次函数的分类问题就可转化为一个线性判别函数问题。

按照这种原理,任何形式的高次判别函数都可转化成线性判别函数来处理。

譬如将非线性函数g(x)用级数展开,并截取其有限项,使之成为高次多项式,然后转化成广义线性判别函数。

这种处理非线性分类器的方法,在支持向量机中得到充分的研究。

我们将在本章后面讲述支持向量机。

将非线性函数用映射的方法变成线性函数的形式,如(3-8),(3-9)式所示,但一个重要问题是维数会增加很多。

用传统方法处理模式识别问题是希望降低维数,而不希望增加维数,因此不提倡使用,但支持向量机却注重它能将非线性分类问题转化为线性分类问题,因而主张采用(见3.5.3节)。

这将在后面学习过程中进一步说明。

这里我们要讨论一种特殊的映射方法,这种映射将X增广至(3-10)并将g(x)中的W向量与w统一表示成(3-11)-其中w1,w2,w3....wd为向量w各分量,则线性判别函数g(X)可以表示成(3-12)这是广义线性判别函数的一个特例。

被称为增广样本向量,称为增广权向量。

(3-1)式称为线性判别函数的齐次简化。

它使特征空间增加了一维,但保持了样本间的欧氏距离不变,对于分类效果也与原决策面相同,只是在Y空间中决策面是通过坐标原点的,这在分析某些问题时具有优点,因此经常用到。

例如一个一维特征空间的分类器,其决策面方程为:x-c=0 (3-13)在一维空间中为一个点。

经齐次简化后可得:(3-14)此时在二维空间中决策面为一过原点的直线,如图3.2所示。

直线以为法线向量,它对1维子空间(y1=1的y2空间)的划分与原决策面完全相同。

(3-13)至(3-14)式的例子表示了这样一点,由于样本向量在增加一位后变成了一个二维向量,因此原一维空间讨论的问题,转变成在二维空间讨论的问题,而原方程(3-13)也变成了一个(3-14)表示的直线,它过二维空间的原点。

现在请大家思考一下,如果在两维空间存在一条不过原点的直线,ax1+bx2+c=0(A),采用增广向量形式:21那么,它在增加一维的三维空间中,a T Y=0表示的是什么呢?答:一个过原点的平面,方程为ay1+by2+cy3=0 (B)。

(A)式与(B)式形式上略有不同,但当y3=1时两者就一样了。

也就是说(B)式表示的平面与y3=1子空间(一平面)的交线就是(A)式中表示的直线,这样的方法在后面感知准则函数中用到。

3.2.3 线性分类器设计步骤线性分类器设计任务是在给定样本集条件下,确定线性判别函数的各项系数,,以期对待测样本进行分类时,能满足相应的准则函数J为最优的要求。

可见此技术的关键问题是确定所需的准则函数,然后用最优化技术确定准则函数的极值解及,或增广权向量。

相关文档
最新文档