第六章近邻方法 模式识别
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
设 xr i,
xr
0
i 1
j
由于样本独立抽取,因而有
P(i,j | xr, xr 0) P(i | xr)P(j | xr 0)
设S的中p概(的xr连率)概续为率且P非s>零0,,P一则( xr个N1,个样xr2独本,L立落样在, xr本以N )xr为1x,rxr中(21,心L落的,P在xrS超N)S球N外
i 1
r rr
P1NN (e) P1NN (e | x) p(x)dx
[1 c P(i | xr )2 ]p(xr )dxr i 1
一、1-NN法误判概率及其上下界
最若小P误(判m概| xr率)准则im1:,a...x,c[P(i | xr )] 则 xr m
这时的条件误判概率为 PB (e | xr ) 1 P(m | xr )
6.1 最近邻决策规则—1-
NN (1)已知N个已知 (2)输入未知类别
类别样本X
样本x
(6) 判xω2 (5)看xm属于 哪一类:
(3)计算x到 xiX,(i=1, 2,…,N)的 距离di(x)
(4)找出最小距离 dm(x)=min{di(x)}
最近邻方法
6.1 最近邻决策规则—k-
kN-NNN分类思想:
如果样本足够多,就可以重复地执行剪辑程 序,以进一步提高分类性能。称为重复剪辑最近 邻法。
剪辑最近邻方法
6.2.3 重复剪辑最近邻方法
MULTIEDIT算法
(1) 将样本集X(N)随机地划分为s个子集:
X (N ) {X1, X 2 ,L , X s} (s 3)
(2) 用最近邻法,以 X (i1)为mod参s 照集,对Xi中的 样本进行分类,其中i =1,2,…,s;源自文库
Q 0 PS 1 0 1 PS 1
lim
N
P(
xr1
,
xr2
,L
, xrN )
lim (1
N
PS
)
N
0
lim
N
PS
1
lim p(xr 0 | xr ) (xr 0 xr )
N
即xr以0 概率1收敛于 xr记为
xr
0
P1
xr
P1/ N (e | xr , xr 0 ) 1 c P(i | xr )P(i | xr 0 ) i 1
c 1 c
P1NN (e)
c
[1
P(i | xr )2 ]p(xr )dxr c 1
i 1
c
一、1-NN法误判概率
P1NN (e)
c 1 c
c 1
PB (e)
c
PB
(e)
P1 NN
(e)
PB
(e)[2
c
c 1
PB
(e)]
二、k-NN法误判概率
Pk NN (e)
k=1 0.5 k=3
k=5 k=99
i 1
i 1
一、1-NN法误判概率及其上下界
xr条件下的渐近误判概率
P1 NN
(e
|
xr )
lim
N
P1/ N (e | xr , xr 0 ) p(xr 0 | xr )dxr 0
[1 c P(i | xr )2 ] (xr xr 0 )dxr 0 i 1
1 c P(i | xr )2
x 对待识别模式
个已知类别的样本
,
xr
分别计算它与 N N
(j的i) 距离,将它判为距离最i近1
i
的那个样本所属的类。
即
di (xr ) m{in
xr
xr
(i) j
i 1, 2,L , c
j1,2,L ,Ni
如果 dm (xr ) m{in di (xr ) 则
xr m
i1,2,L ,c
最近邻方法
PB (e)
r rr PB (e | x) p(x)dx
[1 P(m | xr )]p(xr )dxr
P1NN (e) [1 c P(i | xr )2 ]p(xr )dxr i 1
一、1-NN法误判概率及其上下界
(1)确定情况下,即 这时
P(i
|
xr )
1, 0,
im im
PB (e) [1 P(m | xr )]p(xr )dxr 0
6.2 剪辑最近邻方法
对于两类问题,设将已知类别的样本集X(N)分成参 照集X(NR)和测试集X(NT)两部分,X(NR)X(NT)=,
它参已们照知的集类样 别X(N本的R)数测中各试y的r1为集,样yrNX本2(,RNLT和)中,Nyr的TNR,每N个采R样用+本N最xr1T近,=xr邻N2 ,。规L利则, 进x对用rNT
第六章 最近邻方法
Nearest Neighbour Classification
6.1 最近邻决策规则 6.2 剪辑最近邻法 6.3 误判概率及其上下界
最近邻方法
6.1 最近邻决策规则—1-
cN类N问题,设
xr
(i) j
i
(i 1, 2,L c , j 1, 2,L
Ni )
最近邻分类规则: r
c
P1NN (e) [1 c P(i | xr )2 ]p(xr )dxr 0 i 1
一、1-NN法误判概率及其上下界
(2)最不确定的情况下,即各类的后验概
率为均匀分布: P(i | xr ) 1/ c, i 1, 2,L , c
PB (e)
[1 P(m
| xr )]p(xr )dxr
行分类,剪辑掉X(NT)中被错误分类的样本。
若 yr 0 (xr ) X (NR)是xr X (NT )的最近邻元,剪辑掉
xr 与yr 0 (xr异) 类的 ,余下的判决正确的样本组成剪辑
样本集X(NTE) 。这一操作称为剪辑。
剪辑最近邻方法
r x 获得剪辑样本集X(NTE)后,对待识模式 采用最
因为 xr 0 P,1 xr故 条x件r 下的渐近误判概率为
P1
NN
(e
lim
N
P1/
N
(e
| xr ) lim
N
|
xr , P1/
xr 0 ) N (e | xr
1 , xr 0
c
i 1
) p(
P(i | xr )
xr 0 | xr )dxr 0
2
[1 c P(i | xr )2 ] (xr xr 0 )dxr 0 1 c P(i | xr )2
(3)去掉(2)中被错误分类的样本;
(4)用所留下的样本构成新的样本集X(NE);
(5)如果经过k 次迭代再没有样本被剪辑掉则停 止;否则转至(1)。
6.3 最近邻法的误判概率及其上下界
设一、xr是01-N的xrN最法近误邻判元概率,及P其1/ N上(e下|为界xr , xr,0 ) 条xr件的xr 0
近邻规则进行分类。
di (xr ) m{in
xr
xr
(i j
)
i 1, 2,L ,c
j1,2,L ,Ni
如果 dm (xr ) m{in di (xr ) 则 xr m
i1,2,L ,c
这里 xr j X (NTE)
剪辑最近邻方法 ω1 ω2 X(NR) X(NT)
用X(NTE) 对输入 的未知样本做 K-NN分类。
c
xr 对待识别模式 , 分别计算它与 N Ni
个已知类别的样本
xr
i 1
(j的i) 距离,取k个最近邻样本,这
k个样本中哪一类最多, 就判属哪一类。
xr 即,令
与ωi的距离
di (xr ) ki
i
1, 2,L
, c;
c
ki
k
i 1
如果
dm (xr )
m{ax
r di (x)则
xr m
i1,2,L ,c
其中 ki表示k个近邻元中属于ωi的样本个数
最近邻方法
N(1N)已知N个已 知类别样本X
6.1 最近邻决策规则—k(2)输入未知类别 样本x
(3)计算x到 xiX,(i=1, 2,…,N)的 距离di(x)
(6) 判xω2
(4)找出x的k个最近邻 元Xk={xi,i=1,2,…,k}
(5)看Xk中属于哪一类的 样本最多k1=3<k2=4
Bayes错判 概率
PB (e) 0.5
三、剪辑k-NN法误判概率
PE kNN
(e)
N,k
PB
(e)
20
误判概率,则 P1/ N (e | xr ) P1/ N (e | xr, xr 0) p(xr 0 | xr )dxr 0
对于1-NN规则,如果i ,j 则产生错判,因此条
件误判概率
P1/
N
(e
|
r x,
r x
0
)
1
c
P(i ,i
|
r x,
r x
0
)
1 c P(i | xri)1P(i | xr 0 )
用X(NR)中的样本 采用最近邻规则对 X(NT)中的每个样 本分类,剪辑掉 X(NT)中被错误分 类的样本。
余下判决正确的 样本组成剪辑样 本集X(NTE) 。
剪辑最近邻方法
6.2.2 剪辑k-NN最近邻方
法
剪辑最近邻法可以推广至k-NN近邻法中。步骤:
第一步 用k-NN 法进行剪辑;
第二步 用1-NN 法进行分类。