模式识别实验 (2)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于概率统计的贝叶斯分类器设计
摘要:人们为了掌握客观事物,按事物相似的程度组成类别,模式识别就是将某一具体事物正确地归入某一类别。

贝叶斯决策理论是统计模式识别中的一个基本方法。

依据贝叶斯决策理论设计的分类器具有最优的性能,即所实现的分类错误率或风险在所有可能的分类器中是最小的,因此经常被用来衡量其他分类器设计方法的优劣。

关键词:MATLAB应用贝叶斯分类器后验概率贝叶斯公式最小错误概率
随着计算机与信息技术的发展,人类获取的知识和能够及时处理的数据之间的差距在加大,从而导致了一个尴尬的境地,即“丰富的数据”和“贫乏的知识”并存。

在数据挖掘技术中,分类技术能对大量的数据进行分析、学习,并建立相应问题领域中的分类模型。

分类技术解决问题的关键是构造分类器。

分类器是一个能自动将未知文档标定为某类的函数。

通过训练集训练以后,能将待分类的文档分到预先定义的目录中。

常用的分类器的构造方法有决策树、朴素贝叶斯、支持向量机、k近邻、神经网络等多种分类法,在各种分类法中基于概率的贝叶斯分类法比较简单,在分类技术中得到了广泛的应用。

一原理概述:
贝叶斯分类器是基于贝叶斯网络所构建的分类器,贝叶斯网络是描述数据变量之间关系的图形模型,是一个带有概率注释的有向无环图。

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

(1) 贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类;
(2) 一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类;
(3) 贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。

二计算方法:
1、贝叶斯分类的先决条件:
(1) 决策分类的类别数是一定的,设有c 个模式类ωi (i=1,2,…,c )
(2) 各类别总体的概率分布已知,待识别模式的特征向量x 的状态后验概率P(ωi|x)是已知的;或各类出现的先验概率P(ωi)和类条件概率密度函数p(x|ωi)已知 2、两类分类的最小错误率Bayes 分类决策规则的后验概率形式:
设N 个样本分为两类ω1,ω2。

每个样本抽出n 个特征, x =(x1, x2, x3,…, xn )T
其中,P (ωi |x)为状态后验概率。

由Bayes 公式:
两类分类的贝叶斯决策函数:
三 实例说明:
一数据集有两类,每个样本有两个特征,类别1含有150个样本,类别2含有250个样本,分别取类别1的前100个和类别2的前200个样本作为训练样本,剩下的作为测试样本。

要求:
()()()
()
p B A P A P A B p B =
⎩⎨
⎧∈<∈>2
21121),()(),()(ωωωωωωx x P x P x x P x P 则若则若∑
==2
1
)
()()
()()(j j j i i i P x p P x p x P ωωωωω )
(,)
()(ln
)
()(ln
)()4()
(,)()()
()()()3()(),()()()()()2()
(),()()()1(12211221221121取对数方法似然比形式类条件概率密度后验概率ωωωωωωωωωωωωωωP P x p x p x g P P x p x p x g P x p P x p x g x P x P x g -=-=
-=-=
(1) 根据基于最小错误率的贝叶斯决策理论设计分类器;
(2) 叙述实验具体步骤,给出所设计的分类器对训练样本和测试样本的错误率; (3)绘制分类结果(包含决策边界)的图像 1、实验原理
多元正太分布的概率密度函数由下式定义
1
1
2
2
1
1()exp ()()2(2)
T d
p X X X μμπ-⎧⎫=
--∑-⎨⎬⎩⎭

由最小错误概率判决规则,可得采用如下的函数作为判别函数
()(|)(),
1,2,,i i i g x p X P i N ωω==
这里,()i P ω为类别i ω发生的先验概率,(|)
i p X ω为类别i ω的类条件概率密度函数,而
N 为类别数。

设类别i
ω,i=1,2,……,N 的类条件概率密度函数
(|)
i p X ω,i=1,2,……,N 服从正态分
布,即有
(|)
i p X ω~
(,)
i i N μ∑,那么上式就可以写为
1
122
()
1()exp ()(),
1,2,,2(2)T i i d
P g X X X i N ωμμπ-⎧⎫=
--∑-=⎨⎬⎩⎭

由于对数函数为单调变化的函数,用上式右端取对数后得到的新的判别函数替代原来的判别函数
()
i g X 不会改变相应分类器的性能。

因此,可取
1
11()()()ln ()ln ln(2)2
2
2
T
i i i i i i d g X X X P μμωπ-=-
-∑-+-
∑-
显然,上式中的第二项与样本所属类别无关,将其从判别函数中消去,不会改变分类结果。

这样,判别函数
()
i g X 可简化为以下形式
1
11()()()ln ()ln 2
2
T
i i i i i i g X X X P μμω-=-
-∑-+-

2、实验步骤
(1) 求出两类样本的均值
11,2i
X i
X i N ωμ∈=
=∑
(2) 求每一类样本的协方差矩阵
1
1()()
,1,21
i
i i N w w
i jk
lj j lk k l i s
x x j k N μμ==
--=-∑
式中,l 代表样本在类中的序号,其中
lj
x 代表i w 类的第l 个样本,第j 个特征值; i
w
j μ代表i w 类的i N 个样品第j 个特征的平均值
lk
x 代表i w 类的第l 个样品,第k 个特征值; i
w k
μ代表i w 类的i N 个样品第k 个特征的平均值。

i
w 类的协方差矩阵为
11
122122i i i
i
i ⎛⎫
∑∑∑= ⎪∑∑⎝⎭
(3) 计算出每一类的协方差矩阵的逆矩阵1
i
-∑以及协方差矩阵的行列式
i

(4) 求出每一类的先验概率
()/1,2i i P N N
i ω≈=
(5) 将各个数值代入判别函数
1
11()()()ln ()ln 2
2
T
i i i i i i g X X X P μμω-=-
-∑-+-

判别边界为
12()()0g X g X -=
3、实验结果
根据matlab 的计算结果可得
类别1训练样本的错误率为4%,类别2训练样本的错误率为5%; 类别1测试样本的错误率为6%,类别2训练样本的错误率为4%。

实验图
图1 训练样本分类结果
如上图所示,“.”代表类别1的训练样本,“*”代表类别2的训练样本,绿线为决策边界;
图2 测试样本分类结果
如上图所示,“.”代表类别1的测试样本,“*”代表类别2的测试样本,绿线为决策边界;
四结束语:
从理论上讲,依据贝叶斯理论所设计的分类器应该有最优的性能,如果所有的模式识别问题都可以这样来解决,那么模式识别问题就成了一个简单的计算问题,但是实际问题往往更复杂。

贝叶斯决策理论要求两个前捉,一个是分类类别数目己知,一个是类条件概率密度和先验概率己知。

前者很容易解决,但后者通常就不满足了。

基于贝叶斯决策的分类器设计方法是在己知类条件概率密度的情况下讨论的,贝叶斯判别函数中的类条件概率密度是利用样本估计的,估计出来的类条件概率密度函数可能是线性函数,也可能是各种各样的非线性函数。

这种设计判别函数的思路,在用样本估计之前,是不知道判别函数是线性函数还是别的什么函数的。

而且,有时候受样本空间大小、维数等影响,类条件概率密度函数更难以确定。

因此在实际问题中,往往不去恢复类条件概率密度,而是换一种设计判别函数的思路,即设计判别函数时,首先确定判别函数为某种函数,比如为线性函数,然后利用样本集估计判别函数中的未知参数。

如何估计这些未知参数,应针对不同的实际情况,提出不同的设计要求,使得所设计的分类器尽可能好地满足这些要求。

这种设计要求,往往用某个特定的函数来表达,称之为准则函数。

实际上,设计贝叶斯分类器时,己经采用了准则函数,所用的准则是错误率或风险。

贝叶斯分类器的错误率或风险是最小的,所以通常称之为最优分类器,本文就是在估计出样本条件概率密度服从正态分布的情况下而设计出的错误率最小的最优分类器。

参考文献:
[1] 边肇祺,张学工.模式识别——2版.清华大学出版社.2000年
[2] 林士敏,田凤占.用于数据采掘的贝叶斯分类器研究[J].2000年
[3] 周颜军,王双成,王辉.基于贝叶斯网络的分类器研究[J].2003年
[4] 陆小艺,林士敏.用Matlab语言建构贝叶斯分类器[J].2004年
[5] 吴鹏. MATLAB高效编程技巧与应用.北京航空航天大学出版社.2010年
[6]荆钟,何明. 基于最小错误率的贝叶斯决策在手写英文字母分类识别中的应用.2009年。

相关文档
最新文档