模式识别实验 (2)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于概率统计的贝叶斯分类器设计
摘要:人们为了掌握客观事物,按事物相似的程度组成类别,模式识别就是将某一具体事物正确地归入某一类别。贝叶斯决策理论是统计模式识别中的一个基本方法。依据贝叶斯决策理论设计的分类器具有最优的性能,即所实现的分类错误率或风险在所有可能的分类器中是最小的,因此经常被用来衡量其他分类器设计方法的优劣。
关键词:MATLAB应用贝叶斯分类器后验概率贝叶斯公式最小错误概率
随着计算机与信息技术的发展,人类获取的知识和能够及时处理的数据之间的差距在加大,从而导致了一个尴尬的境地,即“丰富的数据”和“贫乏的知识”并存。在数据挖掘技术中,分类技术能对大量的数据进行分析、学习,并建立相应问题领域中的分类模型。分类技术解决问题的关键是构造分类器。分类器是一个能自动将未知文档标定为某类的函数。通过训练集训练以后,能将待分类的文档分到预先定义的目录中。常用的分类器的构造方法有决策树、朴素贝叶斯、支持向量机、k近邻、神经网络等多种分类法,在各种分类法中基于概率的贝叶斯分类法比较简单,在分类技术中得到了广泛的应用。
一原理概述:
贝叶斯分类器是基于贝叶斯网络所构建的分类器,贝叶斯网络是描述数据变量之间关系的图形模型,是一个带有概率注释的有向无环图。
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
(1) 贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类;
(2) 一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类;
(3) 贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。
二计算方法:
1、贝叶斯分类的先决条件:
(1) 决策分类的类别数是一定的,设有c 个模式类ωi (i=1,2,…,c )
(2) 各类别总体的概率分布已知,待识别模式的特征向量x 的状态后验概率P(ωi|x)是已知的;或各类出现的先验概率P(ωi)和类条件概率密度函数p(x|ωi)已知 2、两类分类的最小错误率Bayes 分类决策规则的后验概率形式:
设N 个样本分为两类ω1,ω2。每个样本抽出n 个特征, x =(x1, x2, x3,…, xn )T
其中,P (ωi |x)为状态后验概率。由Bayes 公式:
两类分类的贝叶斯决策函数:
三 实例说明:
一数据集有两类,每个样本有两个特征,类别1含有150个样本,类别2含有250个样本,分别取类别1的前100个和类别2的前200个样本作为训练样本,剩下的作为测试样本。 要求:
()()()
()
p B A P A P A B p B =
⎩⎨
⎧∈<∈>2
21121),()(),()(ωωωωωωx x P x P x x P x P 则若则若∑
==2
1
)
()()
()()(j j j i i i P x p P x p x P ωωωωω )
(,)
()(ln
)
()(ln
)()4()
(,)()()
()()()3()(),()()()()()2()
(),()()()1(12211221221121取对数方法似然比形式类条件概率密度后验概率ωωωωωωωωωωωωωωP P x p x p x g P P x p x p x g P x p P x p x g x P x P x g -=-=
-=-=
(1) 根据基于最小错误率的贝叶斯决策理论设计分类器;
(2) 叙述实验具体步骤,给出所设计的分类器对训练样本和测试样本的错误率; (3)绘制分类结果(包含决策边界)的图像 1、实验原理
多元正太分布的概率密度函数由下式定义
1
1
2
2
1
1()exp ()()2(2)
T d
p X X X μμπ-⎧⎫=
--∑-⎨⎬⎩⎭
∑
由最小错误概率判决规则,可得采用如下的函数作为判别函数
()(|)(),
1,2,,i i i g x p X P i N ωω==
这里,()i P ω为类别i ω发生的先验概率,(|)
i p X ω为类别i ω的类条件概率密度函数,而
N 为类别数。
设类别i
ω,i=1,2,……,N 的类条件概率密度函数
(|)
i p X ω,i=1,2,……,N 服从正态分
布,即有
(|)
i p X ω~
(,)
i i N μ∑,那么上式就可以写为
1
122
()
1()exp ()(),
1,2,,2(2)T i i d
P g X X X i N ωμμπ-⎧⎫=
--∑-=⎨⎬⎩⎭
∑
由于对数函数为单调变化的函数,用上式右端取对数后得到的新的判别函数替代原来的判别函数
()
i g X 不会改变相应分类器的性能。因此,可取
1
11()()()ln ()ln ln(2)2
2
2
T
i i i i i i d g X X X P μμωπ-=-
-∑-+-
∑-
显然,上式中的第二项与样本所属类别无关,将其从判别函数中消去,不会改变分类结果。这样,判别函数
()
i g X 可简化为以下形式
1
11()()()ln ()ln 2
2
T
i i i i i i g X X X P μμω-=-
-∑-+-
∑
2、实验步骤
(1) 求出两类样本的均值