模式识别作业--两类贝叶斯分类
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
深圳大学研究生课程:模式识别理论与方法
课程作业实验报告
实验名称:Bayes Classifier
实验编号:proj02-01
姓名:汪长泉
学号:2100130303
规定提交日期:2010年10月20日
实际提交日期:2010年10月20日
摘要:在深入掌握多维高斯分布性质,贝叶斯分类的基础上,用计算机编程实现一个分类两类模式样本的贝叶斯分类器。用matlab编程,并分析了实验结果,得出贝叶斯分类的一般结论。
1. 贝叶斯分类器
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。 1.1 两类情况
两类情况是多类情况的基础,多类情况往往是用多个两类情况解决的。
① 用i ω,i =1, 2表示样本x (一般用列向量表示)所属的类别。
② 假设先验概率()P ω1,()P ω2已知。(这个假设是合理的,因为如果先验概率未知,可以从训
练特征向量中估算出来,即如果N 是训练样本总数,其中有,N N 12个样本分别属于
2,1ωω,则相应的先验概率:
()/P N N ω≈11,2
()/P N N ω≈2)
③ 假设(类)条件概率密度函数
(|),i p ωx i =1,2已知,用来描述每一类中特征向量
的分布情况。如果类条件概率密度函数未知,则可以从可用的训练数据中估计出来。
1.2贝叶斯判别方法
贝叶斯分类规则描述为:
如果2(|)(|)P ωP ω>1x x ,则x ∈1ω
如果2(|)(|)P ωP ω<1x x ,则x ∈2ω (2-1-1) 贝叶斯分类规则就是看x ∈ω1的可能性大,还是x ∈2ω的可能性大。(|)i P ωx ,i =1,2解释为当样本x 出现时,后验概率(|)P ω1x 和(|)P ω2x 的大小从而判别为属于
1ω或属于2ω类。
1.3三种概率的关系――――贝叶斯公式
()()
(|)=
()
i i i p |P P p ωωωx x x (2-1-3)
其中,()p x 是x 的概率密度函数(全概率密度),它等于所有可能的类概率密度函数乘以相应的先验概率之和。
()(|)()i i i p p P ωω==∑2
1
x x
因为()p x 对于所有的类都是一样的,可视为常数因子,它并不影响结果,不考虑。故可采用下面的写法比较后验概率的大小:
1122(|)()(|)()p P p P ωωωω>
<
x x
则有 1
2
x ωω⎧∈⎨⎩ (2-1-4)
1.4多类的情况
① ,,...,12m ωωω表示样本x 所属的m 个类别。 ② 先验概率()i P ω, i =1,2,…, m ③ 假设类条件概率密度函数
(|)i p ωx ,i =1,2,…,m 已知,计算后验概率后,若:
(|)i P ωx >(|)j P ωx ∀j ≠i
则x ∈i ω类。这样的决策可使分类错误率最小。因此叫做基于最小错误率的贝叶斯决策。 R 1和R 3的分界点是11(/)()p P ωωx =33(/)()p P ωωx 的交点。 R 2和R 3的分界点是22(/)()p P ωωx =33(/)()p P ωωx 的交点。
图2-1-1
图2-1-2
2.实验过程
(a)每个模式类各生成50个随机样本,并在二维图上画出这些样本。m1 =
Columns 1 through 5
0.5426 -0.0190 1.3513 -1.2277 -0.9266
2.9840
3.4340 1.9042 3.9946 3.1342
……
Columns 46 through 50
1.6222 1.1615 1.3431 -0.2037 -0.1563
1.1755 3.3840 0.5198 3.6479 3.4207
m2 =
Columns 1 through 9
2.9272 2.0057 2.2526 2.9692
3.9884
2.4034 1.1650 4.2931 0.7725 2.0623
……
Columns 46 through 50
4.4548 2.4898 2.9933 2.4745 3.7177
2.2946 2.4581 0.7505 0.9102 0.4889
-3
-2-10
12345
-3-2-1012
345
6x
y
2个模式的样本分布
图1 两个模式的样本二维分布图
(b )用模式的第一个特征分量作为分类特征,对(a )中的100个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错误的样本。
图2 用模式的第一个特征分量作为分类特征
-3
-2-10
12345
x
y
黑色代表正确分类,红色代表错误分类
统计得正确分类j=79,正确分类百分比为79%。
(c )用模式的第二个特征分量作为分类特征,对(a )中的100个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错误的样本。
-3-2-1012
3456x
y
黑色代表正确分类,红色代表错误分类
图3 用模式的第二个特征分量作为分类特征
统计得正确分类j=75,正确分类百分比为75%。
(d )用模式的两个特征分量作为分类特征,对(a )中的100个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错误的样本。