基于监督学习的模式识别方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于数据的方法:不利用先验知识,完全依靠训练样本来 建立样本与模式之间的联系,属于一种机器学习的分类方 法。基于数据的方法是模式识别最主要的方法
对象
x
y
G
S
y’ LM
4
.
基于数据的模式识别方法
基于数据的模式识别方法可以分为两种:监督模式识别和非 监督模式识别
监督模式识别:基于一定数量的类别已知的训练样本建立 分类器,也是模式识别的主要方法
P(ωi):先验概率 p(x|ωi):类条件概率密度 p(x):总体概率密度
P(ωi|x):后验概率
贝叶斯决策法
7
.Baidu Nhomakorabea
最小错误率决策法
样本的错误率:
pe|x P i|x ,x j
ij
决策的错误率:样本错误概率的期望
PePe|xpxdx
最小错误率决策法即让P(e)达到最小。由于p(x)是固定的, 所以等价于对于所有x都让P(e|x)取最小。由样本x的错误率 计算公式可知,最小错误率决策等价于如下一种决策:
20
.
非线性分类器
有时候最优分类面并非线性平面,此时可以使用非线性判别 函数来进行分类
二次判别函数
分段线性函数
21
非线性分类器
.
支持向量机
核心思想:将非线性判别函数转换为广义线性判别函数,然 后在线性空间里求解最优分类平面
核函数
1 x1
x
2 1
2
x2
x
2 2
核函数目前没有一个通 用的选择方法
•模式指的并不是事物本身,而是对事物的一种描述,也就 是我们从事物获得的信息 •模式识别的过程就是建立分类器的过程 •一些模式识别的例子:语音识别,字符与文字识别,人脸 识别等等
模式识别的方法
3
.
模式识别方法主要分为基于知识的方法和基于数据的方法
基于知识的方法:根据人们已知的关于研究对象的知识, 整理出若干描述特征与类别关系的准则,对未知样本通过 这些知识推理决策其类别。主要利用先验的知识
两类情况: gxwTx0 多类情况: gixwiTxi0
核心问题是如何根据训练样 本确定权向量和阈值向量
非线性分类器:判别函数的形式是非线性的
线性分类器
15
.
Fisher线性判别
• 核心思想:使投影后两类相隔尽量远,而同时每一类内部 的样本又尽可能聚集。通过最优化方法求解该最优投影方 向
• Fisher线性判别法只能得到最优投影方向即权向量,阈值 向量需要进一步求解
朝上的概率? 启发: 1.在进行估计之前,我们有一些先验的期望 2.若样本数量很少,我们应该更依赖先验期望 3.若样本数量很多,我们应该更依赖数据
PLAP,k x| yccyx,ykXk |X|为x的取值个数,k为待定参数
贝叶斯决策法
13
.
NBC的优缺点
m
argmaxPiPxj |i
j1
• 优点:算法复杂度低,不要求很大的训练样本数量 • 缺点:要求特征分量满足条件独立条件,但很多时候这种
若 Pi|xm j1a ,...x ,nP j|x则 x i
贝叶斯决策法
8
.
最小错误率决策法
根据贝叶斯公式:
Pi xpx pixP i, i1,2...,n
重点讨论离散概率模型下的概率估计方法
贝叶斯决策法
9
.
朴素贝叶斯分类器
朴素贝叶斯分类器(Naive Bayes Classifier):假定特征 各分量是相互独立的,因此类条件概率可写为
=P(<1,3>=1|”3”)* P(<1,4>=1|”3”)…
• 步骤四,P(“3”|样本)~P(“3”)*P(样本|“3”)
贝叶斯决策法
11
.
朴素贝叶斯分类器
改用其他估计方法来 进行平滑处理!
• P(<1,3>=1|”3”)可以采用最 大似然估计:
P1,31|"3"c1,c3" 3"1,"3"
m
P x|P x1,x2,...,xm| P xj|
j 1
m
即根据Pi P xj |i 的最大值来进行分类决策
j1
m
argmaxPiPxj |i
j1
贝叶斯决策法
10
.
朴素贝叶斯分类器
假定要计算该样本属于“3”的概率
•步骤一,通过训练样本估计 先验概率P(“3”) •步骤二,通过训练样本估计 P(<1,3>=1|”3”), P(<1,4>=1|”3”),… •步骤三,通过独立假设计算 类条件概率P(样本|“3”)
1
.
Pattern Recognition Methods Using Supervised Learning
基于监督学习的模式识别方法
模式与模式识别
2
.
模式:模式是对某些感兴趣的客体的定量的或结构的描述, 模式类是具有某些共同特性的模式的集合。在模式识别学 科中,常常不区分“模式”和“模式类”
模式识别:把对象根据其特征划分到若干类别中适当的一 类
条件不能满足 • 改进:树增广朴素贝叶斯分类器(TAN);贝叶斯增广朴
素贝叶斯分类器(BAN)
贝叶斯决策法依赖于样本的概率密度模型,当概率 密度模型难以估计时很难建立分类器。
判别函数法
14
.
核心思想:根据训练样本确定一个判别函数g(x),根据g(x) 的值来对未知样本进行分类
线性分类器:判别函数的形式是线性的
线性分类器
• gxwTx0
16
.
感知器算法
gy Ty
Tzi 0 , i 1,K,N
线性分类器
•
17
.
感知器算法
Tzi 0,i1,K,N
可以使用迭代方法求解
线性分类器
•
18
.
感知器算法
感知器算法只能解决线性可分问题
线性分类器
19
.
最优分类超平面与线性SVM
• 支持平面 • 支持向量 • 最优分类超平面 • 线性支持向量机(SVM) 线性不可分时引入惩罚 函数进行求解
• 若采用最大似然估计,朴素贝叶 斯分类器对于稀疏数据非常敏感
• 设想若训练样本中所有“3”在 <1,3>处都没有值,那么计算得 到的后验概率等于零!
贝叶斯决策法
12
.
拉普拉斯估计
• 假如投一次硬币,正面朝上,如何估计正面朝上的概率? • 假如投100次硬币,有80次正面朝上,如何估计正面朝上
的概率? • 假如投100万次硬币,有80万次正面朝上,如何估计正面
非监督模式识别:事先不知道要划分什么类别,更没有类 别已知的样本用作训练,主要进行聚类分析
5
.
监督模式识别方法
贝叶斯决策法
6
.
核心思想:根据对象归于某个模式的概率来进行决策分类
问题:已知对象的特征x,以及n个类别ω1~ωn,求对象属 于哪个类别
贝叶斯公式:
Pi xpx pixP i, i1,2...,n