第二章 贝叶斯决策理论与统计判别方法汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章贝叶斯决策理论与统计判别方法
课前思考
1、机器自动识别分类,能不能避免错分类,如汉字识别能不能做到百分之百正确?怎样才能减少错误?
2、错分类往往难以避免,因此就要考虑减小因错分类造成的危害损失,譬如对病理切片进行分析,有可能将正确切片误判为癌症切片,反过来也可能将癌症病人误判为正常人,这两种错误造成的损失一样吗?看来后一种错误更可怕,那么有没有可能对后一种错误严格控制?
3、概率论中讲的先验概率,后验概率与概率密度函数等概念还记得吗?什么是贝叶斯公式?
4、什么叫正态分布?什么叫期望值?什么叫方差?为什么说正态分布是最重要的分布之一?
学习目标
这一章是模式识别的重要理论基础,它用概率论的概念分析造成错分类和识别错误的根源,并说明与哪些量有关系。在这个基础上指出了什么条件下能使错误率最小。有时不同的错误分类造成的损失会不相同,因此如果错分类不可避免,那么有没有可能对危害大的错分类实行控制。对于这两方面的概念要求理解透彻。
这一章会将分类与计算某种函数联系起来,并在此基础上定义了一些术语,如判别函数、决策面(分界面),决策域等,要正确掌握其含义。
这一章会涉及设计一个分类器的最基本方法——设计准则函数,并使所设计的分类器达到准则函数的极值,即最优解,要理解这一最基本的做法。这一章会开始涉及一些具体的计算,公式推导、证明等,应通过学习提高这方面的理解能力,并通过习题、思考题提高自己这方面的能力。
本章要点
1、机器自动识别出现错分类的条件,错分类的可能性如何计算,如何实现使错分类出现可能性最小——基于最小错误率的Bayes决策理论
2、如何减小危害大的错分类情况——基于最小错误风险的Bayes决策理论
3、模式识别的基本计算框架——制定准则函数,实现准则函数极值化的分类器设计方法
4、正态分布条件下的分类器设计
5、判别函数、决策面、决策方程等术语的概念
6、Bayes决策理论的理论意义与在实践中所遇到的困难
知识点
§2.1 引言
在前一章中已提到,模式识别是一种分类问题,即根据识别对象所呈现的观察值,将其分到某个类别中去。统计决策理论是处理模式分类问题的基本理论之一,对模式分析和分类器的设计起指导作用。贝叶斯决策理论是统计模式识别中的一个基本方法,我们先讨论这一决策理论,然后讨论涉及统计判别方法的一些基本问题。
在描述本章所要讨论的问题之前,再提一下对于待识别的物理对象的描述问题。假设一个待识别的物理对象用其d个属性观察值描述,称之为d个特征,这组成一个d维的特征向量,而这d维待征所有可能的取值范围则组成了一个d
维的特征空间。
为了说明这句话,我们讨论一个具体的例子。假设苹果的直径尺寸限定在7厘米到15厘米之间,它们的重量在3两到8两之间变化。如果直径长度x 用厘米为单位,重量y以两为单位。那么,由x值从7到15,y值从3到8包围的二维空间就是对苹果进行度量的特征空间。
贝叶斯决策理论方法所讨论的问题是:已知总共有c类物体,也就是说待识别物体属于这c类中的一个类别,对这c类不同的物理对象,以及各类在这d维特征空间的统计分布,具体说来是各类别ωi=1,2,…,c的先验概率P(ωi)及类条件概率密度函数p(x|ωi)已知的条件下,如何对某一样本按其特征向量分类的问题。由于属于不同类的待识别对象存在着呈现相同观察值的可能,即所观察到的某一样本的特征向量为X,而在c类中又有不止一类可能呈现这一X值,这种可能性可用P(ωi|X)表示。如何作出合理的判决就是贝叶斯决策理论所要讨论的问题。下一节讨论几种常用的决策规则,接着要分析正态分布时统计决策的问题以及错误概率等问题。由于这种决策理论基于已知概率分布为前提,因此在本章还要讨论概率密度函数的估计问题。
上一章提到机器实现自动分类有两大类方法:一种是模板匹配方法,而另一种就是对特征空间划分为子空间(每类的势力范围)的方法。本章是针对第二种方法的。核心问题是:样本为特征向量X时,它属于哪一类可能性有多大,如能确定属于各个类别的百分比(概率),分类决策就有了依据。例如某个样本的特征向量为X,X属于第一类样本的可能性为60%,而第二类的可能性为40%。在没有任何样本信息的情况下,则应将样本决策为第一类以使错分类可能性小(40%),这就是这一章考虑分类问题的出发点。
§2.2 几种常用的决策规则
本节将讨论几种常用的决策规则。不同的决策规则反映了分类器设计者的不同考虑,对决策结果有不同的影响。其中最有代表性的是基于最小错误率的贝叶斯决策与基于最小风险的贝叶斯决策,下面分别加以讨论。
2.2.1 基于最小错误率的贝叶斯决策
一般说来,c类不同的物体应该具有各不相同的属性,在d维特征空间,各自有不同的分布。当某一特征向量值X只为某一类物体所特有,即
,
对其作出决策是容易的,也不会出什么差错。问题在于出现模棱两可的情况。此时,任何决策都存在判错的可能性。这一节讨论的是使错误率为最小的决策方法,称为基于最小错误率的贝叶斯决策理论。最小错误率是在统计的意义上说的,请注意其含义。
在这里要弄清楚条件概率这个概念。P(*|#)是条件概率的通用符号,在“|”后边出现的#为条件,之前的*为某个事件,即在某条件#下出现某个事件*的概率。P(ωk|X)是表示在X出现条件下,样本为ωk类的概率。
一个事物在某条件下出现的概率P(*|#)与该事件在不带任何条件下出现的概率(写成P(*))是不相同的。例如全世界人口有60亿。因此你见到一个人在不带任何条件下,有20%的可能性是中国人P(*)=0.2,但是如果你在中国,或香港、台湾,那么中国、香港、台湾都是指一种条件(#),这种地理条件下,你所见到的某一个人是中国人(*)的概率就要大得多,此时P(*|#)就应该大于20%,甚
至更多了。
下面先讨论一个例子——癌细胞的识别,以此说明解决问题的过程。假设每个要识别的细胞已作过预处理,并抽取出了d个特征描述量,用一个d维的特征向量X表示,识别的目的是要依据该X向量将细胞划分为正常细胞或者异常细胞。这里我们用ω1表示是正常细胞,而ω2则属于异常细胞。
类别的状态是一个随机变量,而某种状态出现的概率是可以估计的。概率的估计包含两层含义,一是由统计资料表明,正常细胞与异常细胞在统计意义上的比例,这称为先验概率P(ω1)及P(ω2),另一种则分别表示所检查细胞呈现出不同属性的概率密度函数P(x|ω1)和P(x|ω2),显然在一般情况下正常细胞占比例大,即P(ω1)>P(ω2),因此如果我们不对具体的细胞化验值作仔细观察,我们作出该细胞是正常细胞的判决,在统计的意义上来说,也就是平均意义上说,错判可能性比判为异常细胞时小。但是仅按先验概率来决策,就会把所有细胞都划归为正常细胞,并没有达到将正常细胞与异常细胞区分开的目的。这表明由先验概率所提供的信息太少。
为此我们还必须利用对细胞作病理分析所观测到的信息,也就是所抽取到的d维观测向量。为简单起见,假定只用其一个特征进行分类,即d=1,并已知这两类的类条件概率密度函数分布已知,如图2.1所示,其中P(x|ω1)是正常细胞的属性分布,P(x|ω2)是异常细胞的属性分布。那末,当观测向量为X值时,它属于各类的概率又是多少呢?为此我们可以利用贝叶斯公式, 来计算这种条件概率,称之为状态的后验概率P(ωi|X)。