统计决策理论 ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12
为此必须利用抽取到的d维观测向量。为简单起见,假定 d=1,并已知两类的类条件概率密度函数分布,如图所示,其
中P(x|ω1)是正常细胞的属性分布,P(x|ω2)是异常细胞的属性 分布。
类条件概率密度图
13
由Bayes公式得到:
P(j
x) p(xj)P(j)
p(x)
式中
c
p(x) p(xj)P(j) i1
18
19
一般决策表
20
21
22
➢ 例2:在细胞化验中要区分正常的和异常的两种类型,分 别是分别用w1和w2表示,要得到的判决也是两种,分别为 a1和a2,需要汇集专家们的知识和经验,针对具体问题进 行深入的分析,了解各种判决可能造成的风险或损失。
3
• 统计学以数据为研究内容,但仅仅收集数据, 决不构成统计学研究的全部。
• 下面介绍几种最常用、也是最基本的统计决策 方法。这些方法是以后各种模式识别方法的基 础。
4
2.1 Bayes定理
贝叶斯决策理论方法是统计模式识别中的一个基本方 法,用这种方法进行分类时要求满足以下两个条件:
(1)各类别总体的概率分布是已知的; (2)要决策的类别数是一定的。
在连续的条件下,假设要识别的对象有d种特征测量
值 x1, x2,...xd ,每一种特征都是一个随机变量,因此
组成d维随机向量 x(x1,x2,...xd)T , d种特征的所有的 取值范围构成了d维特征空间。
5
贝叶斯决策理论方法所讨论的问题是:已知总共有c个 类别及各类别ωi=1,2,…,c的先验概率P(ωi)及类条件概 率密度函数p(x|ωi)已知的条件下,如何对某一样本按其 特征向量分类的问题。 由于属于不同类的待识别对象存在着呈现相同观察值的 可能,即所观察到的某一样本的特征向量为X,而在c类中 又有不止一类可能呈现这一X值,这种可能性可用P(ωi|X) 表示。如何作出合理的判决就是贝叶斯决策理论所要讨论 的问题。
9
贝叶斯公式
两个事物X与w联合出现的概率称为联合概率,可 写成P(X,w),它们又可与条件概率联系起来,即 P(X,w)=P(X|w)P(w)=P(w|X)P(X),这就是贝叶斯 公式。
如果将上式中各个项与先验概率,类条件概率密 度函数以及后验概率联合起来,可以找到利用先验 概率,类条件概率分布密度函数计算后验概率的方 法。
于是由先验概率 P ( j ) 转化为后验概率 P(ωj|x) 。
如果对待分类模式的特征我们得到一个观察值x,经上式计
算出结果 P(1 x)>P(2 x),则判决X属于 1 ,反之,属 于 2 。
14
2.2 Bayes决策
15
2.2 Bayes决策
例1:在细胞的化验中,要区分正常和异常的两 种类型,分别用w1和w2表示,已知p(w1)=0.85, p(w2)=0.15,现有一待测细胞,其观测值为X,从 类条件概率密度分析曲线上查得p(x/w1)=0.15, p(x/w2)=0.45,试对该细胞进行分类。
统计决策理论
统计决策理论
2
关于统计学的一个笑话:
有一个从没带过小孩的统计学家,因为妻子出 门勉强答应照看三个年幼好动的孩子。妻子回家时, 他交出一张纸条,写的是:
“擦眼泪11次;系鞋带15次;给每个孩子吹玩 具气球各5次,累计15次;每个气球的平均寿命10秒 钟;警告孩子不要横穿马路26次;孩子坚持要穿马 路26次;我还要再过这样的星期六0次”。 • 统计学真的这样呆板吗?仅仅收集数据,整理分析, 累加平均…
10
2.1 Bayes定理
下面我们从一个两类情况的例子——癌细胞识别出发来 讨论,然后推广到一般情况。
• 假设每个要识别的细胞已作过预处理,并抽取出 了d个特征描述量,用一个d维的特征向量X表示, 识别的目的是要依据该X向量将细胞划分为正常 细胞或者异常细胞。这里我们用ω1表示是正常细 胞,而ω2则属于异常细胞。
16
所以这次化验的细胞被判断为正常类型细胞。 17
2.2 Bayes决策
2.2.2 最小风险Bayes决策
➢ 最小风险Bayes决策是考虑各种错误造成损失不同 而提出的一种决策规则。
➢ 例如,通过化验判断细胞是不是癌细胞,可能做 出两种错误判决:一是把癌细胞错判为正常细胞; 一种是把正常细胞错判为癌细胞。这两种错误判 决带来的风险显然是不同的。
11
2.1 Bayes定理
➢根据医院细胞病理检查的大量统计资料可以对某一地区正 常细胞和异常细胞出现的比例作出估计,即已知先验概率 P(ω1)和P(ω2) ,P(ω1)+P(ω2)=1。 ➢显然一般情况下P(ω1)>P(ω2),因此如果不仔细观察具体 的细胞化验值,该细胞是正常细胞的判决,在统计的意义上 来说,错判可能性比判为异常细胞时小。 ➢但仅按先验概率来决策,就会把所有细胞都划归为正常细 胞,并没有达到将正常细胞与异常细胞区分开的目的。这表 明由先验概率所提供的信息太少。
8
后验概率 一个具体样本属于某种类别的概率。
例如一个学生用特征向量X表示,它是男性或女性 的概率表示成P(男生|X)和P(女生|X),这就是后验 概率。
由于一个学生只可能为两个性别之一,因此有P(男 生|X)+P(女生|X)=1,这一点是与类分布密度函数 不同的。
后验概率与先验概率也不同,后验概率涉及一个具 体事物,而先验概率是泛指一类事物,因此 P(男 生|X)和P(男生)是两个不同的概念。
6
先验概率 预先已知的或者可Βιβλιοθήκη Baidu估计的模式识别系统位于某
种类型的概率,即根据大量统计确定某类事物出 现的比例。 如我国理工科大学男女生比例大约为8:2,则在这 类学校一个学生是男生的先验概率为0.8,而为女 生的概率是0.2,两个概率之和为1。
7
类条件概率密度函数
系统位于某种类型条件下模式样本出现的概率密度分布函 数。 男女生比例是男生与女生这两类事物之间的关系,而男生 高度的分布则与女生的分布无关。为了强调是同一类事物内 部,因此这种分布密度函数往往表示成条件概率的形式。 例如X表示某一个学生的特征向量,则男生的类条件概率 密度表示成P(X|男生),女生的表示成P(X|女生),这两者之 间没有任何关系,可为从0~1之间的任意值。
相关文档
最新文档