第2章统计决策方法1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n P(*|#)与P(*)不同
第2章统计决策方法1
几个重要概念
n 先验概率
n P(ω1)及P(ω2)
n 概率密度函数
n P(x|ωi)
n 后验概率
n P(ωi|X)
第2章统计决策方法1
贝叶斯决策理论
n 先验概率,后验概率,概率密度函数
n 假设总共有c类物体,用ωi (i=1,2,…,c)标记
每个类别,x = [x1, x2, …, xd]T,是d维特征
n 对其作出决策是容易的,也不会出什么差错
n 问题在于出现模棱两可的情况 n 任何决策都存在判错的可能性。
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 基本思想
n 使错误率为最小的分类规则 n 称之为基于最小错误率的贝叶斯决策
第2章统计决策方法1

n 两类细胞识别
n 特征-后验概率-分类
n 两类鱼识别
空间上的某一点,则 n P(ωi )是先验概率 n p(x| ωi )是ωi类发生时的条件概率密度函数 n P(ωi|x)表示后验概率
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 例:癌细胞的识别
n 假设每个要识别的细胞已作过预处理,并抽 取出了d个特征描述量,用一个d维的特征向 量X表示,
n 识别的目的是要依据该X向量将细胞划分为 正常细胞或者异常细胞。
n 现有一待识别细胞呈现出状态x,由其类条 件概率密度分布曲线查得p(x|ω1)=0.2, p(x|ω2)=0.4,
n 试对细胞x进行分类。
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 例2.1 n 解:利用贝叶斯公式,分别计算出状态
为x时ω1与ω2的后验概率
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 上例中所作的w1决策,实际上包含有 P(w2|x)=0.182的错误概率
第2章统计决策方法1
最小错误率的证明
n 最小错误率贝叶斯准则使得错误率最小 证明:
在两类别的情况下,可以将p(e|x)表示成当
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 最小错误率贝叶斯准则使得错误率最小 证明:
n 如果我们把作出w1决策的所有观测值区域 称为R1,则在R1区内的每个x值,条件错误 概率为p(w2|x)。
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 贝叶斯决策理论前提
n 各类别总体的概率分布是已知的; n 要决策分类的概率分布是已知的。
n 贝叶斯决策理论方法所讨论的问题是:
n 已知:总共有c类物体,以及先验概率P(ωi)及 类条件概率密度函数p(x|ωi)
n 问题: 如何对某一样本按其特征向量分类的 问题。
n 利用对细胞作病理分析所观测到的信息,也 就是所抽取到的d维观测向量。
n 为简单起见,我们假定只用其一个特征进行 分类,即d=1
n 得到两类的类条件概率密度函数分布
n P(x|ω1)是正常细胞的属性分布 n P(x|ω2)是异常细胞的属性分布
第2章统计决策方法1
基于最小错误率的贝叶斯决策
类条件概率密度函数
•概率密度函数性质
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n salmon” or “sea bass”判别中的类条件概 率密度函数
第2章统计决策方法1
基于最小错误率的贝叶斯决策
类条件概率密度函数直接用来分类 是否合理?
•具有一定的合理性 •没有考虑先验概率 •不满足最小错误率要求
第2章统计决策方法1
n 是统计决策理论中的一个基本方法
第2章统计决策方法1
物理对象的描述
n 在特征空间中讨论分类问题
n 假设一个待识别的物理对象用其d个属性观
察值描述,称之为d个特征,记为x = [x1, x2, …, xຫໍສະໝຸດ Baidu]T
n 这组成一个d维的特征向量,而这d维待征所 有可能的取值范围则组成了一个d维的特征 空间。
第2章统计决策方法1
2020/11/25
第2章统计决策方法1
课前思考
n 机器自动识别分类,能不能避免错分类 ? n 怎样才能减少错误? n 不同错误造成的损失一样吗? n 先验概率,后验概率,概率密度函数? n 什么是贝叶斯公式? n 正态分布?期望值、方差? n 正态分布为什么是最重要的分布之一?
n 计算概率都要拥有大量数据 n 估计先验概率与类条件概率密度函数时都可
搜集到大量样本 n 对某一特定事件(如x)要搜集大量样本是不
太容易 n 只能借助Bayes公式来计算得到
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 问题
n 根据最小错误率,如何利用先验概率、类条 件概率密度函数和后验概率进行分类?
从平均的意义上的错误率 在连续条件下,平均错误率,以P(e)表示,应
有:
第2章统计决策方法1
最小错误率的证明
n 最小错误率贝叶斯准则使得错误率最小 证明:
n 分析两类别问题
n 按贝叶斯决策规则,当P(w2|x)>p(w1|x)时决策 为w2。
n 显然这个决策意味着,对观测值x有P(w1|x)概率 的错误率。
n 根据先验概率和概率密度函数可以计算出后 验概率
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 问题
n 为什么先验概率和类条件概率密度函数可以 作为已知?
n 而后验概率需要通过计算获得?
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 为什么后验概率要利用Bayes公式从先验 概率和类条件概率密度函数计算获得 ?
n “ salmon” or “sea bass”判别中的后验概 率
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 类条件概率和后验概率区别
n 后验概率: P(ω1|x)和P(ω2|x)
n 同一条件x下,比较ω1与ω2出现的概率 n 两类ω1和ω2,则有P(ω1|x)+P(ω2|x)=1 n 如P(ω1|x)> P(ω2|x)则可以下结论,在x条件下,

n 先验概率与类条件概率密度相联系的形 式
第2章统计决策方法1
C类别情况下最小错误率 贝叶斯决策
n 多类别决策过程中的错误率
n 把特征空间分割成R1,R2,…,Rc个区域 n 统计将所有其它类错误划为该区域对应的i类
的概率 n 计算是很繁琐
n 计算平均正确分类概率P(c)即
第2章统计决策方法1
2.2.2基于最小风险的贝叶斯决策
n 特征-后验概率-分类
n 天气预报中的后验概率
n 特征 n 后验概率 n 分类
第2章统计决策方法1

n 细胞识别,加入更多类别? n 鱼识别,加入更多种类? n 存在问题
n 后验概率直接用来分类 n 后验概率不易直接得到 n 后验概率不易联合考虑 n ……
第2章统计决策方法1

n 另一种概率:类条件概率
第2章统计决策方法1
学习指南
n 理解本章的关键
n 要正确理解先验概率,类概率密度函数,后 验概率这三种概率
n 对这三种概率的定义,相互关系要搞得清清 楚楚
n Bayes公式正是体现这三者关系的式子,要 透彻掌握。
第2章统计决策方法1
2.1引言
n 统计决策理论
n 是模式分类问题的基本理论之一
n 贝叶斯决策理论
n 正常细胞特征的概率分布 n 异常细胞特征的概率分布 n salmon的概率分布 n sea bass的概率分布
n 分类中如何使用类条件概率? n 什么是先验概率?
第2章统计决策方法1
条件概率
n P(*|#)是条件概率的通用符号
n 即在某条件#下出现某个事件*的概率 n P(ωK|X):X出现条件下,样本为ωK类的概率
n 另一个区R2中的x,条件错误概率为p(w1|x)。
第2章统计决策方法1
基于最小错误率的贝叶斯决策
最小错误率贝叶斯准则使得错误率最小 证明:
因此平均错误率P(e)可表示成
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 最小错误率贝叶斯准则使得错误率最小 证明:
n 由于在R1区内任一个x值都有P(w2|x)< P(w1|x),
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 基于最小错误率的贝叶斯决策规则:
如果P(ω1|X)>P(ω2|X),则X归为ω1类别 如果P(ω1|X)≤P(ω2|X),则X归为ω2类别
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 几种等价形式:
n 后验概率形式: 如果 则 x归为ωi
n 先验概率及类条件概率密度函数表示: 如果 则 x归为ωi
n salmon” or “sea bass”判别中的先验概率
n P(ωsalmon) n P(ωsea bass)
第2章统计决策方法1
基于最小错误率的贝叶斯决策
先验概率
根据先验概率决定
这种分类决策没有意义 表明由先验概率所提供的信息太少
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 概率密度函数
n 这里我们用ω1表示是正常细胞,而ω2则 属于异常细胞。
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 先验概率
n P(ω1)和P(ω2) n 含义: 每种细胞占全部细胞的比例 n P(ω1)+P(ω2)=1 n 一般情况下正常细胞占比例大,即
P(ω1)>P(ω2)
第2章统计决策方法1
基于最小错误率的贝叶斯决策
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 几种等价形式:
n 比值的方式表示,
如果
则x归为ω1 , 否则x归为ω2
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 几种等价形式:
n 对数形式 若
则x归为ω1 , 否则x归为ω2
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 例2.1
n 假设在某地区切片细胞中正常(ω1)和异常(ω 2)两类的先验概率分别为P(ω1)=0.9, P(ω2)=0.1。
n 同样在R2区内任一个x值都有P(w1|x)< P(w2|x)错误率在每个x值处都取小者,
n 因而平均错误率P(e)也必然达到最小 n 这就证明了平均错误率为最小
第2章统计决策方法1
基于最小错误率的贝叶斯决策
第2章统计决策方法1
C类别情况下最小错误率 贝叶斯决策
n 在C类别情况下最小错误率贝叶斯决策规 则的后验概率形式:
第2章统计决策方法1
§2.2 几种常用的决策规则
n 基于最小错误率的贝叶斯决策 n 基于最小风险的贝叶斯决策 n 在限定一类错误率条件下使另一类错误
率为最小的两类别决策 n 最小最大决策 n 序贯分类方法
第2章统计决策方法1
2.2.1基于最小错误率的贝叶斯决策
n 分类识别中为什么会有错分类?
n 当某一特征向量值X只为某一类物体所特有, 即
基于最小错误率的贝叶斯决策
n 后验概率含义
n P (ω1 |X )
n 当观测向量为X值时, 该细胞属于正常细胞的概
率。
n P (ω2 |X )
n 当观测向量为X值时, 该细胞属于异常细胞的概
率。
第2章统计决策方法1
基于最小错误率的贝叶斯决策
后验概率
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 基本思想
n 使错误率最小并不一定是一个普遍适用的最 佳选择。
n 癌细胞分类
n 两种错误:
n 癌细胞→正常细胞 n 正常细胞→癌细胞
n 两种错误的代价(损失)不同
第2章统计决策方法1
基于最小风险的贝叶斯决策
n 基本思想
n 宁可扩大一些总的错误率,但也要使总的 损失减少。
n 引进一个与损失有关联的,更为广泛的概 念——风险。
第2章统计决策方法1
贝叶斯决策理论方法讨论的问题
n 讨论的问题
n 总共有c类物体 n 已知各类在这d维特征空间的统计分布,
n 各类别ωi=1,2,…,c的先验概率P(ωi) n 类条件概率密度函数p(x|ωi)
n 问题: 如何对某一样本按其特征向量分类
•已知d维特征空间的统计分布,如何对某一样 本分类最合理
n 在作出决策时,要考虑所承担的风险。 n 基于最小风险的贝叶斯决策规则正是为了
体现这一点而产生的。
第2章统计决策方法1
基于最小风险的贝叶斯决策
n 最小错误率贝叶斯决策规则:
n 例2.1
n 根据贝叶斯决策有 P(ω1|x)=0.818>P(ω2|x)=0.182
n 分析:错误概率是多少?
n 判断为正常细胞,错误率为0.182 n 判断为异常细胞,错误率为0.818
因此判定该细胞为正常细胞比较合理。
第2章统计决策方法1
最小错误率的证明
n 最小错误率贝叶斯准则使得错误率最小 证明:
事件ω1出现的可能性大
n 类条件概率: P(x|ω1)和P(x|ω2)
n 是在不同条件下讨论的问题 n 即使只有两类ω1与ω2,P(x|ω1)+P(x|ω1)≠1 n P(x|ω1)与P(x|ω2)两者没有联系
第2章统计决策方法1
基于最小错误率的贝叶斯决策
n 贝叶斯公式
n 先验概率,后验概率,概率密度函数之间关 系
相关文档
最新文档