PR_Chapter02_BayesianDecisionTheory

合集下载

模式识别第二章

模式识别第二章
多元正态分布由n+n(n+1)/2个参数所完全决 定
p(x)~N(μ,Σ)
第二章 贝叶斯决策理论
37
等概率密度轨迹为超椭球面
正态分布 Bayes决策
p ( x ) c ( x μ ) T 1 ( x μ ) 2
i
第二章 贝叶斯决策理论
9
分类器设计
判别 函数
分类器是某种由硬件或软件组成的“机器”:
➢计算c个判别函数gi(x)
➢最大值选择
x1
g1
x2
g2
ARGMAX
a(x)
.
.
.
.
.
.
xn
gc
多类识别问题的Bayes最大后验概率决策:gi(x) = P (ωi |x)
第二章 贝叶斯决策理论
10
2.3 Bayes最小错误率决策
根据已有知识和经验,两类的先验概率为:
➢正常(ω1): P(ω1)=0.9 ➢异常(ω2): P(ω2)=0.1 ➢对某一样本观察值x,通过计算或查表得到:
p(x|ω1)=0.2, p(x|ω2)=0.4
如何对细胞x进行分类?
第二章 贝叶斯决策理论
15
Bayes最小错误率决策例解(2)
最小错误 率决策
利用贝叶斯公式计算两类的后验概率:
P ( 1|x ) 2 P P ( ( 1)jp )( p x (x | | 1 )j)0 .9 0 0 ..9 2 0 0 ..2 1 0 .40 .8 1 8
j 1
P ( 2|x ) 2 P P ( ( 2)jp )( p x (x | | 2)j)0 .2 0 0 ..9 4 0 0 ..1 4 0 .1 0 .1 8 2

第2章 贝叶斯决策完整版.ppt

第2章 贝叶斯决策完整版.ppt
精选
最小风险准则
❖ 最小风险贝叶斯决策:考虑各种错误造成损失不
同而提出的一种决策规则。
❖ 条件风险:
精选
最小风险准则
❖ 期望风险:对于x的不同观察值,采取决策αi时,
其条件风险大小是不同的。所以究竟采取哪一种决 策将随x的取值而定。这样,决策α可以看成随机向 量x的函数,记为α(x)。可以定义期望风险Rexp为:
假言:如果鱼的长度 x 大于45cm,则该鱼为 鲈鱼 1,否则该鱼为鲑鱼 2
前提:现在某条鱼 x 38cm
结论:该鱼为鲑鱼 2
❖ 概率推理(不确定性推理)
P i x 精选
最小错误率准则
❖ 例子:
给定
P
y
1
P
y
2
1 2
,类条件概率密度如图。
现有一条鱼 x=38cm, 若采用最小错误率决策,该鱼应该为哪一类?
R2
R1
a p 1 b
❖ 一旦 R1 和 R2 确定,a和b为常数
❖ 一旦 R1 和 R2 确定, R 与 P(ω1) 成线性关系
❖ 选择使 b=0 的R1 和 R2 ,期望风险与P(ω1) 无关!
精选
R* C’ C
最小最大决策准则
D
R1 ,R2不变
A
R*B
D’
B
R1 ,R2改变
b=0
此时最大 风险最小,
P i
x
Px
i P i
Px
则: P1 x P2 x
等价于:
p x 1 P 1 p x 2 P 2
p x 1 p x 2
p 2 p 1
精选
似然比公式
最小错误率准则
❖ 特例1:

Bayes dicision贝叶斯决策的教程解析

Bayes dicision贝叶斯决策的教程解析

1e1e1 2e2e2 ....... kekek PP
Positive-definite matrix:

x x 0, x 0
1 2 ...... k 0
Note : x x 1 ( x e1) 2 ...... k ( x ek ) 2
Discriminant function for normal density
Discriminant function for normal density
Extention to multi-class.
Discriminant function for discrete features
Discriminant function for normal density
“Linear machine”: dicision surfaces are hyperplanes.
Discriminant function for normal density
With unequal prior probabilities, the decision boundary shifts to the less likely mean.
Lecture 2.
Bayesian Decision Theory
Bayes Decision Rule Loss function Decision surface Multivariate normal and Discriminant Function
Bayes Decision
It is the decision making when all underlying probability distributions are known. It is optimal given the distributions are known. For two classes w1 and w2 , Prior probabilities for an unknown new observation: P(w1) : the new observation belongs to class 1 P(w2) : the new observation belongs to class 2 P(w1 ) + P(w2 ) = 1 It reflects our prior knowledge. It is our decision rule when no feature on the new object is available: Classify as class 1 if P(w1 ) > P(w2 )

第2章_贝叶斯决策

第2章_贝叶斯决策

R1
R1
21 p 1 p x 1 dx 22 p 2 p x 2 dx
R2
R2
11 p 1 (1 p x 1 dx) 21 p 1 p x 1 dx 12 (1 p 1 ) p x 2 dx
R2
R2
R1
22(1 p 1 )(1 p x 2 dx)
R1
最小最大决策准则
Neyman-Pearson准则
❖ 对两分类问题,错误率可以写为:
Pe p x R1, x 2 p x R2, x 1
p x | 2 p2 dx p x | 1 p1 dx
R1
R2
p x | 2 dx p2 p x | 1 dx p1
R1
R2
p2 e p2 p1 e p1
策即为最小风险贝叶斯决策
最小风险准则
最小风险准则
❖ 对于贝叶斯最小风险决策,如果损失函数为“01损失”,即取如下的形式:
i wj
0, 1,
for i j ; i, j 1,
for i j
,c
那么,条件风险为:
c
R i x i j P j x P j x 1 P i x
❖ 贝叶斯决策的两个要求
各个类别的总体概率分布 (先验概率和类条件概 率密度) 是已知的
要决策分类的类别数是一定的
引言
❖ 在连续情况下,假设对要识别的物理对象有d种特征
观察量x1,x2,…xd,这些特征的所有可能的取值范围 构成了d维特征空间。
❖ 称向量 x x1, x2, , xd T x Rd 为d维特征向量。
p 2 p 1
似然比公式
最小错误率准则
❖ 特例1:
最小错误率准则

第3章Bayes决策理论2

第3章Bayes决策理论2
第3章Bayes决策•返理论回2 本章首页
•(2)各类的协方差矩阵不相等
第3章Bayes决策•返理论回2 本章首页
第3章Bayes决策•返理论回2 本章首页
3.7 离散情况的Bayes决策
•前面我们我们介绍都是连续情况的Bayes决策理论,这 里我们看一下的离散情况。设 是离散型随机变量,从 而Bayes决策法则就是:
•(1)先验概率

•(2)条件概率密度函数

•先验概率的估计并不困难,关键是条件概率密度函数。
•这里我们以正态分布概率密度函数为主进行讨论,因为
•Ⅰ 在实际问题中,大量的随机变量都服从或近似地服 从正态分布;
•Ⅱ 即使统计总体不服从正态分布,但是它的许多重要 的样本特征可能是渐进正态分布的;
•Ⅲ 正态分布分析起来比较方便。
第3章Bayes决策•返理论回2 本章首页
第3章Bayes决策•返理论回2 本章首页
3.3 Neyman—Pearson决策
Neyman—Pearson决策即限定一类错误率条件下使另一 类错误率为最小的两类别决策。
第3章Bayes决策•返理论回2 本章首页
•用Lagrange乘子法建立其数学模型
• ,它对应于下式
•然后确定
第3章Bayes决策•返理论回2 本章首页
3.5 Bayes分类器和判别函数
•前面我们介绍了四种决策规则,这里结合第二章中介绍 的判别函数和决策面的概念来设计分类器。
•对于n 维空间中的 c 个模式类别各给出一个由 n 个特征组成的单 值函数,这叫做判别函数。在 c 类的情况下,我们共有 c个判别函 数,记为
第3章Bayes决策理论2
2020/11/26
第3章Bayes决策理论2

第二章 贝叶斯决策理论

第二章 贝叶斯决策理论

第二章 贝叶斯决策理论● 引言♦ 统计模式识别方法以样本特征值的统计概率为基础:(1) 先验概率()i P ω、类(条件)概率密度函数(/)i p ωx 和后验概率(/)i P ωx 。

(2) Bayes 公式体现这三者关系的公式。

♦ 本章讨论的内容在理论上有指导意义,代表了基于统计参数这一类的分类器设计方法,结合正态分布使分类器设计更加具体化。

♦ 模式识别算法的设计都是强调“最优”,即希望所设计的系统在性能上最优。

是指对某一种设计原则讲的,这种原则称为准则。

使这些准则达到最优,如最小错误率准则,基于最小风险准则等,讨论几种常用的决策规则。

设计准则,并使该准则达到最优的条件是设计模式识别系统最基本的方法。

● 思考?♦ 机器自动识别分类,能不能避免错分类,如汉字识别能不能做到百分之百正确?怎样才能减少错误?♦ 错分类往往难以避免,因此就要考虑减小因错分类造成的危害损失,有没有可能对一种错分类严格控制?● 贝叶斯决策理论与方法基本概念给定一个m 模式类(,,....,)m ωωω12的分类任务以及各类在这n 维特征空间的统计分布, 要区分出待识别样本x 属于这m 类样本中的哪一类问题。

假设一个待识别的样本用n 个属性观察值描述,称之为n 个特征,从而组成一个n 维的特征向量,而这n 维征向量所有可能的取值范围则组成了一个n 维的特征空间。

特征空间的统计分布 (1) i ω, i =1,2,…,m 的先验概率:()i P ω(2)类条件概率密度函数:(|)i p ωx (可解释为当类别i ω已知的情况下, 样本x 的概率 分布密度函数)(3)后验概率:生成m 个条件后验概率(|)i P ωx ,i =1,2,…,m 。

也就是对于一个特征 向量x ,每一个条件后验概率(|)iP ωx 都代表未知样本属于某一特定类i ω的概率。

第一节 基于最小错误率的贝叶斯判别方法 (一).两类情况两类情况是多类情况的基础,多类情况往往是用多个两类情况解决的。

模式识别课件 第二章 贝叶斯决策论

模式识别课件 第二章 贝叶斯决策论

• 2.3 最小误差率分类
• 当损失函数简化到所谓的“对称损失”或“0-1损失” 函数
i, j 1,2,c
0 ( i | j ) 1
i j i j
• 这个损失函数将0损失赋给一个正确的判决,而将一 个单位损失赋给任何一种错误判决,因此所有误判都是 等价的。与这个损失函数对应的风险就是平均误差概率。
i ;
b
左图说明,如果 引入一个0-1损失 或分类损失,那么 判别边界将由阈值 a 决定;而如果 损失函数将模式 2 判为 1 的惩罚大于 反过来情况,将得 到较大的阈值 使 b 得R1变小
2.3.1 极小极大化准则(先验概率未知情形) • 有时我们需要设计在整个先验概率范围内都能很好操作的 分类器。一种合理的设计方法就是使先验概率取任何一种
2

通常: (2,1 1,1 ) 0 (1,2 2,2 ) 0
结合贝叶斯公式,用先验概率与条件密度来表示 后验概率,等价规则为 如果 (2,1 1,1 ) P( x | 1 ) P(1 ) (1, 2 2,2 ) P( x | 2 ) P(2 )
p( x | i ) P(i ) p( x | j ) P( j )
j
g i ( x) P(i | x)
gi ( x) ln p( x | i ) ln P(i )
• 尽管判别函数可写成各种不同的形式,但是判决规则是相同的。 每种判决规则都是将特征空间划分c个判决区域, R1 , Rc 如果对于所有的 j i ,有 gi ( x) g j ( x) 那么x属于 Ri 。 要求我 们将x分给 i 。此区域由判决边界来分割,其判决边界即判决
注 : 假定的类条件概率密度函数图,显示了模式处于类别 i 时观察某 个特定特征值 x 的概率密度.如果 x 代表了鱼的长度,那么这两条曲线可 描述两种鱼的长度区别.概率函数已归一化,因此每条曲线下的面积为1

统计(Bayesian决策理论.

统计(Bayesian决策理论.

第二章 统计(Bayesian )决策理论Bayesian 决策理论是统计模式识别方法的理论基础,大多数人认为也是神经网络分类方法的理论基础。

说到底,Bayesian 决策方法就是企望在后验概率P (ωj /x )(据此确定样本x 的类别)和代价P (e)(即风险,做这一决策产生的损失)之间寻找一个平衡点。

当然,我们希望P (ωj /x )越大越好,P (e)越小越好。

2.1 基于最小错误率(Minimum-error-rate )的决策最小错误率—Probability of minimum error 。

我们应将之理解为犯错误最小的概率,与上一章的分类错误率不是一回事。

设有两个类别ω1和ω2,它们的先验概率(Prior Probabilities )P (ω1)、P (ω2)为已知。

(1) 根据先验概率决策对样本x 而言,我们除知道P (ω1)和P (ω2)之外,其它一无所知。

令P (ω1)>P (ω2),若希望做决策时误差为最小,则认为 x ∈ω1。

类似地,若有n 个类别,且()())12(,,2,1-≠=>j k n k P P k j ωω则决策 x ∈ωj ;若()())22(,,2,1-≠==j k nk P P k j ωω这时,我们不能作出决策。

该方法的缺陷之一是P (ωj )的准确值一般是不知道的,常用的方法是估计。

设样本总数为N ,第j 类样本数为N j ,则()()NN PP j j j =≈ωωˆ(频数比)。

若所有类别的样本数一样多,即()()k j P Pωωˆˆ=,k =1,2,⋯,n ,这时该方法失效。

(2) 根据后验概率(Posteriori Probabilities )决策设可求得后验概率P (ωj /x ),j =1,2,⋯,n ,若()())32(,,2,1-≠=>j k n k P P k j x x ωω则可决策 x ∈ωj 。

我们知道,Bayesian 公式为()())42(-⎪⎭⎫⎝⎛=⎪⎭⎫ ⎝⎛x x x p p P P j j j ωωω这里,p (x )为x 的概率密度,p (x /ωj )为x 属于ωj 的类条件概率密度。

PR部分习题解答

PR部分习题解答

第二章:贝叶斯决策理论 主要考点:1. 最小错误率贝叶斯分类器;2. 最小风险贝叶斯分类器;3. 多元正态分布时的最小错误率贝叶斯分类器。

典型例题:P45,2.23,2.24。

例题1:在一个一维模式两类分类问题中,设12()1/3,()2/3p p ωω==,两类的类概率密度分别为2212(/)(1)),(/)(1))p x x p x x ωω=-+=--1)求最小错误率贝叶斯分类器的阈值。

2)设损失为0310L ⎛⎫= ⎪⎝⎭,求最小风险贝叶斯分类器的阈值。

解:由于p(w1)=1/3, p(w2)=2/3,则最小错误率贝叶斯分类器的阈值θ=p(w2)/p(w1)=2其相应的决策规则为:,)1()2()2/()1/(w p w p w x p w x p >< 则21{w w x ∈2>< 即 12ln 24ln 24w x x w x ⎧<-⎪⎪∈⎨⎪>-⎪⎩ (2) 当L=0310时,122221113,01,0λλλλ====从而最小风险贝叶斯决策规则的阈值为:1222221111()()(30)*1/3.3/2()()(10)*2/3p w p w λλλλλ--===--判决规则为:12(/)(/)p x w p x w λ><,则21{w w x ∈23/2==>exp(4)3/2x -= 12ln(3/2)4ln(3/2)4w x x w x ⎧<-⎪⎪∈⎨⎪>-⎪⎩例2p45,2.23解:这里两类协方差矩阵相等。

负对数似然比判别规则为111222(/)()lnln 0(/)()x p x p x p x p ωωωωωω∈<⎧--=⇒⎨∈>⎩ ()()()()11111/2112221/2111122112211exp(()())(/)2||2ln ln11(/)exp(()())2||2[()()(11())()]/21111exp ,222020T i i i i nT T T T ix x p x p x x x x x x x x x p x x x x x x μμωπωμμπωμμπμμμμ------⎡⎤=---⎢∑--∑-∑-=---∑-∑=-∑---∑-+⎛⎫=+-- ⎪-⎝⎭⎥⎣⎦∑∑ =I.故()1111202021x x x x -⎛⎫-- ⎪-⎝⎭=例32.24 解:()()()112111211111/211122221/2221112/34/32/34/311exp(()())(11()exp ,22/)2||2ln ln11(/)exp(()())2||2[()(T T T i i i i nT ix x p x p x p x x x x x x x μμωπωμμπμωμμπ------⎛⎫⎛⎫∑∑ ⎪ ⎪-⎝⎭⎝⎭--∑-∑-=--⎡⎤=---⎢⎥-∑-∑=-⎣⎦∑-∑∑4/3-2/34/32/3=,=故()()1121221122)()()]/211111120112020202/34/32/34/381ln213/4ln234433/T x x x x x x x x x x x x x μμμ---∑-++-⎛⎫⎛⎫⎛⎫⎛⎫=+----+ ⎪ ⎪ ⎪ ⎪---⎝⎭⎝⎭⎝⎭⎝⎭=-∑∑4/3-2/34/32/3例4:假设两类二维正态分布参数如下,试给出负对数似然比判别规则。

贝叶斯决策理论

贝叶斯决策理论

第二章 贝叶斯决策理论
➢ 如果将一个“-“样品错分为”+“类所造成的损失要比将” +“分成”-“类严重。
➢ 偏向使对”-“类样品的错分类进一步减少,可以使总的损 失最小,那么B直线就可能比A直线更适合作为分界线。
12
2.1 Bayes决策的基本概念
第二章 贝叶斯决策理论
➢ 分类器参数的选择或者学习过程得到的结果取决于 设计者选择什么样的准则函数。
概率密度函数 P(X | 1) 是正常药品的属性分布,概率密度函数
P(X | 2 ) 是异常药品的属性分布。
24
2.1 Bayes决策的基本概念
第二章 贝叶斯决策理论
在工程上的许多问题中,统计数据往往满足正态分 布规律。
正态分布简单,分析简单,参量少,是一种适宜 的数学模型。
如果采用正态密度函数作为类条件概率密度的函数 形式,则函数内的参数(如期望和方差)是未知的, 那么问题就变成了如何利用大量样品对这些参数进行 估计。
➢ 不同准则函数的最优解对应不同的学习结果,得到 性能不同的分类器。
13
2.1 Bayes决策的基本概念
第二章 贝叶斯决策理论
➢ 错分类往往难以避免,这种可能性可用 P(i | X ) 表 示。
➢ 如何做出合理的判决就是Bayes决策所要讨论的问题。
➢ 其中最有代表性的是:
基于错误率的Bayes决策 基于最小风险的Bayes决策
05
2.1 Bayes决策的基本概念
第二章 贝叶斯决策理论
例:某制药厂生产的药品检验识别 目的:说明Bayes决策所要解决的问题!!
06
2.1 Bayes决策的基本概念
第二章 贝叶斯决策理论
如图4-1所示,正常药品“+“,异常药品”-”。 识别的目的是要依据X向量将药品划分为两类。

贝叶斯决策理论(英文)--非常经典!

贝叶斯决策理论(英文)--非常经典!

What is Bayesian classification?
Bayesian classification is based on Bayes theorem
Bayesian classifiers have exhibited high accuracy and fast speed when applied to large databases
贝叶斯决策理论英文非常经典
Classification vs. Regression
Classification predicts categorical class labels Prediction Regression models continuous-valued functions, i.e. predicts numerical values
Two step process of prediction (I)
Step 1: Construct a model to describe a training set
• the set of tuples used for model construction is called training set • the set of tuples can be called as a sample (a tuple can also be called as a sample) • a tuple is usually called an example (usually with the label) or an instance (usually without the label) • the attribute to be predicted is called label Training algorithm

模式识别原理SV-2-2010

模式识别原理SV-2-2010
P1 (e ) = ∫R2 P (x / ω 1 )dx = 1 − ∫R1 P (x / ω 1 )dx ∵ P2 (e ) = ∫R P ( x / ω 1 )dx 1
r = ∫ P( x / ω1 )dx + λ ∫ P(x / ω2 )dx − ε 0 ∴ R1 R2 = (1 − λε 0 ) + ∫ [λP ( x / ω 2 ) − P ( x / ω 1 )]dx 化为同一决策域函数
在Pr[ωi]变化的情况下,使最大可能的风险最小。 变化的情况下,
即在最不利的情况下争取最好的结果。
4 最小最大决策(偏于保守的分类方法) 2类 最小最大决策(偏于保守的分类方法)
假若P (ω i ) 变化或未知,使最大可能的风险为最小。 即在最差条件下,争取最好的结果。 选择门限,使在最坏情况下平均风险最小。
没有发生; 预报为有震, ,要付出代价, 没有发生; 预报为有震,要作准备 要付出代价,但地震 预报为无震, 生了,要遭受损失。 预报为无震,但地震发 生了,要遭受损失。
最小风险贝叶斯决策,
假设各种错误造成损失会不同,而提出的一种决策规则
① 观察量x,为一个n维随机向量,X = [x1 , x 2 ,..., x n ] 观察量x ② 状态空间Ω ,K个自然状态(k类,Ω = {ω1 , ω 2 ,..., ω k } ③ 决策空间A, 个决策,αi , i =1,2,...,a, A = {α1,α2 ,..., a} 决策空间 α α
T
α 不一定等于K,比如拒绝决策时,a = K + 1
④ 损失函数 λ (α i , ω j ),
i = 1 , 2 ,..., a ; j = 1 , 2 ,..., k

第二章贝叶斯决策理论

第二章贝叶斯决策理论
1
第二章 贝叶斯决策理论
2.2 几种 常用旳决策规则
• 基于最小错误率旳贝叶斯决策 • 基于最小风险旳贝叶斯决策 • 分类器设计
2
2.2.1 基于最小错误率旳贝叶斯决策
在模式分类问题中,基于尽量降低分类旳错 误旳要求,利用概率论中旳贝叶斯公式,可得出 使错误率为最小旳分类规则,称之为基于最小错 误率旳贝叶斯决策。
11 0,
12 6
21 1,
22 0
根据例2.1旳计算成果可知后验概率为
P(1 | x) 0.818,
P(2 | x) 0.182
再按式(2-15)计算出条件风险 2 R(1 | x) 1 j P( j | x) 12P(2 | x) 1.092 j 1
R(2 | x) 21P(1 | x) 0.818 由于R(1 | x) R(2 | x)
c
c
R(i | x) (i , j )P( j | x) P( j | x)
(2 19)
j 1
j 1
ji
c
P( j
j 1
| x)
表达对x采用决策 i旳条件错误概率。
ji
26
• 所以在0-1损失函数时,使
R( k
|
x)
min
i 1,,c
R(i
|
x)
旳最小风险贝叶斯决策就等价于
c
c
j1
P( j
(i ,
j
)
10,,ii
j, j,
i, j 1,2,, c
(2 18)
25
• 式中假定对于c类只有c个决策,即不考虑“拒绝”旳
情况。式(2-18)中(i , j ) 是对于正确决策(即i=j)

贝叶斯决策理论

贝叶斯决策理论
图 1 贝叶斯决策过程示意框图。 用贝叶斯推理求解问题,就是假设决策问题可以用概率形式来描述,问题的概率描述均
已知,然后基于贝叶斯推理求取风险最小的决策。用随机变量x ∈ ℝ、������ ∈ {������*, ������ = 1, … ������}、
a ∈ {������4, ������ = 1, … ������}分别表示特征、状态和动作,状态先验、似然分别用p(w)、p(w|x)表示且 已知,用风险函数λ(α|w)表示状态为 w 时采取行动 α 的代价。利用贝叶斯公式综合先验和 似然,得到状态的后验分布p(w|x)。采取行动������*的期望风险可以按下式计算。贝叶斯最小风 险决策就是采取风险最小的行动,即������∗ = ������������������������������������ R(αC|x)。
(3.2)
这里,状态 w 的取值为ωC,������ = 1, … , … , ������. ������4为行为,j = 1, … , … , k,p(������*)是先验概率, p(x|������*)是似然概率(likelihood),在分类问题中称为类条件概率,p(x)被称为证据(evidence), p(������*|x)是后验概率。类条件概率是指该类所有特征的概率分布。类条件概率和先验一般可
在二分类问题中,用������*4 表示当实际类别为������4 而误判为������* 时所引起的代价。用贝叶斯最 小风险决策可以得到三种等价的决策规则。
决策规则-1: 若R ������L x < R ������M x 则采取决策������L:“decide ������L”
R ������L x = ������LL������ ������L ������ + ������LM������ ������M ������ R ������M x = ������ML������ ������L ������ + ������MM������ ������M ������ 对于决策规则-1,因为不等号两边都有 p(x)证据(evidence)这一项,可以约去,就得到 决策规则-2: 若有(������ML − ������LL)������(������|������L)������ ������L > (������LM − ������MM)������(������|������M)�

Bayes决策理论

Bayes决策理论

2.2 基于最小风险的Bayes决策

例:两类问题的最小风险Bayes决策:
R( D( x) = ω1 | x) = λ11 P(ω1 | x) + λ12 P(ω 2 | x),
R( D( x) = ω 2 | x) = λ21 P(ω1 | x) + λ22 P(ω 2 | x).
ω1
> (λ21 − λ11 ) P(ω1 | x) (λ12 − λ22 ) P(ω 2 | x). <
i

p( x | ω i ) :类条件概率密度。 P (ω i ) :先验概率;
2.1 基于最小错误率的Bayes决策

对数域中计算,变乘为加:
ln( p ( x | ω i ) P(ω i )) = ln p ( x | ω i ) + ln P(ω i ).

比较大小不需要计算 p ( x) :
2.3 正态分布的最小错误率Bayes决策
第二章 Bayes决策理论

2.0 引言 2.1 基于最小错误率的Bayes决策 2.2 基于最小风险的Bayes决策 2.3 正态分布的最小错误率Bayes决策 2.4 说明
2.0 引言
2.0 引言


统计决策理论——根据每一类总体的概 率分布决定决策边界 Bayes决策理论是统计决策理论的基本方 法
2.2 基于最小风险的Bayes决策

N类问题:(λi,j ) N *N
λ13 λ14 L
L O
λ12 λ11 λ22 λ21 M λ( n −1)1 λ n1 λn 2
λij
L
M λ( n −1) n λnn
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数学家 Thomas Bayes (1702-1761), London, England.
© 庞彦伟, Tianjin University

第2章 第2页
DIP
§2.1 Introduction
Prior to the birth of Thomas Bayes, the proud parents, Mr Joshua Bayes and Mrs. Ann Carpenter Bayes, had 11 daughters (Anne, Rebecca, Mary, etc). While Mrs. Bayes was pregnant with Thomas, she REALLY, REALLY wanted a son. So they went to the local seer, who placed her hands on Mrs. Bayes‘ stomach and pronounced that without a doubt, the next baby would be a boy. Well, Mrs. Bayes really, really believed that this next baby would be a boy. So when the baby actually arrived, the actual physical evidence that the baby was a girl was not strong enough to overcome her prior (ahem) belief that the baby would be a boy, and so Joshua and Anne named their new baby daughter Thomas and raised her to be the son they had always wanted. (Jokes may be)
重要性:
研究内容:
Quantifying the tradeoffs between various classification decisions using probability and the costs that accompany such decisions.
前提
The decision problem is posed in probabilistic terms, and that all of the relevant probability values are known.
Decision rule based on priori probability
The only information we are allowed to use is the value of prior probabilities. Decide ω1, if P(ω1)>P(ω2); Decide ω2, if P(ω1)<=P(ω2); This rule makes sense if we to judge one fish, but if we to judge many fish, using this rule repeatedly many seem a bit strange. After all, we would always make the same decision even though we know that both types of fish will appear.
Prior
The prior probabilities reflect our prior knowledge of how likely we are to get a sea bass or salmon before the fish actually appears. It might depend upon the time of year or the choice of fishing area. There is some a priori probability P(ω1) that the next fish is sea bass, and some priori probability P(ω2) that the fish is salmon.
© 庞彦伟, Tianjin University

第2章 第3页
DIP
§2.1ቤተ መጻሕፍቲ ባይዱIntroduction
Bayesian decision theory is a fundamental statistical approach to the problem of pattern classification
问题:给定特征x, 判断该特征隶属于类ω1还是ω2
Decision based on px(x|ω) and p(ω) and feature value x
How does this measurement influence our attitude concerning the true state of nature (i.e. the category of the fish)? Bayes Theorem can be derived from the Product Rule of probability p (ω j , x) = p(ω j | x) p( x) = p ( x | ω j ) p(ω j )
You could be Bayesian if your observation are less important than your prior
大数学家 Thomas Bayes (1702-1761), London, England.
/~b rani/isyebayes/jokes.html
问题:给定特征x, 判断该特征隶属于类ω1还是ω2
Class-conditional probability density px(x|ω)
Different fish will yield different lightness readings, and we express this value this variability in probabilistic terms. px(x|ω) is the probability density function for x given that the state of nature is ω. Then the difference between px(x|ω1) and px(x|ω2) describes the difference in lightness between populations of sea bass and salmon.
© 庞彦伟, Tianjin University 第2章 第5页
DIP
§2.1 Introduction
问题:给定特征x, 判断该特征隶属于类ω1还是ω2
Prior
The prior probabilities reflect our prior knowledge of how likely we are to get a sea bass or salmon before the fish actually appears. It might depend upon the time of year or the choice of fishing area. There is some a priori probability P(ω1) that the next fish is sea bass, and some priori probability P(ω2) that the fish is salmon.
p (ω j | x) =
where
p ( x | ω j ) p (ω j ) p( x)
j
=
likelihood × prior = posterior evidence
j
p ( x ) = ∑ p ( w j , x) = ∑ p ( x | w j ) p ( w j )
Bayes formula shows that by observing the value of x we can convert the prior probablity P(ωj) to the a posteriori probatility p(ω|x)
Class-conditional probability density px(x|ω)
Feature value (e.g. lightness)
© 庞彦伟, Tianjin University 第2章 第7页
DIP
§2.1 Introduction
Statistical Pattern recognition vs. 算命
Even fortune-teller needs to see your palm or face
© 庞彦伟, Tianjin University 第2章 第6页
DIP
§2.1 Introduction
DIP
统计模式识别
第二章 贝叶斯决策理论 (Bayesian Decision Theory)
天津大学电子信息工程学院 庞彦伟 (Yanwei Pang) 2009年4月28日 年 月 日
DIP
§2.1 Introduction
However, some researchers still argue that concentrating on inference for model parameters is misguided and uses unobservable, theoretical quantities. Due to this skepticism, some are reluctant to fully support the Bayesian approach and philosophy. Even though Bayes was not highly recognized for his mathematical work during his life, he was elected a Fellow of the Royal Society in 1742. At that time he had no published works on mathematics, indeed none were published in his lifetime under his own name, the article on fluxions referred to above was published anonymously
相关文档
最新文档