贝叶斯决策理论与统计判别方法
贝叶斯判别分析课件
02
03
与决策树比较
贝叶斯判别分析提供了更稳定的预测 ,而决策树可能会因为数据的微小变 化而产生大的预测变化。
05
贝叶斯判别分析的案例分 析
案例一:信用卡欺诈检测
总结词
信用卡欺诈检测是一个经典的判别分析应用场景,通过贝叶斯判别分析可以有效地识别 出欺诈交易,减少经济损失。
详细描述
信用卡欺诈检测是金融领域中一个非常重要的问题。随着信用卡交易量的增长,欺诈行 为也日益猖獗,给银行和消费者带来了巨大的经济损失。贝叶斯判别分析可以通过对历 史交易数据的学习,建立分类模型,对新的交易进行分类,判断是否为欺诈行为。通过
市场细分
在市场营销中,贝叶斯判别分析 可以用于市场细分,通过消费者 行为和偏好等数据,将消费者划 分为不同的群体。
02
贝叶斯判别分析的基本概 念
先验概率与后验概率
先验概率
在贝叶斯理论中,先验概率是指在考 虑任何证据之前对某个事件或假设发 生的可能性所做的评估。它是基于过 去的经验和数据对未来事件的预测。
的类别。
它基于贝叶斯定理,通过将先验 概率、似然函数和决策函数相结 合,实现了对未知样本的分类。
贝叶斯判别分析在许多领域都有 广泛的应用,如金融、医疗、市
场营销等。
贝叶斯判别分析的原理
01
02
03
先验概率
在贝叶斯判别分析中,先 验概率是指在进行观测之 前,各类别的概率分布情 况。
似然函数
似然函数描述了观测数据 在给定某个类别下的概率 分布情况。
后验概率
后验概率是指在考虑了某些证据之后 ,对某个事件或假设发生的可能性所 做的评估。它是基于新的信息和证据 对先验概率的修正。
似然函数与贝叶斯定理
第二章 贝叶斯决策理论与统计判别方法
第二章贝叶斯决策理论与统计判别方法课前思考1、机器自动识别分类,能不能避免错分类,如汉字识别能不能做到百分之百正确?怎样才能减少错误?2、错分类往往难以避免,因此就要考虑减小因错分类造成的危害损失,譬如对病理切片进行分析,有可能将正确切片误判为癌症切片,反过来也可能将癌症病人误判为正常人,这两种错误造成的损失一样吗?看来后一种错误更可怕,那么有没有可能对后一种错误严格控制?3、概率论中讲的先验概率,后验概率与概率密度函数等概念还记得吗?什么是贝叶斯公式?4、什么叫正态分布?什么叫期望值?什么叫方差?为什么说正态分布是最重要的分布之一?学习目标这一章是模式识别的重要理论基础,它用概率论的概念分析造成错分类和识别错误的根源,并说明与哪些量有关系。
在这个基础上指出了什么条件下能使错误率最小。
有时不同的错误分类造成的损失会不相同,因此如果错分类不可避免,那么有没有可能对危害大的错分类实行控制。
对于这两方面的概念要求理解透彻。
这一章会将分类与计算某种函数联系起来,并在此基础上定义了一些术语,如判别函数、决策面(分界面),决策域等,要正确掌握其含义。
这一章会涉及设计一个分类器的最基本方法——设计准则函数,并使所设计的分类器达到准则函数的极值,即最优解,要理解这一最基本的做法。
这一章会开始涉及一些具体的计算,公式推导、证明等,应通过学习提高这方面的理解能力,并通过习题、思考题提高自己这方面的能力。
本章要点1、机器自动识别出现错分类的条件,错分类的可能性如何计算,如何实现使错分类出现可能性最小——基于最小错误率的Bayes决策理论2、如何减小危害大的错分类情况——基于最小错误风险的Bayes决策理论3、模式识别的基本计算框架——制定准则函数,实现准则函数极值化的分类器设计方法4、正态分布条件下的分类器设计5、判别函数、决策面、决策方程等术语的概念6、 Bayes决策理论的理论意义与在实践中所遇到的困难知识点§2.1 引言在前一章中已提到,模式识别是一种分类问题,即根据识别对象所呈现的观察值,将其分到某个类别中去。
判别分析-贝叶斯判别
判归哪一类(取. q1
q2
q3
1 ,C( 3
j
|
i)
1,i 0,i
j) j
P(好人 / 做好事)
P好人P做好事 / 好人 P好人P(做好事 / 好人) P(坏人)P(做好事
/
坏人)
0.5 0.9
0.82
0.5 0.9 0.5 0.2
P(坏人 / 做好事)
P坏人P做好事 / 坏人 P好人P(做好事 / 好人) P(坏人)P(做好事
/
坏人)
0.5 0.2
0.18
0.5 0.9 0.5 0.2
D1,D2,… ,Dk是R(p)的一个分划,判别法则为:
当样品X落入Di时,判 X Di i 1,2,3,,k
关键的问题是寻找D1,D2,… ,Dk分划,这 个分划应该使平均错判率最小。
【定义】(平均错判损失)
用 p( j / i) 表示将来自总体Gi的样品错判到总体 Gj的条件概率。
p( j / i) P( X Dj / Gi ) fi (x)dx i j
1 (x μ(i) )Σ1(x μ(i) ) 2
1 [2 ln 2
qi
(x
μ(i)
)Σ 1 (x
μ(i) )]
令 Fi (x) 2ln qi (x μ(i) )Σ1(x μ(i))
2 ln qi x' Σ1x μ(i)' Σ1x x' Σ1μ(i) μ(i)' Σ1μ(i)
令 Pi (x) 2ln qi 2μ(i)Σ1x μ Σ μ (i) 1 (i)
D1
q1C(2 /1) q1C(2 /1) f1(x)dx
D1
q2C(1/ 2) f2 (x)dx
决策分析第4章-贝叶斯决策分析方法
H ( X ) pi log pi
i 1
可证明,当p1 = p2= … = pn = 1/n时,H(X) = logn最大,此 时,随机变量X的不确定性最大,随着H(X)的减小,X的 不确定性减低,当X是确定量时,信息熵为0
信息量可以定义为“获得信息前后的信息熵之差” 信息熵(information entropy)的概念是信息论创始人香农
均为0.25
方案a1的收益期望值为:750/4 方案a2的收益期望值为:180/4 方案a3的收益期望值为:350/4
所以最佳方案为a1Biblioteka 17回顾:损失值和损失矩阵
损失值:指由于决策者不知道实际上将发生哪一种自然状 态,致使所做的决策不是实际最优的决策所带来的损失
损失值函数:r(a, θ),表示自然状态θ下采用方案a带来的 机会损失
4
目录
1 贝叶斯定理回顾 2 行动函数和贝叶斯风险 3 贝叶斯决策分析方法 4 获得情报信息的途径
5 情报的价值及后验预分析
5
条件概率
6
贝叶斯定理
k=1,2,…,n
7
贝叶斯定理的例子
p(x |2 ) C142 0.38 0.74
p(x |1) C142 0.34 0.78
8
分析及结论
r (2 ) R(2, ) p( ) 50.4 * 0.1 38.8* 0.15 49.6 * 0.25 55* 0.5 50.76 显然,行动规则2的贝叶斯风险较小! 30
小结
行动规则
情报信息
损失矩阵
得到采取某种行 动方案的概率
得到特定行动 规则和自然状 态条件下的决
策风险
得到采取某种 行动规则的贝
如果自然条件为θ2(200万桶油井)
贝叶斯决策
超曲面。相邻的两个类别在决策面上的判别函数
值是相等的。如果ωi和ωj是相邻的,则分割它们 的决策面就应为
– di(x)=dj(x) 或 di(x)-dj(x)=0 – 对于两类问题,决策面方程:
– P(x|ω1)P(ω1)-P(x|ω2)P(ω2)=0
§2.2 基于贝叶斯公式的几种判别规则
一、基于最小风险的贝叶斯决策
ωi所受损失。因为这是错误判决,故损失最大。
表示:在决策论中,常以决策表表示各种 情况下的决策损失。
状态
ω
ω
…ω
…ω
损失
1
2
j
m
决策
α1
…
…
α2
…
…
…
…
αi
…
…
…
…
αα
…
…
2.风险R(期望损失):
对未知x采取判决行动α(x)所付出的代价(损耗)
➢行动αi:表示把模式x判决为ωi类的一次动作。
➢条件风险:
密度,考虑误判的损失代价。决策应是统计意义
上使由于误判而蒙受的损失最小。
–
如果在采取每一个决策或行动时,都使
其条件风险最小,则对所有的x作出决策时,其期
望风险也必然最小。(条件平均损失最小的判决
也必然使总的平均损失最小。)
–5.最小风险贝叶斯决策规则
–如果 :
–6.判决实施步骤:
–(1)在已知P(ωj),P(x|ωj),j=1,2,…m,并给出待 识别的x的情况下,根据贝叶斯公式计算出后验概
决策表很不容易,往往要根据所研究的具体问题, 分析错误决策造成损失的严重程度来确定。
–7.错误率最小的贝叶斯决策规则与风险最小的贝 叶斯决策规则的联系 – 在采用0-1损失函数时,最小风险贝叶斯决 策就等价于最小错误率贝叶斯决策。
ecm贝叶斯判别法则
ecm贝叶斯判别法则
ECM贝叶斯判别法则是一种基于贝叶斯统计思想的判别分析方法,其主要目标是根据已分类明确的样本,构建良好的判别函数,使误判事例最少,从而对新的样品进行准确分类。
贝叶斯判别法的关键步骤是将样本空间分为k类,然后根据先验概率求出后验概率。
关键的判别规则是使得样本属于某一类别的后验概率最大。
也就是说,要确定一个样本x是否属于某一类,需要比较它来自于该类的概率P(ω_ {1}|x)与其来自于其他类的概率P(ω_ {2}|x)的大小。
此外,贝叶斯判别法还关注如何最小化错判损失。
尽管贝叶斯判别法并不是简单地使后验概率最大化,而是尽可能地减少错判损失。
这使得贝叶斯判别法在实际应用中具有较高的准确性和效率。
贝叶斯决策理论课件(PPT90页)
Some about Bayes(2)
一所学校里面有 60% 的男生,40% 的女生。男生总是穿长 裤,女生则一半穿长裤一半穿裙子。假设你走在校园中, 迎面走来一个穿长裤的学生(很不幸的是你高度近似,你 只看得见他(她)穿的是否长裤,而无法确定他(她)的 性别),你能够推断出他(她)是女生的概率是多大吗?
要决策分类的类别数是一定的
引言
在连续情况下,假设对要识别的物理对象有d种特征
观察量x1,x2,…xd,这些特征的所有可能的取值范围构 成了d维特征空间。
称向量 x x1, x2, , xd T x Rd 为d维特征向量。
假设要研究的分类问题有c个类别,类型空间表示
为:
1,2 , ,i ,c
P(B|LB)∝P(LB|B)P(B)∝0.75P(B) P(~B|LB)∝P(LB|~B)P(~B)∝0.25(1-P(B)) 而西安的出租车10辆中有9辆是绿色的,则给出了先验概率P(B)=0.1,于 是有 P(B|LB)∝0.75×0.1=0.075 P(~B|LB)∝0.25(1-P(B))=0.25×0.9=0.225 P(B|LB)=0.075/0.072+0.225=0.25 P(~B|LB)=0.225/0.072+0.225=0.75 因此肇事车辆为绿色。
Neyman-Pearson准则
问题:先验概率和损失未知
通常情况下,无法确定损失。 先验概率未知,是一个确定的值 某一种错误较另一种错误更为重要。
基本思想:
要求一类错误率控制在很小,在满足此条件的 前提下再使另一类错误率尽可能小。
用lagrange乘子法求条件极值
Neyman-Pearson准则
和绿色的区分的可靠度是75%; 假设随后你又了解到第3条信息:(3)西安的出租车10辆
贝叶斯决策理论
第二章 贝叶斯决策理论
➢ 如果将一个“-“样品错分为”+“类所造成的损失要比将” +“分成”-“类严重。
➢ 偏向使对”-“类样品的错分类进一步减少,可以使总的损 失最小,那么B直线就可能比A直线更适合作为分界线。
12
2.1 Bayes决策的基本概念
第二章 贝叶斯决策理论
➢ 分类器参数的选择或者学习过程得到的结果取决于 设计者选择什么样的准则函数。
概率密度函数 P(X | 1) 是正常药品的属性分布,概率密度函数
P(X | 2 ) 是异常药品的属性分布。
24
2.1 Bayes决策的基本概念
第二章 贝叶斯决策理论
在工程上的许多问题中,统计数据往往满足正态分 布规律。
正态分布简单,分析简单,参量少,是一种适宜 的数学模型。
如果采用正态密度函数作为类条件概率密度的函数 形式,则函数内的参数(如期望和方差)是未知的, 那么问题就变成了如何利用大量样品对这些参数进行 估计。
➢ 不同准则函数的最优解对应不同的学习结果,得到 性能不同的分类器。
13
2.1 Bayes决策的基本概念
第二章 贝叶斯决策理论
➢ 错分类往往难以避免,这种可能性可用 P(i | X ) 表 示。
➢ 如何做出合理的判决就是Bayes决策所要讨论的问题。
➢ 其中最有代表性的是:
基于错误率的Bayes决策 基于最小风险的Bayes决策
05
2.1 Bayes决策的基本概念
第二章 贝叶斯决策理论
例:某制药厂生产的药品检验识别 目的:说明Bayes决策所要解决的问题!!
06
2.1 Bayes决策的基本概念
第二章 贝叶斯决策理论
如图4-1所示,正常药品“+“,异常药品”-”。 识别的目的是要依据X向量将药品划分为两类。
贝叶斯 统计
贝叶斯统计:原理、方法和应用贝叶斯统计是一种基于贝叶斯概率的统计学理论,它使用概率的方法来解决统计学问题,如参数估计、假设检验、预测和决策等。
贝叶斯统计的核心思想是利用贝叶斯定理,根据已有的数据和先验知识,更新对未知参数或模型的信念,得到后验分布。
贝叶斯统计与传统的频率统计有很大的不同,主要体现在对概率的理解、对参数的处理和对推断的方法上。
本文将介绍贝叶斯统计的基本原理、主要方法和应用领域,以及它与频率统计的比较和联系。
一、贝叶斯统计的基本原理1.1 贝叶斯概率贝叶斯统计是建立在贝叶斯概率的基础上的。
贝叶斯概率是一种主观概率,它反映了人们对某个事件或命题发生的信心程度。
贝叶斯概率不依赖于事件的重复性或客观性,而是依赖于人们的知识和经验。
因此,不同的人可以有不同的贝叶斯概率,而且同一个人在不同的情境下也可以有不同的贝叶斯概率。
例如,如果我们想要估计明天下雨的概率,我们可以根据天气预报、季节、地理位置等信息来给出一个贝叶斯概率。
这个概率并不是说明天下雨是一个随机事件,而是说我们对明天下雨有多大的信心。
如果我们有更多或更准确的信息,我们可以更新我们的贝叶斯概率。
如果我们和别人有不同的信息或判断标准,我们可以有不同的贝叶斯概率。
1.2 贝叶斯定理贝叶斯定理是贝叶斯统计中最重要的工具,它描述了在给定新数据或证据后,如何更新对某个事件或命题发生的信心程度。
贝叶斯定理可以用数学公式表示为:P(A|B)=P(B|A)P(A)P(B)其中,A和B是两个事件或命题,P(A)是A发生的先验概率,即在没有B信息之前对A发生的信心程度;P(B)是B 发生的边缘概率,即在没有考虑A之前B发生的信心程度;P(B|A)是在已知A发生后B发生的条件概率,即在考虑了A信息之后对B发生的信心程度;P(A|B)是在已知B发生后A发生的条件概率,即在考虑了B信息之后对A发生的信心程度。
这个条件概率也被称为后验概率,它是贝叶斯推断的目标。
模式识别-3-贝叶斯决策理论
(
)
确定性特征向量与随机特征向量
确定性特征向量 在获取模式的观测值时,有些事物具有确定的 因果关系,即在一定条件下,存在必然会发生 或必然不发生的确定性,这样获得的特征向量 称为确定性特征向量。 例如识别一块模板是不是直角三角形,只要 凭“三条直线边闭合连线和一个直角”这个 特征,测量它是否有三条直线边的闭合连线 并有一个直角,就完全可以确定它是不是直 角三角形。 这种现象是确定性的现象,比如上一讲的线 性模式判别就是基于这种现象进行的。
x1 x X = 2 ... xn
特征向量
g1(x) g2(x)
...
Max(g(x))
最大值选择器
x ∈ ωi
gn(x)
判别计算
决策
§3-3 正态分布决策理论
一、正态分布判别函数
1、为什么采用正态分布:
a、正态分布在物理上是合理的、广泛的。 b、正态分布数学上简单,N(µ, σ ²) 只有均值和方差两个参数。
)
2
=
∫ (x − µ )
−∞
∞
2
P ( x)
P ( x ) d x,方 差 ) (
1
概率密度函数应满足下 列关系: P ( x ) ≥ 0, ( −∞ < x < ∞ ) ∞ ∫−∞ P ( x )dx = 1
0 . 95
µ − 2σ
µ
X
µ + 2σ
3、(多变量)多维正态分布 (1)函数形式:
µ i = E ( xi ) =
∑
= E
= E = E
(x 1 − ...... (x n − µ
[(x
统计决策与贝叶斯推断概述
对d3, R1, d3 0 0 80001 8000
R2, d3 6000 0 01 0
max
,
d1
max4000,3000
4000
max
,
d
2
max400,1800
下面计算(3)中那些决策函数的贝叶斯风险, 先算X 的边缘分布:
2
m(1) ( j )P{X 1| j} 0.7875 j 1
2
m(2) ( j )P{X 0 | j} 0.2125 j 1
从而,
B(d1) EX [R(d1 | X )] 571.2 0.7875 1412 0.2125 749.87
1
2
0.75 0.25
动 a根1 ,据a先2 的验平分均布风险, ,因可为分这别是算无出数行据动决a策1 问,a题2 的,平所均以损R失 ,,a亦 即L,,行a E L , a1 0 0.75 6000 0.25 1500
E L , a2 8000 0.75 0 0.25 6000
对比上述结果可知,采取行动 a1 为上策,即,收藏家应该买下这幅画。
B(d2 ) 6750.202 B(d3) 1499.782 B(d4 ) 6000.29
由此可见,在贝叶斯风险准则下的最优决策函数仍 是d1(•) ,在两种不同风险准则下得出相同的最优决 策函数,其理论依据是定理6.1.1.
定理6.1.1 对给定的统计决策问题(含给定的先
验分布)和决策函数类 D ,若贝叶斯风险满足条
d D
则称 d* 为决策函数类 D 在贝叶斯(先验)风险准则 下的最优决策函数,简称贝叶斯决策函数或贝叶斯 解。
贝叶斯决策理论与统计判别方法
i j i j
(2-13)
即做出正确判决时损失为 0 ,错误判决损失为 1 ,且判决数目与类型数目相等。再令
1, i j ,代入式(2-11),有 L(i | j ) 1 ij ,其中 ij 0, i j
R( i | j ) L( i | j ) P( j | X )
P(c | X ) 1, j 1, 2,
c
且 P( j | X ,c , ) 0 ,
对于每一种判决 i ,可求出随机变量 L( i | i ) 的条件平均风险,也叫“条件平均损失” :
R( i | X ) E[ L( i | j )] L( i | j ) P( j | X ) i 1,2,, a
(2-3) (2-4)
由 (2-1) ,已知待识别样本 X 后,可以通过先验概率 P(i ) 和条件概率密度函数
p( X | i ) ,得到样本 X 分属各类别的后验概率,显然这个概率值可以作为 X 类别归属的依
据。该判别依据可以有以下几种等价形式: 观察 Bayes 公式(2-1),分母与 i 无关,即与分类无关,故分类规则又可表示为
则可表示为: 1.两类情况
, c 。将其
划归到后验概率最大的那一类中, 这种分类器称为最小错误率贝叶斯分类器, 其分类决策准
若P(1 X ) P(2 X ) , 则X 1类 若P(2 X ) P(1 X ) , 则X 2类
2.多类情况
若 P( i | X ) max P( j | X ) , j 1, 2, , c 则X i 类
公式(2-6)可改写为
l12 ( X )
p( X | 1 ) P(2 ) , p( X | 2 ) P(1 )
贝叶斯决策理论与统计判别方法PPT课件
• P(ωi)=P(ωj)时决策面方程
WT(X-X1)=0
第32页/共55页
W=μi-μj W=μi-μj
正态分布概率模型下的最小错误率贝叶斯决策
一维特征
第33页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
二维特征
第34页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
三维特征
第35页/共55页
第14页/共55页
二维向量的协方差矩阵
第15页/共55页
多元正态分布
• 协方差矩阵 • 协方差矩阵并不只对正态分布有用 • 特性: 协方差矩阵是一个对称矩阵 • 特性: 协方差矩是正定的
第16页/共55页
多元正态分布的性质
• (1)参数μ与Σ对分布具有决定性
• 与单变量相似,记作p(X)~N(μ,Σ)
The action of a linear transformation on the feature space will convert an arbitrary normal distribution into another normal distribution.
第20页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
第46页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
• 最小距离分类器与线性分类器
• 两者都是线性分类器 • 最小距离分类器是线性分类器的一个特例 • 最小距离分类器在正态分布情况下,是按超球体分布以及先验概率相
等的前提下,才体现最小错误率的 • 只有在一定条件下,最小距离分类器同时又是最小错误率分类器 • 最小距离分类器的概念是分类器中是最常用的,因为它体现了基于最
• 前者是一个椭圆,而后者则是圆
3.试述贝叶斯判别方法的思路
3.试述贝叶斯判别方法的思路
贝叶斯判别方法是基于贝叶斯定理的一种分类方法。
其思路是将样本分为不同的类别,使每个样本点属于概率最大的那个类别。
具体来说,该方法通过对每个类别的先验概率、每个属性在每个类别中的概率密度函数进行统计,运用贝叶斯公式计算每个样本点属于不同类别的后验概率,最终将其判别为概率最大的那个类别。
换言之,贝叶斯判别方法的思路是通过对已知样本的统计学分析,定义每个属性在每个类别中的概率分布,对未知样本的属性进行计算,求出该样本属于每个类别的概率,然后将其判别为概率最大的那个类别。
该方法具有良好的数学基础和理论支持,能够充分利用样本的信息,具有较高的分类准确率,是一种常用的分类方法之一。
贝叶斯决策理论与统计判决方法共129页文档
16、自己选择的路、跪着也要把它走 完。 17、一般情况下)不想三年以后的事, 只想现 在的事 。现在 有成就 ,以后 才能更 辉煌。
18、敢于向黑暗宣战的人,心里必须 充满光 明。 19、学习的关键--重复。
20、懦弱的人只会裹足不前,莽撞的 人只能 引为烧 身,只 有真正 勇敢的 人才能 所向披 靡。
谢谢!
Hale Waihona Puke 61、奢侈是舒适的,否则就不是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 63、三军可夺帅也,匹夫不可夺志也。 ——孔 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴顿
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正态分布概率模型下的最小错误率 贝叶斯决策
(3)ΣiΣj
i,j=1,…,c
最一般的情况
原判别函数
判别函数的化简
进一步整理得
正态分布概率模型下的最小错误率 贝叶斯决策
判别面方程,根据gi(X)-gj(X)=0有
在一情况下决策面为二次超曲面 随着Σi及P(ωi)的不同而呈现不同形式的超二次曲面 如超球面、超椭球面、超抛物面、超双曲面,也可能是超平面
两个二元正态分布的各个分量相同,(即期望(μ1和μ2)方差σ1 和σ2都相同),但这两个特征向量在空间的分布却不相同
多元正态分布
协方差矩阵 用E[(x2-μ2)](x1-μ1)] 来衡量相关性,称为协方差,用符号Σ表示 协方差越大,说明两个变量的相关度越高 非对角元素正表示了两个分量之间的相关性 主对角元素则是各分量本身的方差
Samples drawn from a two-dimensional Gaussian lie in a cloud centered on the mean . The ellipses show lines of equal probability density of the Gaussian.
最小距离分类器与线性分类器
两者都是线性分类器 最小距离分类器是线性分类器的一个特例 最小距离分类器在正态分布情况下,是按超球体分布
以及先验概率相等的前提下,才体现最小错误率的 只有在一定条件下,最小距离分类器同时又是最小错
误率分类器 最小距离分类器的概念是分类器中是最常用的,因为
它体现了基于最相似性的原则,即被分类事物与哪一 种作为标准的事物相像,就判为该类这一原则
是表示超椭球 (X-μ)TΣ -1(X-μ)称为向量X到向量μ的Mahalanobis
距离的平方,即
r2=(x-μ)TΣ -1(x-μ)
可将mahalanolbis距离与欧氏距离作比较
前者是一个椭圆,而后者则是圆
多元正态分布的性质
(3)多元正态分布的离散程度由参数|Σ|1/2决定
与单变量时由标准差σ决定是对应一致的
The action of a linear transformation on the feature space will convert an arbitrary normal distribution into another normal distribution.
正态分布概率模型下的最小错误率 贝叶斯决策
最小距离分类器的定义 每个样本以它到每类样本均值的欧氏距离的最小值确定其分类,即 如果 则X∈ωi
正态分布概率模型下的最小错误率 贝叶斯决策
最小欧氏距离是决定分类的准则
正态分布概率模型下的最小错误率 贝叶斯决策
(2)Σi=Σ 也是一种比较简单的情况 各类协方差矩阵都相等 从几何上看各类别样本集中于以该类均值为中心的同样大小和形状的超 椭球内
正态分布时的统计决策
研究正态分布的原因 数学上比较简单 物理上的合理性
单变量正态分布
单变量正态分布 单变量正态分布概率密度函数定义为
μ表示随机变量x的数学期望
σ2为其方差,而σ则称为标准差。
A univariate normal distribution has roughly 95% of its area in the range |x − μ| ≤ 2σ, as shown. The peak of the distribution has value p(μ) = 1/√2πσ.
i=1,…,c
再分两种情况
先验概率P(ωi)与P(ωj)不相等 先验概率P(ωi)与P(ωj)相等
正态分布概率模型下的最小错误率 贝叶斯决策
(1.1)Σi=σ2I
P(ωi)P(ωj)
原判别函数:
判别函数可简化为
由于二项XTX与类别号i无关,可进一步简化:
判别函数为一线性函数
正态分布概率模型下的最小错误率 贝叶斯决策
二维向量的协方差矩阵
多元正态分布
协方差矩阵 协方差矩阵并不只对正态分布有用 特性: 协方差矩阵是一个对称矩阵 特性: 协方差矩是正定的
多元正态分布的性质
(1)参数μ与Σ对分布具有决定性
与单变量相似,记作p(X)~N(μ,Σ)
(2)等密度点分布在超椭球面上
(x-μ)TΣ-1(x-μ)=常数 二维时表示一个椭圆,在三维表示椭球,在高维
正态分布概率模型下的最小错误率 贝叶斯决策
在二维特征空间的情况
正态分布概率模型下的最小错误率 贝叶斯决策
原判别函数:
判别函数可简化为
如果c类先验概率都相等,可进一步简化为
r2就是Mahalanobis距离
正态分布概率模型下的最小错误率 贝叶斯决策
原判别函数:
判别函数可简化为
判别函数为一线性函数
单变量正态分布
单变量正态分布 思考:正态分布,或高斯分布是先验概率P(ωi),还是分布P(X|ωi),还是后 验概率P(ωi|X)? 不是我们所讨论的先验概率P(ωi),也不是后验概率P(ωi|X),而是p(x|ωi)。
单变量正态分布
单变量正态分布具体化
其中ωi, σi分别是对ω及σ的具体化。
三维下的决策面方程
正态分布概率模型下的最小错误率 贝叶斯决策
线性分类器总结 在正态分布条件下,基于最小错误率贝叶斯决策只要能做到两类协方差 矩阵是一样的,那么无论先验概率相等不相等,都可以用线性分界面实 现。 而最小欧氏距离分类器则要求正态分布协方差矩阵为单位阵,先验概率 相等。
正态分布概率模型下的最小错误率 贝叶斯决策
模式识别
徐蔚然 北京邮电大学信息工程学院
本节和前节的关系
上节: 基本概念 阶段性的总结
本节: 概念具体化 结合一种比较典型的概率分布来进一步基于最小错误贝叶斯决策分类器 的种种情况
本节重点
什么叫正态分布 高斯分布的表达式 如何将正态分布与基于最小错误率的贝叶斯决策结合起来 如何简化方式表示正态分布
各 类 协 方 差 矩 阵 不 相 等 的 情 况
正态分布概率模型下的最小错误率 贝叶斯决策
正态分布概率模型下的最小错误率 贝叶斯决策
正态分布概率模型下的最小错误率 贝叶斯决策
正态分布概率模型下的最小错误率 贝叶斯决策
正态分布概率模型下的最小错误率 贝叶斯决策
多元正态分布的边缘分布和条件分布仍然是正态分布
(6)线性变换的正态性
这是指多元正态分布的随机向量的线性变换仍然是多 元正态分布的随机向量
(7)线性组合的正态性
这是指多元正态分布的随机向量,在经过线性组合后 得到的一维随机变量也是正态分布的。
A, takes the source distribution into distribution N(At,AtA)
P(ωi)=P(ωj)时决策面方程
WT(X-X1)=0
W=μi-μj W=μi-μj
正态分布概率模型下的最小错误率 贝叶斯决策
一维特征
正态分布概率模型下的最小错误率 贝叶斯决策
二维特征
正态分布概率模型下的最小错误率 贝叶斯决策
三维特征
正态分布概率模型下的最小错误率 贝叶斯决策
在Σi=σ2I P(ωi)=P(ωj)条件下,正态分布概率模型下的最小错误率贝 叶斯决策等价于最小距离分类器
决策面方程
通用表达式: 这里
gi(X)-gj(X)=0
整理,可得: WT(X-X0)=0
W=μi-μj
正态分布概率模型下的最小错误率 贝叶斯决策
决策面性质 决策面为一超平面 其法线方向为(μi-μj) 当P(ωi)≠P(ωj)时,该超平面的位置要向远离先验概率大的方向偏, 偏离的程度和先验概率比值有关,但超平面方向不变。
a projection P onto a line defined by vector a—leads to N(μ, σ2) measured along that line A whitening transform, Aw , leads to a circularly symmetric Gaussian
打开乘积,去掉与i无关的项(二次项),只剩下一次项和常数项
正态分布概率模型下的最小错误率 贝叶斯决策
决策面方程 gi(X)-gj(X)=0
在这里
正态分布概率模型下的最小错误率 贝叶斯决策
二维下的决策面方程
正态分布概率模型下的最小错误率 贝叶斯决策
二维下的决策面方程
正态分布概率模型下的最小错误率 贝叶斯决策
正态分布概率模型下的最小错误率 贝叶斯决策
一维特征
正态分布概率模型下的最小错误率 贝叶斯决策
二维特征
正态分布概率模型下的最小错误率 贝叶斯决策
三维特征
正态分布概率模型下的最小错误率 贝叶斯决策
(1.2)Σi=σ2I
P(ωi)=P(ωj)
P(ωi)P(正态分布
μ是X的均值向量,也是d维, μ=E{X}=[μ1,μ2,…,μd]T
Σ是d×d维协方差矩阵
Σ-1是Σ的逆矩阵 |Σ|是Σ的行列式
Σ=E{(X-μ)(X-μ) T}
Σ是非负矩阵,在此我们只考虑正定阵,即|Σ|>0。
多元正态分布
讨论二元正态分布 二维向量,是一个随机向量,每一个分量都是随机变量,服从正态分布 不仅要求考虑每个分量单独的分布,还要考虑两个随机变量之间的关系
i=1,…,c i=1,…,c i,j=1,…,c
正态分布概率模型下的最小错误 率贝叶斯决策
(1)Σi=σ2I
i=1,…,c
2 0
每个i 类的协方 差矩阵都相等
类内各特征间相互独立 2
0 各特征具有相同的方差σ2
正态分布概率模型下的最小错误率 贝叶斯决策
(1)Σi=σ2I