模式识别 第三章 概率估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
N
1 ˆ 1 N
x
k 1
N
k
21
一元正态分布方差的估计
( xk 1 )2 1 ln p( xk | 1 , 2 ) 2 22 22 2
代入前式,有:
N ˆ )2 ( xk 1 1 0 2 ˆ k 1 ˆ k 1 N 2 2
ˆ
2 ML
1 ˆ 2 N
(x
k 1
N
k
ˆ)
2
22
多元正态分布参数最大似然估计
对于一般的多元正态分布,计算方法完全类似,且有
1 ˆ μ N
x
k 1
N
k
1 ˆ N
T ˆ ˆ ( x μ )( x μ ) k k k 1
N
均值估计是无偏的,协方差矩阵估计是有偏的。 协方差矩阵的无偏估计是:
N
6
概率ቤተ መጻሕፍቲ ባይዱ度估计的方法
类条件概率密度估计(非常难): 概率密度函数包含了一个随机变量的全 部信息; 概率密度函数可以是满足下面条件的任 何函数:
p( x) 0,
p( x)dx 1
7
概率密度估计的方法
类条件概率密度估计的两种主要方法:
参数估计:根据对问题的一般性认识,假设随 机变量服从某种分布,其概率密度函数形式已 知,只是表征函数的参数未知,通过训练数据 来估计:
i p x | i
4
基于样本的Bayes分类器设计
基于样本的两步Bayes分类器设计: 利用样本集估计P(ω i)和p(x|ω i) 基于上述估计值设计判别函数及分类器 面临的问题: 如何利用样本集估计P(ω i)和p(x|ω i); 估计量的评价:估计量的性质如何? 如何利用样本集估计错误率的方法
N 1 T ˆ ˆ ˆ ( x μ )( x μ ) k k N 1 k 1
23
3.2.2 贝叶斯估计-最小风险
回顾一下最小风险Bayes决策
x——观察或测量到的 d 维模式特征向量;
1 , 2 1 , 2
, , c ——状态空间 ,, a ——决策空间
28
3.2.2 贝叶斯估计-最小风险
R
N N
ˆ ) p ( H ) p ( H )d dH ( ˆ)T ( ˆ) p( H ) p ( H )d d H (
N
ˆ)T ( ˆ) p ( H )d ] p( H )d H [ (
14
似然函数
似然函数:
l (θ) p( K | θ) p(x1 , x 2 ,..., x N | θ) p(xk | θ)
k 1 N
对数(loglarized)似然函数:
H (θ) ln p(xk | θ)
k 1
15
N
最大似然估计
ˆ θ ML argmax l (θ)
j 1
c
c
i 1,2,, c
x 是特征空间 E d 中取任意值的随机变量,条件风险的期望
R R(i x ) p( x )d x (i , j ) P( j x ) p( x )d x
Ed E d j 1
(i , j ) P( x, j )d x
5
概率密度估计的方法
类的先验概率估计(较容易): 依靠经验; 用训练数据中各类出现的频率估计。
频率:试验在相同的条件下重复N次,其中 M次事件A发生,则A发生的频率为: fN(A) = M / N 概率:当N很大时,频率会趋向一个稳定值, 称为A的概率:
P A lim f N A
Bayes估计的基本思想:所求得的 的估计值 ˆ 应使估 ˆ| H ) 取最 计损失的期望最小,这种使 R 或等价地使 R( 小值的 的估计值 ˆ 称为 的Bayes估计。对于 不 ˆ ) ,可得到不同的最佳Bayes估计。 同的 ( 这里假定损失函数为平方误差,即:
ˆ ) ( ˆ)T ( ˆ) (
训练样本集
决策规则: 判别函数 决策面方程
3
进行Bayes决策需要事先知道两种知识:
各类的先验概率; 观测向量的类条件概率密度。
实际问题中并不一定具备获取准确统计 分布的条件。 知识的获取(估计):
ˆ ( ) P 一些训练数据(样本); P i ˆ ( x | i ) 对问题的一般性认识。 p
j 1 c
i 1, 2,, c
ˆ| H ) 在状态空间 中的 考虑到 H 的各种取值,我们应求 R( 期望, N E d E d E d 。
27
3.2.2 贝叶斯估计-最小风险
R
N N N
ˆ H ) p( H )dH R( ˆ ) p ( H ) d p ( H )dH ( ˆ ) p ( H ) p ( H )d dH (
(i , j ) i 1, 2,, a j 1, 2,, c ——损 失函数,表示真实状态为 j 而所采取的决策 为 i 时所带来的某种损失。
24
3.2.2 贝叶斯估计-最小风险
给定 x ,采取决策 i 的条件期望损失:
R(i x) (i , j ) P( j x)
p ( H )d ˆ
p(
H )d 1
训练样本:监督和非监督 估计方法:最大似然估计、Bayes估计
非参数估计:密度函数的形式未知,也不作假 设,利用训练数据直接对概率密度进行估计
训练样本:监督 估计方法:Parzen窗法、kn-近邻法
8
3.2 参数估计
统计量:样本集的某种函数f (K);一般来说, 每一个样本都包含着母体的某些信息,为了 估计未知参数就要把有用的信息从样本中抽 取出来。为此,要构造训练样本的某种函数, 这种函数在统计学中称为统计量。 参数空间:在统计学中,总体分布的未知参 数θ所有可能取值组成的集合(Θ)。 点估计的估计量和估计值:针对某未知参数θ 构造一个统计量作为θ的估计 ,这种估计 ˆ ˆ 称为点估计。 称为的 θ估计量。
10
估计量的评价标准
估计量的评价标准
无偏性:E(ˆ )=θ 有效性:D(ˆ )小,更有效 一致性:样本数趋于无穷时,ˆ 依概率趋于θ: ˆ ) 0 lim P (
N
均值:
协方差阵 :
E x xp( x)dx
E ( x )( x )
第三章 概率密度函数的估计
1
主要内容
引言
参数估计
非参数估计
2
3.1 引言
分类器 功能结构
x1
g1
x2
g2
. . .
MAX
a(x)
基于样本的Bayes分 类器:通过估计类条 件概率密度函数,设 计相应的判别函数
样本分布的 统计特征:
概率密度函数
. . .
xn
gc
最一般情况下适用的“最 优”分类器:错误率最小, 对分类器设计在理论上有 指导意义。
的估计量ˆ d (x1 , x2 ,..., x N )是样本集的函数,
它对样本集的一次实现称为估计值
9
3.2 参数估计
区间估计:在一定置信度条件下估计某一未 知参数q的取值范围,称之为置信区间,这 类估计成为区间估计。 为了准确地对某一类的分布进行参数估计或总 体推断,应只使用该类的样本。
T ˆ ˆ ˆ) p( H )d R( H ) ( ) (
ˆ H) min R min R(
29
3.2.2 贝叶斯估计-最小风险
ˆ H) min R( ˆ H) R( ˆ ˆ) p( H ) d 0 2 (
ˆ) p ( H )d p ( H )d ˆ p ( H )d (
20
一元正态分布均值的估计
θ H (θ) |ˆ θ ln p( xk | θ) |ˆ 0
ML
N
k 1
ML
1 ln p( xk | 1 , 2 ) ( xk 1 ) 1 2
代入前式,有:
ˆ ML
1 ˆ)0 ( xk 1 ˆ k 1
θ
argmax ln p( x k | θ)
θ k 1
n
16
似然函数给出了从总体样本中抽出N个样本的 概率。
X {x1 , x2 , x3 , ..., xN }
假设样本是独立抽取的,并且不同类别的参数 是相互独立的。 最大似然估计就是根据已经抽取的N个样本, 来估计这组样本“最可能”来自哪个密度函数。
17
最大似然估计示意图
18
计算方法
最大似然估计量使似然函数梯度为0 :
θ H (θ) |ˆ θ ln p( xk | θ) |ˆ 0
ML
N
k 1
ML
θ 1
... s
T
需要注意:对于具体问题,有时用上述方法不一定可行: 1、似然函数在最大值点处没有零斜率。 2、梯度为0,可能存在多解。
N 1 ˆ ( xk )( xk ) N 1 k 1
11
无偏 1 ˆ 估计
x N
k 1
N
k
3.2.1 最大似然估计
最大似然估计和Bayes估计区别
两种方法估计的参数的结果接近,但过程有 区别: 前者将未知参数看成是确定变量,在实际样 本观察的概率最大的条件下,获得未知参数 的最好的估计; 后者将未知参数看成是按某种分布得随机变 量,样本的观察结果由先验分布转化为后验 分布,再由后验分布修正参数的估计值。
E d j 1
c
R表示采取决策 k总的平均损失。R称为Bayes 风险,使R最小的决策 k称为Bayes决策。
25
3.2.2 贝叶斯估计-最小风险
Bayes决策 确定 x 的真实状态 i (模式类) Bayes估计 根据一个样本集 H x1 , x2 ,„,xN ,找出 估计量 ˆ ,估计 H 所属总体分布的某个真实参数 使 带来的Bayes风险最小。
19
一元正态分布例解
p( xk | 1 , 2 2 ) ( xk 1 ) 2 1 exp( ) 2 2 2 2
1 1 ln p( xk | 1 , 2 ) ln(2 2 ) ( xk 1 ) 2 2 2 2
1 ( x k 1 ) 2 ln p( xk | ) 2 1 ( x k 1 ) 2 2 2 2 2
12
3.2.1 最大似然估计
Maximum Likelihood (ML)
样本集可按类别分开,不同类别的密度函数 的参数分别用各类的样本集来训练。 概率密度函数的形式已知,参数未知,为了 描述概率密度函数p(x|ωi)与参数θ 的依赖关 系,用p(x|ωi ,θ)表示。 估计的参数θ 是确定而未知的“数”, Bayes估计方法则视θ 为随机变量。
独立地按概率密度p(x|θ)抽取样本集 K={x1, x2 ,…, xN},用K估计未知参数θ
13
似然函数
设一个总体 x 的概密为 p ( x, ) ,其中 是一个 当 N 个随机样本取定值 x1 , x2 ,, xN 时, 未知参数集, 联合概密 p( x1 , x2 ,, xN , ) 称为相对于 x1 , x2 ,, xN 的 的似然函数。
26
3.2.2 贝叶斯估计-最小风险
ˆ ) 为 ˆ 代替 所造成的损失,对于一个观测矢量集 令 ( 合 H x1 , x2 ,„,xN ,当用 ˆ 作为 的估计时,在观测 H 条件下的条件期望损失为
ˆ H ) ( ˆ ) p ( H ) d R ( H x1 , x2 ,„, x N R ( i x ) ( i , j ) P( j x )
N
1 ˆ 1 N
x
k 1
N
k
21
一元正态分布方差的估计
( xk 1 )2 1 ln p( xk | 1 , 2 ) 2 22 22 2
代入前式,有:
N ˆ )2 ( xk 1 1 0 2 ˆ k 1 ˆ k 1 N 2 2
ˆ
2 ML
1 ˆ 2 N
(x
k 1
N
k
ˆ)
2
22
多元正态分布参数最大似然估计
对于一般的多元正态分布,计算方法完全类似,且有
1 ˆ μ N
x
k 1
N
k
1 ˆ N
T ˆ ˆ ( x μ )( x μ ) k k k 1
N
均值估计是无偏的,协方差矩阵估计是有偏的。 协方差矩阵的无偏估计是:
N
6
概率ቤተ መጻሕፍቲ ባይዱ度估计的方法
类条件概率密度估计(非常难): 概率密度函数包含了一个随机变量的全 部信息; 概率密度函数可以是满足下面条件的任 何函数:
p( x) 0,
p( x)dx 1
7
概率密度估计的方法
类条件概率密度估计的两种主要方法:
参数估计:根据对问题的一般性认识,假设随 机变量服从某种分布,其概率密度函数形式已 知,只是表征函数的参数未知,通过训练数据 来估计:
i p x | i
4
基于样本的Bayes分类器设计
基于样本的两步Bayes分类器设计: 利用样本集估计P(ω i)和p(x|ω i) 基于上述估计值设计判别函数及分类器 面临的问题: 如何利用样本集估计P(ω i)和p(x|ω i); 估计量的评价:估计量的性质如何? 如何利用样本集估计错误率的方法
N 1 T ˆ ˆ ˆ ( x μ )( x μ ) k k N 1 k 1
23
3.2.2 贝叶斯估计-最小风险
回顾一下最小风险Bayes决策
x——观察或测量到的 d 维模式特征向量;
1 , 2 1 , 2
, , c ——状态空间 ,, a ——决策空间
28
3.2.2 贝叶斯估计-最小风险
R
N N
ˆ ) p ( H ) p ( H )d dH ( ˆ)T ( ˆ) p( H ) p ( H )d d H (
N
ˆ)T ( ˆ) p ( H )d ] p( H )d H [ (
14
似然函数
似然函数:
l (θ) p( K | θ) p(x1 , x 2 ,..., x N | θ) p(xk | θ)
k 1 N
对数(loglarized)似然函数:
H (θ) ln p(xk | θ)
k 1
15
N
最大似然估计
ˆ θ ML argmax l (θ)
j 1
c
c
i 1,2,, c
x 是特征空间 E d 中取任意值的随机变量,条件风险的期望
R R(i x ) p( x )d x (i , j ) P( j x ) p( x )d x
Ed E d j 1
(i , j ) P( x, j )d x
5
概率密度估计的方法
类的先验概率估计(较容易): 依靠经验; 用训练数据中各类出现的频率估计。
频率:试验在相同的条件下重复N次,其中 M次事件A发生,则A发生的频率为: fN(A) = M / N 概率:当N很大时,频率会趋向一个稳定值, 称为A的概率:
P A lim f N A
Bayes估计的基本思想:所求得的 的估计值 ˆ 应使估 ˆ| H ) 取最 计损失的期望最小,这种使 R 或等价地使 R( 小值的 的估计值 ˆ 称为 的Bayes估计。对于 不 ˆ ) ,可得到不同的最佳Bayes估计。 同的 ( 这里假定损失函数为平方误差,即:
ˆ ) ( ˆ)T ( ˆ) (
训练样本集
决策规则: 判别函数 决策面方程
3
进行Bayes决策需要事先知道两种知识:
各类的先验概率; 观测向量的类条件概率密度。
实际问题中并不一定具备获取准确统计 分布的条件。 知识的获取(估计):
ˆ ( ) P 一些训练数据(样本); P i ˆ ( x | i ) 对问题的一般性认识。 p
j 1 c
i 1, 2,, c
ˆ| H ) 在状态空间 中的 考虑到 H 的各种取值,我们应求 R( 期望, N E d E d E d 。
27
3.2.2 贝叶斯估计-最小风险
R
N N N
ˆ H ) p( H )dH R( ˆ ) p ( H ) d p ( H )dH ( ˆ ) p ( H ) p ( H )d dH (
(i , j ) i 1, 2,, a j 1, 2,, c ——损 失函数,表示真实状态为 j 而所采取的决策 为 i 时所带来的某种损失。
24
3.2.2 贝叶斯估计-最小风险
给定 x ,采取决策 i 的条件期望损失:
R(i x) (i , j ) P( j x)
p ( H )d ˆ
p(
H )d 1
训练样本:监督和非监督 估计方法:最大似然估计、Bayes估计
非参数估计:密度函数的形式未知,也不作假 设,利用训练数据直接对概率密度进行估计
训练样本:监督 估计方法:Parzen窗法、kn-近邻法
8
3.2 参数估计
统计量:样本集的某种函数f (K);一般来说, 每一个样本都包含着母体的某些信息,为了 估计未知参数就要把有用的信息从样本中抽 取出来。为此,要构造训练样本的某种函数, 这种函数在统计学中称为统计量。 参数空间:在统计学中,总体分布的未知参 数θ所有可能取值组成的集合(Θ)。 点估计的估计量和估计值:针对某未知参数θ 构造一个统计量作为θ的估计 ,这种估计 ˆ ˆ 称为点估计。 称为的 θ估计量。
10
估计量的评价标准
估计量的评价标准
无偏性:E(ˆ )=θ 有效性:D(ˆ )小,更有效 一致性:样本数趋于无穷时,ˆ 依概率趋于θ: ˆ ) 0 lim P (
N
均值:
协方差阵 :
E x xp( x)dx
E ( x )( x )
第三章 概率密度函数的估计
1
主要内容
引言
参数估计
非参数估计
2
3.1 引言
分类器 功能结构
x1
g1
x2
g2
. . .
MAX
a(x)
基于样本的Bayes分 类器:通过估计类条 件概率密度函数,设 计相应的判别函数
样本分布的 统计特征:
概率密度函数
. . .
xn
gc
最一般情况下适用的“最 优”分类器:错误率最小, 对分类器设计在理论上有 指导意义。
的估计量ˆ d (x1 , x2 ,..., x N )是样本集的函数,
它对样本集的一次实现称为估计值
9
3.2 参数估计
区间估计:在一定置信度条件下估计某一未 知参数q的取值范围,称之为置信区间,这 类估计成为区间估计。 为了准确地对某一类的分布进行参数估计或总 体推断,应只使用该类的样本。
T ˆ ˆ ˆ) p( H )d R( H ) ( ) (
ˆ H) min R min R(
29
3.2.2 贝叶斯估计-最小风险
ˆ H) min R( ˆ H) R( ˆ ˆ) p( H ) d 0 2 (
ˆ) p ( H )d p ( H )d ˆ p ( H )d (
20
一元正态分布均值的估计
θ H (θ) |ˆ θ ln p( xk | θ) |ˆ 0
ML
N
k 1
ML
1 ln p( xk | 1 , 2 ) ( xk 1 ) 1 2
代入前式,有:
ˆ ML
1 ˆ)0 ( xk 1 ˆ k 1
θ
argmax ln p( x k | θ)
θ k 1
n
16
似然函数给出了从总体样本中抽出N个样本的 概率。
X {x1 , x2 , x3 , ..., xN }
假设样本是独立抽取的,并且不同类别的参数 是相互独立的。 最大似然估计就是根据已经抽取的N个样本, 来估计这组样本“最可能”来自哪个密度函数。
17
最大似然估计示意图
18
计算方法
最大似然估计量使似然函数梯度为0 :
θ H (θ) |ˆ θ ln p( xk | θ) |ˆ 0
ML
N
k 1
ML
θ 1
... s
T
需要注意:对于具体问题,有时用上述方法不一定可行: 1、似然函数在最大值点处没有零斜率。 2、梯度为0,可能存在多解。
N 1 ˆ ( xk )( xk ) N 1 k 1
11
无偏 1 ˆ 估计
x N
k 1
N
k
3.2.1 最大似然估计
最大似然估计和Bayes估计区别
两种方法估计的参数的结果接近,但过程有 区别: 前者将未知参数看成是确定变量,在实际样 本观察的概率最大的条件下,获得未知参数 的最好的估计; 后者将未知参数看成是按某种分布得随机变 量,样本的观察结果由先验分布转化为后验 分布,再由后验分布修正参数的估计值。
E d j 1
c
R表示采取决策 k总的平均损失。R称为Bayes 风险,使R最小的决策 k称为Bayes决策。
25
3.2.2 贝叶斯估计-最小风险
Bayes决策 确定 x 的真实状态 i (模式类) Bayes估计 根据一个样本集 H x1 , x2 ,„,xN ,找出 估计量 ˆ ,估计 H 所属总体分布的某个真实参数 使 带来的Bayes风险最小。
19
一元正态分布例解
p( xk | 1 , 2 2 ) ( xk 1 ) 2 1 exp( ) 2 2 2 2
1 1 ln p( xk | 1 , 2 ) ln(2 2 ) ( xk 1 ) 2 2 2 2
1 ( x k 1 ) 2 ln p( xk | ) 2 1 ( x k 1 ) 2 2 2 2 2
12
3.2.1 最大似然估计
Maximum Likelihood (ML)
样本集可按类别分开,不同类别的密度函数 的参数分别用各类的样本集来训练。 概率密度函数的形式已知,参数未知,为了 描述概率密度函数p(x|ωi)与参数θ 的依赖关 系,用p(x|ωi ,θ)表示。 估计的参数θ 是确定而未知的“数”, Bayes估计方法则视θ 为随机变量。
独立地按概率密度p(x|θ)抽取样本集 K={x1, x2 ,…, xN},用K估计未知参数θ
13
似然函数
设一个总体 x 的概密为 p ( x, ) ,其中 是一个 当 N 个随机样本取定值 x1 , x2 ,, xN 时, 未知参数集, 联合概密 p( x1 , x2 ,, xN , ) 称为相对于 x1 , x2 ,, xN 的 的似然函数。
26
3.2.2 贝叶斯估计-最小风险
ˆ ) 为 ˆ 代替 所造成的损失,对于一个观测矢量集 令 ( 合 H x1 , x2 ,„,xN ,当用 ˆ 作为 的估计时,在观测 H 条件下的条件期望损失为
ˆ H ) ( ˆ ) p ( H ) d R ( H x1 , x2 ,„, x N R ( i x ) ( i , j ) P( j x )