模式识别-参数估计统计决策法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n n
模式识别,第四章
19
最大似然估计法
令:
n ln p( xk / ) 0 k 1
n ln p( xk / ) 0 1 k 1 n ln p( xk / ) 0 2 k 1
模式识别
Pattern Classification
第四章: 参数估计统计决策法
3
参数估计
• 原理
• 对于绝大多数的识别问题,类概率密度函数已知的条件
并不成立,而通常只知类概率密度的函数形式,其参数 未知。
• 参数估计法即是利用学习样本来估计类概率密度参数的
方法。
模式识别,第四章
4
参数估计
最大似然估计法 参数估计法 Bayes估计法 两种方法原理不同,但结果是一致的!
p ( X ( j ) ) p ( X ( j ) / ) p ( )d 与 无关,可用系数
代替 即:
p( / X
( j)
) P( X
( j)
/ ) p( )
模式识别,第四章
33
Bayes估计
显然,由于n个学习样本是独立抽取的,则
p( X ( j ) / ) P( X k / )
1 ( n )2 1 exp 2 2 n 2 n
模式识别,第四章
41
Bayes估计
可见:修正后μ的分布仍为正态分布!其均值为μn,方差为σn2
其中:
n 0 2 n mn 0 2 2 n 0 2 n 0 2
2
1 n mn X k n k 1
1 n 当 n 时, X k , Bayes估计与最大似然估计的结果相同! n n k 1
模式识别,第四章
46
Bayes估计
此时, p( / X ( j ) ) 为δ函数。
即随着样本数的增加,μ的初始分布p(μ)对μ的估计影响越来 越小 。
n 反映了对参数μ估计的不确定性,当 n 时, n 0
P(x/μ)
μ
x
模式识别,第四章
38
Bayes估计
首先,将待估参数 μ 视为随机变量,并具有一定的初始分布。
假设其具有正态分布 :
1 ( 0 ) 2 2 p( ) exp N ( 0 , 0 ) 2 2 0 2 0 1
模式识别,第四章
39
模式识别,第四章
35
Bayes估计
P(θ/X(j))
P(θ)
θ0
θn
θ
模式识别,第四章
36
Bayes估计
• 例:已知类概率密度为一维正态分布,其中方差
已 知,均值 参数待估。试用Bayes估计法估计均值
2
模式识别,第四章
37
Bayes估计
• 解:
对一维正态分布
1 ( x )2 1 p( x / ) p( x / ) exp 2 2 2
得:
1 ( X k ) 0
k 1
n
模式识别,第四章
24
最大似然估计法
即:
(X
k 1
n
k
) 0
可得θ=μ的最佳估计值为:
1 Xk n k 1
最佳估计值
n
即最佳均值向量是n个学习样本的重心(算数平均)。
模式识别,第四章
25
最大似然估计法
• 例三:设
26
最大似然估计法
似然函数
1 1 d T 1 ln p( X k / ) 2 ln 2 2 ln 2 ( X k ) ( X k ) k 1 k 1
n n
令:
n ln p( X k / ) 0 k 1
k 1 k 1
n
n
模式识别,第四章
14
最大似然估计法
• 解决方案
定义梯度算子▽为:
1 2 r
模式识别,第四章
15
最大似然估计法
• 解决方案
则令:
[ ln p( X k / )] 0
j
• 问题
由学习样本 X ( j ) 估计最佳参数。
模式识别,第四章
7
最大似然估计法
• 解决方案
模式识别,第四章
8
最大似然估计法
• 解决方案
模式识别,第四章
9
最大似然估计法 •
设有6个学习样本如下图所示,样本分布满足正态分布,且方 差已知,现需估计最佳的均值μ 可以看出, μ取A和B对似然函数
模式识别,第四章
42
Bayes估计
即:
2 n 0 2 1 n Xk 0 n 2 2 2 2 n 0 n k 1 n 0 2 2 2 0 2 2 n n 0பைடு நூலகம்
μn表示在观察了一组样本后,对μ的最好的推断,而σn2 则反映了这个推断的不确定性!
n
2
模式识别,第四章
21
最大似然估计法
• 例二:设样本满足d维正态分布,其中协方差矩阵Σ
已知,且已知n个学习样本,试用最大似然估计法估 计均值向量μ 。
模式识别,第四章
22
最大似然估计法
• 解:
样本满足正态分布,则
p( X / i )
似然函数
1 (2 )
d 2 1 2
1 T 1 exp ( X ) ( X ) 2
1 1 d T 1 1 ln p( X k / ) 1 2 ln 2 2 ln 2 ( X k ) ( X k ) k k
n n
模式识别,第四章
23
最大似然估计法
协方差矩阵已知,仅有一个待参数均值向量,即θ=μ
令
n ln p( X k / ) 0 k 1
模式识别,第四章
18
最大似然估计法
可记为:
1 ( x 1 ) 2 1 p( x / ) exp 22 2 2
则似然函数为:
1 1 ln p( xk / ) 2 ln 22 2 ( xk 1 ) k 1 k 1 2
k 1
n
模式识别,第四章
16
最大似然估计法 •
解决方案 即:
1 n ln p ( X / ) 0 k 2 k 1 r
可得到r个关于参数θ 的方程组,求解方程组,即可求得最佳估计值。
2 2
模式识别,第四章
47
Bayes估计
模式识别,第四章
P(x/σ )
p( X / ) 的影响
6 k 1 k
σ
1
σ
2
x
参数σ1 优于 σ2
模式识别,第四章
12
最大似然估计法
• 如何寻求最优参数?
模式识别,第四章
13
最大似然估计法
• 解决方案
• 用求极值的方法求最佳θ
值 为计算方便,对似然函数求自然对数:
ln p( X k / ) ln p( X k / )
模式识别,第四章
43
Bayes估计
P(μ/X(j)) P(μ)
μ0
μn
μ
模式识别,第四章
44
Bayes估计
• 待估的最佳均值μ=? • 答案: μ = μn
模式识别,第四章
45
Bayes估计
• 考虑样本数对估计值的影响
2 n 0 2 1 n Xk 0 n 2 2 2 2 n 0 n k 1 n 0 2 2 2 0 2 n n 0 2
模式识别,第四章
17
最大似然估计法
• 例一:设样本满足一维正态分布,现已知n个学习样
本,试用最大似然估计法估计其均值μ和方差σ 解:对于一维正态分布
2。
1 ( x )2 1 p( x / j ) exp 2 2 2
待估参数为 { , } 1 2 其中 1 , 2 2
p( X / j ) N (, ) 为多维正态分布,现已知n个
学习样本,试用最大似然估计法估计 和 。
解:与前述方法相同,即:
p( X / )
1 (2 )
d 2 1 2
1 T 1 exp ( X ) ( X ) 2
模式识别,第四章
模式识别,第四章
27
最大似然估计法
得:
1 Xk n k 1
1 T ( X k )( X k ) n k 1 n
n
模式识别,第四章
28
最大似然估计法
• 基于最大似然估计法的分类器设计
• 确定样本类概率密度函数形式 p( X / ) • 确定待估参数 • 根据学习样本,用最大似然估计法估计概率密度函数的
模式识别,第四章
5
参数估计
• 原理
• •
最大似然估计法:将待估参数视为确定的未知量进行估计 Bayes估计法:将待估参数视为随机变量进行估计
模式识别,第四章
6
最大似然估计法(ML)
• 已知条件
X ( j ) {X1 , X 2 ,, X n } ,并知 拥有一批已知类别的学习样本
第j类的类概率密度 p( X / ) 的函数形式,参数未知。
其中 p( / X ( j ) ) 为的后验概率,表示在观察了n个学习样本
X ( j ) 后对 p( ) 的修正分布。
模式识别,第四章
32
Bayes估计
p( X ( j ) / ) 则表示在参数为 的条件下,n个样本 X ( j ) 出现的
概率。
p ( ) 为待估随机参数的先验概率分布。
P(x/μ )
•
p( X / ) 的影响
6 k 1 k
μ=B μ=A
A
B
x
模式识别,第四章
由于μ取B是似然函数更大,参数B优于A
10
最大似然估计法
P(x/θ)
模式识别,第四章
11
最大似然估计法
•
•
设有6个学习样本如下图所示,样本分布满足正态分布,且 均值已知,现需估计最佳的方差σ
可以看出, σ的变化对似然函数
解决方案模式识别第四章解决方案模式识别第四章设有6个学习样本如下图所示样本分布满足正态分布且方差已知现需估计最佳的均值模式识别第四章10最大似然估计法模式识别第四章11最大似然估计法设有6个学习样本如下图所示样本分布满足正态分布且均值已知现需估计最佳的方差可以看出的变化对似然函数的影响模式识别第四章12最大似然估计法如何寻求最优参数
参数
• 估计样本先验概率 p( ) • 用Bayes方法设计分类器
j
模式识别,第四章
29
Bayes估计
• 原理:
将待估参数视为具有某种先验分布的随机变量,通过学习 样本的观察,将先验分布转换为后验概率,并以此来修正
参数的估计值。
模式识别,第四章
30
Bayes估计
• 实现过程
• 将待估参数
布
k 1
n
可得:
p( / X ( j ) ) P( X k / ) p( )
k 1
n
观察了n个样本后θ的修正分布
模式识别,第四章
34
Bayes估计
• 合理的估计方法是:在修正的
得 p( / X ( j ) ) 取值最大的
分布 p( / X ( j ) ) 中,使
值 即是的最佳估计值。
p ( )
P(θ)
视为随机变量,并由先验只是得到粗略分
θ
模式识别,第四章
31
Bayes估计
•
p( X / ) 为已知函数形式的类概率密度, 待估,且知n个学
习样本,记为 X ( j ) {X1 , X 2 ,, X n },j为类别。
• 由Bayes公式有:
p( X ( j ) / ) p( ) ( j) p( / X ) ( j) p( X )
即:
模式识别,第四章
20
最大似然估计法
得:
1 ( xk 1 ) 0 2 1 ( xk 1 ) 2 0 2 2 2 2 2
解得:
1 n 1 xk n k 1
1 2 ( xk ) n k 1
2
Bayes估计
P(μ)
μ0
μ
模式识别,第四章
40
Bayes估计
观察了n个学习样本后,μ的后验概率(修正分布) 为:
p ( / X ( j ) ) P ( xk / ) p ( )
k 1 n
n
k 1
1 ( 0 ) 2 1 ( xk ) 2 1 1 exp exp 2 2 2 2 2 0 2 0
模式识别,第四章
19
最大似然估计法
令:
n ln p( xk / ) 0 k 1
n ln p( xk / ) 0 1 k 1 n ln p( xk / ) 0 2 k 1
模式识别
Pattern Classification
第四章: 参数估计统计决策法
3
参数估计
• 原理
• 对于绝大多数的识别问题,类概率密度函数已知的条件
并不成立,而通常只知类概率密度的函数形式,其参数 未知。
• 参数估计法即是利用学习样本来估计类概率密度参数的
方法。
模式识别,第四章
4
参数估计
最大似然估计法 参数估计法 Bayes估计法 两种方法原理不同,但结果是一致的!
p ( X ( j ) ) p ( X ( j ) / ) p ( )d 与 无关,可用系数
代替 即:
p( / X
( j)
) P( X
( j)
/ ) p( )
模式识别,第四章
33
Bayes估计
显然,由于n个学习样本是独立抽取的,则
p( X ( j ) / ) P( X k / )
1 ( n )2 1 exp 2 2 n 2 n
模式识别,第四章
41
Bayes估计
可见:修正后μ的分布仍为正态分布!其均值为μn,方差为σn2
其中:
n 0 2 n mn 0 2 2 n 0 2 n 0 2
2
1 n mn X k n k 1
1 n 当 n 时, X k , Bayes估计与最大似然估计的结果相同! n n k 1
模式识别,第四章
46
Bayes估计
此时, p( / X ( j ) ) 为δ函数。
即随着样本数的增加,μ的初始分布p(μ)对μ的估计影响越来 越小 。
n 反映了对参数μ估计的不确定性,当 n 时, n 0
P(x/μ)
μ
x
模式识别,第四章
38
Bayes估计
首先,将待估参数 μ 视为随机变量,并具有一定的初始分布。
假设其具有正态分布 :
1 ( 0 ) 2 2 p( ) exp N ( 0 , 0 ) 2 2 0 2 0 1
模式识别,第四章
39
模式识别,第四章
35
Bayes估计
P(θ/X(j))
P(θ)
θ0
θn
θ
模式识别,第四章
36
Bayes估计
• 例:已知类概率密度为一维正态分布,其中方差
已 知,均值 参数待估。试用Bayes估计法估计均值
2
模式识别,第四章
37
Bayes估计
• 解:
对一维正态分布
1 ( x )2 1 p( x / ) p( x / ) exp 2 2 2
得:
1 ( X k ) 0
k 1
n
模式识别,第四章
24
最大似然估计法
即:
(X
k 1
n
k
) 0
可得θ=μ的最佳估计值为:
1 Xk n k 1
最佳估计值
n
即最佳均值向量是n个学习样本的重心(算数平均)。
模式识别,第四章
25
最大似然估计法
• 例三:设
26
最大似然估计法
似然函数
1 1 d T 1 ln p( X k / ) 2 ln 2 2 ln 2 ( X k ) ( X k ) k 1 k 1
n n
令:
n ln p( X k / ) 0 k 1
k 1 k 1
n
n
模式识别,第四章
14
最大似然估计法
• 解决方案
定义梯度算子▽为:
1 2 r
模式识别,第四章
15
最大似然估计法
• 解决方案
则令:
[ ln p( X k / )] 0
j
• 问题
由学习样本 X ( j ) 估计最佳参数。
模式识别,第四章
7
最大似然估计法
• 解决方案
模式识别,第四章
8
最大似然估计法
• 解决方案
模式识别,第四章
9
最大似然估计法 •
设有6个学习样本如下图所示,样本分布满足正态分布,且方 差已知,现需估计最佳的均值μ 可以看出, μ取A和B对似然函数
模式识别,第四章
42
Bayes估计
即:
2 n 0 2 1 n Xk 0 n 2 2 2 2 n 0 n k 1 n 0 2 2 2 0 2 2 n n 0பைடு நூலகம்
μn表示在观察了一组样本后,对μ的最好的推断,而σn2 则反映了这个推断的不确定性!
n
2
模式识别,第四章
21
最大似然估计法
• 例二:设样本满足d维正态分布,其中协方差矩阵Σ
已知,且已知n个学习样本,试用最大似然估计法估 计均值向量μ 。
模式识别,第四章
22
最大似然估计法
• 解:
样本满足正态分布,则
p( X / i )
似然函数
1 (2 )
d 2 1 2
1 T 1 exp ( X ) ( X ) 2
1 1 d T 1 1 ln p( X k / ) 1 2 ln 2 2 ln 2 ( X k ) ( X k ) k k
n n
模式识别,第四章
23
最大似然估计法
协方差矩阵已知,仅有一个待参数均值向量,即θ=μ
令
n ln p( X k / ) 0 k 1
模式识别,第四章
18
最大似然估计法
可记为:
1 ( x 1 ) 2 1 p( x / ) exp 22 2 2
则似然函数为:
1 1 ln p( xk / ) 2 ln 22 2 ( xk 1 ) k 1 k 1 2
k 1
n
模式识别,第四章
16
最大似然估计法 •
解决方案 即:
1 n ln p ( X / ) 0 k 2 k 1 r
可得到r个关于参数θ 的方程组,求解方程组,即可求得最佳估计值。
2 2
模式识别,第四章
47
Bayes估计
模式识别,第四章
P(x/σ )
p( X / ) 的影响
6 k 1 k
σ
1
σ
2
x
参数σ1 优于 σ2
模式识别,第四章
12
最大似然估计法
• 如何寻求最优参数?
模式识别,第四章
13
最大似然估计法
• 解决方案
• 用求极值的方法求最佳θ
值 为计算方便,对似然函数求自然对数:
ln p( X k / ) ln p( X k / )
模式识别,第四章
43
Bayes估计
P(μ/X(j)) P(μ)
μ0
μn
μ
模式识别,第四章
44
Bayes估计
• 待估的最佳均值μ=? • 答案: μ = μn
模式识别,第四章
45
Bayes估计
• 考虑样本数对估计值的影响
2 n 0 2 1 n Xk 0 n 2 2 2 2 n 0 n k 1 n 0 2 2 2 0 2 n n 0 2
模式识别,第四章
17
最大似然估计法
• 例一:设样本满足一维正态分布,现已知n个学习样
本,试用最大似然估计法估计其均值μ和方差σ 解:对于一维正态分布
2。
1 ( x )2 1 p( x / j ) exp 2 2 2
待估参数为 { , } 1 2 其中 1 , 2 2
p( X / j ) N (, ) 为多维正态分布,现已知n个
学习样本,试用最大似然估计法估计 和 。
解:与前述方法相同,即:
p( X / )
1 (2 )
d 2 1 2
1 T 1 exp ( X ) ( X ) 2
模式识别,第四章
模式识别,第四章
27
最大似然估计法
得:
1 Xk n k 1
1 T ( X k )( X k ) n k 1 n
n
模式识别,第四章
28
最大似然估计法
• 基于最大似然估计法的分类器设计
• 确定样本类概率密度函数形式 p( X / ) • 确定待估参数 • 根据学习样本,用最大似然估计法估计概率密度函数的
模式识别,第四章
5
参数估计
• 原理
• •
最大似然估计法:将待估参数视为确定的未知量进行估计 Bayes估计法:将待估参数视为随机变量进行估计
模式识别,第四章
6
最大似然估计法(ML)
• 已知条件
X ( j ) {X1 , X 2 ,, X n } ,并知 拥有一批已知类别的学习样本
第j类的类概率密度 p( X / ) 的函数形式,参数未知。
其中 p( / X ( j ) ) 为的后验概率,表示在观察了n个学习样本
X ( j ) 后对 p( ) 的修正分布。
模式识别,第四章
32
Bayes估计
p( X ( j ) / ) 则表示在参数为 的条件下,n个样本 X ( j ) 出现的
概率。
p ( ) 为待估随机参数的先验概率分布。
P(x/μ )
•
p( X / ) 的影响
6 k 1 k
μ=B μ=A
A
B
x
模式识别,第四章
由于μ取B是似然函数更大,参数B优于A
10
最大似然估计法
P(x/θ)
模式识别,第四章
11
最大似然估计法
•
•
设有6个学习样本如下图所示,样本分布满足正态分布,且 均值已知,现需估计最佳的方差σ
可以看出, σ的变化对似然函数
解决方案模式识别第四章解决方案模式识别第四章设有6个学习样本如下图所示样本分布满足正态分布且方差已知现需估计最佳的均值模式识别第四章10最大似然估计法模式识别第四章11最大似然估计法设有6个学习样本如下图所示样本分布满足正态分布且均值已知现需估计最佳的方差可以看出的变化对似然函数的影响模式识别第四章12最大似然估计法如何寻求最优参数
参数
• 估计样本先验概率 p( ) • 用Bayes方法设计分类器
j
模式识别,第四章
29
Bayes估计
• 原理:
将待估参数视为具有某种先验分布的随机变量,通过学习 样本的观察,将先验分布转换为后验概率,并以此来修正
参数的估计值。
模式识别,第四章
30
Bayes估计
• 实现过程
• 将待估参数
布
k 1
n
可得:
p( / X ( j ) ) P( X k / ) p( )
k 1
n
观察了n个样本后θ的修正分布
模式识别,第四章
34
Bayes估计
• 合理的估计方法是:在修正的
得 p( / X ( j ) ) 取值最大的
分布 p( / X ( j ) ) 中,使
值 即是的最佳估计值。
p ( )
P(θ)
视为随机变量,并由先验只是得到粗略分
θ
模式识别,第四章
31
Bayes估计
•
p( X / ) 为已知函数形式的类概率密度, 待估,且知n个学
习样本,记为 X ( j ) {X1 , X 2 ,, X n },j为类别。
• 由Bayes公式有:
p( X ( j ) / ) p( ) ( j) p( / X ) ( j) p( X )
即:
模式识别,第四章
20
最大似然估计法
得:
1 ( xk 1 ) 0 2 1 ( xk 1 ) 2 0 2 2 2 2 2
解得:
1 n 1 xk n k 1
1 2 ( xk ) n k 1
2
Bayes估计
P(μ)
μ0
μ
模式识别,第四章
40
Bayes估计
观察了n个学习样本后,μ的后验概率(修正分布) 为:
p ( / X ( j ) ) P ( xk / ) p ( )
k 1 n
n
k 1
1 ( 0 ) 2 1 ( xk ) 2 1 1 exp exp 2 2 2 2 2 0 2 0