模式识别--参数估计

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

∴P(μ| xi)是u的二次函数的指数函数 ∴P(μ| xi)仍然是一个正态函数, P(μ|Xi)=N(μN,σN2)
另外后验概率可以直接写成正态形式:
例子
下面以正态分布的均值估计为例说明贝叶斯估计的过程
一维正态分布:已知σ2,估计μ
假设概率密度服从正态分布
P(X|μ)=N(μ,σ2), P(μ)=N(μ0,σ02) 第i类学习样本xi=(x1, x2,…. xN)T,
i=1,2,…M
第i类概率密度P(x|μi,xi)=P(x|xi)
估计步骤:
① 确定θ的先验分布P(θ),待估参数为随机变量。
② 用第i类样本xi=(x1, x2,…. xN)T求出样本的联合 概率密度分布P(xi|θ),它是θ的函数。
③ 利用贝叶斯公式,求θ的后验概率
④ቤተ መጻሕፍቲ ባይዱ
P( | X i) P( X i | ).P( )
P(X i | )P( )d
求贝叶斯估计 P( | X i)d(证明略)
Xk
T
X k 的算术
平均(nⅹn阵列, nⅹn个值)
5.3贝叶斯估计与学习
最大似然估计是把待估的参数看作固定 的未知量,而贝叶斯估计则是把待估的参数 作为具有某种先验分布的随机变量,通过对 第i类学习样本Xi的观察,使概率密度分布 P(Xi/θ)转化为后验概率P(θ/Xi) ,再求贝叶 斯估计。
④ 第i类的待估参数 根据以上四条假定,我们下边就可以只利用第i类学习样 本来估计第i类的概率密度,其它类的概率密度由其它类 的学习样本来估计。
1.原理:
第i类样本的类条件概率密度:
P(Xi/ωi)= P(Xi/ωi﹒θi) = P(Xi/θi)
原属于i类的学习样本为Xi=(X1 , X2 ,…XN,)T i=1,2,…M
第五章 统计决策中的 参数与非参数估计
主要内容
参数估计与监督学习 参数估计理论 非参数估计理论
参数估计与监督学习
贝叶斯分类器中只要知道先验概率,条件概率或后验概 概率 P(ωi),P(x/ωi), P(ωi /x)就可以设计分类器了。现在 来研究如何用已知训练样本的信息去估计P(ωi),P(x/ωi), P(ωi /x) 一.参数估计与非参数估计 参数估计:先假定研究的问题具有某种数学模型,如
正态分布,二项分布,再用已知类别的学习 样本估计里面的参数。 非参数估计:不假定数学模型,直接用已知类别的学习
样本的先验知识直接估计数学模型。
监督学习与无监督学习
监督学习:在已知类别样本指导下的学习和训练, 参数估计和非参数估计都属于监督学习。
无监督学习:不知道样本类别,只知道样本的某些 信息去估计,如:聚类分析。
2. 多维正态分布情况
① ∑已知, μ未知,估计μ
P( X i | i) 服从正态分布
待估参数为 i 1
N
k1
logP(X k | ) 0
所以在正态分布时
P(
X
k
|
)
1 2
log[
2
n
|
|]
1 2
X
k
T
1 X k
代入上式得
N
1 X k 0
k 1
1
N
X k 0
k 1
k 1
对θi求导,并令它为0:
1
...
p
N k 1
log
P( X
k
|
i)
0
P(Xi/θi)
N k 1
1
logP(
X
k
|
i)
0
.........
.........
N k 1
p
logP(
X
k
|
i)
0
利用上式求出 i的估值 ,即为 i=
有时上式是多解的, 上图有5个解,只有一个解最大即.
1.正态总体均值的最大似然估计即为学习样本的算术平均
2.正态总体方差的最大似然估计与样本的方差不同,当N较大的时 候,二者的差别不大。
B.多维情况:n个特征
估计值:
1
1 N
N k 1
Xk
2
1 N
N k 1
Xk
T
Xk
结论:①μ的估计即为学习样本的算术平均
②估计的协方差矩阵是矩阵
5.2参数估计
5.2.1矩法估计(书上) 5.2.2最大似然估计(MLE) 假定:
①待估参数θ是确定的未知量 ②按类别把样本分成M类X1,X2,X3,… XM
其中第i类的样本共N个
Xi = (X1,X2,… XN)T 并且是独立从总体中抽取的
③ Xi中的样本不包含 (i≠j)的信息,所以可以对每一 类样本独立进行处理。
k 1
结论
所以
1( N X k N ) 0
k 1
1 N
N k 1
Xk
这说明未知均值的最大似然估计正好是训练样 本的算术平均。
② ∑, μ均未知 A. 一维情况:n=1对于每个学习样本只有一个特征的
简单情况:
1
1,
2
2 1
(n=1)由上式得 log P(X
代入
N k 1
所以后验概率
P( | X i) P( X i | ).P( )
P( X i | )P()d
(贝叶斯公式)
因为N个样本是独立抽取的,所以上式可以写成
N
P(
|
X
i)
a
k 1
P(X k |
其中
).P( )
a
只与x有关,与μ无关
1
P(X i | )P()d
为比例因子,
∵ P(Xk| μ)=N(μ,σ2),P(u)=N(μ0,σ02)
求θi的最大似然估计就是把P(Xi/θi)看成θi的函数,求 出使它最大时的θi值。
∵学习样本独立从总体样本集中抽取的

N
P( X i | i. i) P( X i | i) P( X k | i)
k 1
N个学习样本出现概率的乘积
取对数 :
N
N
log P( X k | i) log P( X k | i)
N
P( | X i) a
1
exp{ 1 Xk 2
1
exp[ 1
0
2
]}
k1 2
2 2
2 0
a'exp{ 1[ N
Xk
2
0
2
]}
2 k1
0
a' ' exp{
1 [( N
2 2
1)
2 0
2
2( 1
2
N k 1
Xk
0 )]}
2 0
其中a’,a’’包含了所有与μ无关的因子
1
log
P( X
k
|
i)
k | i)
N
k 1
1 log 2
1 (Xk
2
2 2
1)
0
1
2
2
Xk
2
1
N
k 1
2
log
P( X
k
| i)
N
[
k 1
1
2 2
(X k 1)2]
2
2 2
0
即学习样本的算术平均
样本方差
2
1
2 1
1
1N N k 1
1N N k 1
Xk
X
k
2
讨论:
相关文档
最新文档