单变量正态密度函数的均值学习

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

单变量正态密度函数的均值学习
设一个模式样本集，其类概率密度函数是单变量正态分布N(θ,σ2)，均值θ待求，即
⎥⎥⎦
⎤⎢⎢⎣⎡⎪⎭⎫ ⎝⎛--=
22x 21ex p 21
)|x (p σθσπθ 给出N 个训练样本{x 1, x 2,…, x N }，用贝叶斯学习计算其均值估计量。

设最初的先验概率密度p(θ)为),(N 200σθ，这里θ0是凭先验知识对未知量θ的“最好”推测，20σ表示上述推测的不确定性度量。

这里可以假定p(θ)是正态的，因为均值的估计量是样本的线性函数，因样本x 是正态分布的，因此p(θ)取为正态分布是合理的，这样计算起来可比较简单。

初始条件已知，即p(θ)为),(N 200σθ，p( x 1|θ)为N(θ,σ2)，由贝叶斯公式p(θ| x 1)=a p( x 1|θ) p(θ)，可得：
⎥⎥⎦
⎤
⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--⋅⎥⎥⎦⎤⎢⎢⎣⎡⎪⎭⎫ ⎝⎛--⋅=22000221121exp 21x 21exp 21a )x |(p σθθσπσθσπθ 其中a 是一定值。

由贝叶斯法则有：
θθθθθθφ
d )(p )|x ,,x (p )
(p )|x ,,x (p )x ,,x |(p N 1
N 1N 1⎰=
ΛΛΛ
这里φ表示整个模式空间。

由于每一次迭代是从样本子集中逐个抽取一个变量，所以N 次运算是独立地抽取N 个变量，因此上式可写成：
)(p )|x (p a )x ,,x |(p N 1k k N 1θθθ⎭
⎬⎫
⎩⎨⎧=∏=Λ
代入p( x k |θ) 和p(θ)的值，得：
⎥⎥⎦
⎤
⎢⎢⎣⎡⎭⎬⎫⎩⎨⎧⎪⎪⎭⎫ ⎝⎛+-⎪⎪⎭⎫ ⎝⎛+-''=⎥⎥⎦
⎤
⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛-+⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎪⎭⎫ ⎝⎛--'=⎥⎥⎦
⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--⋅⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎭⎫ ⎝⎛--=∑∑∏===θσθσθσσσθθσθσθθσπσθσπθ200N 1k k 22202200N 1k 2k 2000N 1k 2k N 1x 121N 21exp a x 21exp a 21exp 21x 21exp 21a )x ,,x |(p Λ上式每一步中与θ无关的项都并入常数项a '和a ''，这样p(θ| x 1, …, x N )是θ平方函数的指数集合，仍是一正态密度函数。

将它写成
),(N 2
N N σθ的形式，即：
⎥⎥⎦
⎤
⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--'''=⎥⎥⎦
⎤
⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--=
2
2N N 2N 2
2
N N N N 1221exp a 21exp 21)x ,,x |(p σθθσθσθθσπθΛ
将上述两式相比较，得：
20
0N 2200N 1k k 22
N N 2
02
2
N
m ˆN x 11
N
1
σθσσθσσθσσσ+=+=+
=
∑=
解出θN 和σN ，得：
2
2
02202
N 0
2202
N 2202
0N N N m ˆN N σσσσσθσ
σσσσσθ+=+++=
即根据对训练样本集{x i }i=1,2,…,N 的观察，求得均值θ的后验概率密度
p(θ| x i )为),(N 2
N
N σθ，其中θN 是经过N 个样本观察之后对均值的最好估计，它是先验信息（即θ0，20σ和σ2）与训练样本所给信息（即N
和N m
ˆ）适当结合的结果，是用N 个训练样本对均值的先验估计θ0的补充；2N σ是对这个估计的不确定性的度量，因2N σ随N 的增加而减小，因此当∞→N 时，2
N σ趋于零。

由于θN 是N m
ˆ和θ0的线性组合，两者的系数都非负且其和为1，因此只要00≠σ，当∞→N 时，θN
趋于样本均值的估计量N m
ˆ。

图中所示为一正态密度的均值学习过程，每增加一次对样本的预测，都可减小对θ估计的不确定性，所以p(θ| x 1, …, x N )变得越来越
峰形突起，且其均值与估计量N m
ˆ之间的偏差的绝对值亦越来越小。