单变量正态密度函数的均值学习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
单变量正态密度函数的均值学习
设一个模式样本集,其类概率密度函数是单变量正态分布N(θ,σ2),均值θ待求,即
⎥⎥⎦
⎤⎢⎢⎣⎡⎪⎭⎫ ⎝⎛--=
22x 21ex p 21
)|x (p σθσπθ 给出N 个训练样本{x 1, x 2,…, x N },用贝叶斯学习计算其均值估计量。 设最初的先验概率密度p(θ)为),(N 200σθ,这里θ0是凭先验知识对未知量θ的“最好”推测,20σ表示上述推测的不确定性度量。这里可以假定p(θ)是正态的,因为均值的估计量是样本的线性函数,因样本x 是正态分布的,因此p(θ)取为正态分布是合理的,这样计算起来可比较简单。
初始条件已知,即p(θ)为),(N 200σθ,p( x 1|θ)为N(θ,σ2),由贝叶斯公式p(θ| x 1)=a p( x 1|θ) p(θ),可得:
⎥⎥⎦
⎤
⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--⋅⎥⎥⎦⎤⎢⎢⎣⎡⎪⎭⎫ ⎝⎛--⋅=22000221121exp 21x 21exp 21a )x |(p σθθσπσθσπθ 其中a 是一定值。由贝叶斯法则有:
θθθθθθφ
d )(p )|x ,,x (p )
(p )|x ,,x (p )x ,,x |(p N 1
N 1N 1⎰=
ΛΛΛ
这里φ表示整个模式空间。由于每一次迭代是从样本子集中逐个抽取一个变量,所以N 次运算是独立地抽取N 个变量,因此上式可写成:
)(p )|x (p a )x ,,x |(p N 1k k N 1θθθ⎭
⎬⎫
⎩⎨⎧=∏=Λ
代入p( x k |θ) 和p(θ)的值,得:
⎥⎥⎦
⎤
⎢⎢⎣⎡⎭⎬⎫⎩⎨⎧⎪⎪⎭⎫ ⎝⎛+-⎪⎪⎭⎫ ⎝⎛+-''=⎥⎥⎦
⎤
⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛-+⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎪⎭⎫ ⎝⎛--'=⎥⎥⎦
⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--⋅⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎭⎫ ⎝⎛--=∑∑∏===θσθσθσσσθθσθσθθσπσθσπθ200N 1k k 22202200N 1k 2k 2000N 1k 2k N 1x 121N 21exp a x 21exp a 21exp 21x 21exp 21a )x ,,x |(p Λ上式每一步中与θ无关的项都并入常数项a '和a '',这样p(θ| x 1, …, x N )是θ平方函数的指数集合,仍是一正态密度函数。将它写成
),(N 2
N N σθ的形式,即:
⎥⎥⎦
⎤
⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--'''=⎥⎥⎦
⎤
⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛--=
2
2N N 2N 2
2
N N N N 1221exp a 21exp 21)x ,,x |(p σθθσθσθθσπθΛ
将上述两式相比较,得:
20
0N 2200N 1k k 22
N N 2
02
2
N
m ˆN x 11
N
1
σθσσθσσθσσσ+=+=+
=
∑=
解出θN 和σN ,得:
2
2
02202
N 0
2202
N 2202
0N N N m ˆN N σσσσσθσ
σσσσσθ+=+++=
即根据对训练样本集{x i }i=1,2,…,N 的观察,求得均值θ的后验概率密度
p(θ| x i )为),(N 2
N
N σθ,其中θN 是经过N 个样本观察之后对均值的最好估计,它是先验信息(即θ0,20σ和σ2)与训练样本所给信息(即N
和N m
ˆ)适当结合的结果,是用N 个训练样本对均值的先验估计θ0的补充;2N σ是对这个估计的不确定性的度量,因2N σ随N 的增加而减小,因此当∞→N 时,2
N σ趋于零。由于θN 是N m
ˆ和θ0的线性组合,两者的系数都非负且其和为1,因此只要00≠σ,当∞→N 时,θN
趋于样本均值的估计量N m
ˆ。 图中所示为一正态密度的均值学习过程,每增加一次对样本的预测,都可减小对θ估计的不确定性,所以p(θ| x 1, …, x N )变得越来越
峰形突起,且其均值与估计量N m
ˆ之间的偏差的绝对值亦越来越小。