概率密度函数的估计.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 概率密度函数的估计
概率密度估计的基础知识 参数估计理论
– 极大似然估计(MLE) – 贝叶斯估计(或称最大后验估计) – 贝叶斯学习
非参数估计理论
– 密度估计 – Parzen窗估计 – K近邻估计(KNE)
§4-1 概率密度估计的基础知识
贝叶斯分类器中只要知道先验概率、条件概率 或后验概概率 P(ωi),P(x/ωi), P(ωi /x)就可以设计 分类器了。现在来研究如何用已知训练样本的 信息去估计P(ωi),P(x/ωi), P(ωi /x) 一.参数估计与非参数估计 参数估计:先假定研究的问题具有某种数学模型, 如正态分布,二项分布,再用已知类别的学习 样本估计里面的参数。

下面以正态分布的均值估计为例说明贝叶斯估计的 过程: 一维正态分布:已知σ2,估计μ 假设概率密度服从正态分布 P(X|μ )=N(μ ,σ2), P(μ )=N(μ 0,σ02) 第i类学习样本xi=(x1, x2,…. xN)T, i=1,2,…M 第i类概率密度P(x|μ i,xi)=P(x|xi) 所以由贝叶斯公式,则可得后验概率:
① 确定θ的先验分布P(θ),待估参数为随机变量。 ② 用第i类样本xi=(x1, x2,…. xN)T求出样本的联合概率密度分 布P(xi|θ),它是θ的函数。 i P ( | ).P( ) X ③ 利用贝叶斯公式,求θ的后验概率 P( | X i ) i P ( | ) P( )d X ④ 求贝叶斯估计 P( | X i)d(证明略)
N

Xk
2

样本方差
讨论: 1.正态总体均值的极大似然估计即为学习样本的算术平均 2.正态总体方差的极大似然估计与样本的方差不同,当N较 大的时候,二者的差别不大。
B.多维情况:n个特征(推导过程,作为练习)
N N 1 1 估计值: 1 Xk 2 Xk N k 1 N k 1
N
k
N ) 0
1 所以,有 N
X
k 1
N
k
这说明未知均值的极大似然估计正好是训练样本的算术平均。
② ∑, μ 均未知 A. 一维情况:n=1对于每个学习样本只有一个特征的简单 情况:
2 , 1 1 2 1
i 2 1 1 (n=1)由上式得 log P( X k | ) log 2 2 X k 1 2 2 2 N N 1 i 代入 log P( X k | ) ( X k 1) 0 k 1 1 k 1 2
N 1 ( X k 1) i log P( X k | ) [ ]0 2 2 2 2 2 k 1 2 k 1 N 2


1 N 1 1 X k N k 1

即学习样本的算术平均
1 2 2 1 N



k 1
其中a’,a’’包含了所有与μ 无关的因子

2

1 0 exp[ ]} 2 0 2 0 1


2
∴P(μ | Xi)是u的二次函数的指数函数 ∴P(μ | Xi)仍然是一个正态函数, P(μ |Xi)=N(μ N,σN2) 另外后验概率可以直接写成正态形式:
i
1 N P( | X ) exp[ ] 2 N 2 N 比较以上两个式子,对应的系数应该相等 ∴ 1 N 1 1
三. 参数估计的基本概念
1. 统计量:样本中包含着总体的信息,总希望通过样本 集把有关信息抽取出来。也就是说,针对不同要求构 造出样本的某种函数,该函数称为统计量。 2. 参数空间:在参数估计中,总假设总体概率密度函数 的形式已知,而未知的仅是分布中的参数,将未知参 数记为 ,于是将总体分布未知参数 的全部可容许 值组成的集合称为参数空间,记为 。 3. 点估计、估计量和估计值:点估计问题就是构造一个 统计量d x1, , xN 作为参数 θ 的估计ˆ ,在统计学中 i i 是属于类别 的几个 称 ˆ 为 θ 的估计量。若 x1 , , xN i 样本观察值,代入统计量d就得到对于第i类的ˆ 的具体 数值,该数值就称为 θ 的估计值。



Xk

T
结论:①μ 的估计即为学习样本的算术平均

②估计的协方差矩阵是矩阵 X k X k 的算术 平均(nⅹn阵列, nⅹn个值)

T
二. 贝叶斯估计
极大似然估计是把待估的参数看作固定的未知量, 而贝叶斯估计则是把待估的参数作为具有某种先验 分布的随机变量,通过对第i类学习样本Xi的观察, 通过贝叶斯准则将概率密度分布P(Xi/θ)转化为后 验概率P(θ/Xi) ,进而求使得后验概率分布最大的 参数估计,也称最大后验估计。 估计步骤:
非参数估计:不假定数学模型,直接用已知类别 的学习样本的先验知识直接估计数学模型。
二.监督参数估计与非监督参数估计 监督参数估计:样本所属的类别及类条件总体概率 概率密度函数的形式已知,而表征概率密度函数 的某些参数是未知的。目的在于:由已知类别的 样本集对总体分布的某些参数进行统计推断,此 种情况下的估计问题称为监督参数估计。 非监督参数估计:已知总体概率密度函数形式但未 知样本所属类别,要求推断出概率密度函数的某 些参数,称这种推断方法为非监督情况下的参数 估计。 注:监督与非监督是针对样本所属类别是已知还是 未知而言的。
所以在正态分布时
1 1 1 n T log P( X k | ) log[ 2 | |] X k X k 2 2 代入上式得
X
1 k 1
N
k
0

X
1 k 1
N
k
0
( X
1 k 1
§4-2参数估计理论
一.极大似然估计
假定: ①待估参数θ是确定的未知量 ②按类别把样本分成M类X1,X2,X3,… XM 其中第i类的样本共N个
(i≠j)的信息,所以可以对每一 类样本独立进行处理。 T i ④ 第i类的待估参数 ( 1, 2,... p) 根据以上四条假定,我们下边就可以只利用第i类学习样 本来估计第i类的概率密度,其它类的概率密度由其它类 的学习样本来估计。 ③

2.类概率密度的估计
在求出u的后验概率P(μ |xi)后,可以直接利用式
P( | X i ) P( X i | ).P( )
i P ( X | ) P( )d
因为N个样本是独立抽取的,所以上式可以写成
P( | X ) a P( X k | ).P( )
i
N
其中
a 1
k 1
i
P( X | )P( )d
N
为比例因子,只与x有关,与μ 无关
2 将μ N, N 代入P(μ |Xi)可以得到后验概率,再 用公式
P( | X i)d , 求的估计。



P ( | X i ) d N
N 0 X 2 2 2 2 N 0 k 1 N 0 2 2
Xi中的样本不包含
Xi = (X1,X2,… XN)T
j
并且是独立从总体中抽取的
1.一般原则: 第i类样本的类条件概率密度: P(Xi/ωi)= P(Xi/ωi﹒θi) = P(Xi/θi) 原属于i类的学习样本为Xi=(X1 , X2 ,…XN,)T i=1,2,…M 求θi的极大似然估计就是把P(Xi/θi)看成θi的函数,求 出使它极大时的θi值。 ∵学习样本独立从总体样本集中抽取的
i
P(Xi/θi)
利用上式求出 的估值 ,即为 = 有时上式是多解的, 上图有5个解,只有一个解最大即.
i

2. 多维正态分布情况 ① ∑已知, μ 未知,估计μ P( X i | i) 服从正态分布
待估参数为 1
i

k 1
N

logP( X k | ) 0
P( X | X i ) P( X | )P( | X i )d P( X | )P( | X i )d
当观察一个样本时,N=1就会有一个μ 的估计值的修正值; 当观察N=4时,对μ 进行修正,向真正的μ 靠近; 当观察N=9时,对μ 进行修正,向真正的μ 靠的更近; 当观察 N 个样本后 , μ N 就反映了观察到 N 个样本后对 μ 的最好 推测,而σN2反映了这种推测的不确定性。N↑, σN2↓,σN2 随 观察样本增加而单调减小,且当N→∞, σN2 →0 ; 当N↑,P(μ |xi)越来越尖峰突起,于是 N→∞, P(μ |xi)→ 函数,即收敛于一个以真实参数为中心的 函数,这个过程成为贝叶斯学习。


2
2 2 2 N 0 N 1 0 N Xk 2 2 2 0 N k 1
解以上两式得
2 2 N 0 X k 0 2 2 2 2 N 0 k 1 N 0
N
2 2 2 0 N 2 N 0 2Leabharlann Baidu


4. 区间估计:除点估计外,还有另一类估计问题,要求用 区间 d1 , d 2 作为 可能取值范围得一种估计 ,此区间称 为置信区间,该类估计问题称为区间估计。 5. 参数估计方法:参数估计是统计学的经典问题,解决方 法很多,在此只考虑两种常用方法:一种是最大似然估 计方法,另一种是贝叶斯估计方法。 (1) 最大似然估计:把参数看作是确定而未知的,最好 的估计值是在获得实际观察样本的最大的条件下得到的。 (2)贝叶斯估计:把未知的参数当作具有某种分布的随机 变量,样本的观察结果使先验分布转化为后验分布,再 根据后验分布修正原先对参数的估计。 6. 参数估计的评价:评价一个估计的“好坏”,不能按一 次抽样结果得到的估计值与参数真值 的偏差大小来确 定,而必须从平均和方差的角度出发进行分析,即关于 估计量性质的定义。
N N k

∴对μ 的估计为
0
若令P(μ )=N(μ 0, σ02 )=N(0,1),即为标准正态分 布 ,且总体分布的方差 2 也为1,则
1 N Xk 与极大似然估计相似,只 此时估计 N 是分母不同。N 1 k 1

三.贝叶斯学习
1.贝叶斯学习的概念:通过已有的概率分布和观测数据推理求 出μ 的后验概率之后,直接去推导总体分布(形式已知),即
N ∴ P( X | i . i ) P( X | i ) P( X k | i ) k 1
i i
N个学习样本出现概率的乘积
取对数 :log
i i P ( | ) log P ( | Xk Xk ) k 1 k 1
N
N
对θi求导,并令它为0:
N 1 i ... log P ( | )0 X k k 1 p N i log P ( | )0 X k k 1 1 ......... ......... N logP ( X k | i ) 0 k 1 p
∵ P(Xk| μ )=N(μ ,σ2),P(u)=N(μ 0,σ02)
P ( | X i ) a
k 1
1 1 Xk exp{ 2 2
1 N Xk 2 0 2 a' exp{ [ ]} 2 k 1 0
1 N 1 2 1 N 0 a' ' exp{ [( 2 2 ) 2( 2 Xk 2 ) ]} 2 0 k 1 0
相关文档
最新文档