参数估计与非参数估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ΣN , μN 有以下关系
1 N 1 1 ...........(A)
N
0
1 NN
1 ( N xk )
1 0
0.
.......( B)
k 1
1
由( A)式得: N
0
0
1 N
1 N
1
代入(B)
式得:
N
0
0
1 N
(
1 N
N k 1
xk)
1 N
( 1 0N
1 ) 0
出使它最大时的θi值。
∵学习样本独立从总体样本集中抽取的
N
∴ P( X i | i. i) P( X i | i) P( X k | i)
k 1
N个学习样本出现概率的乘积
N
N
取对数 :log P( X k | i) log P( X k | i)
k 1
k 1
对θi求导,并令它为0:
N
N
N
2 0
2 0
2
N k 1
Xk
N
2
2 0
2
0
若令P(μ)=N(μ0, σ02 )=N(0,1)
1
N
Xk 与最大似然估计相似,只是分母不同
N N 1 k 1
三.贝叶斯学习 1.贝叶斯学习的概念:求出μ的后验概率之后,直接去推导总
体分布即P(X | Xi) P(X | )P( | Xi)d P(X | )P( | Xi)d
i=1,2,…M
所以后验概率
P(
|
X i)
P( X i | ).P() P( X i | )P()d(贝叶斯公式)
因为N个样本是独立抽取的,所以上式可以写成
N
P( | X i) a P(X k | ).P()
k 1
其中 a
1
P( X i | )P()d 为比例因子,只与x有关,与μ无关
正态分布,二项分布,再用已知类别的学习 样本估计里面的参数。 非参数估计:不假定数学模型,直接用已知类别的学习 样本的先验知识直接估计数学模型。
二.监督学习与无监督学习 监督学习:在已知类别样本指导下的学习和训练,
参数估计和非参数估计都属于监督学习。 无监督学习:不知道样本类别,只知道样本的某些
信息去估计,如:聚类分析。
N
k
∴ 条件密度的估计:P(x) N
V
(V足够小)
讨论:① 当V固定的时候N增加, k也增加,当 N 时 k
P
k
1
P(x)
k N
1
只反映了P(x)的空间平均估计
N
VV
而反映不出空间的变化
② N固定,体积变小
k
当 V 0时,k=0时 P(x) N 0
V
k
k 0 时 P(x) N
2.类概率密度的估计 在求出u的后验概率P(μ|xi)后,可以直接利用式
P(x | xi) P(x |) P( | xi)d 推断类条件概率密度。
即P(x|xi)= P(x|ωi ,xi) ⑴一维正态:已知σ2,μ未知
∵μ的后验概率为
P( | xi) P( | xi)
1
exp[ 1
N
V
所以起伏比较大,噪声比较大,需要对V进行改进.
对体积V进行改进:
为了估计X点的密度,我们构造一串包括X的区域序列R1,R2,.. RN. 对R1采用一个样本进行估计,对R2采用二个样本进行估计..。 设VN是RN的体积,KN是N个样本落入VN的样本数则
kN 密度的第N次估计: PN (x) VN
P( | X i)
P( X i | ).P( ) P(X i | )P( )d
④ 求贝叶斯估计 P( | X i)d(证明略)
下面以正态分布的均值估计为例说明贝叶斯估计的过程
一维正态分布:已知σ2,估计μ 假设概率密度服从正态分布
P(X|μ)=N(μ,σ2), P(μ)=N(μ0,σ02) 第i类学习样本xi=(x1, x2,…. xN)T, 第i类概率密度P(x|μi,xi)=P(x|xi)
2
N k 1
Xk
0 )]}
2 0
其中a’,a’’包含了所有与μ无关的因子
∴P(μ| xi)是u的二次函数的指数函数
∴P(μ| xi)仍然是一个正态函数, P(μ|Xi)=N(μN,σN2)
另外后验概率可以直接写成正态形式:P( | X i)
1
exp[ 1
N
2
]
2 N
2 N
比较以上两个式子,对应的系数应该相等
这就是在多维情况下,对μ的估计
将N代入P(x | xi) P(x | )P( | xi)d就可以
设计Bayes分类器
§ 5-3非参数估计
参数估计要求密度函数的形式已知,但这种假定有时并不成
立,常见的一些函数形式很难拟合实际的概率密度,经典的密
度函数都是单峰的,而在许多实际情况中却是多峰的,因此用
P(x)
P(X’)为P(X)在R内的变化值,P(X)就是要求的总体概率密度
假设有N个样本X=(X1, X2,… XN)T都是按照P(X)从总体中独 立抽取的
若N个样本中有k个落入在R内的概率符合二项分布
Pk
C
k N
pk
1 P
N k
数学期望:E(k)=k=NP
其中P是样本X落入R内的概率 Pk是k个样本落入R内的概率
非参数估计。
非参数估计:直接用已知类别样本去估计总体密度分布,方法有:
① 用样本直接去估计类概率密度p(x/ωi)以此来设计分类器, 如窗口估计
② 用学习样本直接估计后验概率p(ωi/x)作为分类准则
来设计分类器如k近邻法.
1. 密度估计:一个随机变量X落在区域R的概率为P
R
P R P(x')dx Prx R
B.多维情况:n个特征(学生可以自行推出下式)
估计值:1
1 N
N k 1
Xk
1 N
2 N k1 X k
T
Xk
结论:①μ的估计即为学习样本的算术平均
②估计的协方差矩阵是矩阵 X k
T
X k 的算术
平均(nⅹn阵列, nⅹn个值)
二.贝叶斯估计
最大似然估计是把待估的参数看作固定的未知量,而贝叶斯
k
1)
0
N
k 1
2
log
P( X
k
| i)
N
[
k 1
1
2 2
(X k 1)2]
2
2 2
0
1 1
1 N
N k 1
Xk
即学习样本的算术平均
2
2 1
1 N
N k 1
2
Xk
样本方差
• 讨论: 1.正态总体均值的最大似然估计即为学习样本的算术平均 2.正态总体方差的最大似然估计与样本的方差不同,当N较 大的时候,二者的差别不大。
§5-2参数估计理论 一.最大似然估计
假定:
①待估参数θ是确定的未知量 ②按类别把样本分成M类X1,X2,X3,… XM
其中第i类的样本共N个
Xi = (X1,X2,… XN)T 并且是独立从总体中抽取的
③ Xi中的样本不包含 j (i≠j)的信息,所以可以对每一
类样本独立进行处理。
④ 第i类的待估参数 i (1, 2,... n)T
∵ P(Xk| μ)=N(μ,σ2),P(u)=N(μ0,σ02)
N
P( | X i) a
1
exp{ 1 Xk 2
1
exp[ 1
0
2
]}
k1 2
2 2
2 0
a'exp{ 1[ N
Xk
2
0
2
]}
2 k1
0
a' ' exp{
1 [( N
2 2
1)
2 0
2
2( 1
1 N
N
Xk
k 1
这说明未知均值的最大似然估计正好是训练样本的算术
平均。
② ∑, μ均未知
A. 一维情况:n=1对于每个学习样本只有一个特征的简单
情况:
1
1,
2
2 1
log
P(
X
k
|
i)
1 2
log
2
2
1
2
2
Xk
2
1
(n=1)由上式得
N
代入
k 1
1
log
P(X k
| i)
N1 (X
k 1 2

1 N
2
N 2
1
2 0
N
N 2
1
2
N k 1
Xk
0
2 0
解以上两式得
2 0
N
Xk
2
0
N
N
2 0
2
k 1
N
2 0
2
N 2
2 0
2
N
2 0
2
将μN,σN2代入P(μ|Xi)可以得到后验概率,再用公式
P( | X i)d , 求的估计
∵ P( | X i)d N
∴对μ的估计为
根据以上四条假定,我们下边就可以只利用第i类学习样 本来估计第i类的概率密度,其它类的概率密度由其它类 的学习样本来估计。
1.一般原则:
第i类样本的类条件概率密度:
P(Xi/ωi)= P(Xiቤተ መጻሕፍቲ ባይዱωi﹒θi) = P(Xi/θi) 原属于i类的学习样本为Xi=(X1 , X2 ,…XN,)T i=1,2,…M 求θi的最大似然估计就是把P(Xi/θi)看成θi的函数,求
当观察一个样本时,N=1就会有一个μ的估计值的修正值 当观察N=4时,对μ进行修正,向真正的μ靠近 当观察N=9时,对μ进行修正,向真正的μ靠的更近 当N↑,μN就反映了观察到N个样本后对μ的最好推测,而σN2 反映了这种推测的不确定性, N↑, σN2↓,σN2 随观察样本增 加而单调减小,且当N→∞, σN2 →0 当N↑,P(μ|xi)越来越尖峰突起 N→∞, P(μ|xi)→σ函数,这个过程成为贝叶斯学习。

lim
N
KN N
0
,KN的变化远小于N的变化。
因此尽管在
R内落入了很多的样本,但同总数N比较, 仍然是很小
的一部分。
如何选择VN满足以上条件:
2 ]
2 N
2 N
P(x | )
1
exp[ 1
x
2
]
2
2
服从正态分布
代入P(x | xi) P(x | ) P( | xi)d P(x | ) P( | xi)d
1
1 x 2
exp[
]
1
exp[ 1
N
2
]d
2
2
2 N
2 N
1
exp[ 1
x N
1
...
p
N k 1
log
P( X
k
|
i)
0
P(Xi/θi)
N k 1
1
logP(
X
k
|
i)
0
.........
.........
N k 1
p
logP(
X
k
|
i)
0
利用上式求出 i的估值 ,即为 i=
有时上式是多解的, 上图有5个解,只有一个解最大即.
2. 多维正态分布情况
① ∑已知, μ未知,估计μ
∴对概率P的估计:P k 。 N
k 是P的一个比较好的估计 N
k
P R P(x')dx' N
设P(x’)在R内连续变化,当R逐渐减小的时候,小到使P(x)在其上
几乎没有变化时,则
k
P P(x')dx' P(x) V
R
N
其中 V dx' 是R包围的体积 R
∴ P(x) V P k
P( X i | i) 服从正态分布
待估参数为 i 1
N
k1
logP(X k | ) 0
所以在正态分布时
P(
X
k
|
)
1 2
log[
2
n
|
|]
1 2
X
k
T
1 X k
代入上式得
N
1 X k 0
k 1
1
N
X k 0
k 1
N
所以 1( X k N) 0 k 1
估计则是把待估的参数作为具有某种先验分布的随机变量,通
过对第i类学习样本Xi的观察,使概率密度分布P(Xi/θ)转化为
后验概率P(θ/Xi) ,再求贝叶斯估计。
估计步骤:
① 确定θ的先验分布P(θ),待估参数为随机变量。
② 用第i类样本xi=(x1, x2,…. xN)T求出样本的联合概率密度分布
P(xi|θ),它是θ的函数。 ③ 利用贝叶斯公式,求θ的后验概率
VN是RN的体积
∴PN(x)是P(x)的第N次估计
KN是N个样本落入VN的样本数
若PN(x)收敛于P(x)应满足三个条件:

lim
N
V
N
0
,当N↑时,VN↓,N→∞,VN→0
这时虽然样本数多,但由于VN↓,落入VN内的样本KN
也减小,所以空间变化才反映出来

lim
N
KN
,N ↑ ,kN ↑ ,N与KN同相变化
2
exp[
1
2 N
2
2 N
x
2
N
2
]d
2 N
2
2 N
2
2
2 N
2
2 N
2
2
1
exp[ 1
x N
]
2
2 N
2
2
2 N
2
N
(
N
,
2 N
2)为正态函数
• 结论:
①把第i类的先验概率P(ωi)与第i类概率密度P(x|xi)相乘可以
得到第i类的后验概率P(ωi/x) ,根据后验概率可以分类。
②对于正态分布P(x|xi),用样本估计出来的μN代替原来的μ
第五章 参数估计与非参数估计
• 参数估计与监督学习 • 参数估计理论 • 非参数估计理论
§5-1 参数估计与监督学习 贝叶斯分类器中只要知道先验概率,条件概率或后验概 概率 P(ωi),P(x/ωi), P(ωi /x)就可以设计分类器了。现在 来研究如何用已知训练样本的信息去估计P(ωi),P(x/ωi), P(ωi /x) 一.参数估计与非参数估计 参数估计:先假定研究的问题具有某种数学模型,如

2 N
2
代替原来的方差
2
即可。
③把估计值μ 作为μ的实际值,那么使方差由原来的 2 变
N

2 N
2
,使方差增大
⑵多维正态( 已知Σ,估计μ ) 设P(x|μ)=N(μ,∑) P(μ)=N(μ0,∑0).
根据Bayes公式,仿上面步骤可以得到:
P(
|
xi)
a
exp[
1 2
N
T
1
N
N
]
其中a与μ无关
相关文档
最新文档