参数估计与非参数估计

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2021/3/8
11
下面以正态分布的均值估计为例说明贝叶斯估计的过程
一维正态分布:已知σ2,估计μ 假设概率密度服从正态分布
P(X|μ)=N(μ,σ2), P(μ)=N(μ0,σ02) 第i类学习样本xi=(x1, x2,…. xN)T, 第i类概率密度P(x|μi,xi)=P(x|xi)
i=1,2,…M
②对于正态分布P(x|xi)，用样本估计出来的μN代替原来的μ 用 2N 2代替原来的方差 2 即可。
③把估计值μN作为μ的实际值，那么使方差由原来的 2 变
为2N 2 ,使方差增大
2021/3/8
21
⑵多维正态（已知Σ，估计μ ）设P(x|μ)=N(μ,∑) P(μ)=N(μ0,∑0).
根据Bayes公式，仿上面步骤可以得到：
2021/3/8
其中a’,a’’包含了所有与μ无关的因子
13
∴P(μ| xi)是u的二次函数的指数函数 ∴P(μ| xi)仍然是一个正态函数, P(μ|Xi)=N(μN,σN2)
另外后验概率可以直接写成正态形式：P (|X i)2 1Nex 1 2p N [N2 ]
比较以上两个式子,对应的系数应该相等
信息去估计，如：聚类分析。
2021/3/8
3
§5-2参数估计理论一．最大似然估计
假定：
①待估参数θ是确定的未知量 ②按类别把样本分成M类X1，X2，X3，… XM
其中第i类的样本共N个
Xi = (X1,X2,… XN)T 并且是独立从总体中抽取的
③ Xi中的样本不包含 j (i≠j)的信息，所以可以对每一类样本独立进行处理。
立，常见的一些函数形式很难拟合实际的概率密度，经典的密
度函数都是单峰的，而在许多实际情况中却是多峰的，因此用
非参数估计。
非参数估计:直接用已知类别样本去估计总体密度分布，方法有：
① 用样本直接去估计类概率密度p(x/ωi)以此来设计分类器, 如窗口估计
② 用学习样本直接估计后验概率p(ωi/x)作为分类准则
2 1
(n=1)由上式得
代 k N 1 入 1lo P (g X k|
i)N1(X k1 ) 0
k 1 2
N
k 12loP (g X k|
i)N[1(X k1 )2]0 2 k 1 2 22 2
11
1 N
N k1
Xk
即学习样本的算术平均
2021 /32 /8 1 2N 1kN 1
正态分布，二项分布，再用已知类别的学习样本估计里面的参数。非参数估计：不假定数学模型，直接用已知类别的学习样本的先验知识直接估计数学模型。
2021/3/8
2
二．监督学习与无监督学习监督学习：在已知类别样本指导下的学习和训练，
参数估计和非参数估计都属于监督学习。无监督学习：不知道样本类别，只知道样本的某些
P (|X i ) a N1 e 1 x X k p 21 { e 1 x p 0 2 ][ }
k 12 2
2 20
a 'ex 1 p [N{ X k202 ]}
2k 1
0
a ''ex 1 2 p [N (2 { 1 0 2 )2 2 (1 2k N 1X k0 0 2 )]}
∴对μ的估计为
2N
2
NNN02 02k 1X kN022 0
若令P(μ)=N(μ0, σ02 )=N(0,1)
1
N
Xk 与最大似然估计相似，只是分母不同
N N1k1
2021/3/8
16
三．贝叶斯学习
1.贝叶斯学习的概念：求出μ的后验概率之后，直接去推导总
体分布即P ( X |X i ) P ( X |) P (|X i ) d P ( X |) P (|X i ) d
7
所以
1( N XkN)0
k1
1 N
N k1
Xk
这说明未知均值的最大似然估计正好是训练样本的算术
平均。
2021/3/8
8
② ∑， μ均未知
A. 一维情况：n=1对于每个学习样本只有一个特征的简单情况：
11,212
lo P (X g k| i) 1 2 lo 2g 2 2 1 2X k
2N 2
P(x|)
1
exp1[
x
2
]
2 2
N N
2 ] 服从正态分
2021/3/8
19
代 P ( x |x i ) 入 P ( x |) P ( |x i ) d P ( x |) P ( |x i ) d
1
1 x 2 1
12
e xp[ ] e xpN [ ] d
②估计的协方差矩阵是矩阵
Xk
T
Xk的算术
平均（nⅹn阵列， nⅹn个值）
2021/3/8
10
二.贝叶斯估计
最大似然估计是把待估的参数看作固定的未知量，而贝叶斯
估计则是把待估的参数作为具有某种先验分布的随机变量，通
过对第i类学习样本Xi的观察，使概率密度分布P(Xi/θ)转化为
后验概率P(θ/Xi) ，再求贝叶斯估计。
∴
1 N
2
N 2
1
2 0
N
N 2
1
2
N k 1
Xk
0
2 0
2021/3/8
14
解以上两式得
2 0
N
2
Xk
0
N N
22
0
k1
N022
N2
022 N02 2
将μN,σN2代入P(μ|Xi)可以得到后验概率，再用公式
P(| Xi)d,求的估计
2021/3/8
15
∵ P(|Xi)dN
① ∑已知, μ未知,估计μ
P(Xi |i) 服从正态分布
待估参数 i 为 1
N
k1
logP(Xk
|
)0
所以在正态分布时
P ( X k | ) 1 2 lo 2 g n | |[ ]1 2 X k T 1 X k
代入上式得
N
1Xk 0
k1 N
1 Xk0 k1
2021/3/8
当观察一个样本时，N=1就会有一个μ的估计值的修正值当观察N=4时，对μ进行修正，向真正的μ靠近当观察N=9时，对μ进行修正，向真正的μ靠的更近当N↑,μN就反映了观察到N个样本后对μ的最好推测，而σN2 反映了这种推测的不确定性, N↑, σN2↓,σN2 随观察样本增加而单调减小，且当N→∞, σN2 →0 当N↑，P(μ|xi)越来越尖峰突起 N→∞, P(μ|xi)→σ函数，这个过程成为贝叶斯学习。
k
当 V 0时,k=0时 P(x) N 0
V
k
k 0 时 P(x) N
V
所以起伏比较大,噪声比较大,需要对V进行改进.
2021/3/8
26
对体积V进行改进：
为了估计X点的密度,我们构造一串包括X的区域序列R1,R2,.. RN. 对R1采用一个样本进行估计，对R2采用二个样本进行估计..。设VN是RN的体积，KN是N个样本落入VN的样本数则
log
P( X
k
| i)
0
P(Xi/θi)
p
N k 1
log
1
P(X
k
|
i)
0
.........
.........
N k 1
p
log
P(X
k
|
i)
0
利用上 i的式估求，值出即 i＝为
有时上式是多解的, 上图有5个解,只有一个解最大即.
2021/3/8
6
2. 多维正态分布情况
2021/3/8
17
2021/3/8
18
2．类概率密度的估计在求出u的后验概率P(μ|xi)后，可以直接利用式
P (x|xi)P (x|)P (|xi)d推断类条件概率密度。
即P(x|xi)＝ P(x|ωi ，xi) ⑴一维正态：已知σ2，μ未知
∵μ的后验概率为
P(|xi)P(|xi)
1 exp1[
④ 第i类的待估参数 i(1,2,..n .)T
根据以上四条假定，我们下边就可以只利用第i类学习样本来估计第i类的概率密度，其它类的概率密度由其它类的学习样本来估计。
2021/3/8
4
1.一般原则：
第i类样本的类条件概率密度：
P(Xi/ωi)= P(Xi/ωi﹒θi) = P(Xi/θi) 原属于i类的学习样本为Xi=(X1 , X2 ,…XN,)T i=1,2,…M 求θi的最大似然估计就是把P(Xi/θi)看成θi的函数，求
估计步骤:
① 确定θ的先验分布P(θ),待估参数为随机变量。
② 用第i类样本xi=(x1, x2,…. xN)T求出样本的联合概率密度分布
P(xi|θ)，它是θ的函数。 ③ 利用贝叶斯公式,求θ的后验概率
P(| Xi)P P((X Xii||))PP .(())d
④ 求贝叶斯估 P(计 |Xi)d（证明略）
2
2
2N 2 N
1e 1 x x p N 2e [ 1 x 2 N p 2 [2 N x 2N 2 ] d
2 N 22 N 2
22 N 2
2 N 2
2
2
1 e
2 N2
xp1[
x N
]
22 N2
N(N,2N2)为正态函数
2021/3/8
20
• 结论：
①把第i类的先验概率P(ωi)与第i类概率密度P(x|xi)相乘可以得到第i类的后验概率P(ωi/x) ，根据后验概率可以分类。
第五章参数估计与非参数估计
• 参数估计与监督学习 • 参数估计理论 • 非参数估计理论
2021/3/8
1
§5-1 参数估计与监督学习贝叶斯分类器中只要知道先验概率，条件概率或后验概概率 P(ωi),P(x/ωi), P(ωi /x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(ωi),P(x/ωi), P(ωi /x) 一．参数估计与非参数估计参数估计：先假定研究的问题具有某种数学模型，如
PkCkNpk
Nk
1P
数学期望:E(k)=k=NP
其中P是样本X落入R内的概率 Pk是k个样本落入R内的概率
∴对概率P的估计:P k 。 N
k 是P的一个比较好的估计 N
PRP(x')d
x'k N
设P(x’)在R内连续变化,当R逐渐减小的时候,小到使P(x)在其上
几P乎没P 有(x变')d 化'时x，P(则x)Vk
P (|x i) a ex 1 2 p [N T N 1 N ] 其中a与μ无关
ΣN , μN 有以下关系
1 N 1 1......(A .)...
N
0
N
1 N
N
1(
xk)
1 0
0.
....B .)..(
k 1
2021/3/8
22
1
由 (A )式:得 N 0 0N 1 N 1
1
代 (B )式入 N 得 0 ： 0 N 1 (N 1 k N 1x k ) N 1 ( 0 N 1 1)0
这就是在多维情况下，对μ的估计
将 N代P 入 (x|xi)P(x|)P(|xi)d就可以
设B 计 a分 yes类器
2021/3/8
23
§ 5-3非参数估计
参数估计要求密度函数的形式已知，但这种假定有时并不成
2
Xk
样本方差
9
• 讨论： 1.正态总体均值的最大似然估计即为学习样本的算术平均 2.正态总体方差的最大似然估计与样本的方差不同，当N较大的时候，二者的差别不大。
B．多维情况：n个特征（学生可以自行推出下式）
估计值：1
1 N
N k1
Xk
2 N 1kN 1Xk
T Xk
结论：①μ的估计即为学习样本的算术平均
来设计分类器如k近邻法.
1. 密度估计:一个随机变量X落在区域R的概率为P
R
PRP (x')d xP rx R
P(x)
P(X’)为P(X)在R内的变化值,P(X)就是要求的总体概率密度
2021/3/8
24
假设有N个样本X=(X1, X2,… XN)T都是按照P(X)从总体中独立抽取的
若N个样本中有k个落入在R内的概率符合二项分布
出使它最大时的θi值。
∵学习样本独立从总体样本集中抽取的
∴ P (Xi|i.i)P (Xi|i) NP (Xk|i)
k1
N个学习样本出现概率的乘积
N
N
取对数：logP (Xk|i) loP g (Xk|i)
k 1
k 1
2021/3/8
5
对θi求导,并令它为0：
1
...
N k 1
R
N
其中 V dx' R
是R包围的体积
2021/3/8
25
∴ P(x)VP k
N
k
∴ 条件密度的估计：P( x) N
V
Hale Waihona Puke (V足够小)讨论:① 当V固定的时候N增加, k也增加,当 N时 k
P k 1 P(x) k N 1 只反映了P(x)的空间平均估计
N
VV
而反映不出空间的变化
② N固定,体积变小
所以后验概率 P(|Xi)PP((XXii||))PP .(()d)(贝叶斯公式)
2021/3/8
12
因为N个样本是独立抽取的，所以上式可以写成
N
P(|Xi)a P(Xk|)P .()
k1
其中 a
1 P(Xi|)P()d 为比例因子,只与x有关,与μ无关
∵ P(Xk| μ)=N(μ,σ2),P(u)=N(μ0,σ02)