概率密度函数的估计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Xuegong Zhang, Tsinghua University
贝叶斯决策: 已知)(i P ω和)|(i p ωx ,对未知样本分类(设计分类器) 实际问题: 已知一定数目的样本,对未知样本分类(设计分类器)
怎么办? 一种很自然的想法:
首先根据样本估计)|(i p ωx 和)(i P ω,记)|(ˆi p ωx 和)(ˆi P ω 然后用估计的概率密度设计贝叶斯分类器。
——(基于样本的)两步贝叶斯决策
“模式识别基础”教学课件
希望:当样本数∞→N 时,如此得到的分类器收敛于理论上的最优解。
为此, 需 )|()|(ˆi N i p p
ωωx x ⎯⎯→⎯∞
→
)()(ˆi N i
P P ωω⎯⎯→⎯∞→ 重要前提:
z 训练样本的分布能代表样本的真实分布,所谓i.i.d 条件 z 有充分的训练样本
本章研究内容:
① 如何利用样本集估计概率密度函数?
Xuegong Zhang, Tsinghua University
“模式识别基础”教学课件
3.2参数估计的基本概念和方法 (part1)
参数估计(parametric estimation):
z已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。
几个名词:
统计量(statistics):样本的某种函数,用来作为对某参数的估计
θ∈
参数空间(parametric space):待估计参数的取值空间Θ
Xuegong Zhang, Tsinghua University ② 各类样本集i X ,c i ,,1L =中的样本都是从密度为)|(i p ωx 的总体中独立抽取出来的,(独立同分布,i.i.d.)
③ )|(i p ωx 具有某种确定的函数形式,只其参数θ未知 ④ 各类样本只包含本类分布的信息
其中,参数θ通常是向量,比如一维正态分布),(21
σµi N ,未知参数可能是⎥⎦
⎤
⎢⎣⎡=2i i i σµθ此时)|(i p ωx 可写成),|(i i p θωx 或)|(i p θx 。
“模式识别基础”教学课件
鉴于上述假设,我们可以只考虑一类样本,记已知样本为
{}N x x x ,,,21L =X
似然函数(likelihood function )
)|()|,,,()|()(1
21θθθθi N
i N x p x x x p p l ∏====L X
—— 在参数θ下观测到样本集X 的概率(联合分布)密度
基本思想:
θ
θˆ=)(θl
Xuegong Zhang, Tsinghua University
的解(必要条件)。
若未知参数不止一个,即T
s ],,,[21θθθθL =,记梯度算子
T
s ⎥
⎦⎤
⎢⎣⎡∂∂∂∂∂∂=∇θθθθ,,,2
1L 则最大似然估计量的必要条件由S 个方程组成:
0)(=∇θθH
“模式识别基础”教学课件
讨论:
z 如果)(θl 或)(θH 连续可导,存在最大值,且上述必要条件方程组有唯一解,则其解就是最大似然估计量。
(比如多元正态分布)。
z 如果必要条件有多解,则需从中求似然函数最大者
z 若不满足连续可导,则无一般性方法,用其它方法求最大(见课本均匀分布例)
Xuegong Zhang, Tsinghua University 以单变量正态分布为例
T ],[21θθθ=,µθ=1,22σθ= ⎥⎥⎦⎤⎢⎢⎣⎡⎟⎠⎞⎜⎝⎛−−=
221exp 21
)|(σµσπθx x p
样本集 {}N x x x ,,,21L =X
“模式识别基础”教学课件
似然函数 )|()|()ln(1
θθk N
k x p p x ∏
==
=X
对数似然函数 )|(ln )(ln )(1
θθk N k x P x l H ∑===
最大似然估计量θ
ˆ满足方程 0)|(ln )(1
=∇=∇∑=θθθθk N
k x p H
而
Xuegong Zhang, Tsinghua University
解得
k N
k x N
∑
===1
11
ˆˆθµ
21
2
2
)ˆ(1ˆˆµ
θσ−==∑
=k N
k x N
“模式识别基础”教学课件
3.2 参数估计的基本概念和方法 (part2)
3.2.2 贝叶斯估计和贝叶斯学习
(一)贝叶斯估计
思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。
思考题:请课后与贝叶斯决策比较
Xuegong Zhang, Tsinghua University 13
损失函数:把θ估计为θ
所造成的损失,记为),(θθλ
期望风险:x x d d p R d E θθθθλΘ
),(),ˆ(∫∫=
x x x d d p p d
E
θθθθλΘ
)()|(),ˆ(∫∫=
x x x d p R d
E
)()|ˆ(θ∫
=
其中, d
E =x ,Θθ∈
“模式识别基础”教学课件
条件风险:θθθθλθΘd p R )|(),ˆ()|ˆ(x x ∫=
d E =x
最小化期望风险 ⇒ 最小化条件风险 (对所有可能的
x )
有限样本集下,最小经经验风险:θ
θθθλθΘd p R )|(),ˆ()|ˆ(X X ∫=
贝叶斯估计量:
(在样本集X 下)使条件风险(经验风险)最小的估计量θ
ˆ。
Xuegong Zhang, Tsinghua University
15
定理3.1 自学证明过程如果采用平方误差损失函数,则θ的贝叶斯估计量θ
ˆ是在给定x 时θ的条件期
望,即
∫Θ
==θθθθθd p E )|(]|[ˆx x
同理可得到,在给定样本集X 下,θ的贝叶斯估计是:
∫
Θ
==θθθθθd p E )|(]|[ˆX X “模式识别基础”教学课件
求贝叶斯估计的方法:(平方误差损失下)
(1)确定θ的先验分布 )(θp
(2)求样本集的联合分布 )|()|(1θθi N
i p p x ∏==X
(3)求θ的后验概率分布
∫
Θ
=
θθθθθθd p p p p p )()|()
()|()|(X X X
(4)求θ的贝叶斯估计量 ∫Θ
=
θθθθd p )|(ˆX
Xuegong Zhang, Tsinghua University 17
(二)贝叶斯学习
考虑学习样本个数N ,记样本集{}N x x x ,,,21L =X
1>N 时有 )|()|()|(1
θθθ−=N N N
p p p X
X
x
因此有递推后验概率公式:
∫−−=
θθθθθθd p p p p p N N
N N N
)|()|()
|()|()|(1
1X
X
X x
x
“模式识别基础”教学课件
设)()|(θθp p =°X ,
则随着样本数增多,可得后验概率密度函数序列:
)(θp ,)|(1x θp ,L ),,|(21x x θp
—— 参数估计的递推贝叶斯方法(Recursive Bayes Incremental Learning ) 如果此序列收敛于以真实参数值为中心的δ函数,则称样本分布具有贝叶斯学习
(Bayesian Learning )性质。
此时
)()ˆ|()|(x x x p p p N ===∞
→θθ
X
Xuegong Zhang, Tsinghua University 19
“模式识别基础”教学课件
估计量的性质与评价标准 —— 无偏性、有效性和一致性
· 无偏性: θθ=)],,,(ˆ[21N
E x x x L 渐近无偏性: θθ∞
→=N N
E ]ˆ[ · 有效性:对估计1ˆθ和2ˆθ,若方差)ˆ()ˆ(2
212θσθσ<,则1ˆθ更有效
· 一致性:
0>∀ε,()
0ˆlim =>−∞
→εθθN
N P
Xuegong Zhang, Tsinghua University 21
),(~)(∑µN p x ∑==N
i i N
1
1ˆx µ
,∑=−−=∑N
i T i i
N 1
)ˆ)(ˆ(1ˆµµ
x x
一维:∑==N i i x N 11ˆµ,∑=−=N i i x N 1
2
2)ˆ(1ˆµσ
“模式识别基础”教学课件
3.3.2 贝叶斯估计和贝叶斯学习示例
(一)贝叶斯估计
一维,),(~)|(2
σµµN x p ,2σ已知,估计µ
假设先验分布 ),(~)(2
00σµµN p
结论: 02202
22020ˆµσσσσσσµ+++=N m N N N
N
∑
Xuegong Zhang, Tsinghua University 23
若00=σ, 则0ˆµµ
≡ (先验知识可靠,样本不起作用) 若σσ>>0,则N m =µ
ˆ (先验知识十分不确定,完全依靠样本信息)
(二)贝叶斯学习
()
2
2
,~21exp 21
)|(N
N N N
N N N µp σµσµµσπ⎪⎭
⎪⎬⎫⎪⎩⎪⎨⎧⎟⎟⎠
⎞
⎜⎜
⎝⎛−−=
X
“模式识别基础”教学课件
∫=µµµd p p p N N )|()|()|(x x X X
02
202
22020µσ
σσσσσµ+++=N m N N N N
22
02
202
σσσ
σσ+=N N
当∞→N 时,02
→N σ,δµ→)|(X p 函数。
()
222
,~1exp 1)|(N N N N p σσµµ+⎪⎬⎫⎪⎨⎧
⎟⎟⎞⎜
⎜
⎛
−−=
x x X
Xuegong Zhang, Tsinghua University 25
非监督参数估计指样本类别未知,
但各类条件概率密度函数的形式已知,根据所有样本估计各类密度函数中的参数。
本节只介绍非监督最大似然估计的思路
“模式识别基础”教学课件
3.4.1 非监督参数估计的最大似然法
(一)假设条件:
1. 样本集{}N x x ,,1L =X 中的样本属于C 个类别,但不知各样本属哪类
2. 类先验概率)(i P ω,c i ,,1L =已知
3. 类条件概率密度形式已知 ),|(i i p θωx ,c i ,,1L =
4. 未知是仅是c 个参数向量c θθθ,,,21L 的值
所有未知参数组成的向量记为[]T θθθθ,,,L =
Xuegong Zhang, Tsinghua University 27
设样本集X 中的样本是从混合密度为)|(θx p 的总体中独立抽取的,即满足独立同
分布条件,θ确定但未知,则 似然函数
)|()|()(1θθθi N
i p p l x ∏===X
对数似然函数 )|(ln )](ln[)(1
θθθi N
i p l H x ∑===
最大似然估计θˆ就是使)(θl 或)(θH 取最大的θ值。
“模式识别基础”教学课件
(三)可识别性问题
求出θ
ˆ,就得到了c θθˆ,,ˆ1L ,即从混合密度函数中恢复出了分量密度函数。
可能吗?什么条件下可能?
可识别性:
若对θθ′≠,对混合分布中每个x 都有)|()|(θθ′≠x p x p ,则密度)|(θx p 是可识别的。
教材指出:
Xuegong Zhang, Tsinghua University 29
得一系列方程组,它们是最大似然估计的必要条件,若存在唯一极值则就是解。
⎥⎦
⎤⎢⎣⎡∇=∇∑∑
==)(),|()|(1
)(11j j j k c j k N
k P x p x p H i i ωθωθθθθ
[])(),|()|(1
1i i i k k N
k P x p x p i
ωθωθθ∇=∑
= (设j
i θθ,独立)
),|(ln ),|(1
i i k i k i N
k x p x P i θωθωθ∇=∑=
“模式识别基础”教学课件
其中后验概率 )
|()
(),|(),|(θωθωθωk i i i k i k i x p P x p x P = 微分方程组
0)ˆ(=∇θ
θH i ,c i ,,2,1L = 另,若)(i P ω也未知,则可引入限制条件 0)(>i P ω,c i ,,1L =
1)(1
=∑
=i c
i P ω
可用Lagrange 法求条件极值问题,定义Lagrange 函数
Xuegong Zhang, Tsinghua University 31
1
∑
=k
其中
)(ˆ),|()(ˆ),|()ˆ,|(ˆ1
j
j j k c
j i
i i k i
k i P x p P x p x P ωθωωθωθω∑
==,c i ,,1L =
原则上可以从上述微分方程组中求解出最大似然估计θˆ和)(ˆi
P ω。
但实际上多数问题中只能采用某种迭代方法求解。
“模式识别基础”教学课件
3.4.2 非监督参数估计示例:正态分布情况
(一)均值向量i µ未知,i ∑,)(i P ω,c 已知
由上节知最大似然估计满足方程组
0)ˆ,|(ln )ˆ,|(ˆ1
=∇∑=N
k i i k i k i
x p x P
i θωθωθ,c i L ,1=
代入正态分布公式,可得
0)ˆ()ˆ,|(1
=−∑∑−i i k N
i k i x x P µµ
ω
Xuegong Zhang, Tsinghua University 33
可惜权值中包含未知参数
其中
∑==c
j j j j k
i i i k i k
i P x
p P x p x P 1
)()ˆ,|()()ˆ,|()ˆ,|(ˆωµ
ωωµ
ωµω
“模式识别基础”教学课件
迭代法求解: 用某种方法(比如用监督方法)得到一个较好的初值 )0(ˆi µ
然后用下式迭代:
))(ˆ,|())(ˆ,|()1(ˆ1
1j x P x j x P j i k i N
k k i k i N
k i µ
ωµωµ
∑
∑
===+
—— 梯度法,可能不是全局最优解,受初值影响大。
Xuegong Zhang, Tsinghua University 35
讨论:
参数估计方法,实际上要求对概率密度函数几乎知道一切,除了少数几个参数,
实际应用中,除了要求好的估计方法外,更重要的是关于函数形式的先验知识和假设(正态分布是最常用的假设)。
何时用正态分布?(中心极限定理)
“模式识别基础”教学课件
3.5 非参数估计
参数估计 parametric (density) estimation
非参数估计 nonparametric (density) estimation
3.5.0 直方图方法
非参数概率密度估计的最简单方法
(1)把x 的每个分量分成k 个等间隔小窗,(d
E x ∈,则形成d
k 个小舱)
4
8
12
16
2024
28
32
36
40
delay (days)
0.00
0.05
0.10
0.15
0.20
Xuegong Zhang, Tsinghua University 37
考虑随机向量x 落入区域ℜ的概率 ∫
ℜ
=
dx x p P R )(
X 中有k 个样本落入区域ℜ的概率 k
N R k k N k P P C P −ℜ−=)1(
k 的期望值 R NP k E =][
k 的众数(概率最大的取值)为 ])1[(R P N m +=
R P 的估计
N k P R
=&ˆ(k :实际落到ℜ中的样本数)
“模式识别基础”教学课件
设)(x p 连续,且ℜ足够小,ℜ的体积为V ,则有
V
x p dx x p P R
R )()(==∫
ℜ∈x
因此
NV k
x p
=)(ˆ
其中,
N :样本总数,
V :包含x 的一个小区域的体积
k :落在此区域中的样本数
Xuegong Zhang, Tsinghua University 39
2个,…,n ℜ包含n k 个样本,n V 为n ℜ的体积,n n
n
nV k x p =)(ˆ为)(x p 的第n 次估计,
有下面的结论:
如果: (1)0lim =∞→n n V ; (2)∞=∞→n n k lim ; (3)0lim =∞→n k n
n
则
)(ˆx p
n 收敛于)(x p
“模式识别基础”教学课件
两种选择方法:
1. 选择n V ,(比如n
V n 1=),同时对n k 和
n
k n
加限制以保证收敛
—— Parzen 窗法
2. 选择n k ,(比如n k n =),n V 为正好包含x 的n k 个近邻。
—— N k 近邻估计
Xuegong Zhang, Tsinghua University 41
窗函数(核函数)),(i x x k ,反映i x 对)(x p 的贡献,实现小区域选择。
条件: 0),(≥i x x k
1),(=∫dx x x k i
常用窗函数:
(1)超立方体窗(方窗)
“模式识别基础”教学课件
⎪⎩
⎪⎨⎧=≤−=otherwise 0,,2,1,2/ if 1),(d j h x x h x x k j i i d i L
h 为超立方体棱长,d h V =
(2)正态窗(高斯窗) ⎭
⎬⎫⎩⎨⎧−−−=−212)()(21exp ||)2(1
),(ρρπi T i d d i x x Q x x Q x x k )(2Q ρ=∑
Xuegong Zhang, Tsinghua University 43
窗宽的选择:
z 样本数少则选大些,样本数多则选小些,
比如选d N /ηρ−= )1,0(∈η
在满足一定的条件下,估计量)(ˆx p 是渐近无偏和平方误差一致的。
(见教材)
“模式识别基础”教学课件
举例:用已知的密
度函数产生一系列样
本,根据这些样本用
Parzen 窗法估计概率
密度函数,与真实密度
函数比较,分析样本
数,窗宽等对估计结果
的影响。
Xuegong Zhang, Tsinghua University 45
“模式识别基础”教学课件
3.6 分类器错误率的估计
样本集:设计集(训练集)、检验集(考试集)
3.6.1 有专门的考试集的情况(即已设计好分类器)
设考试集有N 个样本,其中k 个被分错,则错误率估计是
N
k =εˆ
Xuegong Zhang, Tsinghua University 47
1i N
=此时,i i i N k /ˆ=ε
,2,1=i ,i i P εωεˆ)(ˆ=
3.6.2 没有专门的测试集(分类器未设计好)
样本集既用于设计分类器,也用于估计错误率,因此存在设计集和考试集的划分策略问题。
“模式识别基础”教学课件
C -法(再代入法):考试集与设计集相同,结果偏于乐观
U -法:考试集与设计集分开,结果更客观,偏于保守。
样本划分法:将样本集分成两组 —— 需要样本较多
交叉验证法(cross-validation ):
留一法(leave-one-out ):
用一个样本做检验,其余1−N 个样本为设计集,反复N 次
m-fold 法:
每次随机抽出1/m 个样本做检验,其余样本为训练集,反复多次
Xuegong Zhang, Tsinghua University 49
似乎不一定是个好主意(除非有充分的先验知识)。
“模式识别基础”教学课件
△ 小结:概率密度函数估计
z 参数估计:概率密度函数形式已知,只未知几个参数θ
最大似然估计
似然函数 ∏===N i i x p p l 1)|()|()(θθθX
对数似然函数 )(ln )(θθl H = ˆθθ)(max arg ˆθθl =
Xuegong Zhang, Tsinghua University
51 贝叶斯估计
把θ
ˆ看作随机变量,先验分布)(θp
最小化风险 dx x p x R R )()|ˆ(θ∫=
对样本集 θθθθλθΘd p x R )|(),ˆ()|ˆ(X ∫= 平方误差损失函数 2)ˆ(),ˆ(θθθθλ−=
“模式识别基础”教学课件
贝叶斯估计 θθθθθΘ
d p E )|(]|[ˆX X ∫== 求法: )|()|(1θθi N
i x p p ∏==X
θθθθθθΘd p p p p p )()|()()|()|(X X X ∫=
贝叶斯学习 θθθΘd p x p x p )|()|,()|(X X ∫=
Xuegong Zhang, Tsinghua University 53
i N ∑=1,00
),ˆ(~)|(22N N N x p σσµ+X
“模式识别基础”教学课件
z 非参数估计:直接估计密度函数(数值解),不对函数形式作假设
基本思想:
将取值空间分为多个小区间,假定小区间内密度值不变,用小区间内的样本估计此值。
NV k x p
=)(ˆ
Parzen 窗法
),(1)(ˆi N x x k N x p ∑=。