第3章概率密度函数的估计参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
~ U (0,10)
如果观测到一个x数值, x 1=4,则p(θ|X1)为:
p(x | ) p( | X N1)
p( | X 1)
条件风险: R(ˆ | X ) (ˆ, ) p( | X )d
贝叶斯估计
平方误差损失函数时的估计算法
损失函数: λ (θ, θ^)=(θ- θ^)2 定 θ)=理(θ:-如^θ)果2,损则失θ的函贝数叶为斯二估次计函量数θ^,是即在λ给(^θ定, x
时θ的条件期望,即
p( | x)d
贝叶斯估计
一维正态分布的参数估计
总体的分布形式:
p(x | ) ~ N(, 2)
p(x
|
)
1
(2
)
1 2
exp[
1 2
(x
)2]
μ未知,但概率分布已知
p()
~
N
(0
,
2 0
)
贝叶斯估计
一维正态分布的参数估计
计算联合概率密度分布p(X| μ) :
N
p(X | ) p(xk | ) k 1
( x )2]
p(x | θ)
1
(
2
)
1 2
exp[
1 2
(
x
)2
]
有两个参数未知: μ和σ
1 2 2
θ [, ]T
最大似然估计
一维正态分布的参数估计
有N个观测样本X= (x1,x2,… xN)T 构造似然函数:
N
N
ln l( ) ln p(X | ) ln p(x | ) ln p(x | )
模式识别
第3章 概率密度函数的估计
为什么需要概率密度函数的估计
贝叶斯决策需要的已知信息
贝叶斯分类器中只要知道先验概率,条件 概率P(ωi),P(x|ωi),就可以设计分类器了
存在问题: 未知概率密度函数
未知类条件概率密度 未知先验概率密度 有一些训练数据
需要研究的问题
研究如何用已知训练样本的信息去估计
参数估计 非参数估计
训练样本的类别是否已知
非监督参数估计 非参数估计
几种估计类型
参数估计与非参数估计
参数估计 已知研究的问题具有某种数学模型,
如正态分布,二项分布,
再用已知类别的学习 样本估计里面的参数。 非参数估计
未知数学模型,用已知类别的学习样本直 接估计数学模型。
几种估计类型
最大似然估计
最大似然估计的特点
通常,训练样本数目增加时具有很好的收敛 性质
一般,比其它方法简单,例如比贝叶斯方法 简单
最大似然估计
问题假定:
①待估参数θ是确定的未知量 ②按类别把样本分成C类X1,X2,X3,… XM,
其中第i类的样本共N个,Xi = (X1,X2,… XN)T , 并且是独立从总体中抽取的 ③ Xi中的样本不包含θj(i≠j)的信息,所以可 根据以上假以定对,每我一们类下样边就本可独以立只进利行用处第i理类。学习样本 来估计第 i④类的第概i类率的密度条,件其概它率类的的函概率数密形度式由已其知它类
监督学习与无监督学习
监督学习 在已知类别样本指导下的学习和训练,参数 估计和非参数估计都属于监督学习。
无监督学习 不知道样本类别,只知道样本的某些信息去 估计,如:聚类分析。
几种估计类型
监督参数估计 非监督参数估计 非参数估计
参数估计的基本概念
基本概念
统计量 参数空间 点估计 估计量 估计值 区间估计
贝叶斯估计
贝叶斯决策
基于最小错误率的贝叶斯决策 基于最小风险的贝叶斯决策 在限定一类错误率条件下使另一类错误率为
最小的两类别决策 最小最大决策
贝叶斯估计
贝叶斯估计的基本思想
基于最小风险的贝叶斯决策
希望决策方法使得风险最小化
参数估计 希望θ的估计数值θ^尽可能的准确
即: 希望风险最小化
12[(NN202 2
1
22 0
)0 2
2(12 kN2N1xkN02200202)2]}
1 exp{ 1 ( N )2}
2 N
2 N
利用待定系数法,即可求得两个参数的值
贝叶斯估计
一维正态分布的参数估计
利用定理求贝叶斯估计量:
p( | X )d
计算求μ的后验概率p(μ| X) :
p( | X ) p(X | ) p( )
p(x | ) p( | X N1)
N
p(X | ) p( )d
p(x | ) p( | X N1)d N
N
p( X
|)
p(x k
|)
根据独立性假设
k 1
N 1
p(x | ) p(x | ) p(x | ) p( X N1 | )
N
k
N
k 1
贝叶斯学习
最大似然估计方法?
似然函数
N
N
ln l( ) ln p(x | ) ln(1/ ) N ln
θ的估计k 值1
)
k
k 1
)
8
X的分布函数
p(x | ) ~ U (0, ) U(0,8)
贝叶斯学习的方法?
贝叶斯学习
先观察随着N的增加,p(θ|X)的变化
如果没有观测值(N=0) , 则p(θ|X0)为:
例:一维随机变量x服从均匀分布
1 /
p(x | ) ~ U (0, ) 0
0 x
其它
θ未知,但分布概率已知
~ U (0,10)
1/10 0
0 x 10 其它
给出一组观测值X={4,7,2,8},估计p(x|θ)
θ取多少,lnl(θ)最大? θ最小能取多少?
贝叶斯学习
一组观测值X={4,7,2,8}
i)
0
.........
.........
N
k 1
p
log
p(xk
|
i)
0
利用上式求出 i的估值 ,即为 i=
最大似然估计
最大似然估计的基本思想
前式的解不一定唯一, 只有取值最大的是最 终的解。
最大似然估计
一维正态分布的参数估计
总体的分布形式:
p(x)
1
(
2
)
1 2
exp[
1 2
的学习样本来估计。
最大似然估计
似然函数
属于i类的学习样本有N个样本,即:
Xi=(x1 , x2 ,…xN)T 采样到Xi样本的概率密度:
p(Xi |θi)= p(x1 , x2 ,…xN |θi)
N
p(xk | i ) k 1
N个随机变量x1 , x2 ,…xN的似然函数是N个随机 变量的联合密度l(θi)=p(Xi|θi),这个θi的函数l(θi) 就是似然函数
最大似然估计
最大似然估计的基本思想
求θ i的最大似然估计就是把p(xi| θ i)看成θ i的 似然函数,求出使它最大时的θ i值。
最大似然估计
最大似然估计的基本思想
∵学习样本独立从总体样本集中抽取的
N
∴
l( i) p(xi | i) p(xk | i)
k 1
N个学习样本出现概率的乘积
(ˆ, ) p( | X ) p(x)ddX Ed
p(x) (ˆ, ) p( | X )ddX
Ed
R(ˆ | X ) p(x)dX Ed
条件风险: R(ˆ | X ) (ˆ, ) p( | X )d
贝叶斯估计
贝叶斯估计
如果θ的估计值^θ使得条件风险R(^θ|x)最小, 则称θ是关于θ的贝叶斯^估计量
不同实验室有个期望录取分数线 受到往年录取成绩的影响
假设只有两个真实取值:分数高vs分数低 某实验室去年都是”分数低”
同学A估计该实验室今年为"分数高“ 同学B估计该实验室今年为"分数低"
哪一个更接近于最大似然估计方法?
贝叶斯估计
问题假定:
待估参数θ是待估计的参数,是随机变量 θ的概率分布概率已知 学习样本x = (x1,x2,… xN)T ,独立同分布 根据学习样本估计参数θ
贝叶斯估计
步骤
① 确定θ的先验分布p(θ),。 ② 率用 密样 度本分布x=p(x(x1,| xθ2),,…它. x是N)Tθ求的出函样数本。的联合概 ③利用贝叶斯公式,求θ的后验概率
p( | x) p(x | ).P( )
p(x | )P( )d
④利用定理求贝叶斯估计量 p( | x)d
例: 不规则硬币,正面概率u和背面概率 1-u未知,且无先验知识。根据观测数据 估计新的实验中出现正面还是背面。
有观道测理?
第1次观测
第2次观测
第3次观测
第4次观测
出现结果 正面 背面 正面 正面
U的最大似然估计 1 0.5
0.67 0.75
有道理?
最大似然估计
最大似然估计的基本思想举例
实验室的研究生录取分数
)2
θ
ln
p( xk
| θ)
1
2
( xk
)
1
2
(xk )2 2 2
最大似然估计 θ
ln
p( xk
| θ)
1
2
( xk
)
1
2
(xk )2 2 2
一维正态分布的参数估计
最大似然估计量的方程为:
N
θ ln l(θ) θ ln p(xk | θ) 0
k 1
N
k 1
已知: 样本X=(x1, x2,…. xN)T 问题: 通过样本集推断总体分布p(x|X)
总体分布形式已知
问题转化为估计参数θ的估计问题,即:
p( | X ) p(X | ).P( )
p(X | )P( )d
然后再利用p(θ |X) 估计p(x|X)
贝叶斯学习
贝叶斯学习基本思想
p(x | X ) p(x, | X )d p(x | )p( | X )d
需要构造一个衡量θ^准确程度的函数
贝叶斯估计
风险
损失函数: λ (θ, θ^) 待估参数θ和学习样本x=(x1,x2,…xN)T是随机
变量
则,风险R为:
R (ˆ, ) p(X , )ddX Ed
其中E d 为X取值的 d维空间
为可能取值的参数空间
贝叶斯估计
风险
整理得
R (ˆ, ) p(X , )ddX Ed
计算求μ的后验概率p(μ| X) : p( | X ) p(X | ) p()
p(X | ) p()d N
p(xk | ) p() k 1
贝叶斯估计
一维正态分布的参数估计
计算求μ的后验概率p(μ| X) :
N
p( | X ) p(xk |Biblioteka Baidu) p() k 1
N
NN02''02ex0p2 {mN
给定样本集合:{x1, x2,……, xN}
f(x1, x2,……, xN) 未知参数θ θ的容许值组成的集合Θ 通过样本集合得到θ 的估计值θ^ 计算θ估计值的统计量d(x1, x2,……, xN)
θ^
θ取值范围的估计(d1, d2)
参数估计的基本概念
两种主要的点估计方法
最大似然估计 贝叶斯估计
k
k
k 1
k 1
N k 1
ln
1
1
(2 )2
exp[
1 2
( xk
)2]
N k 1
1 2
ln(2
)
1
2
2
( xk
)2
最大似然估计
一维正态分布的参数估计
最大似然估计量的方程为:
N
θ ln l(θ) θ ln p(xk | θ) 0
k 1
ln
p( xk
|)
1 2
ln(2
)
1
2
2
( xk
最大似然估计
p(Xi |θi)和l(θi)的区别
p(Xi |θi)和l(θi)形式上相似,但含义不相同 p(Xi |θi)是Xi的函数,是概率密度函数
l(θi)是θi的函数,不是概率密度函数
Gaussian分布,方差 已知,均值未知
似然函数是均值 的函数 样本越多,似然 函数越尖锐 使似然函数最大 的值,记为θ^ θ^同样使对数似 然函数取得最大 的值
ˆ
N
N
2 0
N
2 0
2 0
mN
2
N
2 0
2
0
贝叶斯估计
贝叶斯学习
参数估计存在的问题
观测 第1次观测 第2次观测 第3次观测 第4次观测
出现结果 正面 背面 正面 正面
U的最大似然估计 1 0.5
0.67 0.75
最大似然估计存在的问题 贝叶斯估计的优点:避免过学习
贝叶斯学习
贝叶斯学习基本思想
取对数 :
N
N
log p(xk | i) log p(xk | i)
k 1
k 1
如何计算出使得似然函数l(θ)取值最大的θ的估计值?
最大似然估计
最大似然估计的基本思想
对θi求导,并令它为0:
1
...
N
log
k 1
p(xk
| i)
0
p
N
k 1
1
log
p(xk
|
1
2ˆ
( xk
ˆ )
0
N k 1
1
2ˆ
N
k 1
(xk ˆ )2 2ˆ 2
0
最大似然估计
一维正态分布的参数估计
最大似然估计量的方程为:
N
θ ln l(θ) θ ln p(xk | θ) 0 k 1
ˆ
ˆ
1 N
N
xk
k 1
2 1
N
(
N k 1
xk
ˆ )2
无偏估计 有偏估计
最大似然估计
P(ωi),P(x|ωi)
学习
分类器设计的步骤:
第一步: 利用样本集估计概率密度函数
训练
第二步: 利用概率密度函数进行分类决策
分类
贝叶斯决策理论设计分类器步骤
概率密度函数估计中的三个问题
如何利用样本估计概率密度函数 估计量的性质如何 利用样本集估计错误率的方法
几种估计类型
概率密度函数的形式是否已知