模式识别-4-概率密度函数的估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定,而必须从平均和方差的角度出发进行分析,即关于 估计量性质的定义。
§4-2参数估计理论
一.极大似然估计
假定:
①待估参数θ是确定的未知量 ②按类别把样本分成M类X1,X2,X3,… XM
其中第i类的样本共N个
Xi = (X1,X2,… XN)T 并且是独立从总体中抽取的
③ Xi中的样本不包含 j (i≠j)的信息,所以可以对每一
第四章 概率密度函数的估计
❖ 概率密度估计的基础知识 ❖ 参数估计理论
– 极大似然估计(MLE) – 贝叶斯估计(或称最大后验估计) – 贝叶斯学习
❖ 非参数估计理论
– 密度估计 – Parzen窗估计 – K近邻估计(KNE)
§4-1 概率密度估计的基础知识
贝叶斯分类器中只要知道先验概率、条件概率 或分后类验器概了概。率现在P(来ωi)研,P究(x/如ωi)何, P用(ω已i /知x)训就练可样以本设计的 信息去估计P(ωi),P(x/ωi), P(ωi /x) 一.参数估计与非参数估计
类样本独立进行处理。
④ 第i类的待估参数 i (1, 2,... p)T
根据以上四条假定,我们下边就可以只利用第i类学习样 本来估计第i类的概率密度,其它类的概率密度由其它类 的学习样本来估计。
1.一般原则:
第i类样本的类条件概率密度:
P(Xi/ωi)= P(Xi/ωi﹒θi) = P(Xi/θi) 原属于i类的学习样本为Xi=(X1 , X2 ,…XN,)T i=1,2,…M 求θi的极大似然估计就是把P(Xi/θi)看成θi的函数,求
非监督参数估计:已知总体概率密度函数形式但未 知样本所属类别,要求推断出概率密度函数的某 些参数,称这种推断方法为非监督情况下的参数 估计。
注:监督与非监督是针对样本所属类别是已知还是 未知而言的。
三. 参数估计得基本概念
1. 统计量:样本中包含着总体的信息,总希望通过样本 集把有关信息抽取出来。也就是说,针对不同要求构 造出样本的某种函数,该函数称为统计量。
数值,该数值就称为θ 的估计值。
4. 区间估计:除点估计外,还有另一类估计问题,要求用
区为间置信d1区, d2间作,为该类可估能计取问值题范称围为得区一间种估估计计。,此区间称
5. 参数估计方法:参数估计是统计学的经典问题,解决方 法很多,在此只考虑两种常用方法:一种是最大似然估 计方法,另一种是贝叶斯估计方法。
(1) 最大似然估计:把参数看作是确定而未知的,最好 的估计值是在获得实际观察样本的最大的条件下得到的。
(2)贝叶斯估计:把未知的参数当作具有某种分布的随机 变量,样本的观察结果使先验分布转化为后验分布,再 根据后验分布修正原先对参数的估计。
6. 参数估计的评价:评价一个估计的“好坏”,不能按一
次抽样结果得到的估计值与参数真值 的偏差大小来确
这说明未知均值的极大似然估计正好是训练样本的算术平均。
② ∑, μ均未知
A. 一维情况:n=1对于每个学习样本只有一个特征的简单
情况:
1
1,
2
2 1
log
P(
X
k
|
i)
1 2
log
2
2
1
2
2
Xk
2
1
(n=1)由上式得
N
代入
k 1
1
log
P(X k
| i)
N1 (X
k 1 2
k
1)
0
1
...
p
N k 1
log
P( X
k
|
i)
0
P(Xi/θi)
N k 1
1
logP(
X
k
|
i)
0
.........
.........
N k 1
p
logP(
X
k
|
i)
0
利用上式求出 i的估值 ,即为 i=
有时上式是多解的, 上图有5个解,只有一个解最大即.
2. 多维正态分布情况
① ∑已知, μ未知,估计μ
N
k 1
2
log
P( X
k
| i)
N
[
k 1
1
2 2
(X k 1)2]
2
2 2
0
1 1
1 N
N k 1
Xk
即学习样本的算术平均
2
2 1
1 N
N k 1
2
Xk
样本方差
❖ 讨论:
1.正态总体均值的极大似然估计即为学习样本的算术平均
2.正态总体方差的极大似然估计与样本的方差不同,当N较 大的时候,二者的差别不大。
2. 参数空间:在参数估计中,总假设总体概率密度函数 的形式已知,而未知的仅是分布中的参数,将未知参
数记为 ,于是将总体分布未知参数 的全部可容许
值组成的集合称为参数空间,记为 。
3. 点估计、估计量和估计值:点估计问题就是构造一个
统称样计本ˆ 为量观d察θ 的值x1,估,L计代, x量入N 。统作若计为量x参1id数,就Lθ得,的x到Ni估对是计于属第ˆ于,i类类在别的统ˆ计i的的学具几中体个
B.多维情况:n个特征(推导过程,作为练习)
估计值:
1
1 N
N k 1
Xk
2
1 N
N k 1
来自百度文库Xk
T
Xk
结论:①μ的估计即为学习样本的算术平均
②估计的协方差矩阵是矩阵 X k
Xk
T
的算术
平均(nⅹn阵列, nⅹn个值)
二. 贝叶斯估计
极大似然估计是把待估的参数看作固定的未知量, 而贝叶斯估计则是把待估的参数作为具有某种先验 分布的随机变量,通过对第i类学习样本Xi的观察,
参数估计:先假定研究的问题具有某种数学模型, 如正态分布,二项分布,再用已知类别的学习 样本估计里面的参数。
非参数估计:不假定数学模型,直接用已知类别 的学习样本的先验知识直接估计数学模型。
二.监督参数估计与非监督参数估计
监督参数估计:样本所属的类别及类条件总体概率 概率密度函数的形式已知,而表征概率密度函数 的某些参数是未知的。目的在于:由已知类别的 样本集对总体分布的某些参数进行统计推断,此 种情况下的估计问题称为监督参数估计。
P( X i | i) 服从正态分布
待估参数为 i 1
N
k1
logP(X k | ) 0
所以在正态分布时
log
P(
X
k
|
)
1 2
log[
2
n
|
|]
1 2
X
k
T
1 X k
代入上式得
N
1 X k 0
1
N
X k 0
k 1
k 1
所以,有
1
N
N
Xk
k 1
1( N X k N) 0 k 1
出使它极大时的θi值。
∵学习样本独立从总体样本集中抽取的
N
∴ P( X i | i. i) P( X i | i) P( X k | i)
k 1
N个学习样本出现概率的乘积
N
N
取对数 :log P( X k | i) log P( X k | i)
k 1
k 1
对θi求导,并令它为0:
§4-2参数估计理论
一.极大似然估计
假定:
①待估参数θ是确定的未知量 ②按类别把样本分成M类X1,X2,X3,… XM
其中第i类的样本共N个
Xi = (X1,X2,… XN)T 并且是独立从总体中抽取的
③ Xi中的样本不包含 j (i≠j)的信息,所以可以对每一
第四章 概率密度函数的估计
❖ 概率密度估计的基础知识 ❖ 参数估计理论
– 极大似然估计(MLE) – 贝叶斯估计(或称最大后验估计) – 贝叶斯学习
❖ 非参数估计理论
– 密度估计 – Parzen窗估计 – K近邻估计(KNE)
§4-1 概率密度估计的基础知识
贝叶斯分类器中只要知道先验概率、条件概率 或分后类验器概了概。率现在P(来ωi)研,P究(x/如ωi)何, P用(ω已i /知x)训就练可样以本设计的 信息去估计P(ωi),P(x/ωi), P(ωi /x) 一.参数估计与非参数估计
类样本独立进行处理。
④ 第i类的待估参数 i (1, 2,... p)T
根据以上四条假定,我们下边就可以只利用第i类学习样 本来估计第i类的概率密度,其它类的概率密度由其它类 的学习样本来估计。
1.一般原则:
第i类样本的类条件概率密度:
P(Xi/ωi)= P(Xi/ωi﹒θi) = P(Xi/θi) 原属于i类的学习样本为Xi=(X1 , X2 ,…XN,)T i=1,2,…M 求θi的极大似然估计就是把P(Xi/θi)看成θi的函数,求
非监督参数估计:已知总体概率密度函数形式但未 知样本所属类别,要求推断出概率密度函数的某 些参数,称这种推断方法为非监督情况下的参数 估计。
注:监督与非监督是针对样本所属类别是已知还是 未知而言的。
三. 参数估计得基本概念
1. 统计量:样本中包含着总体的信息,总希望通过样本 集把有关信息抽取出来。也就是说,针对不同要求构 造出样本的某种函数,该函数称为统计量。
数值,该数值就称为θ 的估计值。
4. 区间估计:除点估计外,还有另一类估计问题,要求用
区为间置信d1区, d2间作,为该类可估能计取问值题范称围为得区一间种估估计计。,此区间称
5. 参数估计方法:参数估计是统计学的经典问题,解决方 法很多,在此只考虑两种常用方法:一种是最大似然估 计方法,另一种是贝叶斯估计方法。
(1) 最大似然估计:把参数看作是确定而未知的,最好 的估计值是在获得实际观察样本的最大的条件下得到的。
(2)贝叶斯估计:把未知的参数当作具有某种分布的随机 变量,样本的观察结果使先验分布转化为后验分布,再 根据后验分布修正原先对参数的估计。
6. 参数估计的评价:评价一个估计的“好坏”,不能按一
次抽样结果得到的估计值与参数真值 的偏差大小来确
这说明未知均值的极大似然估计正好是训练样本的算术平均。
② ∑, μ均未知
A. 一维情况:n=1对于每个学习样本只有一个特征的简单
情况:
1
1,
2
2 1
log
P(
X
k
|
i)
1 2
log
2
2
1
2
2
Xk
2
1
(n=1)由上式得
N
代入
k 1
1
log
P(X k
| i)
N1 (X
k 1 2
k
1)
0
1
...
p
N k 1
log
P( X
k
|
i)
0
P(Xi/θi)
N k 1
1
logP(
X
k
|
i)
0
.........
.........
N k 1
p
logP(
X
k
|
i)
0
利用上式求出 i的估值 ,即为 i=
有时上式是多解的, 上图有5个解,只有一个解最大即.
2. 多维正态分布情况
① ∑已知, μ未知,估计μ
N
k 1
2
log
P( X
k
| i)
N
[
k 1
1
2 2
(X k 1)2]
2
2 2
0
1 1
1 N
N k 1
Xk
即学习样本的算术平均
2
2 1
1 N
N k 1
2
Xk
样本方差
❖ 讨论:
1.正态总体均值的极大似然估计即为学习样本的算术平均
2.正态总体方差的极大似然估计与样本的方差不同,当N较 大的时候,二者的差别不大。
2. 参数空间:在参数估计中,总假设总体概率密度函数 的形式已知,而未知的仅是分布中的参数,将未知参
数记为 ,于是将总体分布未知参数 的全部可容许
值组成的集合称为参数空间,记为 。
3. 点估计、估计量和估计值:点估计问题就是构造一个
统称样计本ˆ 为量观d察θ 的值x1,估,L计代, x量入N 。统作若计为量x参1id数,就Lθ得,的x到Ni估对是计于属第ˆ于,i类类在别的统ˆ计i的的学具几中体个
B.多维情况:n个特征(推导过程,作为练习)
估计值:
1
1 N
N k 1
Xk
2
1 N
N k 1
来自百度文库Xk
T
Xk
结论:①μ的估计即为学习样本的算术平均
②估计的协方差矩阵是矩阵 X k
Xk
T
的算术
平均(nⅹn阵列, nⅹn个值)
二. 贝叶斯估计
极大似然估计是把待估的参数看作固定的未知量, 而贝叶斯估计则是把待估的参数作为具有某种先验 分布的随机变量,通过对第i类学习样本Xi的观察,
参数估计:先假定研究的问题具有某种数学模型, 如正态分布,二项分布,再用已知类别的学习 样本估计里面的参数。
非参数估计:不假定数学模型,直接用已知类别 的学习样本的先验知识直接估计数学模型。
二.监督参数估计与非监督参数估计
监督参数估计:样本所属的类别及类条件总体概率 概率密度函数的形式已知,而表征概率密度函数 的某些参数是未知的。目的在于:由已知类别的 样本集对总体分布的某些参数进行统计推断,此 种情况下的估计问题称为监督参数估计。
P( X i | i) 服从正态分布
待估参数为 i 1
N
k1
logP(X k | ) 0
所以在正态分布时
log
P(
X
k
|
)
1 2
log[
2
n
|
|]
1 2
X
k
T
1 X k
代入上式得
N
1 X k 0
1
N
X k 0
k 1
k 1
所以,有
1
N
N
Xk
k 1
1( N X k N) 0 k 1
出使它极大时的θi值。
∵学习样本独立从总体样本集中抽取的
N
∴ P( X i | i. i) P( X i | i) P( X k | i)
k 1
N个学习样本出现概率的乘积
N
N
取对数 :log P( X k | i) log P( X k | i)
k 1
k 1
对θi求导,并令它为0: