概率密度估计及近邻法
概率密度估计
1、概率密度函数在分类器设计过程中(尤其是贝叶斯分类器),需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面。
但是,在实际应用中,类条件概率密度通常是未知的。
那么,当先验概率和类条件概率密度都未知或者其中之一未知的情况下,该如何来进行类别判断呢?其实,只要我们能收集到一定数量的样本,根据统计学的知识,可以从样本集来推断总体概率分布。
这种估计方法,通常称之为概率密度估计。
它是机器学习的基本问题之一,其目的是根据训练样本来确定x(随机变量总体)的概率分布。
密度估计分为参数估计和非参数估计两种。
2、参数估计参数估计:根据对问题的一般性认识,假设随机变量服从某种分布(例如,正态分布),分布函数的参数可以通过训练数据来估计。
参数估计可以分为监督参数估计和非监督参数估计两种。
参数估计当中最常用的两种方法是最大似然估计法和贝叶斯估计法。
监督参数估计:样本所属类别及条件总体概率密度的形式已知,表征概率密度的某些参数是未知的。
非监督参数估计:已知样本所属的类别,但未知总体概率密度函数的形式,要求推断出概率密度本身。
3、非参数估计非参数估计:已知样本所属的类别,但未知总体概率密度函数的形式,要求我们直接推断概率密度函数本身。
即,不用模型,只利用训练数据本身来对概率密度做估计。
非参数估计常用的有直方图法和核方法两种;其中,核方法又分为Pazen窗法和KN近领法两种。
概率密度估计--参数估计与非参数估计我们观测世界,得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,在概率上我们有一个一般性的操作步骤1. 观测样本的存在2. 每个样本之间是独立的3. 所有样本符合一个概率模型我们最终想要得到的是一个概率密度的模型,有了概率密度模型以后,我们就可以统计预测等非常有用的地方,因此,首要任务是找出一些概率分布的概率密度模型。
我们来分析一下上面的三个步骤,第一第二都很好解决,关于第三点,我们可以有不同的处理方式如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解了,只是需要确定其中的参数而已,这种情况就是属于参数估计问题。
概率密度函数的估计.
∵ P(Xk| μ )=N(μ ,σ2),P(u)=N(μ 0,σ02)
P ( | X i ) a
k 1
1 1 Xk exp{ 2 2
1 N Xk 2 0 2 a' exp{ [ ]} 2 k 1 0
1 N 1 2 1 N 0 a' ' exp{ [( 2 2 ) 2( 2 Xk 2 ) ]} 2 0 k 1 0
三. 参数估计的基本概念
1. 统计量:样本中包含着总体的信息,总希望通过样本 集把有关信息抽取出来。也就是说,针对不同要求构 造出样本的某种函数,该函数称为统计量。 2. 参数空间:在参数估计中,总假设总体概率密度函数 的形式已知,而未知的仅是分布中的参数,将未知参 数记为 ,于是将总体分布未知参数 的全部可容许 值组成的集合称为参数空间,记为 。 3. 点估计、估计量和估计值:点估计问题就是构造一个 统计量d x1, , xN 作为参数 θ 的估计ˆ ,在统计学中 i i 是属于类别 的几个 称 ˆ 为 θ 的估计量。若 x1 , , xN i 样本观察值,代入统计量d就得到对于第i类的ˆ 的具体 数值,该数值就称为 θ 的估计值。
Xk
T
结论:①μ 的估计即为学习样本的算术平均
②估计的协方差矩阵是矩阵 X k X k 的算术 平均(nⅹn阵列, nⅹn个值)
T
二. 贝叶斯估计
极大似然估计是把待估的参数看作固定的未知量, 而贝叶斯估计则是把待估的参数作为具有某种先验 分布的随机变量,通过对第i类学习样本Xi的观察, 通过贝叶斯准则将概率密度分布P(Xi/θ)转化为后 验概率P(θ/Xi) ,进而求使得后验概率分布最大的 参数估计,也称最大后验估计。 估计步骤:
三概率密度估计
1 ˆ n ( x) = p d nhn
选择。
x − xi k( ). ∑ hn i =1
n
hn 是控制“窗”宽度的参数,根据样本的数量
36
3.2 非参数估计
x − xi 1 ) 是以 xi为中心,宽 h n的窗。 k( d hn hn
满足归一化条件:
∫
ℜd
x − xi 1 )dx = 1 k( d hn hn
其它
-1/2
1/2
33
3.2 非参数估计
正态(高斯)核:
x 1 k ( x) = exp(− ). 2 2π
2
34
3.2 非参数估计
核函数要满足概率密度函数的条件。
∫
ℜ
d
k ( x)dx = 1.
35
3.2 非参数估计
Parzen窗法:
把核函数看作“窗”,根据样本
x1 , x2 , L , xn ,
26
3.1 参数估计
Bayes(MAP)估计与ML估计的关系:
当样本数趋于无穷时,MAP估计一般趋向于ML 估计。 ML估计也可以看作参数的先验概率密度函数服 从均匀分布(相当于没有先验知识)的MAP估 计。 当参数的先验概率密度函数比较准确时,MAP 估计的小样本性质大大优于ML估计。
27
给定某类训练数据 — 样本
x1 , x2 , L , xn ,
xi ∈ ℜ ,
d
假设已知 X 所服从的分布形式,待估计的参 数为θ 。例如,假定 X 服从正态分布N ( µ , ∑), 待估参数是 θ = ( µ , ∑ ).
8
3.1 参数估计
第6章_近邻法
i
K近邻法
(1)已知N个已知 类别样本X
(2)输入未知类别 样本x
(3)计算x到 xiX,(i=1, 2,…,N)的 距离di(x)
(6) 判xω2 (4)找出x的k个最近邻 元Xk={xi,i=1,2,…,k} (5)看Xk中属于哪一类的样 本最多k1=3<k2=4
讨论k为奇数时的两类问题
xi X p
第二阶段用搜索算法
检验未知样本x的最近邻是否在X p中的两个规则。 规则1:如果存在 B rp D x, M p 则xi X p 不可能是x的最近邻。其中B是在算法执行过程 中,对于已涉及到的那些样本集X p中的样本到x 的最近 距离。初始B可置为, 以后的B在算法中求得。
c * P P P 2 P c 1 * 其中P 为贝叶斯错误率,c为类数。
* *
可以证明,当样本数相当多时,近邻法错误 率与贝叶斯错误率存在以下关系:
• 上式表明,当样本数相当多时,近邻法的错误 率在贝叶斯错误率和两倍的贝叶斯错误率之间。
最近邻法错误率上下界与贝叶斯错误率的关系
5在目录表中选择最近节点p, 它使D x, M p 最小化,并
称该p为当前执行节点,从目录表中去掉p。如果当前 的水平L是最终水平,则转步骤6。否则置L L 1,转 步骤2。
6对现在执行节点p中的每个x,利用规则2作如下检验。
如果
D x, M p D xi , M p B
规则2:如果存在
B xi , M p D x, M p
其中xi X p,则xi 不是x的最近邻。 D x, xi D x, M p D xi , M p B D xi , M p 在计算rp中已用到,并可存储在机器中。
模式识别(李春权)第3章概率密度估计
基本方法
设样本集为D={x1,x2,x3},每个样本xi对以它为 中心,宽度为h的范围内分布的贡献为a,要想估 计p(x),可以把每个样本点的贡献相加近似作为这 点的密度,对任意点都这样做,则得到分布p(x)。 当N足够大时,将有好的估计效果。
1 4 2 2
© 李春权 模式识别
4 3 4 6
哈尔滨医科大学
W1 W1 W2 W2
生物信息科学与技术学院 2012 28
计算机求解:计算样本均值向量和协方差矩阵
已知 y<-matrix(c(1,1,4,2,4,3),3,2) 计算均值向量apply(y,2,mean) 得到结果为 2 3 用cov(y)*2/3计算样本协方差矩阵得: [,1] [,2] [1,] 2 0.0000000 [2,] 0 0.6666667
R
(如果R足够小,则p(x)几乎不变)
k/N ˆ ( x) p V
© 李春权 模式识别 哈尔滨医科大学 生物信息科学与技术学院 2012 23
两种主要方法:Parzen窗法和kN-近邻法
k/N ˆ ( x) p V
Parzen窗法
固定体积(例如: ),计算落 入区域的样本数k kN-近邻法 k N 固定落入区域样本数k(例如: ),计算落入k个样本需要的体积V
1 ˆ 1 N
x
k 1
N
k
© 李春权
2
1 2 N
哈尔滨医科大学
(x
k 1
N
k
ˆ)
2
模式识别
生物信息科学与技术学院
第三章 概率密度函数的估计
当 0 ≤ x ≤ θ 时 , p (x | θ ) = 的最大似然估计是
解: 定义似然函数 l (θ ) =
k
1
θ
, 否则为0。证明θ
max x k 。
∏ p (x
k =1
N
k
|θ )
1 dH = 0, 即 − N ⋅ = 0 H (θ ) = ln l (θ ) = − N ln θ ,令 dθ θ 方程的解 θ = ∝ ,但实际问题中,θ ≠∝ 。 1 已知有N个随机样本, 且 0 ≤ x ≤ θ 时 , p (x | θ ) =
参数估计中的基本概念 统计量 参数空间 点估计、估计量和估计值 区间估计 参数估计判断标准 无偏性 有效性 一致性
3.2最大似然估计
(1)前提假设
参数θ(待估计)是确定(非随机)而未知的量 样本集分成c类,为A1,A2,…,Ac,Aj的样本是 从概率密度为 p x | ω j 的总体中独立抽取出来的。
i =1 i =1 i =1 i =1
N
(
)
N
N
例3.2:设x服从正态分N(μ,σ2),其中参数μ、 σ2未知,求它们的最大似然估计量。
N
解: 设样本集 A = {x1 , x2 ,..., xN }, 定义似然函数 l (θ ) = ∏ p(xi | θ )
i =1 2 ⎧ ⎡ ( xi − μ ) ⎤ ⎫ ⎪ ⎪ 1 exp⎢− H (θ ) = ln l (θ ) = ∑ ln p (xi | θ ) = ∑ ln ⎨ ⎥⎬ 2 2σ ⎪ i =1 i =1 ⎣ ⎦⎪ ⎭ ⎩ 2π σ 2 N ⎧ ⎫ ( ) x − 1 1 μ 2 i = ∑ ⎨− ln 2π − ln σ − ⎬ 2 2 2σ i =1 ⎩ 2 ⎭ N N 2
第5章 近邻法
P ( x ) 1 P ( x ) P (e x ) m i c
min P 2 (i x )
im c
P 2 (e x ) c 1
2 2 2 P ( x ) P ( x ) P m i (i x ) i1 i m
1, 0 x cr c 1 p( x) 1 , 其它 c
返回本章首页
第5章 近邻法
1 1 , 0 x cr P (e x ) 1 P(m x ) c c 1 其它 0, 1 ) p( x )d x c 1 cr r c c c 1 cr c c 2 1 P 1 P (i x ) p( x )d x c1 1 2 p( x )d x P 0 i1 i1 c P P (e x ) p ( x ) d x
1 P (e x ) P 2 (i x ) 1 2 P (e x ) c P 2 (e x ) c 1
i m
2
返回本章首页
第5章 近邻法
2 c P 2 (e x ) P ( x ) 1 2 P ( e x ) i c 1 i1 c
P(m x) max P(i x) i 1,2, , c 采用N个样本的最近邻法的平均错误率 PN (e) ,并设 P lim PN (e)
N
返回本章首页
第5章 近邻法
则有以下的不等式成立:
c P P P P 2 c 1
证明:最近邻法属于随机化决策,待分类模式 x 的近邻 随样本集的变化而随机变化,设其最近邻为 x ,错误的 条件错误率为 PN (e x, x) 。对于 x 取平均
[数学]第3章 概率密度函数估计 - 西安电子科技大学
N
N
如果噪声是零均值的, 即对所有的i, E(vi)=0, 可得 sˆ 为s 的一个无偏估计; 反之, sˆ 为有偏估计。
第3章 概率密度函数估计
定义3.2 若对所有的θ lim b(ˆ) 0
N
(3-3)
则称ˆ =g(x1, x2, …, xN)是θ的一个渐进无偏估计。
【例 3.2】 考虑平稳过程的自相关函数R(l)=E[x(t)x(t+l)] 的两个估计
第3章 概率密度函数估计
2. Cramer-Rao下界(估计的方差性质)
除了偏差以外, 一个估计的基本特性还体现在方差上。
一般地, 要得到精确的方差是比较困难的, 人们希望得到方
差可能达到的下界。 下面的定理3.1表明, 无偏估计的方差
存在一个下界, 常称为Cramer-Rao下界。
定理3.1 令x=(x1, x2, …, xN)为样本向量, p(x|θ)为x的联
第3章 概率密度函数估计
(2) 非参数估计就是在概率密度函数的形式未知的条 件下, 直接利用样本来推断概率密度函数。 常用的非参数 估计方法有Parzen窗法和kN-近邻法。
第3章 概率密度函数估计
3.2 参数估计的基本概念与评价准则
3.2.1
1. 设观测样本为x1, x2, …, xN, 统计量g(x1, x2, …, xN)是x1, x2, …, xN的(可测)函数, 与任何未知参数无关。 统计量的概率 分布称为抽样分布。 2. 参数空间 未知参数θ的全部可容许值组成的集合称为参数空间, 记 为Θ。
E
(ˆ
第3章 概率密度函数估计
3. 点估计、 点估计是确定待定参数的单个估计值, 即要构造一个统计
量 ˆg(x1,x2, ,xN) 作为参数θ的估计。 在统计学中, 称
概率密度函数的估计
第三章-第二部分-概率密度函数估计(1)
的 的似然函数。
似然函数:N个随机变量 x1 , x2 ,, xN 的似然函数是N个 随机变量的联合密度 l ( ) p( | ) p( x1, x2 ,, xN | ) ,这
个密度可以看成是 的函数。具体地说,若 x1 , x2 ,, xN 是独立的抽自密度 p( | ) 总体的样本,那么似然函数 就是:
^
1 N 1 N
x
k 1 N k 1
N
k
T ( x ) ( x ) k k
是均 其中, xk为多元正态分布总体中第 K个抽样,是d维向量, 的最大似然估计, 是协方差矩阵 的最大似然估计。 值向量 的最 结论:均值向量 的最大似然估计是样本均值。协方差矩阵 T 大似然估计是N个矩阵( xk )(xk ) 的算术平均。
Parzen 窗窗法 非参数估计 --Parzen
21
Parzen 窗窗法 非参数估计 --Parzen
22
Parzen 窗窗法 非参数估计 --Parzen
23
Parzen 窗窗法 非参数估计 --Parzen
24
Parzen 窗窗法 非参数估计 --Parzen
二维平面:
正方形
三维空间:
Parzen 窗窗法 非参数估计 --Parzen
每个邻域样 本点数量 该类所有 样本点数量
概率密 度估计
体积
28
非参数估计--Parzen窗法
用Parzen窗法估计 单变量正态分布的 实验
非参数估计--Parzen窗法
用Parzen窗法估计 两个均匀分布的 实验
非参数估计--Parzen窗法
密度函数估计
参数的后验分布密度
p( | ) p( ) p( | ) N p( | ) p( )d
N N
由于
p( | ) p( xN | ) p(
N
N 1
| )
p( | ) p( | ) p( )
N N
可得如下递推公式
N
p( xN | ) p( | ) p( | ) p( xN | ) p( |N 1 )d
i 1
N
利 |) p(| ) p( )d
参数的贝叶斯估计量为
E | p( |)d
3.3.2 贝叶斯学习
样本的概率密度函数为
p(x |) p(x | ) p( |)d
最大似然估计量
ˆ θ =d(x1 , x2 , x3 xN )
对数似然函数
H ( ) ln l ( ) ln p( xi | ) ln p( xi | )
i 1 i 1
N
N
3.2.2 似然函数的求解
只有一个待估参数
dl ( ) 0 d
dH ( ) 或 0 d
当未知参数是 = 1 , 2 S 是由多个未知参数 组成的向量时, 需要对 的每一维分别求偏导,即 用下面的梯度算子
T
, d1 d2 d S
T
来对似然函数或对数似然函数求梯度并令其等于零。
l ( )=0或 H ( )=0
X下, 贝叶斯估计量
是在给定 x 下 的条件期望。
E | x p( | x)d
综上所述,在最小平方误差损失函数下,贝叶斯 估计步骤: 根据对问题的认识确定
概率密度函数的估计
⒋区间估计
除点估计外,还有另一类估计,它要求用区间 (d1,d2)作为 θ 可能取值范围的一种估计。这个 区间称为置信区间,这类估计问题称为区间估 计。 要求估计总体分布的具体参数是点估计问题。 介绍两种主要的点估计方法 最大似然估计和贝叶斯估计。 它们都能得到相应的估计值,当然评价一个 估计的“好坏”,不能按一次抽样结果得到的 估计值与参数真值的偏差大小来确定,而必须 从平均的和方差的角度出发进行分析
θˆ2 = x( N )
二、贝叶斯估计和贝叶斯学习
㈠贝叶斯估计 前面从决策论的角度论述了最小风险贝 叶斯决策,实际上贝叶斯决策和贝叶斯 估计是统一的。 贝叶斯决策的论述 设状态空间 ={ω1,ω2,…ωc} 识别对象 x = [x1,x2,…,xd]T , 决策空间 A ={ α1 ,α 2 ,… ,α i }
l (θ ) = p ( X | θ ) = p( x1 , x 2 ,…,x N | θ ) 这个密度可以看成是θ 的函数,具体地说,
l (θ ) = p ( x1 , x2 , …,x N | θ ) = p ( x1 | θ ) p ( x2 | θ ) … p ( x N | θ ) 似然函数 l (θ )给出了从总体中抽出x1,
k =1
θ 例如随机变量x服从均匀分布,但参数 θ1 、 2 未知, 1
p ( x | θ ) = θ 2 − θ 1 0
θ1 < x < θ 2
其它
设从总体中独立地抽取出N个样本x1, x2,…,xN。则其似然函数为
1 p( x1 , x 2 , …, x N | θ 1 ,θ 2 ) = (θ 2 − θ 1 ) N l (θ ) = p( X | θ ) = 0
概率密度函数的估计
j 1 c
i 1, 2,, c
ˆ H) R ( 考虑到 H 的各种取值,我们应求 在空间 中的 期望 , N E d E d E d 。
p ( x H ) p ( x , H )d
在 已知的条件下, H 对 x 已不具有什么信息
p ( x , H ) p ( H )d p ( x ) p ( H )d
返回本章首页
第3章 概率密度函数的估计
p ( x H ) p ( x ) p ( H )d
返回本章首页
第3章 概率密度函数的估计
参数估计——包括监督参数估计和非监督参数估计 监督参数估计——样本所属的类别及类条件总体概率密 度函数的形式为已知,而表征概率密度函数的某些参数 是未知的 非监督参数估计——已知总体概率密度函数的形式但未 知样本所属类别,要求推断出概率密度函数的某些参数 参数估计的方法——最大似然估计和Bayes估计
第3章 概率密度函数的估计
第3章
概率密度函数的估计
3.1 最大似然估计 3.2 Bayes估计和Bayes学习 3.3 正态分布的监督参数估计 3.4 非监督参数估计 3.5 总体分布的非参数估计
第3章 概率密度函数的估计
在上一章,我们介绍了先验概率和类条件概率密 度函数已知时,怎么去设计一个最优分类器,但 是在一般的模式识别问题中,要知道所讨论问题 的全部概率结构是不大可能的。通常对于研究的 问题只有一些一般性的、模糊的知识。可能有的 就是一些样本了。现在的问题就转变为如何利用 上述信息去对概率总体作出估计,从而进一步设 计出分类器。在模式识别问题中,先验概率的估 计并不困难,困难的是类条件概率密度函数的估 计,包括形式和参数两方面的问题。形式已知的 称为参数估计,未知的称为非参数估计。
第3章概率密度函数的估计new
1 2 N 1 2 N
ˆ 将 d ( x1 , x2 , , xN )称为 的最大似然估计量。 最大似然估计量:令( )为样本集D的似然函数, ˆ D {x , x , , x },如果 d ( D) d ( x , x , , x )
[1 , 2 , ,S ]T
用 表示梯度算子:
(3-6)
求解似然函数最大值就需要对的每一维分别求导, ,..., (3-7) S 1 对似然函数求导并令梯度等于零: l ( ) 0 H( )为对数似然函数: H( ) ln[( )] lnp(D| ) lnp(x1 ,x2 , ,xN |1 , 2 , ,S ) (3-8)
13
第3章 概率密度函数估计
3.2 参数估计的基本概念
(3)点估计、估计量和估计值: 点估计问题是要构造一个统计量d ( x1 ,..., xN )作为参数的 ˆ 估计, 在统计学中称 为 的估计量。如果x ( i ) , , x (i )是属于
1 N
类别i的几个样本观察值,代入统计量d 就得到对于第i类 ˆ 的 的具体数值,这个数值在统计学中称为 的估计值. (4)区间估计: 除点估计外,还有另一类估计,它要求用区间(d1 , d 2 )作为
k 1
N
从: H ( ) 0
(3 -11)
的S 个方程能够获得 的最大似然估计量的必要条件。 ˆ ˆ 如果式(3 -11)的解 能够使得似然函数值最大,则 就是 的最大似然估计。
29
3.2.1 最大似然估计
需要注意的是: 1,有时式(3 -11)无唯一解。如图3.1中有5个解。虽然这 5个都是解,但有的解可能是真正的全局最大值点, 也可能是局部极值点,或者还可能是函数的拐点。 2,此外,我们必须注意检查所得到的解是否位于函数 H ( )定义域的边界上。如果所有的极值解都已经求得了 ,我们就能确定其中必有一个是全局的最大值。然后 检查确定真正的全局最优点。
概率密度函数的估计
• 一致性:
当样本数无穷多时,每一次估计都在概率意义上任意接近 真实值。
武汉大学电子信息学院
概率密度函数的估计
模式识别
武汉大学电子信息学院
概率密度函数的估计
模式识别
武汉大学电子信息学院
概率密度函数的估计
模式识别
武汉大学电子信息学院
概率密度函数的估计
模式识别
武汉大学电子信息学院
概率密度函数的估计
Parzen窗法示例
小 少
估 计 二 个 均 匀 分 布
窗口
大
样 本
多 武汉大学电子信息学院
概率密度函数的估计
非参数 模式识别 估计
有限样本的影响
• 均方误差最小(MSE)准则
ˆ MSE( E ( pN ( x) p( x)) 2 ) O( N
4 d 4
)
N4/(d+4) 0.1 0.1 0.1 0.1 0.1
武汉大学电子信息学院
概率密度函数的估计
模式识别
3.2.1 最大似然估计(Maximum Likelihood Estimation)
假设条件: ① 参数θ 是确定的未知量,(不是随机量) ② 各类样本集X i , i = 1,..,c 中的样本都是从 密度为p (x |ωi)的总 体中独立抽取出来的,(独立同分布,i.i.d.) ③ p (x |ωi)具有某种确定的函数形式,只其
武汉大学电子信息学院
概率密度函数的估计
模式识别
最大似然估计
ˆ θ ML argmax l (θ)
θ
argmax ln p (x k | θ)
θ k 1
n
使l(θ )为最大的θ 取值为θ 的最大似然估计值 ˆ
机器学习之概率密度估计
机器学习之概率密度估计写在前面的话:本文简述概率密度估计的方法以及代码实现,其中包括极大似然估计和非参数方法,非参数方法包括 parzen窗和knn(k近邻)算法。
注意,重点不是推导过程,而是最最最基本的实现方法!代码是用python,老师给的是.mat文件,本意是matlab,奈何我没好好学。
代码也不够简单,欢迎批评。
都是手动实现,knn用集成库也实现了一下,确实简单粗暴。
在文末会放入几篇个人认为比较容易理解的链接。
基本问题:已知一定数目的样本(类别已知),对未知样本分类,转化为数学语言就是——已知?(?_? )和?(?|?_?)对未知样本分类•首先根据样本估计p(x∣wi)p(x∣wi) p(x|w_i)p(x∣wi) 和p(wi)p(wi) p(w_i)p(wi),记pˆ(x∣wi)p^(x∣wi) \hat{p}(x|w_i)p^(x∣wi ) 和pˆ(x∣wi)p^(x∣wi) \hat{p}(x|w_i)p^(x∣wi)•然后用估计的概率密度设计贝叶斯分类器重要前提•训练样本的分布能代表样本的真实分布,样本满足独立同分布条件–independent and identically distributed (i.i.d条件)•有充分的训练样本关键就是求p(x∣wi)p(x∣wi) p(x|w_i)p(x∣wi) !一. 参数估计 (parametric methods)已知概率密度函数p(x∣wi)p(x∣wi) p(x|w_i)p(x∣wi) 的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。
最大似然估计(Maximum Likelihood Estimation)l(θ)=p(x∣θ)=∏Ni=1p(xi∣θ)l(θ)=p(x∣θ)=∏i=1Np(xi∣θ)l(\theta) = p(x|\theta) =\prod_{i=1}^{N}p(x_i|\theta) l(θ)=p(x∣θ)=i=1∏N p(xi∣θ)我来大白话解释一下,样本集 x已知,而参数 ? 未知, ?(?)反映的是不同? 取值下,取得当前样本的可能性。
概率密度估计
频率 0.05
0.0583 0.1167 0.1167 0.1917 0.1833 0.1167 0.0667
0.05
西南交通大学
密度估计 0.0059 0.01944 0.0389 0.05557 0.0639 0.0611 0.0389 0.0222 0.0111
9
0.25 0.2
0.15 0.1
4
0
y
其它
西南交通大学
17
3)
k(
y)
1
y
0
4) k( y) 1 e y 2
y 1 其它
y
5)
k(
y)
1 (1
y2 )
y
西南交通大学
18
6) k( y)
1
e
y2
2 2
2
y
1 sin( y / 2) 2
4
具体步骤为:
1) 首先由已知数据的最小值与最大值确定 包含全部数据的实数区间:
[a, b] (a X(1) X(n) b)
2) 等分这个区间为k个小区间:
[a a0 , a1 ),[a1 , a2 ),[a2 , a3 ), ,[ak1, ak b]
3)记录数据落入每个小区间的数据个数:
西南交通大学
7
例2.1 某工厂生产一种220伏25瓦的白炽灯 泡,其光通量用X表示,X为一随机变量,现从总 体抽取容量为120的样本,进行一次观察,得到 120个数据,如下表(P125)。试作出总体概率 密度的直方图估计。
解: 120个数据中最小值为190,最大值为224, 故等分区间[190,224], 按小区间长度为3等 距划分上述区间,并统计落入每个小区间的数 据个数,即频数:
第三章概率密度估计
似然函数
对数似然函数
(三)可识别性问题
求出
^
^
,就得到了 1 , , c
,即从混合密度函数中恢复出了分量
密度函数。可能吗?什么条件下可能?
可识别性:
若对θ ≠θ′ ,对混合分布中每个x 都有p(x |θ ) ≠ p(x |θ′) ,
p(x |θ ) 是可识别的。
一致性:
当样本数无穷多时,每一次估计都在概率意义上任意接近真实值。
§3.3 正态分布的监督参数估计
以正态分布为例说明上节介绍的参数估计方法
3.3.1 最大似然估计示例
3.3.2 贝叶斯估计和贝叶斯学习示例
(一)贝叶斯估计
一般情况下,
特例:
(
二
)
贝
叶
斯
学
习
§3.4 非监督参数估计
以上讨论的是监督参数估计,即已知各样本的类别,根据各类样
均未知, c 已知
思路与(一)类似,将有关分布公式代入上小节方程即可,只是公式
复杂一些,也可得到物理意义明确的方程式,但一般也只能用迭代法
求解。
讨论:
参数估计方法,实际上要求对概率密度函数几乎知道一切,除了
少数几个参数,实际应用中,除了要求好的估计方法外,更重要的是
关于函数形式的先验知识和假设(正态分布是最常用的假设)。
设考试集有N 个样本,其中k 个被分错,则错误率估计是
可以证明
若
E[ ]
P(1) P(2 )
k
N
(无偏估计)
P(2 )
未知,考试集由随机抽样产生,则
(随样本增多方差减小)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
p(m | x)
N
a
k 1
1
2
s
exp
1 2
(xk m)2 s2
1
2
s
0
exp
1 2
(m
s
m0
2
0
)2
a,
exp
1 2
N
(
k 1
m
s
xk
)2
(
m
m0 s0
)2
a,,
exp
1 2
n
(s 2
1
s2 0
)m 2
1 2(
s2
N
xk
k 1
m0 s2
0
)m
与m无关项并入a"
k 1
mˆ
1 N
N k 1
xk
• 未知均值的极大似然估计正是样本的算术平均。
Exceltek Electronics (HK) Ltd Confidential
② 一维正态情况,两个参数均未知,设q1=m, q2=s 2 , q=[q1,q2 ]T 。
分布形式 p(xq )
1
2 s
exp
1 2
• Bayes参数估计步骤:
①确定q 的先验概率密度函数p(q);
②由样本集 x = {x1,x2,…,xN}计算样本的联合分
布
p(x
|q
)
N
p( xk
|
q
)
,它是
q
的函数
;
③用Bayes公k式1 求后验分布p(q | x)
p(q | x) p(x |q ) p(q | x)
p(x |q ) p(q | x)dq
•
协方差矩阵的无偏估计为
1 N 1
N k 1
( xk
mˆ )( xk
mˆ )T
Exceltek Electronics (HK) Ltd Confidential
2. Bayes估计和Bayes学习
Bayes估计:根据样本集 x 确定总体某个参数q
Bayes学习:利用样本集 x 确定概率密度函数 p(x)
⑴Bayes估计
基本原理:把参数q当作具有某种先验分布p(q) 的随机变量, 对样本x观察使先验分布qˆ转化为后验 分布p(q|x),据此再修正原先的估计 。
假设:
①把所有的样本按类别分成c个子集。每个子集有 N个样本 x = {x1,x2,…,xN}。每类可单独处理。
②已知样本的分布形式p(x|q) ,而参数q 未知。
中xj中的样本是从概率密度为p(x|wj)的总体中
独立抽取的。
②p(x|wj)形式已知, 参数qj未知, 可写成p(x|wj,qj)
。
q ③不同类的参数独立,即x 不包含 Exceltek Electronics (HK) Ltd iConfidential j信息(i≠j)这
• 设某类有N个样本组成了样本集 x={x1,x2,···,xN} 样本是独立从该类抽取的,因此N个随机变量 的联合概率密度
N a
k 1
p( xk
| m) p(m)
a 1/ p(x | m) p(m)dm a-比例因子与μ无
Exceltek Electronics (HK) Ltd Confidential
• 根据上述假设:p(xk | m) ~ N (m,s 2 )
p(m)
~
N
(m0
,s
2 0
)
• 代入计算后验概密 p(μ|x)
④求样本的估计量q
损失函数为二次函数时,贝叶斯估计量qˆ是在
给定x条件下的条件期望:
qˆ=E[q | x] Θqp(q | x)dq
Exceltek Electronics (HK) Ltd Confidential
⑵正态分布情况的Bayes估计举例
①样本为一维正态分布 p(x|m)~N(m,s 2),m未知
直接利用样本设计分类器。非参数(即分类中不 需要估计概率密度函数) 方法之一。
Exceltek Electronics (HK) Ltd Confidential
5. 参数估计的几个基本术语 ⑴统计量:每个训练样本都包含总体信息。根据
从总体中抽取的样本集构造某种函数, 该函数统 计学中称为统计量。
(
x
s
m
)2
似然函数
ln
p( xk
q)
1 2
ln
2q 2
1
2q 2
( xk
q1 ) 2
两个变量的梯度
q
ln
p( xk
q)
q121( 2q2
xk
q1 )
(xk
2q
q1
2 2
)
2
Exceltek Electronics (HK) Ltd Confidential
求极大似然估计qˆ1、qˆ2 需满足下列条件
• 概率密度函数含参数和形式两方面内容,分别称 为参数估计和非参数估计。其估计方法:
1. 监督参数估计
已知样本类别wi及其p(x|wi)形式,而参数未知, 需从训练样本x估计参数q,如一元正态分布的m 、s 2等参数。
Exceltek Electronics (HK) Ltd Confidential
N个样本的概率。 • 极大似然估计值定义:
令l(q) 为样本集x的似然函数,在Θ的参数空间 中能使l(q) 极大化的那个qˆ 值。
Exceltek Electronics (HK) Ltd Confidential
• 极大似然法的主要思想:如果在一次观察中一个 事件出现了,则这个事件出现的可能性最大。事 件x={x1,x2,…xN}在一次观察中(即从总体中抽取
N
s2
1
s0
2
mN
m0 s 02
,
mN
1 N
N
xk
k 1
样本的均值
解得
m
N
s
2 N
Ns 02
Ns
2 0
s
2
s 02s 2
Ns
2 0
s
2
mN
s2
Ns
2 0
s
2
m0
由样本集得到m的后验概密p(m
计算方法和形式完全类似,只是复杂些,计算结
果:
mˆ
1 N
N
xk
k 1
ˆ
1 N
N
(xk
k 1
mˆ )(xk
mˆ )T
其 中xk 为 第k个 抽 样 , 是d维 向 量 。
• 均值向量的极大似然估计是样本的均值,而协方 差的极大似然估计是N个矩阵 ( xk mˆ )( xk mˆ )的T 算 术平均。这是一致估计。
6
p(x |q ) p(xk |q ) 有不同值, k 1
A点和B点时较小,在C点时p(x |q )达极大,对应qˆ为均值。
Exceltek Electronics (HK) Ltd Confidential
• 假设似然函数p(x|q) 对未知参数q 是连续可微的
,则 可qˆ 由典型的求极值的方法求得。
• 对数似然函数H (q )
H (q ) ln[l(q )] ln p( x |q )
ln p( x1, , xN | q1, ,qs )
在N个样本独立抽取的条件下
N
N
H (q ) ln p( xk |q ) ln p( xk |q )
k 1
k 1
N
而 q H (q ) q ln p( xk |q )
• 求极大值的必要条件
单个q 的情况下:dl(q ) 0
dq
若q 是向量,有s个分量q =[q1,···,qs ]T,则多变量
的梯度算子
q
q1
qs
• 对数似然函数H(q)是单调的增函数,为计算方
便,一般用对数似然函数。
Exceltek Electronics (HK) Ltd Confidential
• p(μ|x)是μ的二次函数的指数函数,仍是正态密度, 写成
p(m
|
x)
~
N
(m
N
,s
2 N
)
p(m | x) 1 exp[ 1 ( m mN )2 ]
2s N
2 sN
Exceltek Electronics (HK) Ltd Confidential
1
比较后得到smNN2 s N 2
N
s2
损失函数 (qˆ,q ) (qˆ q )2
R为给定条件下某个估计量的期望损失,常称
为条件风险。使条件风险最小的估计量q,也
就是贝叶斯估计。
• 经推导(P.52定理3.1)使用平方误差损失函数时
,得到估qˆ计 量E(q为|条x)件 期Θq望p(q:| x)dq
Exceltek Electronics (HK) Ltd Confidential
⑵参数空间:概率密度形式已知,参数q 未知, q
可取值的集合称为参数空间,记为Θ。 ⑶点估计、估计量和估计值:构造一个统计量
f(x1,···,xn) 作为参数q 的估计量qˆ 。如果
x1,···,xn属于某类,代入统计量f,就可得到该类 具体的估计值。本章参数估计属于点估计。
⑷区间估计-要求用区间(d1, d2)作为q 可能取值范
q q ③ 为随机变量, 已知其先验概密函数p( Exceltek Electronics (HK) Ltd Confidential ) 。
贝叶斯估计和最小风险贝叶斯决策可统一: • Bayes估计:有一个样本集x,用来估计所属总
体分布的某个参数,使带来的贝叶斯风险最小 。