机器学习与模式识别-第3章_概率密度函数的估计
模式识别(3-1)
§3.2 最大似然估计
最大似然估计量: -使似然函数达到最大值的参数向量。 -最符合已有的观测样本集的那一个参数向量。 ∵学习样本从总体样本集中独立抽取的
N ) p( X | ) p( X k | i ) k 1 N个学习样本出现概率的乘积
i
i
∴
p( X | i . i
i
§3.2 Bayes学习
假定: ①待估参数θ是随机的未知量 ②按类别把样本分成M类X1,X2,X3,… XM 其中第i类的样本共N个 Xi = {X1,X2,… XN} 并且是从总体中独立抽取的 ③ 类条件概率密度具有某种确定的函数形式,但其 参数向量未知。 ④ Xi 中的样本不包含待估计参数θj(i≠j)的信息,不 同类别的参数在函数上是独立的,所以可以对每一 类样本独立进行处理。
有时上式是多解的, 上图有5个解,只有一个解最大即 (对所有的可能解进行检查或计算二阶导数)
§3.2 最大似然估计
例:假设随机变量x服从均匀分布,但参数1, 2未知, 1 1 x 2 p ( x | ) 2 1 , 0 其他 求1, 2的最大似然估计量。 解:设从总体中独立抽取N个样本x1 , x2 , , xN , 则其似然函数为: 1 p ( x1 , x2 , , xN | 1, 2 ) ( 2 1 ) N l ( ) p ( X | ) 0
§3.2 Bayes学习
p ~ N 0 , 0
2
其中 0和 0 是已知的
2
已知的信息还包括一组抽取出来的样本X i x1 , x2 ,, xN ,从而 可以得到关于 的后验概率密度:
模式识别 第三章 概率估计
N
1 ˆ 1 N
x
k 1
N
k
21
一元正态分布方差的估计
( xk 1 )2 1 ln p( xk | 1 , 2 ) 2 22 22 2
代入前式,有:
N ˆ )2 ( xk 1 1 0 2 ˆ k 1 ˆ k 1 N 2 2
ˆ
2 ML
1 ˆ 2 N
(x
k 1
N
k
ˆ)
2
22
多元正态分布参数最大似然估计
对于一般的多元正态分布,计算方法完全类似,且有
1 ˆ μ N
x
k 1
N
k
1 ˆ N
T ˆ ˆ ( x μ )( x μ ) k k k 1
N
均值估计是无偏的,协方差矩阵估计是有偏的。 协方差矩阵的无偏估计是:
N
6
概率ቤተ መጻሕፍቲ ባይዱ度估计的方法
类条件概率密度估计(非常难): 概率密度函数包含了一个随机变量的全 部信息; 概率密度函数可以是满足下面条件的任 何函数:
p( x) 0,
p( x)dx 1
7
概率密度估计的方法
类条件概率密度估计的两种主要方法:
参数估计:根据对问题的一般性认识,假设随 机变量服从某种分布,其概率密度函数形式已 知,只是表征函数的参数未知,通过训练数据 来估计:
i p x | i
4
基于样本的Bayes分类器设计
基于样本的两步Bayes分类器设计: 利用样本集估计P(ω i)和p(x|ω i) 基于上述估计值设计判别函数及分类器 面临的问题: 如何利用样本集估计P(ω i)和p(x|ω i); 估计量的评价:估计量的性质如何? 如何利用样本集估计错误率的方法
哈工大模式识别课件—第3章概率密度函数的参数估计
6. return θˆ θi1
混合密度模型
• 一个复杂的概率密度分布函数可以由多个简 单的密度函数混合构成:
M
px θ ai pi x θi , i1
M
ai 1
i1
• 最常用的是高斯混合模型(GMM,Gauss Mixtur e Model):
M
p x ai N x;μi , Σi i 1
估值问题
• 一个HMM模型产生观察序列VT可以由下式计算:
rmax
P V T θ P V T WrT P WrT θ r 1
•rmax=MT为HMM所有可能的状态转移序列数;
•P V T WrT
为状态转移WrT序列
序列 的概率;
输出V T观察
•P WrT θ
为 状态转移Wr序T 列
a b wr T 1wr T wr T v T
r 1
• 计算复杂度:OM TT
HMM估值算法的简化
HMM的前向算法
1. 初始化: i 1 ibi v1,i 1, M
2. 迭代计算:
i
t
1
M
j
t
a
ji
bi
v
t
1
,
i
1,
,M
j1
3. 结束输出:
M
P V T θ i T
i 1
计算复杂度:OM 2T
n
n
2 0
n
2 0
2
ˆn
2
n
2 0
2
0
2 n
02 2
n
2 0
2
均值分布的变化
类条件概率密度的计算
px D px p Dd
模式识别(3-2)
0
x为其它
解:此为多峰情况的估计
-2.5 -2 0
2x
设窗函数为正态
(u) 1 exp[ 1 u2], hN h1
2
2
N
❖
用
Parzen
窗 法 估 计 两 个 均 匀 分 布 的 实 验
h1 0.25 10.0
1.0 0.1 0.01 0.001 10.0 1.0 0.1 0.01 0.001 10.0 1.0 0.1 0.01 0.001 10.0 1.0 0.1 0.01 0.001
Parse窗口估计
例2:设待估计的P(x)是个均值为0,方差为1的正态密度
函数。若随机地抽取X样本中的1个、 16个、 256个作为
学习样本xi,试用窗口法估计PN(x)。 解:设窗口函数为正态的, σ=1,μ=0
(| x xi |)
1
exp[
1
(
|
x
xi
|
2
)]
设hN h1
hN
2
2 hN
N
0.01
0.001 10.0
1.0
0.1
0.01
0.001 10.0
1.0
0.1
0.01
0.001 10.0
1.0
0.1
0.01
0.001 2 0 2
h1 1 2 0 2
h1 4 2 0 2
Parse窗口估计
讨论:由图看出, PN(x)随N, h1的变化情况 ①正当态N=形1时状,的P小N(丘x),是与一窗个函以数第差一不个多样。本为中心的
概率密度估计
数学期望: E(k)=k=NP
∴对概率P的估计: P k。
N
模式识别第三章
第三章概率密度函数的估计1.概率密度函数的估计方法及分类概率密度函数估计方法分为两大类:参数估计和非参数估计。
参数估计中,一直概率密度函数的形式,但其中部分或全部参数未知,概率密度函数的估计就是用样本来估计这些参数。
主要方法又有两类:最大似然估计和贝叶斯估计。
非参数估计,就是概率密度函数的形式也未知,或者概率密度函数不符合目前研究的任何分布模型,因此不能仅仅估计几个参数,而是用样本把概率密度函数数值化地估计出来。
主要方法有:直方图法、K N 近邻估计法、Parzen 窗口。
2.最大似然估计假定一个随机试验有若干个可能的结果。
如果在一次试验后出现了结果,那么,一般认为试验条件对“结果出现”有利,即这个试验中“出现”的概率(站在试验前的立场上考察)最大。
3.贝叶斯估计与最大似然估计区别在这两种估计中,都是假设样本概率密度函数形式已知,需要估计的是是概率密度函数中的参数。
虽然使用贝叶斯方法和最大似然估计的结果很相似,但这两个方法在本质上有很大的不同。
在最大似然估计方法中,我们把需要估计的参数向量看作是一个确定而未知的参数。
而在贝叶斯学习方法中,我们把参数向量看成是一个随机变量,已有的训练样本使我们把对于参数的初始密度估计转化为厚颜概率密度。
4.直方图方法a. 把样本x 的每个分量在其取值范围内分成k 个等间隔的小窗。
如果x 是d 维向量,则会得到k d 个小体积或者称作小舱,每个小舱的体积记作V ;b. 统计落入小舱内的样本数目q ic. 把每个小舱内的概率密度看作是常数,并用q i /(NV)作为其估计值,其中N 为样本总数。
在上述直方图估计中,采用的是把特征空间在样本范围内等分的做法。
小舱的体积选择应该与样本总数相适应。
避免小舱过宽或过窄,随样本数的增加,小舱体积应尽可能小,同时又必须保证小舱内有足够充分逗得样本,但每个小舱内的样本数有必须是总样本数中很小的一部分。
5.K N 近邻估计方法K N 近邻估计就是一种采用可变大小的小舱的密度估计方法,基本做法是:根据总样本确定一个参数K N ,即在总样本数为N 时要求每个小舱内拥有的样本个数。
概率密度函数的估计
Xuegong Zhang, Tsinghua University贝叶斯决策: 已知)(i P ω和)|(i p ωx ,对未知样本分类(设计分类器) 实际问题: 已知一定数目的样本,对未知样本分类(设计分类器)怎么办? 一种很自然的想法:首先根据样本估计)|(i p ωx 和)(i P ω,记)|(ˆi p ωx 和)(ˆi P ω 然后用估计的概率密度设计贝叶斯分类器。
——(基于样本的)两步贝叶斯决策“模式识别基础”教学课件希望:当样本数∞→N 时,如此得到的分类器收敛于理论上的最优解。
为此, 需 )|()|(ˆi N i p pωωx x ⎯⎯→⎯∞→)()(ˆi N iP P ωω⎯⎯→⎯∞→ 重要前提:z 训练样本的分布能代表样本的真实分布,所谓i.i.d 条件 z 有充分的训练样本本章研究内容:① 如何利用样本集估计概率密度函数?Xuegong Zhang, Tsinghua University“模式识别基础”教学课件3.2参数估计的基本概念和方法 (part1)参数估计(parametric estimation):z已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。
几个名词:统计量(statistics):样本的某种函数,用来作为对某参数的估计θ∈参数空间(parametric space):待估计参数的取值空间ΘXuegong Zhang, Tsinghua University ② 各类样本集i X ,c i ,,1L =中的样本都是从密度为)|(i p ωx 的总体中独立抽取出来的,(独立同分布,i.i.d.)③ )|(i p ωx 具有某种确定的函数形式,只其参数θ未知 ④ 各类样本只包含本类分布的信息其中,参数θ通常是向量,比如一维正态分布),(21σµi N ,未知参数可能是⎥⎦⎤⎢⎣⎡=2i i i σµθ此时)|(i p ωx 可写成),|(i i p θωx 或)|(i p θx 。
模式识别课后习题答案
– (1) E{ln(x)|w1} = E{ln+1(x)|w2} – (2) E{l(x)|w2} = 1 – (3) E{l(x)|w1} − E2{l(x)|w2} = var{l(x)|w2}(教材中题目有问题) 证∫ 明ln+:1p对(x于|w(12)),dxE={ln∫(x()∫p(|wp(x(1x|}w|w=1)2))∫n)+nl1nd(xx)所p(x以|w∫,1)Ed{xln=(x∫)|w(1p(}p(x(=x|w|Ew1)2{))ln)n+n+11d(xx)又|wE2}{ln+1(x)|w2} = 对于(2),E{l(x)|w2} = l(x)p(x|w2)dx = p(x|w1)dx = 1
对于(3),E{l(x)|w1} − E2{l(x)|w2} = E{l2(x)|w2} − E2{l(x)|w2} = var{l(x)|w2}
• 2.11 xj(j = 1, 2, ..., n)为n个独立随机变量,有E[xj|wi] = ijη,var[xj|wi] = i2j2σ2,计 算在λ11 = λ22 = 0 及λ12 = λ21 = 1的情况下,由贝叶斯决策引起的错误率。(中心极限 定理)
R2
R1
容易得到
∫
∫
p(x|w2)dx = p(x|w1)dx
R1
R2
所以此时最小最大决策面使得P1(e) = P2(e)
• 2.8 对于同一个决策规则判别函数可定义成不同形式,从而有不同的决策面方程,指出 决策区域是不变的。
3
模式识别(第二版)习题解答
模式识别之概率密度函数估计.
似然函数为
l (θ) p(x1 , ..., x N | θ) p(x1 | θ)... p(x N | θ) p(x k | θ)
k 1 N
含义:从总体中抽取 x1,…xN 这样 N 个样本的
概率(可能性)
参数估计的基本概念:
1 统计量 2 参数空间 3 点估计、估计量(估计子)、估计值 4 区间估计
1 统计量
目的:样本中包含着总体的信息,希望有一种数 学手段将样本集中的有关信息抽取出来 统计量:针对不同要求构造出的关于样本的某种
函数,这种函数在统计学中称为统计量
2 参数空间
在参数估计中,已知总体概率密度函数的
如果H(θ) 满足一定数学性质(连续可微),可以
直接应用高等数学的知识来求最大点,即求梯 度(偏导数),令其等于零,解线性或者非线
③类条件概率密度 p(x |ωi ) 的函数形式是确定的,
但是其中的某些参数是未知的
④第 i 类的样本不包含有关 θj (i≠j)的信息。不同 类别的参数在函数上相互独立,每一类样本可 以独立进行处理
在满足四个假设条件下,可以将 c 类概率密度估
计问题转化为 c 个独立的密度估计问题,分别单 独进行处理
为 θ 的估计量(估计子)
估计值:对于属于类别 ωi 的样本观察值, 代入统计量 d(x1,…,xN) 得到第 i 类的的 具体数值,这个数值在统计学中称为 θ 的
估计值
估计量的性能评估
估计量是随机变量,不同的样本有不同的
估计值
无偏估计量:估计量的期望等于真实参数
ˆ θ E{θ}
渐近无偏估计量:当样本数目趋于无 穷时,估计量的期望等于真实参数值
模式识别课件-概率密度函数的估计
估计方法
结果多数情况下与最大似然估计相同
区别:
最大似然估计把待估计的参数当作未知但固定的
量
贝叶斯估计把待估计的参数也看为随机变量
贝叶斯估计和贝叶斯学习
Bayesian Learning
把贝叶斯估计的原理用于直接从数据对概率
密度函数进行迭代估计
值范围,这个区间叫置信区间,这类问题称
为区间估计。
概率密度估计的评估
如何评估概率密度估计的好坏?
单次抽样得到的估计值与真实值的偏差?
基于平均和方差进行评估较为公平!
常用标准:
无偏性
有效性
一致性
概率密度估计的评估
, , … , )的数学期
无偏性:的估计量(
望是
渐进无偏:N趋于无穷时估计具有无偏性
有效性:一种估计比另一种的方差小,此种
估计更有效
对于任意正数ε,有
− > ε =
lim
→∞
则是的一致估计
最大似然估计
基本假设
Maximum Likelihood Estimation.
参数是确定(非随机)的而未知的量。
贝叶斯估计量
为给定x条件下估计量的期望损失,
ȁ
称为条件风险
定义:如果的估计量使得条件风险最小,
则称是的贝叶斯估计量
贝叶斯估计和贝叶斯学习
损失函数
决策分类时我们需要事先定义决策风险表即
损失表
估计连续随机变量时我们需要定义损失函数
损失函数有许多种,最常见的损失函数为平
模式识别第二版答案完整版
1. 对c类情况推广最小错误率率贝叶斯决策规则; 2. 指出此时使错误率最小等价于后验概率最大,即P (wi|x) > P (wj|x) 对一切j ̸= i
成立时,x ∈ wi。
2
模式识别(第二版)习题解答
解:对于c类情况,最小错误率贝叶斯决策规则为: 如果 P (wi|x) = max P (wj|x),则x ∈ wi。利用贝叶斯定理可以将其写成先验概率和
(2) Σ为半正定矩阵所以r(a, b) = (a − b)T Σ−1(a − b) ≥ 0,只有当a = b时,才有r(a, b) = 0。
(3) Σ−1可对角化,Σ−1 = P ΛP T
h11 h12 · · · h1d
• 2.17 若将Σ−1矩阵写为:Σ−1 = h...12
h22 ...
P (w1) P (w2)
= 0。所以判别规则为当(x−u1)T (x−u1) > (x−u2)T (x−u2)则x ∈ w1,反
之则s ∈ w2。即将x判给离它最近的ui的那个类。
[
• 2.24 在习题2.23中若Σ1 ̸= Σ2,Σ1 =
1
1
2
策规则。
1]
2
1
,Σ2
=
[ 1
−
1 2
−
1 2
] ,写出负对数似然比决
1
6
模式识别(第二版)习题解答
解:
h(x) = − ln [l(x)]
= − ln p(x|w1) + ln p(x|w2)
=
1 2 (x1
−
u1)T
Σ−1 1(x1
−
u1)
−
1 2 (x2
机器学习与模式识别-第3章_概率密度函数的估计
设计贝叶斯分类器
第一步, 利用样本集估计
p( x i )
和 P(i )
ˆ ( ) ˆ ( x i ) 和 P 分别记为 p i
第二步, 将估计量代入贝叶斯决策规则中 是否能达到理论结果?
N
时
ˆ ( x i ) 收敛于 p( x i ) p
ˆ ( ) P i
收敛于
2 ˆ ˆ ( , ) ( )
定理: 如果损失函数为二次函数,即
2 ˆ ˆ ( ) ( )
则
ˆ 为在给定x时 的贝叶斯估计量
的条件期望,即
ˆ E[ x] p( x)d
参数估计问题: 设有一个样本集
,要求我们找出估计量 ˆ 用来估计 所属总体分布的某个真实参数 使带来的
3.2 参数估计的基本概念
(1)统计量: 样本中包含着总体的信息,针对不同要求构 造出样本的某种函数,这种函数在统计学中称统计量.
(2) 参数空间: 假设总体概率密度函数形式已知,未知分 布中的参数 的全部可容许值组成的集合称为参数空间,记为 (3) 点估计、估计量、估计值:点估计问题就是要构造 ˆ 一个统计量 d ( x1 , x2 ,...xN ) 作为参数 的估计
n T 1 1 1 P( X k | ) log[ 2 | |] X k X k 2 2
所以在正态分布时
代入上式得
X
1 k 1
N
k
0
0
X
1 k 1
N
k
所以
( X
1 k 1
结论:①μ 的估计即为学习样本的算术平均 ②估计的协方差矩阵是矩阵 X k 术平均(nⅹn阵列, nⅹn个值)
模式识别(李春权)第3章概率密度估计
基本方法
设样本集为D={x1,x2,x3},每个样本xi对以它为 中心,宽度为h的范围内分布的贡献为a,要想估 计p(x),可以把每个样本点的贡献相加近似作为这 点的密度,对任意点都这样做,则得到分布p(x)。 当N足够大时,将有好的估计效果。
1 4 2 2
© 李春权 模式识别
4 3 4 6
哈尔滨医科大学
W1 W1 W2 W2
生物信息科学与技术学院 2012 28
计算机求解:计算样本均值向量和协方差矩阵
已知 y<-matrix(c(1,1,4,2,4,3),3,2) 计算均值向量apply(y,2,mean) 得到结果为 2 3 用cov(y)*2/3计算样本协方差矩阵得: [,1] [,2] [1,] 2 0.0000000 [2,] 0 0.6666667
R
(如果R足够小,则p(x)几乎不变)
k/N ˆ ( x) p V
© 李春权 模式识别 哈尔滨医科大学 生物信息科学与技术学院 2012 23
两种主要方法:Parzen窗法和kN-近邻法
k/N ˆ ( x) p V
Parzen窗法
固定体积(例如: ),计算落 入区域的样本数k kN-近邻法 k N 固定落入区域样本数k(例如: ),计算落入k个样本需要的体积V
1 ˆ 1 N
x
k 1
N
k
© 李春权
2
1 2 N
哈尔滨医科大学
(x
k 1
N
k
ˆ)
2
模式识别
生物信息科学与技术学院
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正态分布的均值估计 一维正态分布:已知σ2,估计μ 假设概率密度服从正态分布 P(X|μ )=N(μ ,σ2), P(μ )=N(μ 0,σ02) 第i类学习样本xi=(x1, x2,…. xN)T,
后验概率
P( | X i )
利用上式求出 i 的估值 ,即为 i =
有时上式是多解的, 上图有5个解,只有一个解最大即.
多维正态分布情况
① ∑已知, μ 未知,估计μ
N 服从正态分布 i log P( X k | ) 0 待估参数为 1 k 1
P( X i | i )
概率密度函数的估计
设计贝叶斯分类器
第一步, 利用样本集估计
p( x i )
和 P(i )
ˆ ( ) ˆ ( x i ) 和 P 分别记为 p i
第二步, 将估计量代入贝叶斯决策规则中 是否能达到理论结果?
N
时
ˆ ( x i ) 收敛于 p( x i ) p
ˆ ( ) P i
收敛于
n T 1 1 1 P( X k | ) log[ 2 | |] X k X k 2 2
所以在正态分布时
代入上式得
X
1 k 1
N
k
0
0
X
1 k 1
N
k
所以
( X
1 k 1
ˆ
称为 的估计量
(i ) (i ) x ,... x 如果 1 N 是属于类别 i 的几个样本的观察值,
ˆ 的具体数值, 代入统计量d就得到对于第i类的
这一数值称为 的估计值.
区间估计: 给出区间 (d1 , d 2 ) 作为
可能的取值范围
这个区间叫置信区间,这类问题称为区间估计.
N
k
N ) 0
1 N
X
k 1
N
k
这说明未知均值的最大似然估计正好是训练样本的算术 平均。
② ∑, μ 均未知 A. 一维情况:n=1对于每个学习样本只有一个特征的简单 情况:
2 , 1 1 2 1
i
1 1 log P( X k | ) log 2 2 X k 1 2 2 2 上式得
N
2
(n= X k | ) ( X k 1) 0 k 1 1 k 1 2
N 1 ( X k 1) i log P( X k | ) [ ]0 2 2 2 2 2 k 1 2 k 1 N 2
与最大似然估计相似,只
贝叶斯学习
前面学习了两种参数估计的方法.最终目的是估计总体分布
p( x )
X
i
求贝叶斯估计步骤: ① 确定θ的先验分布P(θ),待估参数为随机变量。 ② 用第i类样本xi=(x1, x2,…. xN)T求出样本的联合概率密 度分布P(xi|θ),它是θ的函数。 P( X i | ).P( ) i P( | X ) i ③ 利用贝叶斯公式,求θ的后验概率 P ( | ) P( )d X 4.
2 ˆ ˆ ( , ) ( )
定理: 如果损失函数为二次函数,即
2 ˆ ˆ ( ) ( )
则
ˆ 为在给定x时 的贝叶斯估计量
的条件期望,即
ˆ E[ x] p( x)d
参数估计问题: 设有一个样本集
,要求我们找出估计量 ˆ 用来估计 所属总体分布的某个真实参数 使带来的
称为相对于样本集 的 的似然函数
似然函数的定义:
l ( ) p( x1 , x2 ,...xN ) p( x1 ) p( x2 )... p( xN )
最大似然估计量:令 l ( ) 为样本集 的似然函数
x1 , x2 ,...xN 如果 ˆ d () d ( x1 , x2, ...xN ) 是参数空间中
N 1 i ... log P ( | )0 X k k 1 P(Xi/θi) p N i log P ( | )0 X k k 1 1 ......... ......... N log P ( X k | i ) 0 k 1 p
贝叶斯风险最小,即为贝叶斯估计.
最大似然估计是把待估的参数看作固定的未知量,而贝叶斯 估计则是把待估的参数作为具有某种先验分布的随机变量,通 过对第i类学习样本Xi的观察,使概率密度分布P(Xi/θ)转化为 后验概率P(θ/Xi) ,再求贝叶斯估计。 估计步骤: ① 确定θ的先验分布P(θ),待估参数为随机变量。 ② 用第i类样本xi=(x1, x2,…. xN)T求出样本的联合概率密度分布 P(xi|θ),它是θ的函数。 i P ( | ).P( ) X i ③ 利用贝叶斯公式,求θ的后验概率 P( | X ) i P ( | ) P( )d X
1 N 1 2 1 N 0 a' ' exp{ [( 2 2 ) 2( 2 Xk 2 ) ]} 2 0 k 1 0
其中a’,a’’包含了所有与μ 无关的因子
2
1 1 0 2 exp[ ]} 2 0 2
∴P(μ | xi)是u的二次函数的指数函数 ∴P(μ | xi)仍然是一个正态函数, P(μ |Xi)=N(μ N,σN2)
2 2 N 0 解以上两式得 N Xk 0 2 2 2 2 N 0 k 1 N 0 2 2 0 2 N N 02 2
将μ N,σN2代入P(μ |Xi)可以得到后验概率,再用公式
P( | X i )d , 求的估计
j 1
c
i 1,2,...a
R(ak x) min R(ai x)
i 1,... a
ak
就是最小风险贝叶斯决策
ˆ 的期望损失, ˆ 为给定 x 条件下估计量 R( x)
称条件风险,我们定义:如果
ˆ 使条件风险 的估计量
ˆ 是关于 最小,则称
的贝叶斯估计量.
损失函数有不同的定义,此处我们规定损失函数为平方 误差损失函数.
3.2 参数估计的基本概念
(1)统计量: 样本中包含着总体的信息,针对不同要求构 造出样本的某种函数,这种函数在统计学中称统计量.
(2) 参数空间: 假设总体概率密度函数形式已知,未知分 布中的参数 的全部可容许值组成的集合称为参数空间,记为 (3) 点估计、估计量、估计值:点估计问题就是要构造 ˆ 一个统计量 d ( x1 , x2 ,...xN ) 作为参数 的估计
结论:①μ 的估计即为学习样本的算术平均 ②估计的协方差矩阵是矩阵 X k 术平均(nⅹn阵列, nⅹn个值)
Xk
T
的算
3.2.2 贝叶斯估计和贝叶斯学习
最小风险贝叶斯决策
R(ai x) E[ (ai , j )] (ai , j ) P( j x)
(4)假定 i 中不包含关于 j ( j i ) 的信息,即
不同类别的参数在函数上是独立的
估计过程
某类样本集中包含有N个样本
x1 , x2 ,...xN
由样本独立抽取假设
p( ) p( x1 , x2 ,...xN ) p( xk )
k 1
N
p( )
1 N 1 1 X k N k 1
1 2 2 1 N
k 1
N
Xk
2
即学习样本的算术平均 样本方差
• 结论: 1.正态总体均值的最大似然估计即为学习样本的算术平均 2. 正态总体方差的最大似然估计与样本的方差不同,当 N 较大的时候,二者的差别不大。 多维情况:n个特征 估计值: T 1 N 1 N 1 Xk 2 N Xk Xk k 1 N k 1
ˆ 就是 的最大 能使似然函数极大化的 ,那么 似然估计量.
第i类样本的类条件概率密度: P(Xi/ωi)= P(Xi/ωi﹒θi) = P(Xi/θi) 原属于i类的学习样本为Xi=(X1 , X2 ,…XN,)T i=1,2,…M 求θi的最大似然估计就是把P(Xi/θi)看成θi的函数,求 出使它最大时的θi值。 ∵学习样本独立从总体样本集中抽取的
P( | X i )d N
(因为正态分布)
2 2 N 0 N N Xk 0 2 2 2 2 N 0 k 1 N 0
P( N ) N (0 , 0 ) N (0,1)
1 N N Xk N 1 k 1 是分母不同
i=1,2,…M
P( X i | ).P( )
i P ( | ) P( )d X
(贝叶斯公式)
因为N个样本是独立抽取的,所以上式可以写成
P( | X i ) a P( X k | ).P( ) k 1 1 a i 其中 P ( X | )P( )d
2 1 1 N i P ( | ) exp[ ] X 另外后验概率可以直接写成正态形式: 2 N 2 N
比较以上两个式子,对应的系数应该相等 ∴ 1 N 1 2 2 2 N 0 N 0 1 N Xk 2 2 2 0 N k 1
无关
N
为比例因子,只与x有关,与μ