模式识别 第五章 统计决策中的训练、学习与错误率测试、估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5.1 统计推断概述
基本概念
ˆ 渐近无偏估计:即 lim E q N = E q 。当不能对所 N ˆ ˆ N 有 的都有 E q = E q 时,希望估计量 q N 是渐 N 近无偏估计。
5.1 统计推断概述
均方收敛: 均方逼近: 均方收敛:
5.2 参数估计
均值矢量和协方差阵的矩法估计
协方差阵 : = E( x )(x )
协方差阵无偏估计 :
1 ˆ =C = ( x j )(x j ) N 1 j =1
或
N
1 N = ( x j m( N ))(x j m( N )) N 1 j =1
5.2 参数估计
均值矢量和协方差阵的矩法估计
设 m( N ) 和 C ( N )是由 N 个样本算得的均矢和协方差阵, 若再加入一个新的样本 xN 1 则可采用递推公式进行估算
m( N 1) =
N 1 1 N 1 ( x j x N 1 ) xj = N 1 j =1 N 1 j =1 1 = ( Nm( N ) xN 1 ) N 1 1 = m( N ) ( xN 1 m( N )) N 1 初始值: m(1) = x1
的似然函数。
5.2
Hale Waihona Puke 参数估计最大似然估计(MLE)
(Maximum Likelihood Estimate)
(N) D p ( X , q) p( x1, x2 ,L, xN , q)
(N) 上式中不同的 q , p( X , q) 将不同。
( N ) (N) p( X , q)实际上就是条件概密 p( X q)
从样本中抽取出来。为此,要构造训练样本的
某种函数,这种函数在统计学中称为统计量。
5.1 统计推断概述
基本概念
理论量(或理论分布):p( x ) P( ) P(i x) i i
数学期望、方差等 经验分布:由样本推断的分布称为经验分布。
参数空间:在统计学中,把未知参数q的可能值的 集合称为参数空间,记为Q。 点估计、估计量:针对某未知参数q构造一个统计 量作为q的估计qˆ ,这种估计称为点估计。 qˆ 称为q的估计量。
ln p( xk | q ) 1 = ( xk )
k =1
N
1
( xk ) = 0
1 N ˆ = xk N k =1
5.2 参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
这说明,样本总体的未知均值的最大似然估计 就是训练样本的平均值。它的几何解释就是:若把
由于 q 是概密的一个确定性的参数集, 因此
如果各个 x j ( j = 1,2,L, N )是独立抽取的,则进
一步有:
N (N ) p( X q) = p( x1 q) p( x2 q)L p( xN q) = p( x j q) j =1
5.2
参数估计
态分布的情况。 最大似然估计是参数估计中最重要的方法。
5.2 参数估计
似然函数:
最大似然估计(MLE)
(Maximum Likelihood Estimate)
设一个总体 x 的概密为 p( x , q) ,其中 q 是一个
当 N 个随机样本取定值 x1 , x2 ,L, xN 时, 未知参数集, 联合概密 p( x1, x2 ,L, xN , q) 称为相对于 x1 , x2 ,L, xN 的 q
N个样本看成是一群质点,则样本均值便是它们的
质心。
1 1 ln p( xk | q ) = ln(2 )q 2 ( x k q1 ) 2 2 2q 2
1 ( x k q1 ) q2 ln p( xk | q ) = 2 q 1 ( x k q1 ) 2 2q 2 q 2 2
但在实际中,这些知识往往是不知道的,这就需 要用已知的样本进行学习或训练。也就是说利用 统计推断理论中的估计方法,从样本集数据中估 计这些参数。
本章目的:已知类别的样本(训练样本)→ 学习或训练→获得类概密 p( x i )
5.1 统计推断概述
参数估计
) 的函数类型,即知道 如果已知 类的概密 p(x i i 类的 概型,但不知道其中的参数或参数集 i {qi }D q = (q1 , q 2 , L , q m ) 可采用参数估计的方法
1 ˆ)=0 ( x q k 1 ˆ k =1 q
2
N
2 ˆ ( x q ) 1 k 1 =0 2 ˆ k =1 ˆ q k =1 q N N 2 2
1 ˆ)=0 ( x q k 1 ˆ k =1 q
2
N
2 ˆ ( x k q1 ) 1 =0 2 ˆ k =1 ˆ q k =1 q N N 2 2
qˆ
对数似然方程 组
q
作为极值的必要条件。
5.2 参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
求出上面方程组中的一切解及边界值,计算使 (N) p( X q) 最大的 q 作为 q 的最大似然估计。 因此,最大似然的关键是必须知道概型。 需要指出的是:对于具体问题,有时用上述 方法不一定可行,原因之一是似然函数在最大值
ˆ lim Var q N = N
基本概念
ˆ ˆ lim E (q q N )( q q N ) = N
又称相合估计
ˆ 依概 一致估计: 当样本无限增多时,估计量 q N ˆ 率收敛于 q , lim P ( q N q > ) = 0
均值矢量和协方差阵后,类的概密也就完全确定了。
均值矢量:
= Ex = xp( x)d x D (1 , 2 ,L, n )
均值无偏估计:
1 ˆ = N
xj
j =1
N
5.2 参数估计
均值矢量和协方差阵的矩法估计
协方差阵 : = E( x )(x ) = Exx
5.2 参数估计
均值矢量和协方差阵的矩法估计
5.2 参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
如同矩法估计一样,最大似然估计要求已知
总体的概型,即概密的具体函数形式,它也将被
估计量作为确定性的变量对待。但最大似然估计
适用范围比矩法估计更宽一些,可以用于不是正
点处没有零斜率。
5.2 参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
下面我们以多维正态分布为例进行说明。 (1)假设Σ是已知的,未知的只是均值μ,则:
ln p( xk | q ) =
1 2
T 1 ln(2 ) d | | 1 ( x ) ( xk ) k 2
C (1) = x1 x1 'm(1)m(1)' = x1 x1 ' x1 x1 ' =
1 N N 2 1 = x j x j ' m( N )m( N )' m( N ) x N 1 ' x N 1 x N 1 ' N j =1 N 1 N 1 N 1 1 N 1 1 N N ( x m ( N ))( x m ( N ))' = [ x j x j ' m( N )m( N )' ] N 1 N 1 N 1 N N 1 j =1 N 1 N 1 1 = C(N ) ( x N 1 m ( N ))( x N 1 m ( N ))' N N 1
N
第五章 统计决策中的训练、学习 与错误率测试、估计
5· 2
参数估计
5.2 参数估计
5.2.1 均值矢量和协方差阵的矩法估计
5.2.2 最大似然估计(MLE)
5.2.3 贝叶斯估计(BE)
5.2 参数估计
均值矢量和协方差阵的矩法估计
矩法估计是用样本(的统计)矩作为总体(理论)矩的估 值。若类的概型为正态分布,我们用矩法估计出类的
5.2 参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
在似然函数可微的条件下,
求下面微分方程组的解: p( X
p ( X
(N )
(N )
q)
q
q)
=0
或等价地求
(N) N ln p( X q) = ln p( x j q) = 0 q j =1 q
2 11 2 21 = 2 n1 2 12 2 22
L L L L
2 n2
2 1 n 2 2n 2 nn
= E( xk k )(xl l )
2 kl
= ( xk k )(xl l ) p( xk , xl )dxk dxl
, 确定未知参数 q,当解得这些参数 后 p(x i)也就确定了。
参数估计有两类方法: 1. 将参数作为非随机量处理,如矩法估计、 最大似然估计; 2. 将参数作为随机变量,贝叶斯估计就属此 类。
5.1 统计推断概述
非参数估计
当不知道类的概型时,就要采用非参数估计的
方法,这种方法也称为总体推断,这类方法有: 1. p-窗法 2. 有限项正交函数级数逼近法 3. 随机逼近法
5.1 统计推断概述
基本概念
区间估计:在一定置信度条件下估计某一未知参数q 的取值范围,称之为置信区间,这类估计成为 区间估计。 为了准确地对某一类的分布进行参数估计或总 体推断,应只使用该类的样本。 就是说在进行参数估计时,应对各类进行独立 的参数估计或总体推断。因此在以后的论述中,如
无必要,不特别言明类别。
第五章 统计决策中的训练、学习 与错误率测试、估计
统计推断概述
参数估计
概密的窗函数估计法 有限项正交函数级数逼近法
第五章 统计决策中的训练、学习 与错误率测试、估计
5· 1 统计推断概述
5.1 统计推断概述
在上一章的学习中,我们一直假设类的条件概
率密度函数是已知的,然后去设计贝叶斯分类器。
5.1 统计推断概述
基本概念
母体(总体):一个模式类称为一个总体或母体 母体的子样:一个模式类中某些模式(即母体中的
一些元素)的集合称为这个母体的子样。母体的
子样含有母体的某些信息,可以通过构造样本 的函数来获得。 统计量:一般来说,每一个样本都包含着母体的某 些信息,为了估计未知参数就要把有用的信息
5.2 参数估计
均值矢量和协方差阵的矩法估计
初始值:协方差矩阵的递推估计式 :
1 N 1 C ( N 1) = ( x j m( N 1))(x j m( N 1))' N j =1 N 1 1 N 1 = x m( N 1)m( N 1)' jxj' N j =1 N 1 N 1 N 1 1 = x j x j ' xN 1 xN 1 ' [ ( Nm( N ) xN 1 )(Nm( N ) xN 1 )' ] 2 N j =1 N N ( N 1)
最大似然估计(MLE)
(Maximum Likelihood Estimate)
最大似然估计:
5.2
参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
在实际中多是独立取样和经常处理正态变量,而 且对数函数是单值单调函数,对数似然函数与似然
函数在相同的 q 处取得最大值。