模式识别第五章统计决策中的训练、学习与错误率测试、估计

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

5.1 统计推断概述
基本概念
ˆ 渐近无偏估计：即 lim E q N = E q 。当不能对所 N ˆ ˆ N 有的都有 E q = E q 时，希望估计量 q N 是渐 N 近无偏估计。

5.1 统计推断概述
均方收敛: 均方逼近: 均方收敛:

5.2 参数估计
均值矢量和协方差阵的矩法估计
协方差阵 : = E( x )(x )
协方差阵无偏估计 :
1 ˆ =C = ( x j )(x j ) N 1 j =1
或
N
1 N = ( x j m( N ))(x j m( N )) N 1 j =1
5.2 参数估计
均值矢量和协方差阵的矩法估计
设 m( N ) 和 C ( N )是由 N 个样本算得的均矢和协方差阵，若再加入一个新的样本 xN 1 则可采用递推公式进行估算
m( N 1) =
N 1 1 N 1 ( x j x N 1 ) xj = N 1 j =1 N 1 j =1 1 = ( Nm( N ) xN 1 ) N 1 1 = m( N ) ( xN 1 m( N )) N 1 初始值: m(1) = x1
的似然函数。
5.2
Hale Waihona Puke 参数估计最大似然估计(MLE)
(Maximum Likelihood Estimate)
(N) D p ( X , q) p( x1, x2 ,L, xN , q)
(N) 上式中不同的 q , p( X , q) 将不同。
( N ) (N) p( X , q)实际上就是条件概密 p( X q)
从样本中抽取出来。为此，要构造训练样本的
某种函数，这种函数在统计学中称为统计量。
5.1 统计推断概述
基本概念
理论量（或理论分布）：p( x ) P( ) P(i x) i i
数学期望、方差等经验分布：由样本推断的分布称为经验分布。
参数空间：在统计学中，把未知参数q的可能值的集合称为参数空间，记为Q。点估计、估计量：针对某未知参数q构造一个统计量作为q的估计qˆ ，这种估计称为点估计。 qˆ 称为q的估计量。
ln p( xk | q ) 1 = ( xk )

k =1
N
1
( xk ) = 0
1 N ˆ = xk N k =1
5.2 参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
这说明，样本总体的未知均值的最大似然估计就是训练样本的平均值。它的几何解释就是：若把
由于 q 是概密的一个确定性的参数集, 因此
如果各个 x j ( j = 1,2,L, N )是独立抽取的，则进
一步有：
N (N ) p( X q) = p( x1 q) p( x2 q)L p( xN q) = p( x j q) j =1
5.2
参数估计
态分布的情况。最大似然估计是参数估计中最重要的方法。
5.2 参数估计
似然函数:
最大似然估计(MLE)
(Maximum Likelihood Estimate)
设一个总体 x 的概密为 p( x , q) ，其中 q 是一个
当 N 个随机样本取定值 x1 , x2 ,L, xN 时，未知参数集，联合概密 p( x1, x2 ,L, xN , q) 称为相对于 x1 , x2 ,L, xN 的 q
N个样本看成是一群质点，则样本均值便是它们的
质心。
1 1 ln p( xk | q ) = ln(2 )q 2 ( x k q1 ) 2 2 2q 2
1 ( x k q1 ) q2 ln p( xk | q ) = 2 q 1 ( x k q1 ) 2 2q 2 q 2 2
但在实际中，这些知识往往是不知道的，这就需要用已知的样本进行学习或训练。也就是说利用统计推断理论中的估计方法，从样本集数据中估计这些参数。
本章目的：已知类别的样本（训练样本）→ 学习或训练→获得类概密 p( x i )
5.1 统计推断概述
参数估计
) 的函数类型，即知道如果已知类的概密 p(x i i 类的概型，但不知道其中的参数或参数集 i {qi }D q = (q1 , q 2 , L , q m ) 可采用参数估计的方法
1 ˆ)=0 ( x q k 1 ˆ k =1 q
2
N
2 ˆ ( x q ) 1 k 1 =0 2 ˆ k =1 ˆ q k =1 q N N 2 2
1 ˆ)=0 ( x q k 1 ˆ k =1 q
2
N
2 ˆ ( x k q1 ) 1 =0 2 ˆ k =1 ˆ q k =1 q N N 2 2

qˆ
对数似然方程组
q
作为极值的必要条件。
5.2 参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
求出上面方程组中的一切解及边界值，计算使 (N) p( X q) 最大的 q 作为 q 的最大似然估计。因此，最大似然的关键是必须知道概型。需要指出的是：对于具体问题，有时用上述方法不一定可行，原因之一是似然函数在最大值
ˆ lim Var q N = N
基本概念
ˆ ˆ lim E (q q N )( q q N ) = N
又称相合估计
ˆ 依概一致估计: 当样本无限增多时，估计量 q N ˆ 率收敛于 q ， lim P ( q N q > ) = 0
均值矢量和协方差阵后，类的概密也就完全确定了。
均值矢量:
= Ex = xp( x)d x D (1 , 2 ,L, n )

均值无偏估计:
1 ˆ = N
xj
j =1
N
5.2 参数估计
均值矢量和协方差阵的矩法估计
协方差阵 : = E( x )(x ) = Exx
5.2 参数估计
均值矢量和协方差阵的矩法估计
5.2 参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
如同矩法估计一样，最大似然估计要求已知
总体的概型，即概密的具体函数形式，它也将被
估计量作为确定性的变量对待。但最大似然估计
适用范围比矩法估计更宽一些，可以用于不是正
点处没有零斜率。
5.2 参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
下面我们以多维正态分布为例进行说明。（1）假设Σ是已知的，未知的只是均值μ，则：
ln p( xk | q ) =
1 2
T 1 ln(2 ) d | | 1 ( x ) ( xk ) k 2
C (1) = x1 x1 'm(1)m(1)' = x1 x1 ' x1 x1 ' =
1 N N 2 1 = x j x j ' m( N )m( N )' m( N ) x N 1 ' x N 1 x N 1 ' N j =1 N 1 N 1 N 1 1 N 1 1 N N ( x m ( N ))( x m ( N ))' = [ x j x j ' m( N )m( N )' ] N 1 N 1 N 1 N N 1 j =1 N 1 N 1 1 = C(N ) ( x N 1 m ( N ))( x N 1 m ( N ))' N N 1
N
第五章统计决策中的训练、学习与错误率测试、估计
5· 2
参数估计
5.2 参数估计
5.2.1 均值矢量和协方差阵的矩法估计
5.2.2 最大似然估计(MLE)
5.2.3 贝叶斯估计(BE)
5.2 参数估计
均值矢量和协方差阵的矩法估计
矩法估计是用样本(的统计)矩作为总体(理论)矩的估值。若类的概型为正态分布，我们用矩法估计出类的
5.2 参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
在似然函数可微的条件下，
求下面微分方程组的解： p( X
p ( X
(N )
(N )
q)
q
q)
=0
或等价地求
(N) N ln p( X q) = ln p( x j q) = 0 q j =1 q
2 11 2 21 = 2 n1 2 12 2 22
L L L L
2 n2
2 1 n 2 2n 2 nn
= E( xk k )(xl l )
2 kl
= ( xk k )(xl l ) p( xk , xl )dxk dxl
，确定未知参数 q，当解得这些参数后 p(x i)也就确定了。
参数估计有两类方法: 1. 将参数作为非随机量处理，如矩法估计、最大似然估计； 2. 将参数作为随机变量，贝叶斯估计就属此类。
5.1 统计推断概述
非参数估计
当不知道类的概型时，就要采用非参数估计的
方法，这种方法也称为总体推断，这类方法有： 1. p-窗法 2. 有限项正交函数级数逼近法 3. 随机逼近法
5.1 统计推断概述
基本概念
区间估计：在一定置信度条件下估计某一未知参数q 的取值范围，称之为置信区间，这类估计成为区间估计。为了准确地对某一类的分布进行参数估计或总体推断，应只使用该类的样本。就是说在进行参数估计时，应对各类进行独立的参数估计或总体推断。因此在以后的论述中，如
无必要，不特别言明类别。
第五章统计决策中的训练、学习与错误率测试、估计

统计推断概述

参数估计
概密的窗函数估计法有限项正交函数级数逼近法

第五章统计决策中的训练、学习与错误率测试、估计
5· 1 统计推断概述
5.1 统计推断概述
在上一章的学习中,我们一直假设类的条件概
率密度函数是已知的,然后去设计贝叶斯分类器。
5.1 统计推断概述
基本概念
母体（总体）：一个模式类称为一个总体或母体母体的子样：一个模式类中某些模式(即母体中的
一些元素)的集合称为这个母体的子样。母体的
子样含有母体的某些信息，可以通过构造样本的函数来获得。统计量：一般来说，每一个样本都包含着母体的某些信息，为了估计未知参数就要把有用的信息
5.2 参数估计
均值矢量和协方差阵的矩法估计
初始值:协方差矩阵的递推估计式 :
1 N 1 C ( N 1) = ( x j m( N 1))(x j m( N 1))' N j =1 N 1 1 N 1 = x m( N 1)m( N 1)' jxj' N j =1 N 1 N 1 N 1 1 = x j x j ' xN 1 xN 1 ' [ ( Nm( N ) xN 1 )(Nm( N ) xN 1 )' ] 2 N j =1 N N ( N 1)
最大似然估计(MLE)
(Maximum Likelihood Estimate)
最大似然估计：
5.2
参数估计
最大似然估计(MLE)
(Maximum Likelihood Estimate)
在实际中多是独立取样和经常处理正态变量，而且对数函数是单值单调函数，对数似然函数与似然
函数在相同的 q 处取得最大值。

模式识别 第五章 统计决策中的训练、学习与错误率测试、估计

模式识别第五章统计决策中的训练、学习与错误率测试、估计