非参数密度估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十章非参数密度估计

密度估计的参数解是首先假设一个参数模型,X1,…,X n~i.i.d. f Xθ,其中θ为低维参数向量。然后通过一些估计方法得到θ,如极大似然估计,矩估计等等。然后到处密度函数。此方法的危险性在于初始假设模型的不正确可能导致严重的推断错误。

一种常见的非参数密度估计是直方图,他是一种分段常数的密度估计。另一种基本的密度估计可通过考虑密度函数如何将概率分配到各区间上受到启发,如果f 足够光滑,我们假设f将某概率不但赋予给x i点,而且赋予给x i周围的一个区域。因此,要从X1,…,X n~i.i.d.f估计f,将X i周围区域的概率密度累加起来时合理的。

10.1 绩效度量

绩效度量是为了评价密度估计量的性质。令f为整个支撑区域上f的估计量,引入积分平方误差

ISE h= f x−f x 2 dx

−∞

如果我们想讨论估计量的一般性质,那么在所有可能的样本上对ISE h进行平均是比较合理的。积分平均误差为

MISE h=E{ISE h}

其中的期望是关于分布f。因此MISE h可以看成是误差(ISE h)关于抽样密度的整体度量的平均值。又由期望和积分的可交换性,

MISE h=MSE f x dx

其中

MSE f x=E f x−f x 2

=var f x+ bias f x2

bias f x=E f x−f(x)

MISE和ISE都可用来研究选择h值的准则。两者的好坏已知都有争论,详见Birgit Grunda; Peter Hallb; J. S. Marronc.Loss and risk in smoothing parameter selection

Peter Hall and J. S. Marron.lower bounds for bandwidth selection in density estimation

10.2 核密度估计

一元核密度估计允许采取灵活的加权方案,即拟合

f x=1

nh

K(

x−X i

)

n

i=1

(10.6)

其中K为核密度,h为固定值,通常称为窗宽。一些常见的核为:

(10.6)的估计量为固定窗宽核密度估计。而窗宽的大小对估计量有很大的影响,小的窗宽会将密度分配得太局限于观测数据附近,导致估计密度函数有很多错误的峰值;而大的窗宽会将密度贡献分布得太开,从而会因光滑而遗失掉f的一些特征。

10.2.1 窗宽的选择

MISE等于积分均方误差。这表明窗宽的选择是偏差和方差的折衷

例10.1(双峰密度)

实际上,我们只需对h试一串值,然后选择一个比较合适的。当然,我们希望得到一个相对正规的窗宽选择程序:如自动算法。

假设K是连续对称的概率密度函数,均值为0,方差0<σK2<∞.令R(g)表示给定函数g的粗超度的度量,定义为

R g=g2(z)dz

然后假设R K<∞且f足够光滑。即有二阶有界连续导数。

MISE h=var f x+ bias f x2dx

E f x=1

K

x−u

f u du=K(t)f(x− t)dt

在上式中用Taylor级数展开

f x− t=f x− tf′x+ 2t2f′′x

2

+o( 2)

因此

bias f x2dx= 4σK4R f′′

4

+o( 4)

同样可以计算得到:

var f x=1

f x R K+o(

1

)

将其对x积分得

var f x=R K

n

+o(

1

n

)

因此

MISE =AMISE +o 1

nh

+h4,

其中

AMISE h =R K nh + 4σK 4R f

′′ 4

称为渐进均方误差,h 最小化上式可得

= R K

K 4 1

5

很多窗宽的选择方法依赖于优化或者找到关于h 的函数的根,例如最小化AMISE(h)的一个近似量。 1、交叉验证

许多窗宽的选择是把f

x 作为 f 的估计量而与h 联系起来,用某个量Q(h)量化,如果Q 表示根据对在某种意义上对观测数据的拟合程度,那么观测数据在计算f

x 和计算拟合程度时候用了两次,这样会对观测提供一个过于乐观的观点,为纠正这一问题,可以采用交叉验证,计算f x 在第i 个点的质量时,模型采用除去第i 个点之外的所有数据拟合,令

f

−i X i =1

n −1 K X i −X j

j ≠i

表示X i 点处核密度估计量用除X i 外所有数据估计的密度。交叉验证中一种常见的Q 的选择是伪似然

PL h = f

−i X i n

i =1

尽管此方法简单,但其得到的密度估计常常有太多的摆动且对异常值过于敏感。且其估计量很多时候是不相合的 另一种方法是将积分平方误差写成

ISE h = f

2 x dx −2E f x + f 2 x dx =R f −2E f x +R (f ) 组后一项是常数,中间项可以通过2

n f

−i X i n i =1来估计,因此通过关于h 最小化 UCV h =R f

−2

f −i X i n

i =1

得到窗宽,此方法称为无偏交叉验证准则。如果不可能解析计算R(f ),那么计算上式的最好的方式是寻找一个核来简化解析,对于正态核

相关文档
最新文档