核密度估计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
核密度估计
对于一组关于X 和Y 观测数据
(){}
1
,n i
i
i x y =,我们假设它们存在如下关系:
()i i i y m x ε=+,通常我们的目的在于估计()m x 的形式。在样本数量有限的情况下,我们
无法准确估计()m x 的形式。这时,可以采用非参数方法。在非参数方法中,并不假定也不固定()m x 的形式,仅假设()m x 满足一定的光滑性,函数在每一点的值都由数据决定。显然,由于随机扰动的影响数据有很大的波动,极不光滑。因此要去除干扰使图形光滑。
最简单最直接的方法就是取多点平均,也就是每一点()m x 的值都由离x 最近的多个数据点所对应的y 值的平均值得到。显然,如果用来平均的点越多,所得的曲线越光滑。当然,如果用n 个数据点来平均,则()m x 为常数,这时它最光滑,但失去了大量的信息,拟合的残差也很大。所以说,这就存在了一个平衡的问题,也就是说,要决定每个数据点在估计()m x 的值时要起到的作用问题。直观上,和x 点越近的数据对决定()m x 的值所应起越大的作用,这就需要加权平均。因此,如何选择权函数来光滑及光滑到何种程度即是我们这里所关心的核心问题。 一、核密度估计
对于数据12,,
,n x x x ,核密度估计的形式为:
()11ˆn i h
i x x f x K nh h
=-⎛⎫= ⎪⎝⎭
∑ 这是一个加权平均,而核函数(kernal function )()K 是一个权函数,核函数的形状
和值域控制着用来估计()f x 在点x 的值时所用数据点的个数和利用的程度,直观来看,核密度估计的好坏依赖于核函数和带宽h 的选取。我们通常考虑的核函数为关于原点对称的且其积分为1,下面四个函数为最为常用的权函数:
Uniform :
()1
12
I t ≤ Epanechikov :
()()23
114
t I t -< Quartic :
()()215
1116
t I t -< Gaussian
21
2t -
对于均匀核函数,112i i
x x x x K I h h -⎛-⎫⎛⎫=≤ ⎪
⎪⎝⎭⎝⎭
作密度函数,则只有i x x h -的绝对值小于1(或者说离x 的距离小于带宽h 的点)才用来估计()f x 的值,不过所有起作用的数据的权重都相同。
对于高斯函数,由()ˆh
f x 的表达式可看出,如果i x 离x 越近,i x x h
-越接近于零,这时密度值i
x x h φ-⎛⎫
⎪⎝⎭
越大,因为正态密度的值域为整个实轴,所以所有的数据都用来估计()ˆh
f x 的值,只不过离x 点越近的点对估计的影响越大,当h 很小的时侯,只有特别接近x 的点才起较大作用,随着h 增大,则远一些的点的作用也随之增加。
如果使用形如Epanechikov 和Quartic 核函数,不但有截断(即离x 的距离大于带宽h 的点则不起作用),并且起作用的数据他们的权重也随着与x 的距离增大而变小。一般说来,核函数的选取对和核估计的好坏的影响远小于带宽h 的选取。
二、带宽的选取
带宽值的选择对估计量()ˆh
f x 的影响很大,如果h 太小,那么密度估计偏向于把概率密度分配得太局限于观测数据附近,致使估计密度函数有很多错误的峰值,如果h 太大,那么密度估计就把概率密度贡献散得太开,这样会光滑掉f 的一些重要特征。
所以,要想判断带宽的好坏,必须了解如何评价密度估计量()ˆh
f x 的性质。通常使用积分均方误差()MSE h ,作为判断密度估计量好坏的准则。
()()41MISE h AMISE h o h nh ⎛⎫
=++ ⎪⎝⎭
,其中,
()()()2
2
44''
4
K x dx
h f x dx
AMISE h nh
σ⎡⎤⎣⎦=
+
⎰⎰
称作渐进均方积分误差。要最小化()AMISE h ,我们必须把h 设在某个中间值,这样
可以避免()ˆh
f x 有过大的偏差(太过光滑)或过大的方差(即过于光滑)。关于h 最小化()AMISE h 表明最好是精确地平衡()AMISE h 中偏差项和方差项的阶数,显然最优的带宽是
()()1
5
2
2
4''K x dx h n f x dx σ⎛⎫ ⎪= ⎪
⎡⎤⎣⎦⎝⎭
⎰⎰ (1) 以下是几种常用的贷款选择方法:
1、拇指法则
简便起见,我们定义()()2R g g z dz =⎰
,针对最小化AMISE 得到的最优带宽中含有未知
量()
''R f ,Silverman 提出一种初等的方法,rule of thumb (拇指法则,即根据经验的方法):把f 用方差和估计方差相匹配的正态密度替换,这就等于用
()
''^
5
R φσ
估计()
''R f 其中φ为
标准正态密度函数,若取K 为高斯密度核函数而σ使用样本方差ˆσ
,Silverman 拇指法则得到1
5
4ˆ3h n σ
⎛⎫= ⎪⎝⎭
2、Plug-in 方法
该方法即是所谓的代入法,其考虑在最优带宽中使用某适当的估计()
''ˆR
f 来代替()''R f ,在众多的方法中,最简单且最常用的即是Sheather and Jones (1991;JRSSB)所提出
的()()''
''
ˆˆR
f R f =而''
ˆ
f 的基于核的估计量为
()2
''
210''3101ˆ1n i
i n i i x x f
x L x nh h
x x L nh h ==⎧⎫-∂⎛⎫=⎨⎬ ⎪∂⎝⎭⎩⎭
-⎛⎫= ⎪⎝⎭
∑∑
其中0h 为带宽,L 为用来估计''f 的核函数。
在对其平方并对x 积分后即可得到()
''ˆR f 。估计f 的最优带宽和估计''
f 或()
''R f 的最优带宽是不同的。根据理论上以及经验上的考虑,Sheather and Jones 建议用简单的拇指法则计算带宽0h ,该带宽用来估计()
''R f ,最后通过(1)式来计算带宽h 。