基于核密度估计优核选择的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
∫
+∞
0
(3) E f̂n (x) - f (x) = E f̂n (x) - Ef̂n (x) + Ef̂n (x) - f (x)
2 n n n 2
[ ] [ = E[ f̂ (x) - Ef̂ (x)] + [Ef̂ (x) - f (x)] = Var f̂ (x) + [Ef̂ (x) - f (x)]
, (11) 其他 K 0 (υ) 可能是优核.能够 根据假定, 当 λ1、λ 2 确定时,
2 K 0 (υ) = (-λ1 - λ 2 υ )/2 0
{
| υ |≤(-λ1 /λ 2)1 2
∫ E[ f (x) - f (x)]
∞ -∞ n
2
dx/ ∫-∞ f 2 (x) dx , 那
∞
么,
4 Mù . U 2 ≃(1/Q) é(nh n )-1 L + 1 h n (8) 4 ë û 引理 3 在满足引理 1 的条件下 15 4 Mù , U 2 ≃(1/Q) é(nh n )-1 L + 1 h n 且当 h opt ≃(L/nM) 时, 4 ë û 2 U opt ≃(5/4Q) n-4/5 M1 5 L 4 5 . (9) h 证明 由表达式 (8) 知 RMISE 是关于窗宽 n 的 h 表达式, 最优窗宽 opt 即就是使 RMISE 的值达到最 2 因此, 将函数 U (h n ) 对 h n 求导, 并令其等 小的 h n 值,
+∞ +∞
(7)
证明 基本假定条件等价于
+∞ 0
1 =0 和 ∫ K (y)dy - 2
于是 (7) 转化为
lim 1 K 2 ( u ) f (x - u)du = f (x) ∫ K 2 (u) du < +∞ , n→∞ h ∫ hn n -∞ -∞ Var f̂n (x) = 1 f (x) ∫ K 2 (u) du + ο(nh n )-1 nh n -∞ ≃ 1 f (x) ∫ K 2 (u) du , nh n -∞
∞
lim uK (u) = 0 或 g 在 (-∞,+∞) 上有界; (3)| u |→∞ 1 K ( u ) g(x - u)du , ( hn → 0 ) , 则当 x ∫ hn h n -∞
+∞ -∞
是 g 的连续点时, 就有
n→∞
hn → 0 , K (×) 是一个 其中 hn 为窗宽, 当 n ® ¥ 时,
12
2K (υ) + λ1 + λ 2 υ2 = 0 , K (υ) =(-λ1 - λ 2 υ2)/2 . 为此, 于是, K (υ) = 0 , 取
∫
+∞
0
(2K (υ) + λ1 + λ 2 υ2)ΔK (υ)dυ = 0 .
得相对积分均方误差 RMISE 最小化来寻求最优核 函数 K 0 = K opt (⋅) , 在引理 2 的结论下, 记 RMISE= U 2 =
+∞
[ ] [
n
]
[ ]
x - Xi ù é = E ê 1 ∑K( ) ú hn û ënh n i = 1 ∞ x -y = 1 2 ∫ K 2( ) f (y)dy hn nh n -∞
∞
2
的拉格朗日乘数和变差的计算方法, 得到下面结论.
12 2 | υ |≤ 5 K 0 (υ) = (3/4(5) )(1 - υ /5) 0 其他 是使得 L 达到最小的优核. +∞ 0
使 L = ∫-∞ K 2 (y)dy 最小化. 为此使用约束条件下极值
∞
引理 3 的结论中, 从 h opt ≃(L/nM) 的结构可以 必须以基本假定为条件, 看出, 欲寻求最优核 K 0 (y) ,
15
定理 1 在满足引理 2 及基本假定的条件下,
{
,
(10)
= 1 ⋅ 1 ∫ K 2 ( u ) f (x - u)du , nh n h n -∞ h n 2 K (⋅) 及 f 的连续性, 由 K (⋅) 、 根据引理 1 就有
2 2 +∞ +∞
1 =0 . ∫ y K (y)dy - 2
2
设 ΔK 表示满足基本假定条件下的一个极值的
微小的偏差, 那么,
+∞ +∞ 2 1 1 K 2 (υ)dυ +λ1 é∫0 K (υ)dυ - ù + λ 2 é∫0 K (υ)υ dυ - ù 2û 2û ë ë 的变差应该是零, 其中 λ1 和 λ 2 是拉格朗日乘子, 因
∞ ∞
3/(5 5) 1/(2 π ) 1/(2 3) 6 9 π π2 - 8 /16
1.000 1.051 1.076 1.015 1.002
+∞
-∞
2 0
+∞
-∞
0
-1/2
-1/2
(3/20)υ2
]
1/ 6 - | y |/6, 当| y | ≤ 6 时 π2 - 8 /4 cos( π2 - 8 /2)y, 当| y | ≤π/ π2 - 8 时
朱亚培,孙
敏
RMISE 达到最小的意义下寻求获得最优核函数, 并对不同核与优核的效率进行了讨论.
关键词:核密度估计; 相对均方积分误差; 核函数; 最优核函数; 窗宽 中图分类号:O212.7 文献标识码:A
文章编号:1671-1351 (2015) 02-0012-03
1 导言和预备知识
是密度估计, 而密度估计中最流行的核估计法是由 Parzen[1]提出的. Benedeti[2]证明了核估计的一致相合 估计的最优收敛 性, 陈希孺[3]证明了选择适当的核, 速度, 朱亚培[4]讨论了核密度估计的最大绝对偏差减 数 K (×) 的选择是必要的. 这里就核密度估计优核的 小的速度. 应用核方法估计密度时, 窗宽{ hn }和核函 概率分布是统计推断的核心, 统计推断的核心
的选择是否适当影响着核估计的精度. 只要它们选 函数 f ( x) . 么,
(3) ∫-∞ y 2 K (y)dy = 1 .
(1)K (×) 是有界核密度函数; (2)K (y) = K (-y) ; 且 f ( x) 二次连续可 引理 2 设密度 f ( x) 有界,
Ef̂n (x) - f (x)≃ 1 f '' (x)h n2 , 2
-∞ -∞
+∞
[
]
2
+∞
(2)
2 E f̂n (x) - f (x) ≃(nh n )-1 f (x) ∫ K 2 (y )dy + 1 h n 4 f '' (x) (6) 4 -∞ ∞ x -y x -y 1 ) f (y)dy(令 = z) 证明 Ef̂n (x) = ∫ K ( hn h n -∞ hn
称为估计的相对均方积分误差 (简记 RMISE) , 它可 用来度量估计量的全局特性. 下, 去寻求最优核函数的讨论. 引理 1[5] K (u) 和 g(x) 都是定义在 R 上的 Borel (2)∫-∞ | K (u) |du < +∞ ;
+∞ +∞
这里提出在相对均方积分误差达到最小的意义
可测函数, 满足 (1)K 在 (-∞,+∞) 上有界;
+∞ -∞
择得当, 核方法可以以任意精度逼近真实概率密度 定义 2 设 f̂n (x) 是 f (x) 在 x 的一个估计量, 那
微,f '' ∈L 2 (R) ,那么,
E ∫ f̂n (x) - f (x) dx/ ∫ f 2 (x)dx
-∞ -∞
+∞
[
]
2
+∞
= ∫ E f̂n (x) - f (x) dx/ ∫ f 2 (x)dx
Fra Baidu bibliotek
lim g n (x) = g(x) ∫ K (u) du .
(3)
下面对满足下面基本假定的核函数 K (×) 类进 行讨论. 基本假定:
+∞
窗宽 hn 的选择密切有关.为了密度 f ( x) 的修匀, 核
由核估计定义知,估计量 f̂n (x) 与核函数 K (×) 及
函数 K (×) 必须满足某些光滑性条件, 核函数和窗宽
+∞
Ef̂n (x) - f (x) = ∫ K(z) f (x - h n z)dz - f (x) ∫ K(z) dz
-∞ -∞
+∞
+∞
15 2 易得当 h opt ≃(L/nM) 时,U opt ≃(5/4Q) n-4/5 M1 5 L 4 5 .
dU 2 = d é(1/Q)((nh )-1 L + 1 h 4 M)ù ≜0 , n dh n dh n ë 4 n û
2
[
Var f̂n (x)≃(nh n )-1 f (x) ∫ K 2 (y )dy ;
(4) (5)
]
+∞
收稿日期:2015-01-03
作者简介:朱亚培 (1987-) , 女, 河南禹州人, 兰州交通大学数理与软件工程学院在读硕士研究生.
12
= ∫ K(z) f (x - h n z)dz
-∞
选择问题进行讨论. 定义 1 设 X1, X 2 ,⋅⋅⋅, X n 是来自于具有概率密度 为 f ( x) 的总体 X 的样本,f ( x) 的核密度估计定义为 n x - Xi f̂n (x) = 1 ∑K( ) , (1) hn nh n i = 1 适当的核函数.
(4)∫-∞ | g(x) |dx < +∞ . 令 g n (x) =
其他 是优核. 这里 K 0 (⋅) 是一非负密度函数, 不仅满足假 定且它与 {h n} 、f 及样本容量无关.
{
| υ |≤ 5
化的优核.
K 0 (υ) 是使 L 最小 下面说明在基本假定条件下,
这个不等号的成立缘于在
ΔK 0 (-υ) = ΔK 0 (υ) ; ΔK 0 (υ)≥0 当 | υ | ≥51 2 . 那么,
= ∫ K(z)[ f (x - h n z) - f (x)]dz
-∞
+∞
2 结果及其证明
+∞ +∞
= -h n f '(x) ∫ zK ( z )dz + 1 h n2 f ''(x) ∫ z 2 K ( z )dz + ο(h n2) ∫ K ( z )dz 2 -∞ -∞ -∞ 2 2 2 1 1 = h n f ''(x) + ο(h n ) ≃ h n f ''(x) , 2 2 2 2 2 ̂ ̂ (2)Var f n (x) = E f n (x) - Ef̂n (x) ≤E f̂n (x)
n n +∞
2
]
2
2 ∫0 K (υ)ΔK (υ)dυ +λ1 ∫0 Δ K (υ)dυ + λ 2 ∫0 ΔK (υ)υ2 dυ = 0 ,
+∞ +∞ +∞
此,
即
≃(nh n )-1 f (x) ∫ K 2 (y )dy + 1 h n 4 f '' (x) , 4 -∞
因为 K (×) 是对称的、 可积的, 当 υ = ±(-λ1 /λ 2) 时,
2015 年 3 月 第 35 卷 第 2 期
天水师范学院学报 Journal of Tianshui Normal University
Mar., 2015 Vol.35 No.2
基于核密度估计优核选择的研究
(兰州交通大学 数理与软件工程学院,甘肃 兰州 730070)
摘 要 : 使用核方法估计密度时, 窗宽 { hn } 和核函数 K (×) 的选择是必要的. 这里提出在相对均方积分误差
L = ∫-∞ K 2 (y)dy , M = ∫-∞ f (x) dx , Q = ∫-∞ f 2 (x) dx ,
∞ ∞ (2) 2 ∞
为了提高估计的精度, 这里考虑选择核函数使
[
]
λ 2 =(3/20(5) ) 时, 验证当 λ1 = -(3/4(5) ) ,
12 12 2 K 0 (υ) = (3/4(5) )(1 - υ /5) 0 12
∫
考虑关于 K 0 (υ) 的变差 ΔK 0 (υ) 使得
+∞ +∞ -∞
Δ K 0 (υ)dυ = 0 ; ∫-∞ υ2 Δ K0(υ)dυ = 0 ;
于零, 即
∫ [2K (υ) - 5
+∞ -∞ 0
-1/2
(3/4) + 5-1/2 (3/20)υ2] ΔK 0 (υ)dυ
13
∫ [K (υ) + ΔK (υ) ]dυ = ∫ [K (υ) + ΔK (υ)] dυ -5 (3/4){∫ [K (υ) + ΔK (υ)]dυ - 1} +5 (3/20){∫ [K (υ) + ΔK (υ)] υ dυ - 1} = ∫ K (υ) dυ + ∫ [2K (υ) - 5 (3/4) + 5
+∞ -∞ 0 0 2 +∞ 2 -∞ 0 0 -1/2 +∞ -∞ 0 0 -1/2 +∞ -∞ 0 0 2
表 1 核相对效率的对照表
K ( y) K 0 ( y) 1/ 2π exp(-y 2 /2) K (y) =(2 3)-1,当| y | ≤ 3时 L = ∫-∞ K 2 (y)dy
∞
R = ∫-∞ K 2 (y)dy / ∫-∞ K 02 (y)dy