非参数回归模型及半参数回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 非参数回归模型与半参数回归模型
第一节 非参数回归与权函数法
一、非参数回归概念
前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。
参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。
另一类回归,非参数回归,则与参数回归正好相反。
它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。
设Y 是一维观测随机向量,X 是m 维随机自变量。
在第四章我们曾引进过条件期望作回归函数,即称
g (X ) = E (Y |X ) (7.1.1)
为Y 对X 的回归函数。
我们证明了这样的回归函数可使误差平方和最小,即
22)]([min )]|([X L Y E X Y E Y E L
-=-
(7.1.2)
这里L 是关于X 的一切函数类。
当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。
细心的读者会在这里立即提出一个问题。
既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。
实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。
正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。
在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。
所以我们知道,参数回归与非参数回归的区分是相对的。
用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。
二、权函数方法
非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。
这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。
也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式:
∑==n
i i i n Y X W X g 1
)()(
(7.1.3)
其中{W i (X )}称为权函数。
这个表达式表明,g n (X )总是Y i 的线性组合,一个Y i 对应个W i 。
不过W i 与X i 倒没有对应关系,W i 如何生成,也许不仅与X i 有关,而且可能与全体的{X i }或部分的{X i }有关,要视具体函数而定,所以W i (X )写得更仔细一点应该是W i (X ;X 1,…,X n )。
这个权函数形式实际也包括了线性回归。
如果i i i X Y εβ+'=,则Y X X X X X i
i '''='-1)(ˆβ,也是Y i 的线性组合。
在一般实际问题中,权函数都满足下述条件:
1),,;(,0),,;(11
1=≥∑=n n
i i n i X X X W X X X W
(7.1.4)
如果考虑在第五章介绍的配方回归与评估模型曾有类似条件,不妨称之为配方条件,并称满足配方条件的权函数为概率权。
下面我们结合具体回归函数看权函数的具体形式。
1.核函数法
选定R m 空间上的核函数K ,一般取概率密度。
如果取正交多项式则可能不满足配方条件。
然后令
∑=⎪⎪⎭
⎫
⎝⎛-⎪⎪⎭⎫ ⎝
⎛-=n i n i
n i
n i a X X a
X X K X X X W 11/),,;( (7.1.5)
显然
∑==n
i i
W
1
1。
此时回归函数就是
i n
i n
j n i n i n i i i Y a X X K a X X K Y X W X g Y ∑∑∑===⎪
⎪⎭
⎫ ⎝⎛-⎪⎪⎭⎫
⎝⎛-===1
11)()(
(7.1.6)
2.最近邻函数法
首先引进一个距离函数,用来衡量R m 空间中两点u = (u 1,…,u m ) 和v = (v 1,…,v m ) 的距离‖u -v ‖。
可以选欧氏距离∑=-=
-n
i i i
u
u 1
22
)(||||υυ,也可以选||||max ||||1i i n
i u u υυ-=-≤≤。
为了反映各分量的重要程度,可以引进权因子C 1,…,C n ,使{C i }也满足配方条件。
然后将距离函数改进为
∑=-=-n
i i i i u C u 1
22
)(||||υυ
(7.1.7)
||max |||12i i i n
i u C u υυ-=-≤≤
(7.1.8)
现在设有了样本(Y i ,X i ),i =1,…,n ,并指定空间中之任一点X ,我们来估计回归函数在该点的值g (X )。
将X 1,…,X n 按在所选距离‖·‖意义下与X 接近的程度排序:
||||||||||||21X X X X X X n k k k -<<-<-
(7.1.9)
这表示点1k X 与X 距离最近,就赋以权函数k 1;与X 距离次近的2k X 就赋予权函数k 2。
…,等等。
这里的n 个权函数k 1,…,k n 也满足配方条件,并且按从大到小排序,即
∑==>≥≥≥n
i i n k k k k 1
211 ,0
(7.1.10)
就是
n i k X X X W i n k i ,,1 ,),,;(1 ==
(7.1.11)
若在{‖X i -X ‖, i =1,…,n }中有相等的,可将这n 个相等的应该赋有的权取平均。
比如若前两名相等,‖X 1-X ‖=‖X 2-X ‖, 就令W 1 = W 2=
)(2
1
21k k +。
这样最近邻回归函数就是
∑∑∑=======n
i n
i n
i i i i i i n i Y X k Y k Y X X X W X g Y 1
1
1
1)(),,;()(
(7.1.12)
k i 尽管是n 个常数,事先已选好,但到底排列次序如何与X 有关,故可记为k i (X )。
三、权函数估计的矩相合性
首先解释矩相合性的概念。
如果对样本 (Y i ,X i ),i =1,…,n 构造了权函数W i = W i (X )=W I (X ;X 1,…,X n ),有了回归函数g (X )的权函数估计∑==n
i i
i n Y
W X g 1
)(,当Y 的r 阶矩存在
(E |Y |r <∞)时,若
0|)()(|lim =-∞
→r n n X g X g E
(7.1.13)
则称这样的权函数为矩相合的权函数。
在什么样的条件下构造的权函数是矩相合的呢? Stone(1977)提出了很一般的,几乎是充分必要的条件。
下面我们考虑其充分性条件,并限于考虑概率权。
定理7.1.1 设概率权{W i }满足下述条件: (1)存在有限常数C ,使对R m 上任何非负可测函数(连续函数与分段连续函数是最常见的可测函数)f , 必有
)()(1X CEf X f W E n i i i ≤⎪⎭
⎫
⎝⎛∑= (7.1.14)
(2)∀ε>0, 当n →∞时,
01
)
||(||−→−∑=≥-P
n
i X X i i I
W ε
(7.1.15)
(3)当n →∞时,
0max 1−→−
≤≤P
i n
i W (7.1.16)
则{W i }是矩相合的权函数。
定理条件可以作一些直观解释。
条件(1)可以作如下理解,因为权函数是概率权,必有|W i |<1,i =1,…,n 。
于是
∑∑∑∑=====≤≤⎪⎭
⎫
⎝⎛n i n i n
i i i i i n i i i X f E X f E X f W E X f W E 1111)()()()(
(7.1.17)
这里取的是C =1。
因此条件(1)可以说不叫做一个条件。
条件(2)是说,与X 的距离超过一定值
的那些X i ,对应算出来的权函数之和很小,也就是说,权函数的值主要取决于那些与X 邻近的X i 的值。
这个条件合理。
条件(3)是说,当n 越来越大时,各个权系数将越来越小,这也是合理的要求。
在证明本定理之前,先证两个引理。
引理7.1.1 设概率权函数{W i }适合定理7.1.1的条件(1)及(2),又对某个r , E |f (X )|r <∞,则
0)()()(lim 1=⎪⎭
⎫
⎝⎛-∑=∞
→r i n i i n X f X f X W E (7.1.18)
证明 先设f 在R m 上有界且一致连续,则任给η>0,存在ε>0,当‖u -v ‖≤ε时,|f (u )-f (v )|
≤(η/2)1/r 。
于是
ε
η
>-==∑∑+≤
-)(||1
1
)()
2(2
)()()(X X n
i i
r
r
i
n
i i
i I
X W M X f X
f X W (7.1.19)
其中)(sup X f M X
=,此处X 表示具体取值。
由条件(2),上式右边第二项依概率收敛于0且
不大于1。
依控制收敛定理有
0)(lim 1)(||=⎪⎭
⎫
⎝⎛∑=>-∞
→n i X X i n i I X W E ε (7.1.20)
故存在n 0,使当n ≥n 0时,有
2
)(1)(||ηε≤⎪⎭⎫ ⎝⎛∑=>-n i X X i i I X W E
(7.1.21)
因此当n ≥n 0时,有
η≤⎪⎭
⎫
⎝⎛-∑=n i r i i X f X f X W E 1|)()(|)(
(7.1.22)
于是对这种一致连续的f ,引理得证。
证毕
对一般的函数f ,取一个在R m 上连续,且在一有界域之外为0的函数f ~,使∞<2
)(~
X f E ,
且η<-r X f X f E )(~
)(,这里η是事先指定的。
因为
⎭
⎬
⎫⎪⎭⎫ ⎝⎛-+⎪⎭⎫ ⎝⎛-+⎩⎨⎧⎪
⎭⎫ ⎝⎛-≤⎪⎭⎫ ⎝⎛-∑∑∑∑===-=r n
i i r i i n
i i r i n
i i r r i n i i X f X f X W E X f X f X W E X f X f X W X f X f X W E |)()(~|)(|)()(~|)( |)(~)(|)(3)()()(111
11 (7.1.23)
右边括号里第三项等于η<-r X f X f E )()(~
;第一项根据条件(1)不超过ηC X f X f CE r <-)()(~;因为f ~
在R m 上有界且一致连续,由前面已证结果知当n →∞时,
第二项将趋于0。
因此
η)1(3|)()(|)(lim 11+≤⎪⎭
⎫
⎝⎛--=∞
→∑C X f X f X W E r r i n i i n (7.1.24) η是任意的,故引理得证。
证毕
引理7.1.2 设{W i }为满足定理7.1.1三个条件的概率权,函数f 非负且∞<)(X Ef ,则
0)()(lim 12=⎪⎭
⎫
⎝⎛∑=∞
→i n i i n X f X W E (7.1.25)
证明 定义一组新的概率权函数2
i i W W =',由于0≤W i ≤1, 故0≤i W '≤1。
于是由引理7.1.1,有
0|)()(|)(lim 12=⎪⎭
⎫
⎝⎛-∑=∞
→i n i i n X f X f X W E
(7.1.26)
因为0≤
∑=n
i i
W
1
2
≤1,由条件(3)知
0max )max (11
1
12
−→−=≤≤≤==≤≤∑∑P
i n
i n
i i n
i i n
i i
W W W W
(7.1.27)
故由控制收敛定理有
0)()(lim 12=⎪⎭
⎫ ⎝⎛∑=∞
→n i i n X f X W E (7.1.28) 综合两个极限式可知本引理成立。
证毕
下面我们证明定理7.1.1。
先设r =2, 则E (Y 2)<∞。
令
)|()(),|(),|(X Y E X f X Y E Y Z X Y E Y Z i i i i =-=-=
(7.1.29)
由E (Y 2)<∞知E (Z 2)<∞,故
h (X ) = E (Z 2|X )
(7.1.30)
存在。
又
∞<≤∞<==)())((,))((,0)|()|(22Z E X h E X f E X Z E X Z E i i
(7.1.31)
还须注意:f (X i ) = E (Y i |X i ) (而非E (Y |X i ))。
因此按定义
i x x i x X Y E X f ===|)|()(
而因为 (X ,Y ) 与 (X i ,Y i )同分布,有E (Y |X =x ) = E (Y i |X i =x )。
故
)|(|)|()(i i x x i i i X Y E x X Y E X f i ====
现有
∑∑==+⎪⎭⎫ ⎝⎛-=-n
i i i n i i i n Z X W X f X f X W X g X g 1
1)()()()()()(
(7.1.31)
因 E | f (X ) |2<∞,依引理7.1.1,有
0)()()(lim 2
1=⎪⎭
⎫
⎝⎛-∑=∞
→n i i i n X f X f X W E (7.1.32)
又若将X 固定为x ,则有
⎪⎭
⎪
⎬⎫⎪⎩⎪⎨⎧⎪⎭⎫ ⎝⎛=⎪⎭⎫ ⎝⎛∑∑==∞
→n n
i i i n i i i n X X Z x W E Z x W E ,,)()(lim 12
1
21 (7.1.33)
注意到当X 固定为x 而X 1,…, X n 也给定时,W i (x )成为常数,而Z 1,…, Z n 在给定X 1,…,
X n 时,条件相互独立,再注意到E (Z i |X i )=0,由上式有
⎪⎭
⎫ ⎝⎛=⎪⎭⎫ ⎝⎛=⎪⎭⎫ ⎝⎛∑∑∑===n i i i n i i i i n i i i X h x W E X Z E x W E Z x W E 1212
22
1)()()|()()( 因此式对一切x 都成立,有
⎪⎭
⎫
⎝⎛=⎪⎭⎫ ⎝⎛∑∑==n i i i n i i i X h X W E Z X W E 122
1)()()(
(7.1.34)
考虑到E (h (X ))<∞,h ≥0,由引理6.4及上式,知
0)(lim 1=⎪⎭
⎫
⎝⎛∑=∞
→n i i i n Z X W E
(7.1.35)
合并考虑 (7.1.31),(7.1.32) 和上式,得0|)()(|lim 2
=-∞
→X g X g E n n 。
这证明了定理当r =2的情况。
现在设r ≥1,
E |Y | r <∞。
定义截断函数Y (K) :
⎪⎩
⎪
⎨⎧>≤-<-=K Y K K Y Y K Y K Y K || ||
)
(当当当 (7.1.36)
类似地定义)
(K i
Y (只须把上式中的Y 都改为Y i )。
因W i ≥0,
1 ,11
≥=∑=r W
n
i i
,有
∑∑==-≤⎪⎭
⎫ ⎝⎛-n
i r K i i i r
n i K i i i Y Y x W Y Y x W 1)(1)(||)(||)(
(7.1.37)
记)||(|)()
(x X Y
Y E x h r K K =-=,则
0||lim )(lim )(=-=∞
→∞
→r
K K K K Y
Y E X Eh
(7.1.38)
且)()|(|)(i M i r
M i
i X h X Y Y E =-。
由此得 ⎪⎭
⎪⎬⎫⎪⎩⎪⎨⎧⎪⎭⎫ ⎝⎛-=⎪⎭⎫ ⎝⎛-∑∑==n r n i K i i i r n i K i
i i X X Y Y x W EE Y Y x W E ,,|||)(||)(11)
(1)( ⎪⎭
⎫ ⎝⎛=⎭⎬⎫⎩⎨⎧-≤∑∑==n i i k i n i n r
K i i i X h x W E X X Y Y x W EE 111)()()(,,||)(
因为此式对一切x 成立,有
))(()()(||)(11)(X h CE X h x W E Y Y x W E k n i i k i r
n
i K i i i ≤⎪⎭
⎫ ⎝⎛=⎪⎭⎫ ⎝⎛-∑∑== (7.1.39)
上式最后一不等式是根据定理的条件(1)。
由 (7.1.38) 及上式,知当K 充分大时,对n 一致地
成立
3/||)(1)(ε<⎪⎭
⎫
⎝⎛-∑=r
n i K i i i Y Y x W E (7.1.40)
又当K →∞时有
0|||)|(||)|()|(|)()()(→-≤-=-r K r K r K Y Y E X Y Y E E X Y E X Y E E
(7.1.41)
现有
∑∑∑==-=-+⎪⎭
⎫
⎝⎛-+-≤-=-n
i r
K i i K r
n i K i i i r
K r r
n
i i i r
n Y X W X Y
E E Y Y X W E X Y E X Y E E Y X W X Y E E X g X g E 1
)()
(1)()
(11
|)()|(| ||)(|)|()|(|{3 ||)()|(||)()(|
(7.1.42)
因为Y (K)有界,其二阶矩有限,故由已证的r =2的情况,知
∑=∞
→=-n
i K i i K n Y X W X Y
E E 1
2)()
(0|)()|(|lim
(7.1.43)
由于|Y (K ) |≤K , 而W i 为概率权,故由上式推出对任何r ≥1有
∑=∞
→=-n
i r K i i K n Y X W X Y
E E 1
)()
(0|)()|(|lim
(7.1.44)
任给ε>0,先找K 0,使当K ≥ K 0时,对一切n 成立 (7.1.40)。
又依 (7.1.41),找K 1,使当K
≥K 1时有E | E ( Y | X )- E ( Y (K ) | X )| r <ε/3。
固定K = max ( K 0, K 1)。
根据上式,存在n 0, 使当n ≥n 0时
∑=<-n
i r K i i K Y X W X Y
E E 1
)()
(3/|)()|(|ε
(7.1.45)
这时由 (7.1.42)推出:当n ≥ n 0时有
ε1
3|)()(|-<-r r n X g X g E
(7.1.46)
这就证明了权函数的矩相合性。
证毕
关于权函数估计的收敛性质还有更多更深入的讨论,如逐点矩相合性,强相合性等,有兴趣的读者可参看有关专着。
这里引述Stone 的成果,一是因为它是基本的,可以作为入门的
引子;二是因为它是一般的,概括了核估计、最近邻估计、样条估计、小波估计等具体形式。
算例7.1.3 一元非参数回归
本算例利用核估计给出一元非参数回归。
计算过程如下。
------------------------------------------------------------------------------------------------------------------------- 一般非参数回归模型计算程序, 例7.1.4
模型及数据结构说明:
本项程序计算一般非参数回归模型:
Y(i)=g(t(i)) +ε(i)
i=1,2,...,n, 0<= t <=1
其中函数 g 未知待估.
资料准备要点: 因变量 Y 在数据第一列, 自变量 t 是 1 维,
例713.D 数据文件中, n=50
要打印原始资料吗? 0= 不打印, 1= 打印 (1)
打印 Y 的原始资料
1.188100 1.833400 1.081500
2.868000 0.616500
1.067000 1.185200 0.836500 1.805300 1.084800
0.412000 1.315900 1.362600 1.303200 1.731700
0.622000 0.430500 0.997600 1.285700 1.620900
1.329200 1.605700 1.687600 1.376800 1.251000
1.145600 0.743300 0.728600 0.865800 -0.171800
0.923800 0.872400 1.989900 0.009500 0.307900
0.172600 0.282300 0.225500 1.126200 1.365100
1.712400 0.864400 0.882600 1.088700 1.651900
1.523100 0.966300 1.985700 1.888800 0.904900
打印 X 的原始资料
0.538100 0.017800 0.615100 0.027000 0.561200
0.114000 0.343400 0.877500 0.103200 0.221100
0.962700 0.168900 0.453600 0.552000 0.048600
0.263200 0.158300 0.948500 0.616700 0.192300
0.575900 0.218300 0.009000 0.151500 0.834300
0.651100 0.419200 0.229300 0.459800 0.996900
0.220100 0.754500 0.069500 0.420100 0.350800
0.975400 0.253500 0.482500 0.096900 0.790200
0.124000 0.847100 0.785700 0.580600 0.559900
0.638300 0.078700 0.084200 0.623700 0.149800
请决定非参数回归的方法: (0)
0= 固定自变量窗宽的核函数法. 这需要事先将自变量变换为 0<=t<=1.
1= 固定自变量资料点数的平滑法. 这需要自变量资料等距并顺序排列.
请键入核函数的窗宽选择h(1/N<=h<=1, 不妨就取h=0.1-0.2): (0.1) 要打印拟合数据吗? 0=不打印, 1=打印 (0) 计算结束。
-------------------------------------------------------------------------------------------------------------------------
圖7.1.3.1
-0.5
0.511.522.533.5
第二节 密度核估计与回归函数核估计
我们在上一节已指出,非参数回归可以归结为权函数方法,权函数具体有四种主要形式:核函数,最近邻函数,样条函数,小波函数。
在具体计算方面,一般来说,核函数方法多用于密度估计或者需要密度估计的随机样本回归,样条与小波函数多用于作信噪分离解释的回归(当然也有用于密度估计的)。
这一节我们主要介绍密度的核估计,虽然它本身不属于非参数回归内容,但在随机样本回归方法里要经常用到它。
最后介绍二元非参数回归函数核估计问题。
本节第二、三、四段都是本书作者近期发表的研究成果。
一、密度核估计概念与收敛性
设X 1,…,X n 是从具有未知密度函数f (x )的总体中抽出的i.i.d.样本,要依据这些样本对每一x 去估计f (x )的值。
当然这样f (x )的估计也有参数估计与非参数估计的问题。
但是习惯上,人们说密度估计时,都是指不知道密度函数的具体形式,因而都是指非参数估计问题。
密度估计最基本的方法是直方图估计。
这在初等概率教科书中都有介绍,这里就不说了。
但是,它的基本思想却与核估计是相通的。
下面我们从直方图估计导出密度核估计。
作直方图时,先用点{}k
i i a 1=把直线分成若干小的计数区间,当然k n 。
这样,计数区间的端
点与宽度都是固定的。
记N i 为样本点X 1,…,X n 落在第i 个计数区间[a i , a i +1)里的个数,则密度函数f (x )在[a i , a i +1)里的函数估计值就取为
k i a x a a a n N x f i i i i i
n ,,1,,)
()(11 =<≤-=
++
(7.2.1)
这样的直方图估计当然是阶梯函数,于是人们想法改进它(最有趣的是有人用计算数学里的磨光函数去把直方图顶部磨光滑)。
不难想象,这种估计对计数区间[a i , a i +1)中心部分比较精确,而对计数区间端点处精度稍差。
有人提出,对每个x,各作一个以x 为中点的小计数区间[x -h , x +h ), 再对落在该计数区间的样本点计数,设为N (x , h ),则密度估计为
nh
h x N x f n 2)
,()(=
(7.2.2)
这个想法与直方图不同在于它的计数区间端点划分不是固定的,而是随x 而变,可以自始至终保持x 点在计数区间中间。
不过此时计数区间宽度h n 一般是固定的。
如果引进函数
⎪⎩⎪⎨⎧<≤-=其他当
011
21
)(x x K
(7.2.3)
则上述变端点计数区间的密度估计可写为
∑=⎪⎭
⎫ ⎝⎛-=n i n n h X x K nh x f 11)( (7.2.4)
后来Parzen(1962)提出,可以将这种矩形核函数形式放宽限制,只须积分为1(最好还为恒
正)即可。
这就导出了密度的核估计。
我们也可以从经验分布函数导出密度核估计。
经验分布函数
),,(1
)(1*
的个数中小于x X X n
x F n n =
(7.2.5)
也是一种计数,不过从-∞一直计到x 为止。
我们可以利用它表示一个以x 为中心窗宽为2h 计数区间里的样本点数,于是密度估计为 可以看到,本书作者在第六章第五节第二段里提出的密度的求导插值估计,本质上与这里也是相通的。
对核函数形式放宽了,那么有哪些条件是不能放宽而必须坚持的呢?一般来说,要求核函数满足条件
⎪⎪
⎩
⎪⎪
⎨⎧=⋅+∞<+∞<=≥∞
→∞+∞-+∞∞-⎰⎰0)(lim )(,)(sup 1
)(,0)(2
x x K dx x K x K dx x K x K x (7.2.7)
对于一般概率密度函数,这些条件是能满足的,所以可以选一个概率密度函数作核函数。
不过,
最好还是选一个有限窗宽的函数。
对窗宽h 的要求,显然样本数越多,窗宽应越小,但不能太小,即h 是n 的函数,且
∞→==∞
→∞
→n n nh n h n x )(lim ,0)(lim
(7.2.8)
在上述要求的核函数及窗宽条件下,密度f (x )的核估计f n (x )是f (x )的渐近无偏估计与相合估计。
这是因为
()⎰⎰⎰∞+∞
-∞+∞-∞+∞-⎪⎪⎭
⎫
⎝⎛=-==--⎪⎪⎭
⎫ ⎝⎛=
⎪⎪⎭⎫
⎝⎛-=⎭
⎬⎫
⎩⎨⎧⎪⎪⎭⎫ ⎝⎛-=
Z n h y dZ Z n h x f Z K y t x dy y x f n h y K n h dt t f n h t x K n h n h X x K E n h x Ef n )())(( )()()()(1 )()()(1 )()(1
)( (7.2.9)
对于给定的ε>0,由条件 (7.2.7),存在充分大的T 0,使
M dZ Z K T Z 4
)(0||ε
≤
⎰≥
(7.2.10)
这里)(sup x f M x
=,并且
⎰⎰--∞→=-00
)()()()(lim T T T T h dZ Z K x f dZ hZ x f Z K
(7.2.11)
于是
)
(2
2
)()())(()()(2)()())(()(|)()(|0
00
00
||+∞→→
+
--≤
⋅+--≤-⎰
⎰⎰⎰⎰--≥--n dZ Z K x f dZ Z n h x f Z K M
dZ Z K dZ x f Z K dZ Z n h x f Z K x x Ef T T T T T Z T T T T n 当ε
ε
(7.2.12)
由ε的任意性,可知)()(lim x f x Ef n n =∞
→。
这就说明f n (x )是f (x )的渐近无偏估计。
再利用X 1,…,X n 的独立性,有
⎥⎥⎦
⎤⎢⎢⎣
⎡
⎪⎪⎭
⎫
⎝⎛⎪⎪⎭⎫ ⎝⎛--⎪⎪⎭⎫ ⎝⎛-⋅=2
22
)()()(11))((n h X
x EK n h X x EK n h n x f Var n (7.2.13)
类似于渐近无偏性的证法可得
⎰∞+∞-∞→=⎥⎦
⎤⎢⎣⎡⎪⎪⎭⎫ ⎝⎛-dx x K x f n h X x K E n h n )()()
()
(1
lim 2
2 (7.2.14)
于是
0))((lim ))((lim ))()((lim 22=-+=-∞
→∞
→∞
→x f Ef x f Var x f x f E n n n n n n
(7.2.15)
这就说明对一切x ,f n (x )均方收敛于f (x ),因此))(()(∞→−→−
n x f x f P
n ,这就证明密度核估计的相合性。
二、使用正交多项式核的密度及其偏导数核估计的收敛速度
上一段研究的密度核估计的收敛性,针对的是使用概率密度核函数K ,它非负,积分为1,从而可以肯定保证密度核估计函数f n (x )非负且积分为1。
只是它的收敛速度不会超过)(5
4
-n
O 。
为了提高收敛速度,统计工作者使用正交多项式作理论上的研究,取得不少成果。
这里介绍的是本书作者的研究成果,近期发表在国际数学杂志“Communications in Statistics ”上。
它是直接研究多元密度,并连带一般偏导数的核估计给出收敛速度。
记多元密度f (t )的s 阶混合偏导数为
s
p s s p s s p
t t t f t s s f
t f
∂∂∂== 111)
()
()
();,,()( (7.2.16)
这里 ,2,1,0,,),,(11==++'=s s s s t t t p p 。
使用多元核函数作出f (s ) (t )的估计如下:
⎪⎪⎭
⎫ ⎝⎛-=
∑=+n j n
j s s p n
s n
t t K n t f
αα
)(1)
(~1)( (7.2.17)
其中2,21
++-
=r p
r n n α是构造核函数的正交多项式空间维数,可以任意取定。
)(~
u K s 不仅决定于s , 而且决定于s 1,…, s p ,且满足:
⎪⎩⎪⎨⎧∈=∆∈≤0
0 0)(~
),0( |)(~|D u u K D u u C u K s p s 当当 (7.2.18)
其中u 0是一正常数,u = (u 1,…,u p )′。
我们以C 表示某一合适常数,各个C 可不相同。
)(~
u K s 还满足:
⎪⎩⎪⎨⎧-≤≤===⎰
1
,,0,0,,1)(~!!1111111
0r i i s i s i du u K u
u s s p p
p s i p i
D p p
但否则当 (7.2.19)
这种多元核函数可以如下构造:
)()()()(~
2121p s s s s u K u K u K u K p =
(7.2.20)
其中p i u K i s ,,1),(1 =是普通一元核函数,满足:
⎪⎩⎪⎨⎧=∈<否则当
0)(~
),0(
|)(~
|0i s i i s u K u u C u K i i (7.2.21)
及
⎰⎩⎨⎧-≤≤≠==001
0 0 1)(!1u i i i i s l
i i r l s l s l du u K u s i 但当当 (7.2.22)
这种核函数具体构造及改进我们放到下一段再统一研究。
下面研究)()
(t f s n 的收敛性。
我们假定偏导函数)()
(t f
r 局部有界,即存在与对t 的各分量
求偏导次数r 1,…,r p 无关的)()
(t f r s ,ε>0, r 1+…+r p = r , 使当X t ∈,且t ∈X t 且t +ξ∈X t 时,
有
)(|)(|sup )()
(||||0t f t f
r r εε
ξξ≤+≤≤
(7.2.23)
这里X t 是t 的样本空间。
同理定义f (t )局部有界。
E n (·) 表示对n 个样本求数学期望。
定理7.2.1 设f (r ) (t ), f (t )局部有界,则
)(2)()()
()
()(t f p r s r n O t f
t f E r s s n n ε⎪⎪⎭⎫ ⎝
⎛+--=- (7.2.24)
[
]
{}
)()(2)(2)()()0(2
)(2
)
()
(t f t f p r s r n O t f
t f
E s r s s s n
n +⎪⎪⎭⎫ ⎝
⎛+--=- (7.2.25)
证明 由t (1),…t (n ) 的i.i.d .,令n
t
y u α-=
,注意du dy p
n α=,有
⎰⎰
+=⎪⎪⎭⎫
⎝⎛-=
+du u t f u K dy y f t y K t f E n s D s n
n s X s
p n s n n i )()(~
1)(~1
)(0)(αααα
(7.2.26)
再由多元Taylor 展式、多项展式及核函数正交条件得
[]∑
⎰
=+-++=n
r
i i r p i p i i s D s
r n
s s n n p p du t f i i u u u K t f t f E 110
)(!
!)
(~)()()(1)()(ξα
(7.2.27)
这里p n
αξ≤≤||||0,由f (r ) (t )局部有界,核函数有界,积分域有界,可得 (7.2.24)。
又
{
}[
]
)()()(~
1)
0(2)
(222)(0
t f n
O du u t f u K n t f
Var s p r s r n s D s
p n
s n
⎪⎪⎭
⎫ ⎝
⎛≤+≤
+--+⎰αα
(7.2.28)
{}
2
)()()(2
)()()()()()()(t f t f E t f Var t f t f E s s n n s n s s n n -+=-
(7.2.29) 可知 (7.2.25)成立。
证毕
在s =1时,由 (7.2.16) 我们把
p t t f t t f ∂∂∂∂)(,,)(1 都记作了f (1) (t ), 把它们排成向量得t
t f ∂∂)
(。
相应)()1(t f n 也代表了p 种核估计)(,),()
1()1(1t f t f p n n 。
由 (7.2.17)知它们的核函数构造不同,
满足的正交条件不同,也把它们排成向量得)(~
)1(t f n 。
由定理 (7.2.2)有
⎪⎭
⎪⎬⎫
⎪⎩
⎪⎨⎧∂∂-
++∂∂-=∂∂-
2
)1(21)1(2
)1()()()
()
()(~1p
n n n n n t t f t f t t f t f E t
t f t f E p (7.2.30)
进一步有
[
]
{}
)()( )()(~)()(~)()(~
)0(2)(2)
1(22
)1()1(1)1(t f t f n O t t f t f CE t t f t f t t f t f E s r s p r r n n n n n +⎪⎪⎭
⎫ ⎝⎛=∂∂-
≤⎪⎭⎫ ⎝⎛∂∂-∆⎪⎭⎫ ⎝
⎛∂∂-+-- (7.2.31)
设1<2δ<2,由 Jensen 和lder o
H 不等式有 []
δδδηηη22||)(2||E Var E +≤
(7.2.32)
于是有 推论1 设
12
1
<<η, [
][
]{}
δδδδ
)()()
()(~
)0(2)(2)
(22)
()(t f t f n O t f
t f E s r s p r s r s s n n +⎪⎪⎭
⎫ ⎝⎛=-+-- (7.2.33)
δ
δ
2)1()1(2)1()()()()()()(~1⎪⎭
⎪
⎬⎫⎪⎩⎪
⎨⎧∂∂-
++∂∂-≤∂∂-
p n n n n n t t f t f t t f t f E t
t f t f E p
⎪⎭
⎪⎬⎫⎪⎩⎪⎨⎧∂∂-++∂∂-≤δδ2)
1(21)1()()()()(1p
n n n t t f t f t t f t f pE p
[
][
]{}
δεδεδ)()()0(2)(2)1(2t f t f n O r p r r +⎪⎪⎭
⎫ ⎝⎛=+-- (7.2.34) 这就证明了使用正交多项式核的密度及其偏导数核估计的收敛速度。
在本书第十章第四
节要引用这些结果。
三、密度核估计的连续性及光滑性
这一段介绍本书作者提出的一种正交多项式,用它构造的一元到多元密度及其偏导数的核估计,在样本抽定时,保持连续性,在样本数趋于无穷时可以保持好的收敛速度。
密度核估计是一随机函数,它利用随机抽得的历史样本x (1) ,…,x (n ) 构造f n (x ),去估计母体的密度f (x )。
它的收敛性是一种大样本性质。
对于一个具体的核函数和一个具体的f n (x )的构造,一旦历史样本抽定转入统计计算,f n (x )就是一个普通的函数。
这时我们自然要考虑它的分析性质,例如连续性和光滑性。
因此,密度核估计的连续性和光滑性是对任意抽定的历史样本而言,它是一种小样本性质。
从统计计算的角度,仅仅研究大样本性质是不够的。
如果核估计呈跳跃间断,得到的参数估计将随当前样本x 的连续变动而发生剧烈跳跃,使其难以进入实用,许多文献要么忽略了核函数的构造,要么给出的核函数不满足连续性光滑性,Lin(1975)构造密度及其(偏)导数核估计如下。
∑=⎪⎪⎭⎫
⎝⎛-=
n j n
i n n a X x K na x f 101
)( (7.2.35)
∑=⎪⎪⎭
⎫ ⎝
⎛-=n
j n i
n
n a X x K na x f 112
1
)( (7.2.36)
他进一步具体给出了正交多项式的构造,在n =3时我们画出所给函数式的图像。
图7.2.3.1.
当0≤u ≤1时,
8.1)6.0(3093630)(220--=+-=u u u u K
(7.2.37)
2.1515818036192180)(2
20+⎪⎭⎫ ⎝
⎛
--=-+-=u u u u K
(7.2.38)
显然这样的f n (x )与)(x f n '都不连续。
我们试图寻找截断后仍然连续的正交多项式,从而使密度及其(偏)导数的核估计连续,同
时保持较高的收敛速度。
我们先考虑一元密度核估计的连续性、光滑性、收敛性。
以下给出的正交多项式与Lin 给出的正交多项式区别在于连续性和光滑性,其正交性是一样的。
⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤
⎢⎢⎢⎢⎢⎢
⎢⎢⎣⎡-+++=11112111121413
1113121
r r r r r H
(7.2.39)
⎥⎥⎥⎥⎥⎥⎥
⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎢
⎢⎢⎢⎣⎡-++⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛=11
1
121111214
13
1)(2
r r r r u u u u u u u H r
t t t
(7.2.40)
9
K 0(u ) 1
1
-48
12
u
u
⎥⎥⎥
⎥
⎥⎥⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎢⎢
⎢⎢⎢⎣⎡-+⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛+=111121*********)(21 r r r u u u u u u r u H r t t t
(7.2.41)
令H 是r 阶行列式,其第1至r -1行的元素为j
i h ij +=
1
,第r 行元素全为1。
将H 的第一行换上(u /u t )j 得H 0,将H 的第二行换上(u /u t )j 得H 1,u t 是一常数。
显然H 0(0) = H 0 (u t ) = H 1(0) = H 1(u t )=0。
再令
⎪⎩
⎪⎨⎧≤≤=否则当 00 )(0
0t t
u u Hu H u K (7.2.42)
⎪⎩
⎪⎨⎧≤≤=否则当 00
)(21
1t t u u Hu H u K
(7.2.43)
则
⎰⎰
=
l
l
u l u t l du H u Hu du u K u 0
00
01)(
⎥⎥
⎥⎥⎥⎥
⎥⎥⎥
⎦
⎤⎢⎢⎢⎢
⎢⎢⎢⎢⎢⎣
⎡-++⎪⎪⎭
⎫
⎝⎛⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛=⎰
⎰
⎰+++-11
112111121
4
1310
10
2
01
1
r r r r du u u du u u
du u u H u l
l
l u r
l u l l
u l l l t
⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡-++=⎰⎰⎰+++11
1
121111214
1
311
01
02
10
1 r r r r dy y dy y dy y H u r l l l l t ⎥⎥⎥⎥⎥⎥⎥
⎥
⎦
⎤⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡-++-++=
1111211112141311213121
r r r r r l l H u l t ⎪⎩⎪⎨⎧-=-≤≤≠==1
21,0 0,0
1r l c r l l l 当但当当 又K 0(0) = K 0(u t )=0,可见K 0是满足正交性及连续性的核函数。
在r = 3, u t =1时我们画出它的图形 (图7.2.3.2)。
当0≤u ≤u t =1时
⎪⎭⎫ ⎝
⎛
--=+-=53)1(60369660)(230u u u u u u u K
(7.2.44)
同样容易验证K 1(u )的正交性及连续性。
⎰
⎩⎨
⎧-≤≤≠=='t
u r l l l du u k u 0
120,1
0,1
1)(但当当 K 1(0)=K 1(ut )=0
在这样的构造里,密度核估计的光滑性通过密度导数核估计的连续性实现。
下面我们再说明多元密度核估计的连续性、光滑性及收敛性。
图7.2.3.2
设有p 元密度f (x ), x = (x 1,…, x p )′, 对于其各阶混合偏导数tp
t t x x x f 11)
(∂∂,p t t t ++= 1,
我们使用多元核函数),(),(1,,,1'=p t t t u u u u K p ,作出它的估计:
K 0 u
4
-2
⎪⎪⎭
⎫
⎝⎛-=∑=+n j n
j t t t t
p n
p n a x x K na x t t t f p )(1,,;111
),,;(
(7.2.45)
其中
p
r n n
a +-
=21 (7.2.46)
同时要求f n 在全空间连续,即
)();,,;(1p p n R C x t t t f ∈
(7.2.47)
多元核函数)(,,1u K p t t t 要满足:
⎪⎩⎪⎨⎧=∆∈≤否则当
0)(),0( )(,,;,,;11u K D u u C u K p p
t t t p t t t t
(7.2.48)
⎰⎪⎩
⎪⎨
⎧-≤≤===2,,0, 0,, 1)(!!11,,;211121r i i t i t i du u K u u u t t p p p t t t i
p i i D p p 但否则当 (7.2.49)
且)()(0,,1p t t t R C u K p ∈
这种多元核函数构造如下:
)()()()(21,,211p t t t t t t u K u K u K u K p p =
(7.2.50)
其中p i u K i t i ,,1),( =是普通一元核函数,满足
⎪⎩⎪⎨
⎧=∈≤否则当
0)(),0(
)(i t i i t u K u u C u K i (7.2.51)
⎩
⎨⎧-≤≤≠=='⎰20, 0 1)(!10r l t l t l du u K u t i i i i t u i i i t
但当当
(7.2.52)
且)()(0
R C u K i t i '∈。
这种一元核函数构造如下:
作行列式r r h H j k ⨯=||,其中第1至r -1行元素为j
k h j k +=1
,最后一行元素全为1,将其第t i +1行换上j
t i j t u u h i )/(,1=+,得r 阶行列式)(i t u H i
⎥⎥⎥⎥⎥
⎥⎥⎥⎥
⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢
⎢⎢⎣
⎡-++++++=111121111
12
111
11413
1113121
r r r r t t t r r H i i i
(7.2.53)
⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡-+⎪⎪⎭
⎫ ⎝⎛⎪⎪⎭
⎫ ⎝⎛⎪⎪
⎭⎫
⎝⎛++=11
1
1211112141311131
21
)(2
r r r u u u u u u r r u H r t i t
i t i i t u
(7.2.54)
再令
⎪⎩
⎪
⎨⎧≤≤=+否则当 00 )
(!)(1t i t t i t i i t u u Hu u H t u K i i i
(7.2.55)
这样我们已经构造了多元密度及其偏导数的核估计并验证了它们的连续性、光滑性及收敛性。
四、改进多元密度核估计的交互投影迭代算法
本段介绍交互投影算法在改进多元密度核估计非负性方面的应用。
多元密度核估计是
∑=⎪⎪⎭
⎫
⎝⎛-=
n
j n j n
n a x x K na x f 1)(1
)(
(7.2.56)
这里K (·)是核函数,x (j ),j =1,…,n ,是样本。
如果K (·)是一个概率密度函数,(非负、
积分为1),则f n (x )的均方误差的收敛速度不会超过O ( n -4/5)。
如果K (·)是一个正交多项式,则f n (x )的均方误差的收敛速度可以任意接近O (n -1),但这时f n (x )不再能保证非负、积分为1。
Gajek (1986)利用凸集间的交互投影迭代算法来改进用正交多项式构造的一元密度核估计。
该
算法可以将f n (x )改进为非负且积分为1的函数,同时保证它的均方误差收敛速度不变,本段将Gajek 的方法用之于多元密度核估计,并为它重新写了证明。
多元密度核估计的详细构造上段已述。
下面先叙述属于Gajek 的迭代算法。
对于f n (x )定义加权的均方误差式
⎰-=dx x h f f E f f R n R n p )()(),(2
(7.2.57)
这里h 是一个非负的权函数。
应该说R (f n , f )是一个合适的评价标准。
迭代算法是:
(1)令)()(0
x f x f n n =,且置k = 0;
(2)令))(,0max ()(1x f x f k
n k n =+,再检查⎰
++=
dx x f C k n R k p
)(11。
若C k +1=1,则令
)()(1*x f x f k n n +=而完成迭代;
(3)令⎰--
=+++dt
t h x h C x f x f P R k k n k n
)(/1)(1)()(112
;
(4)置k =k +2并转向步骤(2)。
从几何直观上看,步骤(2)就是去掉函数的负值而将其改写为零,此时可能函数积分超过1。
于是有步骤(3),就是将函数整体向下拉一点,以使积分为1。
此时可能又会有负值出现,于是重复步骤(2)。
如此反复。
Gajek 证明了迭代过程收敛。
定理7.2.2 设
⎰
∞<dt t h P
R )(/1
(7.2.58) ∞<),(f f R n
(7.2.59)
则
(1)上述迭代过程收敛,即存在)(*
x f n ,
)(lim )(**x f x f n k n ∞
→=
且⎰
=≥1)(,
0)(**dx x f x f n R n P。
(2)在 (7.2.57)的加权均方误差意义下,)(*
x f n 至少保持f n (x )的收敛速度,即
),(),(*f f R f f R n n ≤
(7.2.60)
在正式证明定理7.2.2之前,我们先叙述三个引理,定义内积
⎰
>=
<dt t h g g g g p
R )(),(,2121
(7.2.61)
令
{}
⎰
∞<=hdt g g
R L p
R
p
h
22)(
(7.2.62)
满足(7.2.62)的全体p 元函数构成内积空间h
L 2,由内积(7.2.61)导出的距离记作‖·‖,在h
L 2空间定义
{
}⎰
≥∞<=+
..,0,2s a g hdt g g F p
R
(7.2.63) {}⎰⎰
=∞<=1,21
gdt hdt g g F
p
p R R
(7.2.64) 1
*
F F F +
=
(7.2.65)
显然,所有的F *,F +和F 1都是凸集。
引理7.2.1 设h
L F 20⊂,且F 0是一凸集,h n L f 2∈。
则f 0是f n 在F 0上的投影当且仅当
0F f ∈∀,有
2
02
n n f f f f f f -+-≥-
(7.2.66)
证略。
引理7.2.2 令
))(,0max ()(x f x f n =+
(7.2.67)
则f +是f n 在F +上的投影。
利用引理7.2.1,证明是容易的。
引理7.2.3 令
⎰⎰
--
=dt
t h x h dx x f x f x f p p
R n R n )(/1)(1
)()()(1
(7.2.68)
则f 1(x )是f n (x )在F 1上的投影。
利用引理7.2.2,证明也是容易的。
现在我们叙述定理7.2.2的证明:
(1) 因为F *非空,F +和F 1之间的距离为零。
由引理7.2.2和引理7.2.3我们知定理7.2.2的
迭代算法也就是两个凸集间的交互投影。
这个迭代过程一定收敛,设收敛于)(*x f n ,*
*F f n ∈。
(2)由引理7.2.5 +
⊂∈∀F F f *,有
2
2
2
++-+-≥-f
f f
f f
f n n (7.2.69)
在k次迭代后,我们有
∑
=
-
-
+
-
≥
-
k
i
i
n
i
n
k
n
n
f
f
f
f
f
f
1
2
1
2
2
(7.2.70)令k→∞并取数学期望,由Fubini定理,我们有
)
,
(
)
,
(*f
f
R
f
f
R
n
n
≥(7.2.71)
证毕实际计算时可以取控制精度ε,在步骤2中C k+1=1可用C k+1-1<ε替代,因为⎰
-
+
dt
t
h
C p
R
k
)(
/1
/)1
(
1
与x无关,所以)
(*x
f
n
有如下形式
⎪⎪
⎭
⎫
⎝
⎛
-
=
)
(
)
(
,0
max
)
(*
x
h
x
f
x
f
n
n
α
(7.2.72)这里常数∑∞=+-
=
01
)1
(
k k
C
α。
算例7.2.4 随机数发生、直方图显示与密度核估计
本算例程式有4个功能:发生给定密度函数的随机数;作直方图(二维或三维);作饼图;作密度函数的核估计。
其中发生随机数的程序附有常见分布16种,参数也随使用者指定。
如果还要另外的函数,也只需改写一行。
作直方图与饼图程序是用C语言写的,彩色显示,10个区间或20个区间色彩各不相同,十分绚丽,调用也十分方便。
先发生伪随机数。
------------------------------------------------------------------------------------------------------------------------- 16 种指定分布的随机数发生程序
最多发生5000 个随机数
请指定需要发生的随机数的分布函数代码
1: 标准正态分布N(0,1)
2: 一般正态分布N(μ,Σ)
3: 卡方分布χ2
4: t 分布
5: F 分布
6: 对数正态分布
7: WEIBULL 分布
8: 指数分布
9: 柯西(CHUCHY) 分布
10: 贝塔分布β(2,2)
11: 均匀连续分布U(0,1)
12: 均匀离散分布整数
13: 负二项分布
14: 几何分布
15: 超几何分布
16: 泊松分布
请输入需要发生的随机数个数n (x1,x2,...xn), n = ? (500)
请输入发生随机数的种子(任一奇数) NRAN (11)
请输入t 分布的自由度(10)
要显示发生的随机数吗? 0= 不显示, 1= 要显示(0)
资料存在哪个文件中? 0= 不存盘
1= C21.D, 2= C22.D, 3= C23.D, 4= C24.D, 5= C25.D
6= C11.D, 7= C12.D, 8= C13.D, 9= C14.D, 10= C15.D
正将数据文件存盘, 请稍侯
资料已存盘,计算结束。
------------------------------------------------------------------------------------------------------------------------- 再将刚才发生的伪随机数用直方图显示。
图7.2.4.1
下面我们再对上述伪随机数出出密度核估计。
------------------------------------------------------------------------------------------------------------------------- 密度函数核估计计算程序, 例7.2.5
请输入资料长度(观测点数, li725.d是500) N: (500)
要显示原始数据文件吗? 0=不显示; 1=显示. (0)
请选择密度估计的核函数: (5)
1: K(x)=1-|x|, |x|<=1; K(x)=0, |x|>1;
2: K(x)=exp(-x*x/2)/sqrt(2*3.1416);
3: K(x)=exp(-|x|)/2;
4: K(x)=1/(3.1416*(1+x*x));
5: K(x)=(1-x*x)*3./4., |x|<1; K(x)=0, |x|>1;
要想得到光滑的密度核估计图像, 样本数要多一些, 比如N=500; 窗宽适当, 比如h=1--5; 要计算的核函数个数适当, 比如M=20--100。
通过这些参数的调整, 一定可以得到比直方图要好的密度核估计结果。
窗宽大致相当于直方图里X 轴各个分组条形的宽度, 但核估计分组逐点改变.
请输入核函数窗宽h ( h 须为正数, 最好h > 1): (1)
请输入您想计算的密度核估计点数M ( 10<=M<=N-10,要求M 整除N ): (100)
要屏幕显示密度估计资料吗? 0= 不显示; 1= 显示(0)
如果要用直方图显示, 请选用关于直方图的菜单.
如果要显示密度核估计的图像, 请选用关于曲线图折线图的菜单,
计算结束,显示图像。
------------------------------------------------------------------------------------------------------------------------- 显示密度核估计图像见图7.2.4.3。
原始资料是根据t分布发生的,可见已相当精确了。
因为去掉了资料中心点标记星号,就比较光滑。
图7.2.4.2
五、二元核回归的窗宽选择
对于二维或高维核回归,窗宽选择的通行办法是基于交叉核实(Cross-Validation)或惩罚函数(Penalizing)方法。
当样本容量太大时,窗宽选择存在计算上的困难。
这个时候可以试一下迭代插入(Iterative plug-in)方法。
这一段我们介绍这方面有关内容。
非参数方法对于平滑混杂有噪音的回归资料是十分有效的。
这方面技术的一个关键是选择平滑参数。
一般来说,自动平滑参数选择是基于交叉核实方法,或渐近等价的惩罚函数方法,例如无偏风险估计。
这些方法有时候在实践中不太可靠,尤其是在高维情况如此。
一个替代的办法是插入(Plug-in)法则,即把未知函数的估计插入到渐近公式里以选择最佳平滑参数。
对于核回归,平滑参数就是窗宽参数。
Gasser(1991)提出过一种迭代插入方法,有好的理论分析性质与好的实际效果,并且认为比交叉核实与惩罚方法要好。
我们先谈一下二元核回归。
二元非参数回归模型是
n i u t g Y i i i i ,,1,),( =+=ε
(7.2.73)
这里g 是二元实值函数,定义在二元闭子集2R A ⊂上,Y i 是响应。
假定εi 独立同分布,均值为0,方差为σ2。
(t i , u i )有设计密度f ,其支撑集为A 。
剖分A 为A 1,…,A n ,则存在(t i , u i )∈
A i ,且
)(0),()(sup 111
---=-n u t f n
A i i i i
λ
(7.2.74)
)(0sup sup 2
1,-∈=-n
y x i
A y x i
(7.2.75)
其中λ是二维Lebesgue 测度 (从计算角度,为简单记,就取分块面积之和)。
我们考虑的是乘积核。
v 为整数,k ≥v +2,k -v 是奇数。
称函数W v,k 是一个(v , k )核,如果
⎪⎩⎪⎨⎧=≠=-≠-≤≤=⎰
k j W j v j k j dx x W x k
v k v k v j
0)( !)(,10 0)(,,μυυ (7.2.76)
函数g (t , u )的估计为
{}{}∑⎰
=-----=n
i i u t A u
t u t Y d b u K b t K b b b b u t g i
1
1
1)(/)(/)(),;,(ˆωυωυ
(7.2.77)
其中核函数K 的支撑集为[-1,1],(b t , b u )是一对窗宽。
当剖分A 1,…,A n 为矩形时,计算可大
为简化。
渐近最佳窗宽选择的插入方法,根据的是计算方均误差公式
)),((),(u t u t b b ISE E b b MISE =
(7.2.78)
其中
{}⎰-=),(),(),;,(ˆ),(),(2
u t d u t g bu bt u t g
u t b b ISE A u t ω (7.2.79)
这里权函数ω的引入是为了积分限制,也是为了窗宽选择,一般假定ω是一概率密度函数,有二阶连续导数,支撑集为B ,A B ⊂,λ(B )>0。
极小化ISE (b t , b u )得到的窗宽记为 (b t,ISE ,b u,ISE )极小化MISE(b t , b u )得到的窗宽记为 (b t,MISE ,b u,MISE )。
对于二元函数g 的偏导数,我们记
)
,(),()
,(u t g u t u t g
j i j
i j i ∂∂∂=+
(7.2.80)
对于支撑在[-1,1]上的W ,令
⎰
-=
1
1
2)()(dx x W W R
(7.2.81)。