一元非参数回归 (非参数统计 新)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ mn
GM
(x)
i ( x )Y i i 1
n
i (x)
si s i 1
Kh (
n
xu hn
)du
12
局部回归
核估计存在边界效应,边界点的估计偏差较大, 以N-W估计为例,如下图
13
局部回归
一般,核函数的选取并不是很重要,重要的是带宽的选取
14
局部回归
一般,核函数的选取并不是很重要,重要的是带宽的选取
n
j 1
n
K h (x X j)
n
11
局部回归
(2) G-M估计 由Gasser and Müller(1979)提出,形式如下:
ˆ mn
GM
(x)
n i 1
Yi
si s i 1
Kh (
n
xu hn
)du
其中 s 0 0 , s i ( x i x i 1 ) / 2 , i 1, , n 1, s n 1 写成线性光滑的形式:
p
此时,x应该靠近u,且
j (u ) m
( j)
( u ) / j !, j 1, 2 , , p
18
局部回归
通过最小二乘来估计系数 ( u ) ( 0 ( u ), 1 ( u ), , p ( u )) T 注意:是在x的一个邻域内进行多项式估计,因此,最小二乘应 该与x的邻域有关
使用GCV选取最优带宽h=0.017,权函数为tricube核函数
25
局部回归
9.4.近邻光滑
交叉验证的直观意义:
ˆ ˆ E ( Y i m ( i ) h ( x i )) E (Y i m ( x i ) m ( x i ) m ( 1) h ( x i ))
2
2
2
ˆ E ( Y i m ( x i )) E ( m ( x i ) m ( 1 ) h ( x i ))
(1)
(3)
(4)
K (x) 0
(2)
K ( x)dx
2 K
1
2
xK ( x )dx 0
x K ( x )dx
K ( x) dx
2
cK
常见的核函数: Parzen 核: Gaussian核: Epanechnikov核: tricube核:
K ( x) 1 / 2 I ( x)
第9章 一元非参数回归
1
参数回归与非参数回归的优缺点比较:
参数回归:
优点:(1).模型形式简单明确,仅由一些参数表达 (2).在经济中,模型的参数具有一般都具有明确的经济含义
(3).当模型参数假设成立,统计推断的精度较高,能经受实际检验
(4).模型能够进行外推运算 (5).模型可以用于小样本的统计推断 缺点:(1).回归函数的形式预先假定
19
局部回归
写成矩阵形式:
(Y - X x ) W x (Y - X x )
T
使上式最小化,可以得到系数的估计
ˆ ( x )= ( X x W x X x ) X x W x Y x xi 1 其中 x h n d ia g ( K h ( W )) n n n hn
T -1 T
j
0 x 1
K
(x X
)
其中:h ( ) K ( / h ) / h , K ( ) 为核函数, h 为带宽或窗宽 K
n
N-W估计是一种简单的加权平均估计,可以写成线性光滑:
ˆ mn
NW
(x)
i 1
n
i
( x )Yi . i ( x )
K h (x X i)
h
2
2
m ''( x ) d K ,
2
LPE
(x)
nhf ( x)
cK
其中 d K
2 u K (u ) d u c K
K
2
(u ) d u
可以看到局部线性回归的渐近方差和N-W估计相同, 而渐近偏差却比N-W回归小,说明局部线性多项式 可以减少边界效应,局部线性估计由于N-W估计
21
2
(1)模型为随机设计模型,样本观测 (X i, Yi)~iid
m ( x ) E (Y | X x )
(2)模型为固定设计模型
Xi 为R中n个试验点列, i=1,2,…,n Yi为固定Xi的n次独立观测,i=1,2,…,n m(x)为为一未知函数,用一些方法来拟合
定义:线性光滑 (linear smoother)
T
可由最小二乘法估计, 即
n
ˆ a rg m in
i 1
( Y i m ( X i ))
2
局部多项式回归:对m(x)在u处进行p阶泰勒展开,略去p阶 高阶无穷小量,得到m(x)在u处的一个p阶多项式近似,即
m ( x ) 0 ( u ) 1 ( u )( x u ) p ( u )( x u )
15
局部回归
一般,核函数的选取并不是很重要,重要的是带宽的选取
可以看到:拟合曲线的光滑度受到光滑参数h变化的影响
16
局部回归
核估计的渐近方差核渐近偏差
核估计 渐近偏差 渐近方差
N-W估计
h
2
( m ''
2m ' f ' f
2
G-M估计
)d K
2
(x)
nhf
cK
h
2
3 ( x )
2
2
m '' d K
理想的情况是希望选择合适的光滑参数h,使得通过样本数 据拟合的回归曲线能够最好的逼近真实的回归曲线(即达到风险 最小),这里真实回归函数m(x)一般是未知的。 可能会想到用平均残差平方和来估计风险R(h)
1 n
i 1
n
ˆ [Yi m h ( x i ) ]
2
但是这并不是一个好的估计,会导致过拟合(欠光滑), 原因在于两次利用了数据,一次估计函数,一次估计风险。 我们选择的函数估计就是使得残差平方和达到最小,因此 它倾向于低估了风险。
2nhf
cK
其中,h为光滑参数,f为X的密度函数,且
d K u K (u ) d u
2
cK
K ( u )d u
2
17
局部回归
9.2.局部多项式回归
多项式的回归模型
Y m(X )
2 p
m ( x) 0 1x 2 x p x
其中
( 0 , 1 , , p )
j 1
n
( x )Y j j
ˆ 那么缺一交叉验证得分 R ( h )
i 1
n
Yi m h ( x i ) ˆ 1 L ii
2Baidu Nhomakorabea
这里 L ii i ( x i ) 是光滑矩阵L的第i个对角线元素 广义交叉验证(generalized cross-validation,GCV)
稳健回归:LOWESS、L光滑、R光滑、M光滑 ----------(9.3) 样条光滑 光滑样条:光滑样条、B样条 正交级数光滑(9.5) 正交回归 Fourier级数光滑 wavelet光滑
处理高维的非参数方法:多元局部回归、薄片样条、 可加模型、投影寻踪、 回归树、张量积,等
4
核函数K :函数K(.)满足:
局部加权平方和:
i 1
n
( Y i [ 0 ( x ) 1 ( x X i ) p ( x X i ) ]) K h (
p 2
n
x Xi hn
),
使上述问题最小化,可以得到系数的局部多项式的最小二乘估计 可以很容易得到,取p=0时为局部常数估计,即N-W核估计 取p=1,为局部线性估计
20
局部回归
得到加权最小二乘估计
ˆ mh
LPE
T -1 T ( x ) X x ˆ ( x ) X x ( X x W x X x ) X x W x Y
当p=1时(局部线性估计)的渐近偏差和渐近方差
ˆ b ia s ( m h
ˆ V ar (m h
LPE
( x ))
( x ))
m (x)
i
li ( x )Y i
6
光滑参数的选取
风险(均方误差) (mean squared error , MSE)
1 R (h) E n
i 1
n
ˆ [ m h ( x i ) m ( x i )]
2
ˆ m h ( x ) 是 m ( x ) 的估计,h是光滑参数,称为带宽或窗宽
2
2
ˆ E ( m ( x i ) m ( 1 ) h ( x i )) ˆ E ( m ( x i ) m h ( x i ))
2
2
2
ˆ 因此:E ( R ( h ))
2
R 预测风险
8
光滑参数的选取
定理:若 m h ( x ) ˆ 能够写成:
1 ˆ R (h) h
局部回归
局部多项式光滑可以很好的减少边界效应
22
局部回归
检验函数(Doppler函数)
m (x) 2 .1 x (1 x ) sin x 0 .0 5 ,0 x 1
23
局部回归
使用GCV选取最优带宽h=0.017,权函数为tricube核函数
24
局部回归
X
x
1 1 1
x1 x x2 x xn x
p! p ( x2 x ) p! p ( xn x ) p! ( x1 x )
p
Y1 Y 2 Y Yn
(3)单边交叉验证(One Sided Cross Validation,OSCV) (4)拇指规则(Rule Of Thumb)
相关文献可以参考: Wolfgang Hä rdle(1994),Applied Nonparametric Regression, Berlin Jeffrey D.Hart (1997), Nonparametric Smoothing and Lackof-Fit Tests, Springer Series in Statistics 李竹渝、鲁万波、龚金国(2007),经济、金融计量学中的非
7
光滑参数的选取
缺一交叉验证方法(leave-one-out cross validation , CV)
ˆ C V R (h ) 1 n
i 1
n
ˆ [ Y i m ( i ) h ( x i )]
2
ˆ 这里 m ( i ) h ( x ) 是略去第i个数据点后得到的函数估计
缺点:(1)不能进行外推运算,(2)估计的收敛速度慢 (3)一般只有在大样本的情况下才能得到很好的效 果, 而小样本的效果较差 (4)高维诅咒, 光滑参数的选取一般较复杂
非 参 数 回 归 方 法
局 部 回 归
核回归:N-W估计、P-C估计、G-M估计(9.1) 局部多项式回归:线性、多项式(9.2) 近邻回归:k-NN、k近邻核、对称近邻(9.4)
(2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足 正态假设,解释变量间独立,解释变量与随机误差不相关,等
(3)需要对模型的参数进行严格的检验推断,步骤较多
(4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果 不好,需要修正或者甚至更换模型
非参数回归:
优点:(1)回归函数形式自由,受约束少,对数据的分布一般 不做任何要求 (2)适应能力强,稳健性高,回归模型完全由数据驱动 (3)模型的精度高 ;(4)对于非线性、非齐次问题,有非 常好的效果
G C V (h ) 1 h
i 1
n
ˆ Yi m h ( x i ) 1 /n
2
其中: / n n
1
i 1
n
L ii
tr ( L ) 为有效自由度
9
光滑参数的选取
其他标准 (1)直接插入法(Direct Plug-In , DPI) (2)罚函数法(penalizing function)
参数估计技术,科学出版社,北京 吴喜之译(2008),现代非参数统计,科学出版社,北京
10
局部回归
9.1.核回归(核光滑)模型
(1)N-W估计
由Nadaraya(1964) 和 Watson(1964)分别提出, 形式:
ˆ mn
NW
(x)
i 1
n
K
hn
(x X i)
hn
j 1
n
Yi
K (x) 1 / 2 e
2
I ( x ) 为示性函数
x
2
/2
K ( x ) 3 / 4 (1 x ) I ( x ) K ( x ) 7 0 / 8 1(1 | x | ) I ( x )
3 3
5
回归模型:
Y m (x)
E 0 , V a r ( )
GM
(x)
i ( x )Y i i 1
n
i (x)
si s i 1
Kh (
n
xu hn
)du
12
局部回归
核估计存在边界效应,边界点的估计偏差较大, 以N-W估计为例,如下图
13
局部回归
一般,核函数的选取并不是很重要,重要的是带宽的选取
14
局部回归
一般,核函数的选取并不是很重要,重要的是带宽的选取
n
j 1
n
K h (x X j)
n
11
局部回归
(2) G-M估计 由Gasser and Müller(1979)提出,形式如下:
ˆ mn
GM
(x)
n i 1
Yi
si s i 1
Kh (
n
xu hn
)du
其中 s 0 0 , s i ( x i x i 1 ) / 2 , i 1, , n 1, s n 1 写成线性光滑的形式:
p
此时,x应该靠近u,且
j (u ) m
( j)
( u ) / j !, j 1, 2 , , p
18
局部回归
通过最小二乘来估计系数 ( u ) ( 0 ( u ), 1 ( u ), , p ( u )) T 注意:是在x的一个邻域内进行多项式估计,因此,最小二乘应 该与x的邻域有关
使用GCV选取最优带宽h=0.017,权函数为tricube核函数
25
局部回归
9.4.近邻光滑
交叉验证的直观意义:
ˆ ˆ E ( Y i m ( i ) h ( x i )) E (Y i m ( x i ) m ( x i ) m ( 1) h ( x i ))
2
2
2
ˆ E ( Y i m ( x i )) E ( m ( x i ) m ( 1 ) h ( x i ))
(1)
(3)
(4)
K (x) 0
(2)
K ( x)dx
2 K
1
2
xK ( x )dx 0
x K ( x )dx
K ( x) dx
2
cK
常见的核函数: Parzen 核: Gaussian核: Epanechnikov核: tricube核:
K ( x) 1 / 2 I ( x)
第9章 一元非参数回归
1
参数回归与非参数回归的优缺点比较:
参数回归:
优点:(1).模型形式简单明确,仅由一些参数表达 (2).在经济中,模型的参数具有一般都具有明确的经济含义
(3).当模型参数假设成立,统计推断的精度较高,能经受实际检验
(4).模型能够进行外推运算 (5).模型可以用于小样本的统计推断 缺点:(1).回归函数的形式预先假定
19
局部回归
写成矩阵形式:
(Y - X x ) W x (Y - X x )
T
使上式最小化,可以得到系数的估计
ˆ ( x )= ( X x W x X x ) X x W x Y x xi 1 其中 x h n d ia g ( K h ( W )) n n n hn
T -1 T
j
0 x 1
K
(x X
)
其中:h ( ) K ( / h ) / h , K ( ) 为核函数, h 为带宽或窗宽 K
n
N-W估计是一种简单的加权平均估计,可以写成线性光滑:
ˆ mn
NW
(x)
i 1
n
i
( x )Yi . i ( x )
K h (x X i)
h
2
2
m ''( x ) d K ,
2
LPE
(x)
nhf ( x)
cK
其中 d K
2 u K (u ) d u c K
K
2
(u ) d u
可以看到局部线性回归的渐近方差和N-W估计相同, 而渐近偏差却比N-W回归小,说明局部线性多项式 可以减少边界效应,局部线性估计由于N-W估计
21
2
(1)模型为随机设计模型,样本观测 (X i, Yi)~iid
m ( x ) E (Y | X x )
(2)模型为固定设计模型
Xi 为R中n个试验点列, i=1,2,…,n Yi为固定Xi的n次独立观测,i=1,2,…,n m(x)为为一未知函数,用一些方法来拟合
定义:线性光滑 (linear smoother)
T
可由最小二乘法估计, 即
n
ˆ a rg m in
i 1
( Y i m ( X i ))
2
局部多项式回归:对m(x)在u处进行p阶泰勒展开,略去p阶 高阶无穷小量,得到m(x)在u处的一个p阶多项式近似,即
m ( x ) 0 ( u ) 1 ( u )( x u ) p ( u )( x u )
15
局部回归
一般,核函数的选取并不是很重要,重要的是带宽的选取
可以看到:拟合曲线的光滑度受到光滑参数h变化的影响
16
局部回归
核估计的渐近方差核渐近偏差
核估计 渐近偏差 渐近方差
N-W估计
h
2
( m ''
2m ' f ' f
2
G-M估计
)d K
2
(x)
nhf
cK
h
2
3 ( x )
2
2
m '' d K
理想的情况是希望选择合适的光滑参数h,使得通过样本数 据拟合的回归曲线能够最好的逼近真实的回归曲线(即达到风险 最小),这里真实回归函数m(x)一般是未知的。 可能会想到用平均残差平方和来估计风险R(h)
1 n
i 1
n
ˆ [Yi m h ( x i ) ]
2
但是这并不是一个好的估计,会导致过拟合(欠光滑), 原因在于两次利用了数据,一次估计函数,一次估计风险。 我们选择的函数估计就是使得残差平方和达到最小,因此 它倾向于低估了风险。
2nhf
cK
其中,h为光滑参数,f为X的密度函数,且
d K u K (u ) d u
2
cK
K ( u )d u
2
17
局部回归
9.2.局部多项式回归
多项式的回归模型
Y m(X )
2 p
m ( x) 0 1x 2 x p x
其中
( 0 , 1 , , p )
j 1
n
( x )Y j j
ˆ 那么缺一交叉验证得分 R ( h )
i 1
n
Yi m h ( x i ) ˆ 1 L ii
2Baidu Nhomakorabea
这里 L ii i ( x i ) 是光滑矩阵L的第i个对角线元素 广义交叉验证(generalized cross-validation,GCV)
稳健回归:LOWESS、L光滑、R光滑、M光滑 ----------(9.3) 样条光滑 光滑样条:光滑样条、B样条 正交级数光滑(9.5) 正交回归 Fourier级数光滑 wavelet光滑
处理高维的非参数方法:多元局部回归、薄片样条、 可加模型、投影寻踪、 回归树、张量积,等
4
核函数K :函数K(.)满足:
局部加权平方和:
i 1
n
( Y i [ 0 ( x ) 1 ( x X i ) p ( x X i ) ]) K h (
p 2
n
x Xi hn
),
使上述问题最小化,可以得到系数的局部多项式的最小二乘估计 可以很容易得到,取p=0时为局部常数估计,即N-W核估计 取p=1,为局部线性估计
20
局部回归
得到加权最小二乘估计
ˆ mh
LPE
T -1 T ( x ) X x ˆ ( x ) X x ( X x W x X x ) X x W x Y
当p=1时(局部线性估计)的渐近偏差和渐近方差
ˆ b ia s ( m h
ˆ V ar (m h
LPE
( x ))
( x ))
m (x)
i
li ( x )Y i
6
光滑参数的选取
风险(均方误差) (mean squared error , MSE)
1 R (h) E n
i 1
n
ˆ [ m h ( x i ) m ( x i )]
2
ˆ m h ( x ) 是 m ( x ) 的估计,h是光滑参数,称为带宽或窗宽
2
2
ˆ E ( m ( x i ) m ( 1 ) h ( x i )) ˆ E ( m ( x i ) m h ( x i ))
2
2
2
ˆ 因此:E ( R ( h ))
2
R 预测风险
8
光滑参数的选取
定理:若 m h ( x ) ˆ 能够写成:
1 ˆ R (h) h
局部回归
局部多项式光滑可以很好的减少边界效应
22
局部回归
检验函数(Doppler函数)
m (x) 2 .1 x (1 x ) sin x 0 .0 5 ,0 x 1
23
局部回归
使用GCV选取最优带宽h=0.017,权函数为tricube核函数
24
局部回归
X
x
1 1 1
x1 x x2 x xn x
p! p ( x2 x ) p! p ( xn x ) p! ( x1 x )
p
Y1 Y 2 Y Yn
(3)单边交叉验证(One Sided Cross Validation,OSCV) (4)拇指规则(Rule Of Thumb)
相关文献可以参考: Wolfgang Hä rdle(1994),Applied Nonparametric Regression, Berlin Jeffrey D.Hart (1997), Nonparametric Smoothing and Lackof-Fit Tests, Springer Series in Statistics 李竹渝、鲁万波、龚金国(2007),经济、金融计量学中的非
7
光滑参数的选取
缺一交叉验证方法(leave-one-out cross validation , CV)
ˆ C V R (h ) 1 n
i 1
n
ˆ [ Y i m ( i ) h ( x i )]
2
ˆ 这里 m ( i ) h ( x ) 是略去第i个数据点后得到的函数估计
缺点:(1)不能进行外推运算,(2)估计的收敛速度慢 (3)一般只有在大样本的情况下才能得到很好的效 果, 而小样本的效果较差 (4)高维诅咒, 光滑参数的选取一般较复杂
非 参 数 回 归 方 法
局 部 回 归
核回归:N-W估计、P-C估计、G-M估计(9.1) 局部多项式回归:线性、多项式(9.2) 近邻回归:k-NN、k近邻核、对称近邻(9.4)
(2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足 正态假设,解释变量间独立,解释变量与随机误差不相关,等
(3)需要对模型的参数进行严格的检验推断,步骤较多
(4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果 不好,需要修正或者甚至更换模型
非参数回归:
优点:(1)回归函数形式自由,受约束少,对数据的分布一般 不做任何要求 (2)适应能力强,稳健性高,回归模型完全由数据驱动 (3)模型的精度高 ;(4)对于非线性、非齐次问题,有非 常好的效果
G C V (h ) 1 h
i 1
n
ˆ Yi m h ( x i ) 1 /n
2
其中: / n n
1
i 1
n
L ii
tr ( L ) 为有效自由度
9
光滑参数的选取
其他标准 (1)直接插入法(Direct Plug-In , DPI) (2)罚函数法(penalizing function)
参数估计技术,科学出版社,北京 吴喜之译(2008),现代非参数统计,科学出版社,北京
10
局部回归
9.1.核回归(核光滑)模型
(1)N-W估计
由Nadaraya(1964) 和 Watson(1964)分别提出, 形式:
ˆ mn
NW
(x)
i 1
n
K
hn
(x X i)
hn
j 1
n
Yi
K (x) 1 / 2 e
2
I ( x ) 为示性函数
x
2
/2
K ( x ) 3 / 4 (1 x ) I ( x ) K ( x ) 7 0 / 8 1(1 | x | ) I ( x )
3 3
5
回归模型:
Y m (x)
E 0 , V a r ( )