一元非参数回归 (非参数统计)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缺点:(1)不能进行外推运算,(2)估计的收敛速度慢 (3)一般只有在大样本的情况下才能得到很好的效 果, 而小样本的效果较差 (4)高维诅咒, 光滑参数的选取一般较复杂
非 参 数 回 归 方 法
局 部 回 归
核回归:N-W估计、P-C估计、G-M估计(9.1) 局部多项式回归:线性、多项式(9.2) 近邻回归:k-NN、k近邻核、对称近邻(9.4)
稳健回归:LOWESS、L光滑、R光滑、M光滑 ----------(9.3) 样条光滑 光滑样条:光滑样条、B样条 正交级数光滑(9.5) 正交回归 Fourier级数光滑 wavelet光滑
处理高维的非参数方法:多元局部回归、薄片样条、 可加模型、投影寻踪、 回归树、张量积,等
3
核函数K :函数K(.)满足: K ( x) 0
R 预测风险
7
光滑参数的选取
定理:若 m ˆ h ( x)
j 1 n j
( x)Y j
n
ˆ (h) 那么缺一交叉验证得分 R
2
能够写成:
ˆ h ( xi ) 1 Yi m ˆ R ( h) h i 1 1 Lii
i
这里 Lii
( xi ) 是光滑矩阵L的第i个对角线元素
风险(均方误差) (mean squared error , MSE)
2 1 n ˆ h ( xi ) m( xi )] R ( h) E [ m n i 1
ˆ h ( x) 是 m( x) 的估计,h是光滑参数,称为带宽或窗宽 m
理想的情况是希望选择合适的光滑参数h,使得通过样本数 据拟合的回归曲线能够最好的逼近真实的回归曲线(即达到风险 最小),这里真实回归函数m(x)一般是未知的。 可能会想到用平均残差平方和来估计风险R(h)
广义交叉验证(generalized cross-validation,GCV)
ˆ h ( xi ) 1 Yi m GCV (h) h i 1 1 /n
n
2
其中: /n n
来自百度文库
1
L
i 1
n
ii
tr ( L) 为有效自由度
8
光滑参数的选取
其他标准 (1)直接插入法(Direct Plug-In , DPI) (2)罚函数法(penalizing function)
参数回归与非参数回归的优缺点比较:
参数回归:
优点:(1).模型形式简单明确,仅由一些参数表达 (2).在经济中,模型的参数具有一般都具有明确的经济含义
(3).当模型参数假设成立,统计推断的精度较高,能经受实际检验
(4).模型能够进行外推运算 (5).模型可以用于小样本的统计推断 缺点:(1).回归函数的形式预先假定
ˆ ( 1) h ( xi )) 2 E (Yi m( xi ))2 E (m( xi ) m ˆ ( 1) h ( xi ))2 2 E (m( xi ) m ˆ h ( xi ))2 2 E (m( xi ) m
ˆ (h)) 2 因此:E( R
m( x) E (Y | X x)
(2)模型为固定设计模型
Xi 为R中n个试验点列, i=1,2,…,n Yi为固定Xi的n次独立观测,i=1,2,…,n m(x)为为一未知函数,用一些方法来拟合
定义:线性光滑 (linear smoother)
m( x) li ( x)Yi
i
5
光滑参数的选取
1 n 2 ˆ [ Y m ( x )] i h i n i 1
但是这并不是一个好的估计,会导致过拟合(欠光滑), 原因在于两次利用了数据,一次估计函数,一次估计风险。 我们选择的函数估计就是使得残差平方和达到最小,因此 它倾向于低估了风险。
6
光滑参数的选取
缺一交叉验证方法(leave-one-out cross validation , CV)
(1)
(3)
(4)
K ( x )dx 1 (2) xK ( x ) dx 0 x K ( x ) dx
2 K 2
cK
K ( x)
2
dx
常见的核函数: Parzen 核: Gaussian核: Epanechnikov核: tricube核:
K ( x) 1/ 2I ( x)
(2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足 正态假设,解释变量间独立,解释变量与随机误差不相关,等
(3)需要对模型的参数进行严格的检验推断,步骤较多
(4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果 不好,需要修正或者甚至更换模型
非参数回归:
优点:(1)回归函数形式自由,受约束少,对数据的分布一般 不做任何要求 (2)适应能力强,稳健性高,回归模型完全由数据驱动 (3)模型的精度高 ;(4)对于非线性、非齐次问题,有非 常好的效果
n 1 2 ˆ (h) [Y m ˆ CV R ( x )] i ( i ) h i n i 1
ˆ ( i ) h ( x) 是略去第i个数据点后得到的函数估计 这里 m
交叉验证的直观意义:
ˆ (i )h ( xi ))2 E(Yi m( xi ) m( xi ) m ˆ (1)h ( xi ))2 E(Yi m
(3)单边交叉验证(One Sided Cross Validation,OSCV) (4)拇指规则(Rule Of Thumb)
相关文献可以参考: Wolfgang Hä rdle(1994),Applied Nonparametric Regression, Berlin Jeffrey D.Hart (1997), Nonparametric Smoothing and Lackof-Fit Tests, Springer Series in Statistics 李竹渝、鲁万波、龚金国(2007),经济、金融计量学中的非
I ( x) 为示性函数
x2 / 2
K ( x) 1/ 2 e
K ( x) 3/ 4(1 x2 ) I ( x) K ( x) 70 / 81(1 | x |3 )3 I ( x)
4
回归模型:
Y m( x)
E 0,Var ( ) 2
(1)模型为随机设计模型,样本观测 (X i, Yi)~iid
非 参 数 回 归 方 法
局 部 回 归
核回归:N-W估计、P-C估计、G-M估计(9.1) 局部多项式回归:线性、多项式(9.2) 近邻回归:k-NN、k近邻核、对称近邻(9.4)
稳健回归:LOWESS、L光滑、R光滑、M光滑 ----------(9.3) 样条光滑 光滑样条:光滑样条、B样条 正交级数光滑(9.5) 正交回归 Fourier级数光滑 wavelet光滑
处理高维的非参数方法:多元局部回归、薄片样条、 可加模型、投影寻踪、 回归树、张量积,等
3
核函数K :函数K(.)满足: K ( x) 0
R 预测风险
7
光滑参数的选取
定理:若 m ˆ h ( x)
j 1 n j
( x)Y j
n
ˆ (h) 那么缺一交叉验证得分 R
2
能够写成:
ˆ h ( xi ) 1 Yi m ˆ R ( h) h i 1 1 Lii
i
这里 Lii
( xi ) 是光滑矩阵L的第i个对角线元素
风险(均方误差) (mean squared error , MSE)
2 1 n ˆ h ( xi ) m( xi )] R ( h) E [ m n i 1
ˆ h ( x) 是 m( x) 的估计,h是光滑参数,称为带宽或窗宽 m
理想的情况是希望选择合适的光滑参数h,使得通过样本数 据拟合的回归曲线能够最好的逼近真实的回归曲线(即达到风险 最小),这里真实回归函数m(x)一般是未知的。 可能会想到用平均残差平方和来估计风险R(h)
广义交叉验证(generalized cross-validation,GCV)
ˆ h ( xi ) 1 Yi m GCV (h) h i 1 1 /n
n
2
其中: /n n
来自百度文库
1
L
i 1
n
ii
tr ( L) 为有效自由度
8
光滑参数的选取
其他标准 (1)直接插入法(Direct Plug-In , DPI) (2)罚函数法(penalizing function)
参数回归与非参数回归的优缺点比较:
参数回归:
优点:(1).模型形式简单明确,仅由一些参数表达 (2).在经济中,模型的参数具有一般都具有明确的经济含义
(3).当模型参数假设成立,统计推断的精度较高,能经受实际检验
(4).模型能够进行外推运算 (5).模型可以用于小样本的统计推断 缺点:(1).回归函数的形式预先假定
ˆ ( 1) h ( xi )) 2 E (Yi m( xi ))2 E (m( xi ) m ˆ ( 1) h ( xi ))2 2 E (m( xi ) m ˆ h ( xi ))2 2 E (m( xi ) m
ˆ (h)) 2 因此:E( R
m( x) E (Y | X x)
(2)模型为固定设计模型
Xi 为R中n个试验点列, i=1,2,…,n Yi为固定Xi的n次独立观测,i=1,2,…,n m(x)为为一未知函数,用一些方法来拟合
定义:线性光滑 (linear smoother)
m( x) li ( x)Yi
i
5
光滑参数的选取
1 n 2 ˆ [ Y m ( x )] i h i n i 1
但是这并不是一个好的估计,会导致过拟合(欠光滑), 原因在于两次利用了数据,一次估计函数,一次估计风险。 我们选择的函数估计就是使得残差平方和达到最小,因此 它倾向于低估了风险。
6
光滑参数的选取
缺一交叉验证方法(leave-one-out cross validation , CV)
(1)
(3)
(4)
K ( x )dx 1 (2) xK ( x ) dx 0 x K ( x ) dx
2 K 2
cK
K ( x)
2
dx
常见的核函数: Parzen 核: Gaussian核: Epanechnikov核: tricube核:
K ( x) 1/ 2I ( x)
(2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足 正态假设,解释变量间独立,解释变量与随机误差不相关,等
(3)需要对模型的参数进行严格的检验推断,步骤较多
(4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果 不好,需要修正或者甚至更换模型
非参数回归:
优点:(1)回归函数形式自由,受约束少,对数据的分布一般 不做任何要求 (2)适应能力强,稳健性高,回归模型完全由数据驱动 (3)模型的精度高 ;(4)对于非线性、非齐次问题,有非 常好的效果
n 1 2 ˆ (h) [Y m ˆ CV R ( x )] i ( i ) h i n i 1
ˆ ( i ) h ( x) 是略去第i个数据点后得到的函数估计 这里 m
交叉验证的直观意义:
ˆ (i )h ( xi ))2 E(Yi m( xi ) m( xi ) m ˆ (1)h ( xi ))2 E(Yi m
(3)单边交叉验证(One Sided Cross Validation,OSCV) (4)拇指规则(Rule Of Thumb)
相关文献可以参考: Wolfgang Hä rdle(1994),Applied Nonparametric Regression, Berlin Jeffrey D.Hart (1997), Nonparametric Smoothing and Lackof-Fit Tests, Springer Series in Statistics 李竹渝、鲁万波、龚金国(2007),经济、金融计量学中的非
I ( x) 为示性函数
x2 / 2
K ( x) 1/ 2 e
K ( x) 3/ 4(1 x2 ) I ( x) K ( x) 70 / 81(1 | x |3 )3 I ( x)
4
回归模型:
Y m( x)
E 0,Var ( ) 2
(1)模型为随机设计模型,样本观测 (X i, Yi)~iid