CY非参数回归的介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非参数回归简介
一、参数回归与非参数回归的特点
无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。另一类回归,非参数回归,则与参数回归正好相反。它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。
参数回归与非参数回归的优缺点比较:
参数回归:
优点: (1).模型形式简单明确,仅由一些参数表达(eg: y=a+bx+e, a,b为待估参数)
(2).在经济中,模型的参数一般都具有明确的经济含义
(3).当模型参数假设成立,统计推断的精度较高,能经受实际检验
(4).模型能够进行外推运算
(5).模型可以用于小样本的统计推断
缺点: (1).回归函数的形式预先假定
(2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足正态假设,解释变量间独立,解释变量与随机误差不相关,等
(3).需要对模型的参数进行严格的检验推断,步骤较多
(4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果不好,需要修正或者甚至更换模型
非参数回归:
优点; (1).回归函数形式自由,受约束少,对数据的分布一般不做任何要求
(2).适应能力强,稳健性高,回归模型完全由数据驱动
(3).模型的精度高
(4).对于非线性、非齐次问题,有非常好的效果
缺点: (1).不能进行外推运算 (2).估计的收敛速度慢
(3).一般只有在大样本的情况下才能得到很好的效果,而小样本的效果较差
(4).高维诅咒, 光滑参数的选取一般较复杂
二、非参数回归的方法简介
非
参
数回归方法样条光滑
正交回归
核回归:N-W估计、P-C估计、G-M估
局部多项式回归:线性、多项式
光滑样条:光滑样条、B样条
近邻回归:k-NN、k近邻核、对称近邻
正交级数光滑
局
部
回
归
Fourier级数光滑
wavelet光滑
处理高维的非参数方法:多元局部回归、薄片样条、可加模型、投影寻踪、回归树、量积等。
●回归模型:设Y 为被解释变量,X 为解释变量,当X 为d 维随机变量时,1(,)d X Y R +∈,(,)i i X Y 为(,)X Y 的相互独立观测样本。非参数回归模型如下:
(1)
其中i e 为相互独立同分布随机变量,满足期望0i Ee =,方差2()i Var e σ=。()i m X 是未知的函数,目标是要把()i m X 估计出来。易知,()()E Y X x m x ==。
●权函数方法
非参数回归的基本方法有核函数法,最近邻函数法,局部多项式方法、样条函数法,小波函数法。这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。也就是
说,回归函数()m x 的估计ˆ()m
x 总可以表为下述形式: 1ˆ()()n i i i m
x W x Y ==∑ (2)
其中{W i (X )}称为权函数。这个表达式表明,ˆ()m
x 总是Y i 的线性组合,一个Y i 对应一个W i 。不过W i 与X i 倒没有对应关系,W i 如何生成,也许不仅与X i 有关,而且可能与全体的{X i }或部分的{X i }有关,要视具体函数而定,所以W i (X )写得更细一点应该是W i (x ;X 1,…,X n )。这个权函数形式实际也包括了线性回归。如果i i i X Y εβ+'=,则
1ˆ()i i i
X X X X X Y β-''''=,也是Y i 的线性组合。 在一般实际问题中,权函数都满足下述条件:
(),1,2,,i i i Y m X e i n =+=
111(;,,)0,(;,
,)1n i n i n i W x X X W x X X =≥=∑ (3)
下面我们结合具体回归函数看权函数的具体形式。
1.核函数法(N-W 估计)
选定R d 空间上的核函数K ,一般取概率密度。令
11(;,
,)/n i i i n i n n X x X x W x X X K K h h =⎛⎫⎛⎫--= ⎪ ⎪⎝⎭⎝⎭∑ (4) 显然∑==n i i W 1
1。此时回归函数就是 111ˆˆ()()i n n n N W n ni i i n i i i i n X x K h Y m x W x Y Y X x K h -===⎛⎫- ⎪⎝⎭===⎛⎫- ⎪
⎝⎭∑∑∑ (5)
核函数估计的基本性质:
定理1.设模型(1)中的()m x 的N-W 核函数估计为(2)式,且满足以下条件: (A1) ()K u du <+∞⎰ (A2) lim ()0u uK u →∞
= (A3) 2EY <+∞
(A4) ,0,n n n h nh →∞→→∞
则对每一()m x ,()f x ,2(|)()Var Y X x x σ==的连续点,以及()0X f x >,有
1ˆ()()()n P N W ni i n i W
x Y m x m x -==−−→∑
2.k 近邻权函数估计
k 近邻权估计不同于核估计的构建,核估计是在x 某固定邻域所对应的解释变量的局部加权平均,估计的好坏主要在于核函数及光滑参