CY非参数回归的介绍 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

非参数回归简介

一、参数回归与非参数回归的特点

无论是线性回归还是非线性回归，其回归函数形式都是已知的，只是其中参数待定，所以可称为参数回归。参数回归的最大优点是回归结果可以外延，但其缺点也不可忽视，就是回归形式一旦固定，就比较呆板，往往拟合效果较差。另一类回归，非参数回归，则与参数回归正好相反。它的回归函数形式是不确定的，其结果外延困难，但拟合效果却比较好。

参数回归与非参数回归的优缺点比较：

参数回归：

优点： (1).模型形式简单明确，仅由一些参数表达(eg: y=a+bx+e, a,b为待估参数)

(2).在经济中，模型的参数一般都具有明确的经济含义

(3).当模型参数假设成立，统计推断的精度较高，能经受实际检验

(4).模型能够进行外推运算

(5).模型可以用于小样本的统计推断

缺点： (1).回归函数的形式预先假定

(2).模型限制较多：一般要求样本满足某种分布要求，随机误差满足正态假设，解释变量间独立，解释变量与随机误差不相关，等

(3).需要对模型的参数进行严格的检验推断，步骤较多

(4).模型泛化能力弱，缺乏稳健性，当模型假设不成立，拟合效果不好，需要修正或者甚至更换模型

非参数回归：

优点； (1).回归函数形式自由，受约束少，对数据的分布一般不做任何要求

(2).适应能力强，稳健性高，回归模型完全由数据驱动

(3).模型的精度高

(4).对于非线性、非齐次问题，有非常好的效果

缺点： (1).不能进行外推运算 (2).估计的收敛速度慢

(3).一般只有在大样本的情况下才能得到很好的效果，而小样本的效果较差

(4).高维诅咒, 光滑参数的选取一般较复杂

二、非参数回归的方法简介

非

参

数回归方法样条光滑

正交回归

核回归：N-W估计、P-C估计、G-M估

局部多项式回归：线性、多项式

光滑样条：光滑样条、B样条

近邻回归：k-NN、k近邻核、对称近邻

正交级数光滑

局

部

回

归

Fourier级数光滑

wavelet光滑

处理高维的非参数方法：多元局部回归、薄片样条、可加模型、投影寻踪、回归树、量积等。

●回归模型：设Y 为被解释变量，X 为解释变量，当X 为d 维随机变量时，1(,)d X Y R +∈，(,)i i X Y 为(,)X Y 的相互独立观测样本。非参数回归模型如下：

（1）

其中i e 为相互独立同分布随机变量，满足期望0i Ee =，方差2()i Var e σ=。()i m X 是未知的函数,目标是要把()i m X 估计出来。易知，()()E Y X x m x ==。

●权函数方法

非参数回归的基本方法有核函数法，最近邻函数法，局部多项式方法、样条函数法，小波函数法。这些方法尽管起源不一样，数学形式相距甚远，但都可以视为关于Y i 的线性组合的某种权函数。也就是

说，回归函数()m x 的估计ˆ()m

x 总可以表为下述形式： 1ˆ()()n i i i m

x W x Y ==∑ （2）

其中｛W i (X )｝称为权函数。这个表达式表明，ˆ()m

x 总是Y i 的线性组合，一个Y i 对应一个W i 。不过W i 与X i 倒没有对应关系，W i 如何生成，也许不仅与X i 有关，而且可能与全体的｛X i ｝或部分的｛X i ｝有关，要视具体函数而定，所以W i (X )写得更细一点应该是W i (x ；X 1，…,X n )。这个权函数形式实际也包括了线性回归。如果i i i X Y εβ+'=，则

1ˆ()i i i

X X X X X Y β-''''=，也是Y i 的线性组合。在一般实际问题中，权函数都满足下述条件：

(),1,2,,i i i Y m X e i n =+=

111(;,,)0,(;,

,)1n i n i n i W x X X W x X X =≥=∑ （3）

下面我们结合具体回归函数看权函数的具体形式。

1．核函数法（N-W 估计）

选定R d 空间上的核函数K ，一般取概率密度。令

11(;,

,)/n i i i n i n n X x X x W x X X K K h h =⎛⎫⎛⎫--= ⎪ ⎪⎝⎭⎝⎭∑ （4）显然∑==n i i W 1

1。此时回归函数就是 111ˆˆ()()i n n n N W n ni i i n i i i i n X x K h Y m x W x Y Y X x K h -===⎛⎫- ⎪⎝⎭===⎛⎫- ⎪

⎝⎭∑∑∑ （5）

核函数估计的基本性质：

定理1.设模型（1）中的()m x 的N-W 核函数估计为（2）式，且满足以下条件： (A1) ()K u du <+∞⎰ (A2) lim ()0u uK u →∞

= (A3) 2EY <+∞

(A4) ,0,n n n h nh →∞→→∞

则对每一()m x ,()f x ,2(|)()Var Y X x x σ==的连续点，以及()0X f x >，有

1ˆ()()()n P N W ni i n i W

x Y m x m x -==−−→∑

2.k 近邻权函数估计

k 近邻权估计不同于核估计的构建，核估计是在x 某固定邻域所对应的解释变量的局部加权平均，估计的好坏主要在于核函数及光滑参