半参数模型中有偏估计的进一步研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

乘估计是在1806年和1809年分别被Gauss和Lengedre[1,2]提出来的,自从被提出来以后,在统计学领域就成为了研究的焦点,特别是在1900年,Markov-Gauss定理[1,2]
被Markov证明了以后,就得出了最小二乘估计具有很好的统计性质,最小二乘估
计就一直都被认为是最好的估计方法,而被得到广泛的应用。

再到1971年,Rao[1,2]
对最小二乘估计进行深入的研究得出了统一的最小二乘估计理论,就进一步牢固
了最小二乘理论地位。

然而,随着研究的深入,新的评价准则的引入,特别变量
个数的增加,在1955年,Stein[1]发现了在变量个数大于2时,最小二乘估计拟合效
果不够理想,存在许多比最小二乘估计好的估计,这就是非常著名的Stein现象。

后来研究者发现造成这个现象的原因,是因为随着参数变量个数的增加,参数之
间就很可能会存在多重共线性的情况(又叫复共线性),这个时候,变量之间存在
近似的线性关系,就是设计矩阵的最大特征值和最小特征值之间的比值非常大或
者设计矩阵的某个特征值趋近于0。

对于如何去克服改进这个现象造成的不良影响,就成为了统计学一个热门的话题,许多学者对其做了研究[14],提出了许多估
计方法,其中最重要的估计方法就是对最小二乘估计进行改进提出新的估计方法,
但是这些估计方法都有一个共同的特点,它们都是让估计方法以偏离真实值为代价,来得到的新的估计。

因此这些估计就叫做有偏估计。

其中比较重要的有:Stein[15]
提出的Stein估计(SLSE),Massy[16]提出了主成分估计(PCE),Hoerl和kenard[17,18]提出了岭估计(RE),杨虎[10]提出了泛岭估计(即是统一有偏估计),Liu[19]对岭
估计进行改进提出了Liu估计(LR)。

在这些估计基础上,又有很多的学者对他们
进行了改进提出了新的估计方法,例如:王松桂[1]提出了广义主成分估计,黎雅莲,杨虎[6]考虑在线性模型受到约束条件下提出了统一有偏估计并研究了它们的性质,Liu[20]对Liu估计进行进一步改进得得到了Liu型估计。

研究者得出了很多的研
究成果,但是在这些成果中,其中用得最广的为岭估计和Liu,对岭估计进行修正
后得到很重要的估计有minimax估计[14]。

在这些有偏估计中,岭估计是用得最多最广泛的估计,那么岭估计中岭参数
的估计就是一个值得研究的课题,现在对岭参数取值的估计方法有很多。

其中主
要的有:岭迹法和HK公式,是由提出岭估计的Hoerl和Kennard[17,18]提出的;Hoerl 和Kennard与Baldwin[22]一起合作提出了HKB公式;Lawless和Wang[23]从Bayes观点出发,提出了LW公式;Hocking、Speed和Lynn[8]提出了HSL公式。

随后,很多人在岭估计参数上做了大量的研究,不仅提出了新的岭参数估计方法,还比较这些
不同估计方法在不同情况下的效果,得出了岭参数估计方法的选取准则。

比如其
中主要的有:Kibria et al. [21],Hoerl et al.[22],Kibria [24],Khalaf 和Shukur [25],Alkhamisi et al.[26],Muniz和Kibria [27],Drugade和Kashid [28]和Khalaf et al. [29]等等。

上述的这些有偏估计都是以增加了偏差为代价得到的估计,那么就有研究者
2
研究是否存在同时兼顾估计的稳定性和无偏性的估计,随着研究的深入,人们发现了一种几乎无偏或者叫做近似无偏的估计,其意思就是在兼顾无偏性和稳定性的同时,让估计值更接近于真实值。

这类几乎无偏估计是Kadiyala[30]提出来的,由此就开启了研究几乎无偏估计的大门,得到了各种有偏估计的几乎无偏估计,并得出他们是几乎无偏的,并且优于最小二乘估计; Singh,B et al.[31]最先考虑在岭估计的基础上提出了几乎无偏岭估计(AUR)和几乎无偏广义岭估计(AUGR); Akdeniz 和 Kaciranlar[32]通过对 Liu 估计的研究提出了几乎无偏 Liu 估计(AUL)及几乎无偏广义 Liu 估计(AUGL),在这些基本的几乎无偏估计的基础上,有大量的学者研究了这些几乎无偏估计在不同的条件的统计性质,例如:Nomura[33]得出在存在非随机约束的条件下得出在 MSE 准则下几乎无偏 Liu 估计(AUL)是优于最小二乘估计(OLS);刘彬,杨虎[7]在MSE 准则下得出了几乎无偏岭估计(AUR)是优于最小二乘估计(OLS),几乎无偏Liu 估计(AUL)是优于最小二乘估计(OLS),以及几乎无偏 Liu 估计(AUL)优于几乎无偏岭估计(AUR)的充要条件。

1.2.2 半参数模型的国内外发展及研究现状
1986 年,Robert[34]在研究德国天气条件是如何影响电力需求的实际问题中,提出了半参数模型,自从半参数模型被提出来以后就得到极大的关注,成为热门的研究课题。

因而得到大量的研究成果,其中 Heckman [35]通过光滑样条方法来研究半参数模型提出了光滑样条估计,并研究得出了这个估计的统计性质。

Rice[36] 考虑了当 (x ,t ) 是固定的和用样条估计来估计非参数部分G(∙) 的时候,参数部分β
i i
的估计统计性质。

在1988 年,Robinson[37]和Speckman[38]分别提出了,当采用核估计来估计非参数部分G(∙) 时,用加权最小二乘估计来估计参数部分β的渐进性质。

在 1995 年,柴根象和孙平[3]运用新的思路提出了二阶段估计,这是运用最广泛的半参数模型估计方法之一,并研究得出了这个估计具有非常优良的统计性质。

在实际应用半参数模型中,半参数模型的参数部分也存在复共线性的情况,因此对其进行有偏估计的研究也具有很重要的意义。

2005 年,胡宏昌[39]在两步估计的基础上结合岭估计提出了半参数模型下的岭估计,并比较研究了其优良性。

2009 年,胡宏昌[40]提出了在两步估计中的几乎无偏岭估计并研究这个估计的优良性。

2010 年,Tabkan 和 Akdeniz[41]运用差分法来处理半参数模型得出了基于差分法的岭估计。

2011 年,Arashi 和 Roozbeh[42,43]提出了在误差符合椭球分布时候的差分压缩估计。

在 2011 年,Esra,A.D,Wolfgang .K.H 和 Maria.O [48]提出了基于差分法的岭估计和 Liu 估计,并在 MSE 准则下得到基于差分法的岭估计和Liu 估计是优于最小二乘估计的,以及基于差分法的 Liu 估计优于基于差分法的岭估计的充要条件。

在 2012 年,Duran 等人[44,45]提出了基于差分法上 Liu 估计并研究了估计的优良性。

在 2012 年,徐建文和杨虎[46]在 backfitting 和 Speckman 方法的基础上提出
3
了新的预检验估计,并得到这个估计具有很好的统计性质。

前面都是考虑在常规的情况下应用半参数模型,但是实际情况往往不是这样的,例如在实际问题中会遇到有的数据得不到,对于这样的情况就有新的模型来处理,例如:对于右删失数据,1995 年,秦更生[6]提出了右删失半参数模型并用核光滑及综合数据法得到了参数分量β和非参数分量G(∙) 的估计式βˆ和Gˆ并研究了βˆ和Gˆ的统计性质。

同年,王启华[9]对删失分布已知和未知的情况分别进行讨论,得出了参数和非参数部分的估计,并研究了它们的性质。

对于带约束的半参数的模型,也有大量的学者进行了研究,并得到比较好的结果,其中李晨[12]研究了参数部分受到线性约束的情况下,参数部分的估计及其性质。

在 2007 年,Marcin Przystalsk 和 Pawel Krajewsk[47]利用惩罚最小二乘法和核估计得出来在参数部分受线性约束情况下的参数部分的估计。

1.2.3 半参数模型中的重要估计方法介绍
本文主要研究的是部分线性回归模型,同时也对其他的半参数模型进行简单的介绍。

首先,给出部分半参数线性模型的表达式为:
Y =X β+g(t )+ε ,i =1, 2, (1.1)
i i i i
其中{Y }为观测数据,X 为已知的p 维向量,β为未知的p 维参数向量,{t }为[ 0,1]
i i i
上的已知数列,g(∙) 为定义在[0,1]上的未知的函数关系,{ε } 中的元素是相互独立
i
并服从N(0,σ2 ) 分布。

若记Y ( 1,Y , )',X ( 1, , , )',
=Y Y =X X X
2, n 2 n
G(t)=g t g t ,
( ( ), ( ), ε= (ε,ε, .则部分半参数模型(1.1)可简记为:
1 2
1 2
Y =X β+G(t) +ε(1.2) 由于半参数模型含有参数分量(既表示已知函数关系的部分)也含有非参数分量(既表示函数关系未知的部分)。

这样半参数模型就含了参数信息,又包含了非参数信息,即是线性模型和非参数模型的结合。

在应用到实际问题中,更加的接近真实的情况,能够更加充分的利用信息,从而比单一的利用线性模型和非参数模型具有更好解释能力以及更好的拟合效果。

下面给出半变系数模型的表达式为:
Y =X β+a(u )t +ε ,i =1, 2, (1.3)
i i i i i
其中{Y }为观测数据,X 为已知的p 维向量,β为未知的p 维参数向量,{t }为[ 0,1]
i i i
上的已知数列,{u }为已知的数列,a(∙) 为定义在[0,1]上的未知的函数关系,{ε }
i i
中元素是相互独立并服从N(0,σ2 ) 分布。

在这个模型中,允许一些系数是可以变化的,从而就让非参数部分的具有很高的灵敏性和精确度,能够更好的满足实际的需求。

大量的学者对半参数模型进行了研究,也取得了大量的研究成果,形成了一个比较完善的理论系统。

对半参数的研究方法很多,下面针对半参数模型(1.2),对
4
重庆大学硕士学位论文 1 绪论
其中主要的方法进行简单的介绍:
第一种方法为参数估计法[5],其基本思路就是把非参数部分参数化。

具体的操作就是:假设函数G(t) 属于函数空间Q ,并对函数空间Q 进行一定的限制,在这里添加的限制为函数空间Q的函数是光滑的,无穷维的。

由代数矩阵的知识,就可以采取合理的逼近形式把Q中的函数参数化。

具体的方法是在函数空间Q 中选定

=
∑,因为我们假设函数空间Q 是光滑的,一组基{e },就可以得到函数G(t) λe
i i i
i=1
那么就可用有限维的基来逼近函数即是
n
=
∑。

通过上面的方法就可以把非G(t) λe
i i
i=1
参部分G(t) 估计转化为估计有限维参数λ= (λ ,λ, 的问题。

然后就可以利用
1 2
经典线性模型中的估计方法估计β及λ。

参数估计法的最大的特征就是把非参数部分G(t) 参数化,把G(t) 参数化的方法也有很多,例如偏光滑样条估计、偏分块多项式估计、分段多项式估计等。

第二种方法为运用最多的补偿最小二乘法[5],先后由Wahba、Green et al.、Engle et al 提出的。

这种方法的基本思路为:求解一个β满足下面的准则:
V'P V +αG'RG =(1.4)
min
其中V =X β+G -Y ,α叫做平滑因子,是给定非负数,对V 和G 在极化的过程中起平衡作用,R 为正规化矩阵,是给定的正定矩阵。

大量的学者对平滑因子α和正规矩阵R 的选取做出了研究。

第三种方法为两步估计[5]。

两步估计的基本思路为:首先假设未知的参数向量β是已知的,就可以根据非参数估计求出G 的估计为G(t,β) =W(t,λ)(Y -X β) ,其中的λ为任意的参数。

由于W (t,λ) 用的方法很多,所以又可以具体分为权估计、小波估计、近邻估计、核估计等。

通过把G 的估计带回原来的模型,原模型就可以转变为线性模型进而只需要求β。

对β的估计,根据最小二乘理论就可以求解:
V'P V =V =Y -Xβ-G t β(1.5)
min, ( , )
求出β的解为β,然后再返回求出G 的解G =G(t,β) =W(t,λ)(Y -X β) 。

第四种方法为两阶段估计[33].其思路为:假设α=E(g(t )) <∞,E(g2(t )) <∞,
i i
e =g(t )-α+ε,则得到的参数分布{e }是相互独立的同分布且Ee = 0 ,Ee 2 <∞。

i i i i i i
那么半参数模型(1.2)就转化为:
Y =α+X β+e ,(i =1, 2, (1.6)
i i i
对于上面的模型(1.5)运用最小二乘法就能求出β的估计β,这次估计记作β的第一次估计。

然后对于残差序列{Y -X β},利用核光滑、概率权、多项式、小波等
i i
方法中某种方法就能求出G(t) 的G(t) 。

最后将G(t) 代回原来的半参数模型(1.2)中,再次使用最小二乘法就能得到β的估计为β,这次叫做β的第二次估计。

5
重庆大学硕士学位论文 1 绪 论
第五种方法为抗差估计(稳健估计)[5]。

其基本的思路就是:根据线性模型中 稳健估计的思想,对半参数模型(1.2)进行稳健估计。

具体方法就是定义一个函数 ϕ ∙ ,且ϕ(∙) 为凸函数然后极化下面的式子:
( )
n ∑ ϕ(y - X β - g (t )) = min i
i i i =1 n ∑ (1.7)
p ϕ(y - X β - g (t )) = min
或者 i
i i i
i =1 得到的解就为其相应的估计 β 和G (t ) ,其中 p 为随机的实数。

i
第六种方法为泛最小二乘估计[5],是由胡宏昌提出的,其思路为:
V 'P V +αG 'RG + λβQ β =
(1.8)
min 其中α , λ 为平滑因子和平衡因子是非负的,对V ,S ,β 起平衡作用, R ,Q 为正规 化矩阵,是固定的正定矩阵。

第七种方法为差分估计方法[13]。

差分法的基本思想就是利用差分的方法消除 非参数部分的影响,然后把非参数模型转化为熟悉的线性回归模型进行研究,就 可以利用研究线性回归的方法进行研究,例如最小二乘估计,极大似然估计, minimax 估计,主成分估计,Stein 估计等。

差分法按照阶数的不确定,可以分为 一阶差分,高阶差分,不定阶差分等。

这个方法是本篇文章中主要研究的方法。

1.2.4 本文的主要内容及其架构
在这篇文章中,针对半参数线性回归模型,主要对在基于差分法的半参数模 型中的有偏估计进行研究,并进一步考虑了在基于差分法下的半参数线性模型中 几乎无偏岭估计和几乎无偏 Liu 估计,并证明了它们在 MSE 准则和偏差准则下的 优良性以及在随机模拟和实证分析下的验证。

最后考虑了岭参数的选取问题,得 出了在不同的情况下,该如何去选取岭参数的估计方法。

具体的架构如下:
第一章 为绪论部分,主要介绍了本文研究的模型为半参数线性回归模型以及 考虑用差分法处理半参数模型的有偏估计和几乎无偏估计,所以对有偏估计和半 参数线性回归模型的发展以及国内外的一些研究成果进行介绍。

第二章 为预备知识,在这一章主要介绍了一些基本的符号含义,一些基本定 义和基本的定理。

为后面的进一步研究做准备。

第三章 为基于差分法的半参数线性回归模型中的估计。

在这一章介绍了差分 法,将差分法运用于半参数线性回归模型得到的最小二乘估计,并研究得出了基 于差分法的最小二乘估计的一些优良统计性质。

第四章 为基于差分法的半参数线性回归模型中的岭估计和几乎无偏岭估计, 在这一章考虑在设计矩阵为‘病态’的情况下,把岭估计引入进来,并提出了基于差 分法的几乎无偏岭估计,并在 MSE 准则和偏差准则下,比较得出基于差分法的几 乎无偏岭估计是优于基于差分法的岭估计的。

并利用 R 软件进行随机模拟验证。

6
第五章为基于差分法的半参数模型线性回归模型中的Liu估计和几乎无偏Liu 估计,因为Liu 估计是有偏估计中被研究最多的估计之一,因此在这一章考虑把Liu 估计引入,提出了基于差分法的几乎无偏Liu 估计,并在 MSE 准则和偏差准则下,证明了基于差分法的几乎无偏 Liu 估计是优于基于差分法的 Liu 估计,并利用 R 软件进行了随机模拟验证。

第六章为实证分析,通过对美国波士顿房价影响因素的数据进行分析,用基于差分法的几乎无偏岭估计,基于差分法的几乎无偏 Liu 估计进行处理,得出基于差分法的几乎无偏岭估计和基于差分法的几乎无偏Liu 估计优于基于差分法的岭估计,基于差分法的 Liu 估计和最小二乘估计。

第七章为岭参数估计方法的选择。

主要考虑了岭参数估计方法的选择问题,即是在不同的实际情况下,选取不同的岭参数的估计方法,对应结果的差异是非常大的。

因此在这一章通过随机模拟考虑在不同的情况下,得出在不同岭参数的估计方法下的效果,并比较得出岭参数在不同情况下估计方法的选取准则。

第八章为总结和展望。

在这一部分,对本文所做的工作结论进行了一个总结,并对这后续的研究发展工作提出了新的展望。

7
2 预备知识
线性模型及半参数线性模型现在已经是一个比较完善成熟的理论系统,因此里面涉及的知识面非常的广,因此在这一个章节,我们需要将所涉及到的主要的矩阵论和数理统计方面的知识进行简单的介绍,便于后面的推理研究。

1.2.5常用符号及含义
下面列出论文里常用的符号标识及其表示的含义:
A ⨯:表示m 行n 列的矩阵A;
m n
I :表示n⨯n维的单位矩阵;
n
A':表示矩阵A转置;
A-:表示矩阵A广义逆;
A-1 :表示矩阵A唯一逆;
A :表示A 共轭转置;
*
A > 0 :表示A 是正定对称矩阵;
A ≥ 0:表示A 是半正定的对称矩阵或者非负定对称矩阵;
A ≥
B :表示A-B ≥ 0。

A :表示矩阵A的范数;
tr(A) :表示矩阵A的迹;
()
rank A :表示矩阵A秩;
()
E X :表示随机变量X 的期望;
()
Var X :表示随机变量X 的方差;
(. )
Cov X Y ;表示随机变量X.Y 的协方差;
()
Bias X :表示随机变量X 或者向量X 的偏差;
MSE ;表示均方误差;
GMSE :表示广义均方误差;
GMSEM :表示广义均方误差矩阵;
MSEM :表示均方误差矩阵;
μ:表示服从均值为u ,方差为δ2 的向量。

1.2.6矩阵方面的知识
定义 2.2.1[1] 若满足A2 A的n 阶方阵A ,则称其为幂等矩阵。

8
重庆大学硕士学位论文 2 预备知识
定义 2.2.2 [1] 设A为n 阶矩阵,B 为n 阶矩阵,满足:AB =BA =I ,则称B 为A的逆矩阵,记为A-1 。

定理 2.2.1 [1] 设A, B 为可逆矩阵,c 为常数,则有:
1.()1 1 1
cA c A
-=--
2.()1 1 1
AB B A
-=--
定义 2.2.3[1] 对m⨯n矩阵A⨯,n⨯m矩阵
m n
X ⨯,如果满足:
n m
则称矩阵
AXA =A
-。

X ⨯为A m⨯n的广义逆,记为A n m
定义 2.2.4[1] 对m⨯n矩阵A⨯,n⨯m矩阵
m n
X ⨯,如果满足:
n m
AXA =A, XAX =X, AX =AX, XA =XA
()* ()*
则称X

为矩阵的 Moore-Penrose 广义逆,记为A
+。

n m
定义 2.2.5[1] 设m⨯n维矩阵X 是实对称矩阵,y =f (X )为矩阵X 的实值函数,对其求偏导则有:
⎡∂y ∂y ⎤
⎢∂∂⎥
x x
⎢⎥
11 1n
∂=⎢
y
∂⎢∂∂⎥
X
y y
⎢⎥
⎢∂∂⎥
x x
⎣⎦
m1 mn
称为y 对矩阵X 的微分。

定义 2.2.6[1] (谱分解)设A为n 阶实对称矩阵,则A 可以分解为:A =QΛQ',其中Λ=diag(λ1,λ2 , 是有A 的特征值组成的对角阵,Q 为由特征向量组成的矩阵叫正交矩阵。

定理 2.2.2[1] 设a, x 为n 向量,且y =a'x ,则有∂y =a
∂x。

∂x Ax =+'
'
定理 2.2.3[1] 设A为n 阶矩阵,x 为n 维向量,则有()
A A x 。

当A 为
∂x
∂'=
x Ax
n 阶对称矩阵,则有2Ax。

∂x
定理 2.2.4[1] 设α为一个向量,M 为正定矩阵,则有M -αα'≥0当且仅当αα'≤。

M 1
定理 2.2.5[1] 设n⨯n的矩阵A(x),其中的元素为x 的函数,B 为n⨯n的矩阵,且B 的元素与x 无关,则有下面的式子成立
∂= ⎛∂⎪⎫
() A tr
AB tr B
∂x ⎝∂x ⎭
9
重庆大学硕士学位论文 2 预备知识
1.2.7 数理方面的知识
定义 2.3.1[14] 设 X 为 n ⨯1维随机向量,那么 E (X ) 就称为 X 的均值,即是 E X = E x E x ',其中 X = (x x '
( ) ( ) ( ), ( ), 1, 2
, 1 2 定理 2.3.1[14] 若Y = AX +b ,则 E (Y ) = AE (X ) + b ,其中的 A 为m ⨯n 维的非随 机矩阵, X 为 n ⨯1维随机矩阵,b 为m ⨯1维随机向量。

定义 2.3.2[14] 设 X 为 n ⨯1维随机向量, X 的协方差阵记为Cov (X ) ,其表达式 为:
Cov X = E X - E (X ) X - E (X ) '
( ) [( )( ) ]
定义 2.3.3[14] 任意两个随机向量 X 和Y ,记其协方差阵为Cov (X ,Y ) ,其表 达式为:
Cov X Y = E X - E (X ) Y - E (Y ) '
( , ) [( )( ) ]
不难发现 X 的协方差阵Cov (X ) 是一个 n ⨯n 维对称阵,它其中的任一位置(i , j ) 的
元素为 ( , ) [( )( ) ] Cov X X = E X - EX X - EX ' ,特别当 i = j 时,就是
i j i i j j
X 的方差 i Var (X ) 。

由此我们可以得协方差阵的基本性质:
i
(1) 协方差阵对角线上的元为对应向量 X 的元的方差,其他的元为向量 X 对应两个
元的协方差。

由此可以得出下面的结论:
n
= ∑
trCov (X ) Var (X )
i
i =1 (2) 若 X ,Y 的协方差阵中的非对角元 (i , j ) 为 0,既是 Cov (X i ,Y j ) = 0 ,则称
X 与 i
Y 是不相关的。

j
定理 2.3.2[1] 任意一个 n ⨯1维随机向量,它的协方差阵都是半正定的对角阵。

定理 2.3.3[14] 若Y = AX ,则C ov Y ()A Co =v XA ()' ,其中 A 为任一 m ⨯n 维矩阵,
X 为 n ⨯1维随机向量。

定理 2.3.4[14] X 为任意的 n ⨯1维随机向量,Y 为任意的为 m ⨯1随机向量,A 任 意的 p ⨯n 非随机矩阵, B 为任意的 q ⨯m 非随机矩阵,则有:
Cov AX BY = ACov X Y B '
( , ) ( , )
定义 2.3.4[14] 在统计决策中,假设 β 为待估参数向量,为实际的状态,在有了 观测值样本过后,我们可以根据某一准则,求出 β 的一个估计为 β 。

然而该估计 β 与真实值 β 之间会存在一个偏差,这个偏差就叫做在 β 基础上产生的损失,用 L β β 记这个损失,就把它称为 β 的损失函数。

( , )
定义 2.3.5[14] 把损失函数 L (β,β) 的平均损失 EL (β,β) 称为 β 的风险函数,记
作R(β,β)。

常用的损失函数有下面两种:
1. L(β-β) = (β-β)'D(β-β)
2. L(β-β) = (β-β)'(β-β)
10
重庆大学硕士学位论文 2 预备知识
上面两种损失函数对应的风险函数分别为:
1. R(β-β) =E(β-β)'D(β-β)
2. R(β-β) =E(β-β)'(β-β )
上面两个式子分别叫做β的广义均方误差(Generalized Mean Squared Error)和称为β的均方误差(Mean Squared Error),简记为GMSE(β) 和MSE(β) 。

如果是针对的矩阵损失,那么其风险函数为:
3.R(β-β)=E(β-β)(β-β)
4.R(β-β)=E(β-β)D(β-β)
称为β的均方误差矩阵(Mean Squared Error Matrix),记为MSEM (β) ,和广义均方误差阵(Generalized Mean Squared Error Matrix),记为GMSEM (β) 。

β为β的任意两个估计,对于它们的风险函数满足:定义 2.3.6[14] 设β和
1 2
R ββ≤R ββ,对一切β成立,1.
( , ) ( , )
1 2
2.至少存在一个β使不等号成立,
则称β是关于风险函数R(∙,∙) 一致优于1 β,或者说是
2
β是关于风险函数R(∙,∙) 所
1
对应的损失函数一致优于β。

2
定义 2.3.7[14] 在β某个估计类中,如果不存在其他的估计一致优于β,则称β为β的可容许估计(Admissible Estimator)。

否则,则称β为β的不可容许估计(Inadmissible Estimator)。

可容许性对于参数估计非常的重要,如果一个参数估计不是可容许的,那么就一定能找到另外的一个估计,是一致优于它的。

在一般的情况下,一个参数的可容许估计有很多,把这些估计放在一起构成一个估计类。

我们就可以根据需要,根据一些特殊的准则,例如无偏性,方差最小,均方误差最小等准则来选取我们需要的特殊估计。

因此我们不难看出可容许性是参数估计的最基本的要求。

2.4 复共线性的介绍及判别方法
根据前面对均方误差(Mean Squared Error)的介绍,设β是β的一个参数估计,就可以得出β的 MSE 为:
MSE β=E β-β'β-β
( ) ( ) ( )
对于常规的线性参数模型:
Y =Xβ+ε,ε~ (0,δ2I)
就可以根据前面的式子计算得出通过最小二乘法得出的参数估计的均方误差为:
p
MSE βσtr X 'X-1 σ2 λ
( ) ( ) 1/
==∑
i i=1
11
重庆大学硕士学位论文 2 预备知识
根据上面的式子,我们很容易发现只要X 'X有一个特征值非常小,近似等于零,也就是说当X 'X是‘病态’的时候,那么由经典最小二乘法得出的估计的 MSE 就
会很大,那么此时β就不再是好的估计。

随着计算机技术的发展以及解决实际问题的需要,现在更需要也有能力解决数据量巨大且维数更高的数据。

在运用线性模型或者半参数模型处理这些问题的时,会发现用最小二乘法处理的结果中:有时候会出现回归变量的系数的绝对值会变得非常的大,有时候会出现正负不满足我们实际经济生活的需要或者得出的回归系数不能通过我们的显著性假设检验。

研究表明,产生这种情况的原因可能就是随着变量个数的增加,变量之间存在近似的线性的关系,即是如果存在p 个不全为零的数χ1,χ2 , ,使得我们的p 个x x 之间存在如下的关系:
1, 2 ,
χ+χ+≈。

这个时候就称
1
x1 2x2 0 β1,β2 , 之间存在多重线性关系,也即是复共线性。

这个时候称由x1, x2 , 组成矩阵X 的列向量之间存在这样的近似线性关系时,就称矩阵X 是“病态”的。

又根据研究发现当矩阵X 是“病态”
的时候,矩阵X 'X的某个特征值是趋近于零的,即是存在λ是矩阵X 'X的一个值使得λ≈ 0。

下面就介绍判断设计矩阵是‘病态’的方法。

1.2.8 条件数
矩阵X 'X条件数的定义[14]为矩阵X 'X的最大的特征值与最小的特征值之间的的比值,也即是
λ为矩阵X'X最大的特征值,λ为矩阵X'X的最小的特征值,设K
1 p
表示矩阵X'X条件数,则有K=λλ。

存在这样的一个共识就是:当K <100时,
1
/ p
认为这个时候的复共线性程度是非常小的,这个时候可以用最小二乘法估计,且这个时候的估计的效果是比较理想的;当100 ≤K ≤1000时,认为这个时候的复共线性的程度是较强的或者称为中等程度的复共线性,这个时候利用最小二乘估计,得到的效果就不够好;当1000 <K 时,认为存在严重的复共线性,这个时候利用最小二乘估计得到的效果就是非常不理想,甚至是错误的,这个时候就应该考虑用有偏估计来研究。

1.2.9 方差扩大因子VIF
方差扩大因子[11]是另外的一种方法来考察参数变量是否存在复共线性的方法,用VI F 来表示方差扩大因子。

方差扩大因子是由每个自变量关于其他剩余变量
做回归得到的相关系数R 2 决定的,其中R 2 度量了这个向量对应的自变量
i i x 关于其1
他的自变量做回归后得到的复相关系数的平方和,然后自变量x 的方差扩大因子
1
就可以定义为:()
VIF =-R 2 i =,其中p 为自变量的个数。

当方差扩1/ 1 , 1, 2, i
i
大因子VIF 的值大于 10 即10。

相关文档
最新文档