广义岭估计的一种新的改进方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

广义岭估计的一种新的改进方法
殷立爽,范永辉
(天津师范大学数学科学学院,天津300387)

要:在线性回归模型中,当设计阵存在复共线性时,结合岭估计和主成分估计,提出一种广义岭估计的改进
方法:k 1,k 2,r 型岭估计.证明了在均方误差意义下,k 1,k 2,r 型岭估计优于最小二乘估计、普通岭估计和主成分估计.
关键词:线性回归模型;岭估计;主成分估计;均方误差中图分类号:O212.1
文献标志码:A
文章编号:1671-1114(2020)02-0008-04
A new improved method for generalized ridge estimator
YIN Lishuang ,FAN Yonghui
(College of Mathematical Science ,Tianjin Normal University ,Tianjin 300387,China )
Abstract :For linear regression model ,when there is collinearity in the design matrix ,an improved method for generalized ridge estimator named k 1,k 2,r ridge estimator is presented by combining ridge estimator and principal component estimator.In the sense of mean square error ,it is proved that k 1,k 2,r ridge estimator is superior to least squares estimator ,common ridge estimator and principal component estimator.
Keywords :linear regression model ;ridge estimator ;principal component estimator ;mean square error
doi :10.19638/j.issn1671-1114.20200202
第40卷第2期2020年3月
天津师范大学学报(自然科学版)
Journal of Tianjin Normal University (Natural Science Edition )
Vol.40No.2Mar.2020
收稿日期:2019-05-16
第一作者:殷立爽(1994—),女,硕士研究生.通信作者:范永辉(1972—),男,教授,主要从事概率统计及其应用方面的研究.E -mail :********************.
研究线性回归模型
y =X β+e ,E (e )=0,Cov (e )=σ2I (1)
其中:y 为n ×1的随机观测向量;X 为n ×p 的设计阵,其秩为p ;β为p ×1的未知回归系数向量;e 为n ×1的随机误差向量;σ为未知参数.
对于回归自变量较多的大型回归问题,回归自变量之间往往存在着近似线性关系,称为复共线性.当设计阵X 存在复共线性时,会使β的均方误差变得很大,从而使最小二乘(LS )估计的性能变坏,因此有必要对β进行修正.一个理想的改进方法是在降低均方误差的同时使得均方残差不能增加的太多,为此相关学者做了许多研究[1-7].文献[2]针对最小二乘估计的
不足,提出了回归系数的广义根方估计β赞(K ),其中K 为对角阵,并给出了其显式解.文献[3]针对特征根很
小而接近于零的部分,运用压缩最小二乘估计长度的思想提出了岭型组合主成分估计.文献[4]提出了广义岭型组合主成分估计,改变了文献[3]中矩阵对角元素中的岭参数,并给出了岭参数的选取方法.文献[5]针
对线性模型中回归系数的估计给出一个估计类:广义压缩最小二乘估计.文献[6]给出了Gamma 回归模型中岭估计的几种改进岭参数.文献[7]提出了logistic 回归模型的限制性岭估计.本文结合岭估计和主成分估计提出了一种广义岭估计的改进方法,在均方误差意义下,证明了改进的岭估计优于最小二乘估计、普通岭估计和主成分估计.
1k 1,k 1,r 型岭估计
为方便,引入线性回归模型(1)的典则形式.X ′X 为正定矩阵,故可设λ1≥…≥λp ≥0为X ′X 的特征值,准1,…,准p 为对应的标准正交化特征向量,记Φ=(准1,…,准p ),Φ为p ×p 的标准正交阵,令Λ=diag{λ1,…,λp },于是X ′X =ΦΛΦ′.模型(1)的典则形式为
y =Z α+e ,E (e )=0,Cov (e )=σ2I (2)其中:Z =X Φ,α=Φ′β.Z ′Z =Φ′X ′X Φ=Λ=diag{λ1,…,λp },α的LS 估计为
α赞=(Z ′Z )-1Z ′y =Λ-1Z ′y
(3)
第40卷第2期
相应β的LS 估计为
β赞=Φα赞=ΦΛ-1Z ′y (4)定义对于线性回归模型(1),定义k 1,k 2,r 型岭估计
β赞k 1
,k 2
,r (K
)=(X ′X +ΦK Φ′)-1X ′y 其中:K =diag{k 1I r ×r ,k 2I (p-r )×(p-r )}称为岭参数,k i ≥0,i =1、2;r 为正整数.
定义中的矩阵K 有3个参数,分别为r 、k 1、k 2,特别地,取K =diag{0,…,0},则k 1,k 2,r 型岭估计β赞k 1
,k 2
,r (0
)=(X ′X )-1X ′y 即为通常的LS 估计,因此LS 估计是k 1,k 2,r 型岭估计的一种特殊形式.
不失一般性,假设X ′X 的后(p -r )个特征值很小,λr +1,…,λp ≈0,满足r
i=1
移λi 与全部p 个特征值之和p
i=1
移λi
的比值(这个比值称为前r 个主成分的贡献率)达到预
先设定的值(如0.8).用k 1修正X ′X 的前r 个较大特征值,用k 2修正X ′X 的后(p -r )个较小特征值,则回归系数的估计为
β赞k 1
,k 2
,r (K
)=(X ′X +ΦK Φ′)-1X ′y 其中K 同定义.
设θ为一个p ×1的未知参数向量,θ赞为θ的一个估计,θ
赞的均方误差定义为MSE (θ赞)=E ‖θ赞-θ‖2=E (θ赞-θ)′(θ赞-θ)引理MSE (θ赞)=tr Cov (
θ赞)+‖E θ赞-θ‖2,其中tr (A )为矩阵A 的迹.
定理1存在K (k 1>0,k 2>0),使得在均方误差意义下,k 1,k 2,r 型岭估计β赞k 1
,k 2
,r
(K )优于最小二乘估计β
赞.证明由
β赞k 1
,k 2
,r (K
)=(X ′X +ΦK Φ′)-1X ′y =(ΦΛΦ′+ΦK Φ′)-1X ′y =
Φ(Λ+K )-1Φ′X ′y =Φ(Λ+K )-1Z ′y E (β赞k 1
,k 2
,r (K
))=Φ(Λ+K )-1Z ′X β=Φ(Λ+K )-1Z ′Z Φ′β=Φ(Λ+K )-1ΛΦ′β≠βCov (β赞k 1
,k 2
,r (K
))=Φ(Λ+K )-1
Z ′Cov (y )(Φ(Λ+K )-1
Z ′)′=
σ2Φ(Λ+K )-1Z ′Z (Λ+K )-1Φ′=σ2Φ(Λ+K )-1Λ(Λ+K )-1Φ′
得到k 1,k 2,r 型岭估计β赞k 1
,k 2
,r (K
)的均方误差为MSE (β赞k 1
,k 2
,r (K ))=tr Cov (β赞k 1
,k 2
,r (K
))+‖E β赞k 1
,k 2
,r (K
)-β‖2=σ2tr Φ(Λ+K )-1Λ(Λ+K )-1Φ′+
‖Φ(Λ+K )-1ΛΦ′β-β‖2=σ2tr (Λ+K )-1Λ(Λ+K )-1+‖Φ(Λ+K )-1Λα-Φα‖2=σ2tr (Λ+K )-1Λ(Λ+K )-1+(Φ((Λ+K )-1Λα-α))′·(Φ((Λ+K )-1Λα-α))=σ2tr (Λ+K )-1Λ(Λ+K )-1+((Λ+K )-1Λα-α)′((Λ+K )-1Λα-α)=σ2tr (Λ+K )-1Λ(Λ+K )-1+((Λ+K )-1K α)′((Λ+K )-1K α)=
r
i =1移σ2λi (λi +k 1)2
+p
i =r +1移σ2
λi
(λi +k 2)2+r i =1移k 21α2i (λi +k 1)2+p
i =r +1移k 22α2i
(λi +k 2)2=f 1(k 1)+f 2(k 2)+f 3(k 1)+f 4(k 2
)(5)
令F (K )=MSE (β赞k 1
,k 2
,r (K
)),关于k i (i =1、2)求导得f 1′(k 1)=-2σ2r
i =1移λi
(λi +k 1)3f 2′(k 2)=-2σ2p
i =r +1移λi (λi +k 2)3f 3′(k 1)=2k 1r i =1移λi α2
i

λi +k 1)3
f 4′(k 2)=2k 2p i =r +1移λi α2i

λi +k 2)33
(((((((((((((('(((((((((((((()
(6)
由此可得f 1′(
0)<0,f 2′(0)<0,f 3′(0)=0,f 4′(0)=0,所以鄣F (0)鄣k i
<0.显然f 1′(k 1)、f 2′(k 2)、f 3′(k 1)、f 4′(k 2)在k 1>0,k 2>0时均连续,所以鄣F (K )鄣k i
在K 也连续.由连续函数的性质可知,存在充分小的正数k *,当k 1∈(0,k *),k 2∈(0,k *)时,有F (K )<F (0),而F (0)=MSE (β赞),因此,当k 1∈(0,k *),k 2∈(0,k *)时,有
MSE (β赞k 1
,k 2
,r (K
))<MSE (β赞)定理2
对于任意岭估计β赞(K 1),存在k 1,k 2,r 型
岭估计β赞k 1
,k 2
,r (K ),使得在均方误差意义下,β赞k 1
,k 2
,r (K )优于β赞(K 1),其中K 1为n ×p 的矩阵且其元素均为k 1.
证明由式(6)可得,f 1′(k 1)<0,f 2′(k 2)<0,当λi 2<k 1<λi α2i -3σ22α2i
时,f 1′(k 1)比f 3′(k 1)减小得快,殷立爽,等:广义岭估计的一种新的改进方法
9··
天津师范大学学报(自然科学版)2020年3月
f 2′(k 1)比f 4′(k 1)减小得快,所以存在K *=diag{k 1,k 1,…,k 1},k 1>0,使得F ′(K *)=f 1′(k 1)+f 2′(k 1)+f 3′(k 1)+f 4′(k 1)<0.显然,f 1′(k 1)、f 2′(k 2)、f 3′(k 1)、f 4′(k 2)均连续,故鄣F (K )鄣k i
也连续.因此,存在充分小的正数k *,当k 1
∈(k 1,k *),k 2∈(k 1,k *)时,有F (K )<F (K 1),而F (K 1)=MSE (β赞(K 1)),因此,当k 1∈(k 1,k *),k 2∈(k 1,k *)时,有MSE (β赞k 1
,k 2
,r (K
))<MSE (β赞(K 1)).2岭参数的确定
记β赞k 1
,k 2
,r (K
)的第j 个分量为β赞j (K ),β赞j (K )是k i (i =1、2)的一元函数,β赞j (K )在k i ∈[0,+∞)的图像称为岭迹.采用岭迹法确定岭参数,根据p 个分量β赞j (K
)的岭迹的变化趋势选择K 值,使得各个回归系数的k 1,k 2,r 型岭估计大体上达到稳定,并且每个回归系数的岭估计值的符号比较合理,同时兼顾残差平方和的增加不能太多.因为
鄣F (K )鄣k i =-2σ2r
i =1移λi (λi +k 1)3
-2σ2p
i =r +1移λi

λi +k 2)3+2k 1r
i =1移λi α2i (λi +k 1)3+2k 2p
i =r +1移λi α2
i (λi +k 2)3=
2r
i =1移λi (k 1α2i -σ2)(λi +k 1)3+2p
i =r +1移λi (k 2α2i -σ2)(λi +k 2)3结合相关研究
[8-12]
的思想,为找到使MSE (β赞k 1
,k 2
,r (K
))达到最小值的k 赞i ,i =1、2,由式(6)容易看出,这个最优值k
赞i 应为方程鄣F (K )鄣k i
=2r
i =1移λi (k 1α2i -σ2)(λi +k 1)3+2p
i =r +1移λi (k 2α2i -σ2
)(λi +k 2)3=0(7)
的根.如果对于i =1,…,p ,都有k 1α2i
-σ2
<0且k 2α2i
-σ2<0,则鄣F
(K )鄣k i
<0.因此,取k
赞1=σ2max 1≤i ≤r
α2i ,
k 赞2=σ2max r +1≤i ≤p
α2i
(8)
用LS 估计σ赞2和α赞2i 代替σ2和α2
i (i =1,…,p ),于是给出一个确定k 1,k 2,r 型岭估计中岭参数的公式,
k
赞1=σ
赞2
max 1≤i ≤r
α
赞2i
,k
赞2=σ
赞2max r +1≤i ≤p
α
赞2i
(9)
因为鄣F
(K )鄣k i 连续,且鄣F (0)鄣k i <0,鄣F (+∞)鄣k i
>0,故使F (K )取到最小值的k i (i =1、2)必存在,记k *
1=
inf {k 1:鄣F (k 1)鄣k i =0},k *2=inf {k 2
:鄣F (k 2)鄣k i =0},K *=diag{k *1I r ×r ,k *2I (p-r )×(p-r )},k *i >0,i =1、2,则F (K *)<
F (0),故β赞k 1
,k 2
,r (K *)优于最小二乘估计β赞.
定理3
σ2α2r ≤k *1≤σ2α21,σ2α2p ≤k *2
≤σ2α2r +1
,其
中:α21≤…≤α2r 是α21,…,α2r 的升序排序,α2r +1≤…≤α2p 是α2r +1,…,α2p 的升序排序.
证明
由鄣F (K )鄣k i
的表达式可知,当0<k 1
<σ2α2r ,0<k 2<σ2α2
p 时,鄣F (K )鄣k i
>0,所以k *1∈
σ2α2r ,σ2α211
&,k *
2∈σ2α2p ,σ2α2r +1
1&
.
3k 1,k 2,r 型岭估计与主成分估计的比较
对Φ和α做分块,Φ=(Φ1…
Φ2),Φ1为p ×r 的矩阵,α=
α
1
α
2
2(,α1
为r ×1的向量,则β的主成分估计为β
軒=Φ1Λ-1Φ1′X ′y [13].定理4
当设计阵存在复共线性时,通过修正接
近于零的特征值的系数,可使得k 1,k 2,r 型岭估计β赞k 1
,k 2
,r (K
)在均方误差意义下优于主成分估计β軒.证明由式(6)可得,f 1′(1)<0,f 2′(1)<0,f 3′(0)=
f 4′(0)=0,显然f 1′(k 1)、f 2′(k 2)、f 3′(k 1)、f 4′(k 2)在K ⌒
=diag{I r ×r ,0I (p-r )×(p-r ),}都连续,所以鄣F
(K )鄣k i 在K ⌒
也连续,且鄣F (K )鄣k i <0,因此存在正数k *,当k 1∈(1,k *),k 2∈(0,k *
)时,有F (K )<F (K ⌒
),而F (K ⌒
)=MSE (
β軒),故MSE (β赞k 1
,k 2
,r (K
))<MSE (β軒).4算例
选择文献[13]中关于外贸数据分析问题的一个算例,文献[13]已对这批数据做了统计分析,并计算得到X ′X =
10.0260.9970.02610.0360.997
0.036
1
1
,,,,,,,,,,-
.//////////0
,X ′X 的3个特征
值分别为λ1=1.999,λ2=1.998,λ3=0.003,它们对应的3个标准化特征向量分别为
10··
第40卷第2期
准1=(0.7063,0.0430,0.7065)准2=(-0.0357,0.9990,-0.0258)准3=(-0.7070,-0.0070,0.7072)λ1、λ2的贡献率为2
i =1移λi
3
i =1
移λi =0.999=99.9%,因此
确定r =2.采用k 1,k 2,r 型岭估计来估计回归系数,其
迭代法过程如下:
步骤1:计算出α1、α2、α3的值,作为初始值;步骤2:由式(9)计算k 1和k 2,利用k 1、k 2,采用R 语言计算新的α1、α2、α3;
步骤3:重复步骤2,直至α1、α2、α3的值均趋于稳定时,确定k 1和k 2.
经计算确定k 1=2.80,k 2=6.70,进而得到对应的k 1,k 2,r 型岭估计为
β
赞1=10.55,β赞2=9.22,β赞3=9.24各变量的平均值为
x 1=194.59,x 2=3.30,x 3=139.74,y =21.89相应地有
s 1=
11
i =1
移x i 1
-1
1
1/2
=94.87,s 2=5.22,s 3=65.26
s y =14.37
从而得到k 1,k 2,r 型岭估计回归方程为
y
赞=-8.0235+0.0539x 1+0.5963x 2+0.1057x 3
为与其他估计进行比较,表1给出了LS 估计、岭估计、主成分估计和k 1,k 2,r 型岭估计回归方程的各项系数.由表1可见,k 1,k 2,r 型岭估计与普通岭估计和主成分估计都比较接近,而与LS 估计相比,x 1和x 3的系数变化较大,并且x 1系数的符号也发生了变化.
参考文献:
[1]陈希孺,王松桂.近代回归分析:原理方法及应用[M].合肥:安徽教
育出版社,1987.
CHEN X R ,WANG S G.Modern Regression Analysis :Principles ,Methods and Applications[M].Hefei :Anhui Education Press ,1987(in
Chinese ).
[2]夏结来,郭祖超,胡琳.回归系数的广义根方估计及其模拟[J].应
用数学,1994,7(2):187-192.
XIA J L ,GUO Z C ,HU L.Generalized root estimator of multiple linear regression coefficients[J].Mathematica Applicata ,1994,7(2):187-192(in Chinese ).
[3]徐文莉,林举干.岭型组合主成分估计[J].应用概率统计,1995,11
(1):52-59.
XU W L ,LIN J G.Ridge combined principal components estimator[J].Chinese Journal of Applied Probability and Statisties ,1995,11(1):52-59(in Chinese ).
[4]周树林,郭福星.广义岭型组合主成分估计及其K 值的选取[J].福
州大学学报(自然科学版),1997,25
(1):1-6.ZHOU S L ,GUO F X.A generalized ridge combined principal compo -nent estimation and the selecting of parameters K[J].Journal of Fuzhou University
(Natural Sciences Edition ),1997,25(1):1-6(in Chinese ).[5]王力群.广义压缩最小二乘估计[J].应用概率统计,1990,6
(3):225-232.
WANG L Q.Generalized shrunken least squares estimators[J].Chinese Journal of Applied Probability and Statistics ,1990,6(3):225-232(in Chinese ).
[6]左卫兵,钱莉.Gamma 回归模型中岭估计的几种改进岭参数[J].河
南教育学院学报(自然科学版),2019,28(2):1-6.
ZUO W B ,QIAN L.Several modified ridge parameters of ridge estima -tion in Gamma regression model[J].Journal of Henan Institute of Edu -cation (Natural Science Edition ),2019,28(2):1-6(in Chinese ).[7]ASAR Y ,ARASHI M ,WU J B.Restricted ridge estimator in the logis -tic regression model[J].Communications in Statistics -Simulation and Computation ,2017,46
(8):6538-6544.[8]王松桂.线性回归诊断[J].数理统计与管理,1986,5(1):40-48.
WANG S G.Linear regression diagnosis[J].Application of Statistics and Management ,1986,5(1):40-48(in Chinese ).[9]
JAMES W ,STEIN C.Estimation with quadratic loss[C]//Proceeding of Fourth Berkeley Symposium on Mathematical Statistics and Probability.Berkeley :University of California Press ,1961:361-379.
[10]汪明瑾,王静龙.岭回归中确定K 值的一种方法[J].应用概率统计,
2001,17(1):7-13.
WANG M J ,WANG J L.A method to determine the ridge parameter in ridge regression[J].Chinese Journal of Applied Probability and Statisti -es ,2001,17(1):7-13(in Chinese ).
[11]鲁洋为,王振杰.用U 曲线法确定岭估计中的岭参数[J].导航定位
学报,2015,3(3):132-134.
LU Y W ,WANG Z J.Determining the ridge parameter in ridge estima -tion using U -curve method[J].Journal of Navigation and Positioning ,2015,3(3):132-134(in Chinese ).
[12]徐佳.岭参数的选取[J].数学学习与研究,2019(5):8-10.
XU J.Selection of ridge parameters[J].Mathematics Learning and Study ,2019(5):8-10(in Chinese ).
[13]王松桂,史建红,尹素菊,等.线性模型引论[M].北京:科学出版
社,2004.
WANG S G ,SHI J H ,YIN S J ,et al.Introduction of Linear Models [M].Beijing :Science Press ,2004
(in Chinese ).(责任编校
马新光)
x 表1算例问题4种估计的回归方程系数
Tab.1
Coefficients of regression equations for 4kinds of estimator
Variable LS estimator Ridge estimator Principal component estimator k 1,k 2,r ridge
estimator Constant term -10.1300-8.5537-9.1057-8.0235x 1-0.05140.06350.07270.0589x 20.58690.58590.60910.5763x 3
0.2868
0.1156
0.1062
0.1057
殷立爽,等:广义岭估计的一种新的改进方法
11··。

相关文档
最新文档