非负回归系数线性回归模型构建
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非负回归系数的线性回归模型的构建
谢忠秋
(江苏常州,江苏技术师范学院经济治理系,213001)
摘要:本文针对某些线性回归模型负的回归系数不具有实际的物理意义和经济意义的问题,提出了非负回归系数的线性回归模型构建的新方式。
与现有的方式相较较,该方式具有简单和易操作的特点。
在实际中具有必然的应用价值。
关键词:非负回归系数非负回归系数线性回归模型
一、引言
在许多的实际问题中,必需要求线性回归系数为非负,不然没有实际意义。
例如在方开泰等人研究的配方问题中确实是如此。
在配方问题中,每一个成份的线性回归系数相当于它在总配方中的比例,假设线性回归系数为负就失去了物理意义(1982,1985)。
而事实上,在用线性回归模型反映实际经济问题时,咱们也会常常碰到如此的情形,确实是线性回归模型的回归系数从经济意义上进行阐释,应为正数,但依照最小二乘法所确信出的线性回归模型的某一个或某几个回归系数却恰恰为负数,从而显现了其计算结果与经济分析彼此矛盾的情形。
对此种情形,通常的做法确实是运用必然的方式将该变量从回归模型中排除。
若是说,关于不过重要的变量,如此做尚未多大阻碍的话,那么关于一些超级重要的变量,如此做就可能会产生一些消极的作用,如回归模型失真等等。
那么,可否在遵守必然规那么的前提下,通过某种科学的方式使负的回归系数转变成正的回归系数呢?这确实是有关非负回归系数的线性回归模型的构建问题。
显然,咱们有必要这一问题进行研究,这将有助于人们更好地利用线性回归模型对实际物理问题和实际经济问题作出合理的论述和说明。
对非负回归系数的线性回归模型的构建问题,Waterman在1974年曾进行过讨论,他建议用一切可能回归的方法来求最小二乘估量;我国学者方开泰、王东谦、吴国富也在1982年对这一问题展开研究,提出了立足于矩阵的消去变换方式;而后方开泰、贺曙东又在1985年对这一方式作了进一步的改良,使这一方式的应用更具一样性(1)、(2)。
显然,他们的奉
(1)、方开泰、王东谦、吴国富《一类带约束的回归------配方回归》《计算数学》1982年第1期p57----69
(2)方开泰、贺曙东《含有线性约束及非负回归系数的回归模型》《计算数学》1985年第3期p237----246
献是庞大的。
但也应该看到,这些方式在实际应用上还存在着必然的缺点,最大的缺点确实是它们的计算进程还相当复杂,而这关于很多的人来讲,无疑是一道难以逾越的障碍。
本文试图给出另一种解决方案。
该方案关于熟悉统计学和稍有数学基础的人是容易同意和把握的。
二、
研究思路和方式
设多元线性回归模型为:
n
n X b X b X b b Y *2*21*1*0*ˆ++++= () 关于非负回归系数的线性回归模型来讲,若是依照最小二乘法所求出的**2*1n
b b b 、、、 俱能在经济意义上说明得通,那么意味着上述模型符合要求,直接应用即可。
而事实上,在许多实际的线性回归模型中,当某一个或某几个变量的回归系数表现为负数时,往往表现出与实际经济意义的说明并非相符的情形。
换句话说,只有表现为非负时,才具有经济意义上的合理性。
若是显现这种情形,那么意味着该模型不符合非负回归系数线性回归模型的要求。
现在,一个简单而自然的方式确实是依照某些规那么通过一些变换,将负的回归系数(注意:并非是所有的负的回归系数,而只是那部份不具有经济意义上的合理性的负的回归系数)转变成非负的回归系数。
有关变换规那么及进程如下:
一、对不具有经济意义上合理性的负的回归系数(为简便计,不妨直接称之为负的回归系数,下同)乘以一个负的调整系数,使之变换为非负回归系数。
设非负回归系数为i b ,
负的回归系数为*i b ,负的调整系数为1p ,那么*1i i b p b =,m i ,,21
=。
() 二、由于*i b 变换为i b ,那么必然引发具有经济意义上合理性的回归系数(为简便计,也不妨直接称之为正的回归系数,下同)的回归系数的变更。
设变更后的正的回归系数为j b ,变更前的正的回归系数为*j b ,正的回归系数调整系数为2p ,那么*
2j j b p b =,
n m m j ,,21+==()
3、一样,由于*i b 变换为i b ,*
j b 变换为j b ,也必然会引发截距项的变更。
设变更后的
截距项为0b ,变更前的截距项为*
0b 。
4、为保证1p 为负,2p 为正,令
212
1
1p p p p -=-=,即。
()
五、不管回归系数如何转变,老是要求转变后的剩余变差与转变前的剩余变差相等,即:
∑∑∑=-=-22*2)ˆ()ˆ(e Y Y Y Y ()
于是,非负回归系数线性回归模型为:
⎪⎪
⎩
⎪
⎪
⎨⎧≥+====+++++++=++0,,1,,2,1ˆ*
2*11122110i j j i i n n m m m m b n m j b p b m i b p b X b X b X b X b X b b Y () 用最小二乘法,那么要求:
)7.2()()min(2
1122110∑--------=++n n m m m m X b X b X b X b X b b Y Q
于是,()式就可变换为以下模型:
⎪⎪⎩
⎪⎪⎨⎧≥+==-
==--------=∑++0
,,10
,,2,10)()min(*2*121122110
i j
j i i n n m m m m b n m j b p b m i b p b X b X b X b X b X b b
Y Q ()
()式的含义是在()式、()式条件下求()式的最小值。
显然,关于()式能够用
拉格朗日乘数求条件极值的方式求出该模型的解。
组成函数:
∑-------=++2
1122110)()min(n n m m m m X b X b X b X b X b b Y Q )
()()(*
1*2122*1111m m m b p b b p b b p b -++-+-+λλλ
)()()(*2*2212*1211n n n m m m m m m b p b b p b b p b -++-+-+++++++λλλ
求其对j i b b b 、、0的偏导数,并使之为零,取得:
0)()2(11221100
=---------=∂∂∑++n n m m m m X b X b X b X b X b b Y b Q
0))(()2(1111221101
=+---------=∂∂∑++λX X b X b X b X b X b b Y b Q
n n m m m m 0))(()2(2211221102=+---------=∂∂∑++λX X b X b X b X b X b b Y b Q
n n m m m m
0))(()2(1122110=+---------=∂∂∑++m m n n m m m m m
X X b X b X b X b X b b Y b Q
λ
0))(()2(1111221101=+---------=∂∂+++++∑m m n n m m m m m X X b X b X b X b X b b Y b Q
λ
0))(()2(1122110=+---------=∂∂∑++n n n n m m m m n
X X b X b X b X b X b b Y b Q
λ 别离对上述各式进行整理得:
01
1
2
2
1
1
=--------∑∑∑∑∑∑++n
n
m m m
m
X
b X
b X
b X
b X
b nb
Y ()
021
111112122
111
1
=-
--------∑∑∑∑∑∑∑++λn n m m m m X X b X X b X X b X X b X b X
b Y X 0
2
2
212122
22211202=-
--------∑∑∑∑∑∑∑++λn n m m m m X X b X X b X X b X b X X b X b Y X
02
112
22
1
1
=-
--------∑∑∑∑∑∑∑++m
m
n n
m m m m
m
m m
m
m X X
b X X
b X
b X X
b X
X b X
b Y X λ 0
2
1
1
2
1
1
11
22
1
1
1
1
1=-
--------+++++++++∑∑∑∑∑∑∑m m n n m m m m m
m m m m X X
b X
b X X
b X X
b X
X b X
b Y X
λ
02
211
22
1
1
=-
--------∑∑∑∑∑∑∑++n
n
n
n m m n m m
n
n
n
n
X
b X X
b X X
b X X
b X
X b X
b Y X λ
显然,要求出n m m m b b b b b b b 、、、、、、、、 21210++的值,关键在于求出21p p 、。
由()式
∑∑=-22
)
ˆ(e Y Y ,即:
∑∑∑∑∑∑∑∑=--------++2
11
2
2
1
1
2
e
Y X b Y
X
b Y X b Y X b Y X b Y b Y
n n
m m m
m
将()式和()式代入上式得:
)12.2()
()(*
1*1
2
*2
*2
1
*
1
10
2
2
∑∑∑∑∑∑∑∑++-+++--=++Y X b Y
X
b p Y X b Y X b Y X b p Y b Y
e n
n
m m m
m
将()式代入()式,那么有:
)()(*
1*1
1*2
*2
1
*1
10
2
2
∑∑∑∑∑∑∑∑++++++--=++Y X b Y
X b p Y X b Y X b Y X b p Y b Y
e n n
m m m
m
()
进一步整理得:
)]()[(*
1*1
*2
*2
1
*1
1
02
2
∑∑∑∑∑∑∑∑++-+++--=++Y X b Y
X
b Y X b Y X b Y X b p Y b Y
e n
n
m m m
m
()
解()得:
∑∑∑∑∑∑∑∑++-+++--=
++Y Y X b Y X b Y X b Y X b Y X b p e Y b n n m m m m )]()[(*1*
1*2*21*11220 () 将()式、()式和()代入()得:
∑∑∑∑∑∑∑∑∑
++-+++--=++Y
Y X b Y X b Y X b Y X b Y X b p e Y n
Y n n m m m m )]()[(*
1*1*2*21*1122
)]()[(*
1*1*2*21*11n n m m m m X b X b X b X b X b p ∑∑∑∑∑++-++++++
移项并整理得:
∑∑∑--222)()(Y e Y n
)]
()[(*
1*1*2*21*11∑∑∑∑∑++-+++=++Y X b Y X b Y X b Y X b Y X b n p n n m m m m )]}
()[(*
1
*
1
*
1
*
1
1∑∑∑∑∑∑∑∑++-++-++n n
m m m m
X
Y b X
Y b X
Y b X
Y b p 进一步整理得:
=--∑∑∑222)()(Y e Y n )]()({[*
11*11∑∑∑∑∑∑-++-Y X Y X n b Y X Y X n b p m m m
)]}
()([*
11*1∑∑∑∑∑∑-++--+++Y X Y X n b Y X Y X n b n n n m m m 因此:
)]
()([)()([)()(*
11*1*11*12
221∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑-++---++---=
+++Y X Y X n b Y X Y X n b Y X Y X n b Y X Y X n b Y e Y n P n n n m m m m m m 相应地:
)]
()([)()([)()(*11*1*11*12
222∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑-++---++----
=+++Y X Y X n b Y X Y X n b Y X Y X n b Y X Y X n b Y e Y n P n n n m m m m m m 将21p p 、代入()、()即可求得j i b b 、;将j i b b 、代入相应的方程,即可求得j i λλ、。
最后,将21p p 、再代入()式可求得0b 。
三、非负多元线性回归模型的查验
一、非负多元线性回归模型的多重判定系数2
R 和调整后的多重判定系数2
R
不管是非负多元线性回归模型,仍是原多元线性回归模型,其总变差)(TSS 都是不变的,即都等于
,)
(2
∑-Y Y 而咱们又假定二者的剩余变差)(RSS 也是不变的,因此其有说明的
变差)(ESS 也是不变的。
由此决定,二者的多重判定系数2
R 和调整后的多重判定系数2
R 也必然相等。
二、F 查验
同理,非负多元线性回归模型与原多元线性回归模型的F 统计量也必然相等。
3、对非负多元线性回归模型的单个回归系数的显著性查验(t 查验)
由于*
2*
1,j j i i b p b b p b ==,因此,)()()(*
2
1*
1i i i b Var p b p Var b Var ==
)()()(*
22*2j j j b Var p b p Var b Var ==
计算t 统计量,)
()
()
(***2
1
*1i
i i
i i i b Var b b Var p b p b Var b t =
=
=
可见,非负多元线性回归模型的单个回归系数(i b )的t 统计量与原多元线性回归模型
的单个回归系数)(*i b 的t 统计量也是相等的。
同理,)(j b 与)(*j b 的t 统计量也是相等的。
综上所述,尽管非负多元线性回归模型与原模型有所不同,但原模型的各类显著性查验的结果一样对非负多元线性回归模型有效。
四、实例应用
实例来源于参考文献(1)。
详细数据如下表所示:
表中,Y 表示民航客运量(万人),X1表示国民收入(亿元),X2表示消费额(亿元),X3表示铁路客运量(万人),X4表示民航航线里程(万千米),X5表示来华旅行入境人数(万人)。
以Y 为因变量,X 一、X 二、X3、X4、 X5为自变量,运用SPSS 软件,对上述原始数据做回归分析,有关输出结果见结果1
结果1 Model Summary
a Predictors: (Constant), X5, X3, X4, X2, X1
ANOVA
(1)
何晓群、刘文卿编著 《应用回归分析》中国人民大学出版社2001年6月第一版p84----87
a Predictors: (Constant), 5X , 3X , 4X , 2X , 1X
b Dependent Variable: Y
a Dependent Variable: Y
由结果1可见,X2的回归系数是负的,为–,X2是消费额,负的回归系数显然是不合理的。
但X3的回归系数–却是合理的,X3是铁路客运量,一样以为铁路客运量和民航客运量之间应呈负相关关系。
那么,又该如何维持X2的回归系数的合理性呢?显然,咱们能够采纳构建非负回归系数的线性回归模型的方式对此进行必然的技术处置。
依照表1,可计算出如下数据:
∑=Y 18546,=Y ,∑=1
X 153787,=1X ,
∑=2
X
103156,=2X ,
∑=3
X
1637217,=3X ,∑=4X , =4X ,∑=5X ,=5X ,∑=2Y ,
∑=Y X 1
6,∑=Y X 2
8,∑=Y X 3
+09,∑=Y X 4
1048142,∑=Y X 5
将上述数据代入21p p 、的计算公式得:
=1p –,=2p
再代入()和()及()得:
=0b ,=1b ,=2b ,=3b –,=4b ,=5b
最后求得新构建的非负回归系数的回归模型为:
54321062.0099.3001.0081.0051.087.130X X X X X Y ++-++=
正如前述,原回归模型的所有查验数均对新回归模型有效。
同时,新回归模型的剩余变差为:
∑∑∑∑∑∑∑------Y
X b Y X b Y X b Y X b Y X b Y b Y
554433221102
9
934.1001.0179952578081.0272984036051.01856487.130********+⨯+⨯-⨯-⨯-=E 981.2449452378630062.010********.3=⨯-⨯- 新回归模型的剩余变差与原回归模型的剩余变差相等。
总之,与原回归模型相较,新构建的非负回归系数的回归模型中的2X 的回归系数为正,其经济意义和现实意义也显得更为合理。
而且在计算方式上,也较之方开泰等人所提出的方式来得更为简单和更易操作,因此具有必然的应用价值。
(全文完)。