应用回归分析课程设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于多元线性回归模型对我国钢铁生产的分析
摘要:钢铁工业是国民经济中最重要的基础原材料产业和重要支撑产业。

本文根据我国
钢材产量为研究对象,选取可能影响钢材产量的粗钢产量、发电量、房屋建筑面积、总能源消耗、铁路运输量、对建筑工程的投资和汽车生产量七个因素,运用多元线性回归分析建立模型,先运用普通最小二乘估计求回归系数再对方程进行异方差、自相关、和多重共线性诊断,用迭代法消除了自变量之间的自相关。

对于多重共线性问题,先是用逐步回归和剔除变量的方法,最终转变为用岭回归剔除粗钢产量和发电量两个变量解决
多重共线性,建立最终的岭回归方程:43000007388.0000002198.0731553041.2ˆx x y ++-= 7
65000837960
.0000009249
.0000010632
.0x x x +++以其探究最后进入回归方程的几个变
量在影响钢材生产方面孰轻孰重,达到学习与生活结合的效果。

关键词:多元线性回归 异方差 自相关 多重共线性 逐步回归 岭回归
一、引言
中国的钢铁工业历经50年的发展,特别是改革开放30年以来有了巨大的进步,取得了举世瞩目的成就。

钢铁工业的钢产量增加速度加快、技术水平得到明显提高,产品结构不断调整,成为名副其实的钢铁大国。

1996年我国钢产量首次超过1亿吨大关,跃居世界第一位,此后我国产量一直保持世界排名第一的位置。

2002年实现钢产量 1.8亿吨,到2003年钢产量突破2亿吨,达到22234万吨,2004年全国共产钢27279万吨,比上年增长22.7%,生铁、钢材的产量分别达到创记录的25185万吨与29723万吨(含重复材),同比增长均在20%以上。

在钢材品种和质量方面,已经逐步形成能冶铁包括高温合金、精密合金再内的1000多个钢材品种,轧制和加工包括板、带、管、型、线等各种形状的4万多个品种规格的钢材;各项技术经济指标明显提高。

钢铁行业是国民经济的支柱产业,是加快实现工业化的先导产业,其在拉动上下游产业发展、扩大城乡劳动力就业以及推动区域经济发展等方面做出了重要的贡献。

虽然整个现代化建设以传统原材料为主的状况已经发生改变,但钢铁行业对我国来说仍然是基础工业,直接影响着国民经济的健康发展。

可以说钢铁行业的稳定发展是实现我国新型工业化战略目标的关键一环,其发展水平的高低是衡量我国工业化水平和综合国力高低的重要标志。

随着国际产业的转移和我国国民经济的快速发展,我国钢铁工业取得了巨大成就。

本文研究了粗钢产量、发电量、房屋建筑面积、总能源消耗量、铁路运输量、对建筑工程的投资以及汽车生产总量7个变量对钢材生产量的影响,以及它们之间的关系;以此可以看出这7个指标中哪些指标对钢材生产量有着驻足轻重的关系,哪些指标对钢铁产量的影响相对较弱。

由此,可以看出怎么样才能使钢材产量更上一层楼,让钢铁事业有着更加长足且辉煌的发展。

二、模型假设
1、假设选取的自变量指标能基本上全面反映钢铁生产;
2、假设选取的年份期间没有大的金融市场波动;
3、假设随机误差),0(~2σεN 。

三、符号说明
1、y 表示钢材产量;
2、x1表示粗钢产量;
3、x2表示发电量;
4、x3表示房屋建筑面积;
5、x4表示总能源消耗;
6、x5表示铁路运输量 ;
7、x6表示对建筑工程投资 ;
8、x7表示汽车生产总量; 9、ε表示模型的随机误差项。

四、模型分析与建立
4.1多元线性回归模型
1.多元线性回归模型的一般形式
设随机变量y 与一般变量p x x x ,,,21 的线性回归模型为
ε
ββββ+++++=p p x x x y 22110 (4.1)
其中,p βββ,,,10 是1+p 个未知参数,0β称为回归常数,p ββ,,1 称为回归系数。

y 称为被解释变量(因变量),p x x x ,,,21 是p 个可以精确测量并控制的一般变量,称为解释变量(自变量)。

ε是随机误差,与一元线性回归一样,对随机误差项我们常假定
⎩⎨
⎧==2
)var(0)(σ
εεE (4.2)

εββββ+++++=p p x x x y E 22110)( (4.3) 为理论回归方程。

对一个实际问题,如果我们获得n 组观测数据),,2,1(),,,(;21n i y x x x i ip i i =,则线性回归模型(4.1)式可表示为
⎪⎪

⎪⎪

⎧+++++=+++++=+++++=n np p n n n p p p p x x x y x x x y x x x y εββββεββββεββββ
221102
2222211021
112211101 (4.4) 写成矩阵形式为
ε
β+=X y (4.5)
其中
⎪⎪⎪

⎪⎭⎫

⎛=n y y y y 21
⎥⎥⎥⎥⎥⎦⎤
⎢⎢⎢⎢⎢
⎣⎡=np n n p p x x x x x x x x x X
2
1
22221112111
11 ⎥⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎢⎣⎡=p βββββ 210 ⎥⎥⎥⎥⎥
⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=n εεεεε 210 (4.6) X 是一个)1(+⨯p n 阶矩阵,称为回归设计矩阵或资料矩阵。

2.多元线性回归模型的基本假定
为了方便地进行模型的参数估计,对回归方程(4.4)式有如下一些基本假定: (1)解释变量p x x x ,,,21 是确定性变量,不是随机变量,且要求
n
p X rank <+=1)(。

这里的n p X rank <+=1)(,表明设计矩阵X 中的自变量列之间不
相关,样本量的个数应大于解释变量的个数,X 是一满秩矩阵。

(2)随机误差项具有零均值和等方差,即
⎪⎩


⎧=⎩⎨
⎧≠====n j i j i j i n i E j i i ,,2,1,,,0,),cov(,,2,1,0)(2 σεεε (4.7) 这个假定常称为高斯—马尔柯夫条件。

0)(=i E ε,假设观测值没有系统错误,随机误差项i ε的平均值为0。

随机误差项i ε的协方差为0,表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。

(3)正态分布的假定条件为
⎩⎨
⎧=相互独立
n i n
i N εεεσε,,,,,2,1),,0(~212 (4.8)
对于多元线性回归的矩阵模型(4.5)式, 这个条件便可表示为
),0(~2
n I N σε (4.9)
由上述假定和多元正态分布的性质可知,随机变量y 服从n 维正态分布,回归模型(4.5)式的期望向量
β
X y E =)( (4.10)
n I y 2
)var(σ= (4.11)
因此
),(~2
n I X N y σβ (4.12)
4.2回归参数的普通最小二乘估计
线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各个参数进行估计。

普通最小二乘就是一种最为常见的统计拟合准则,在该准则下得到的回归参数的估计称为回归参数的普通最小二乘估计。

对于(4.5)式表示的回归模型εβ+=X y ,所谓最小二乘法,就是寻找参数
p
ββββ,,,,210 的估计值
p
ββββˆ,,ˆ,ˆ,ˆ210 ,使离差平方和
2
221101
210)
(),,,,(ip p i i n
i i
p x x x y
Q ββββββββ-----=
∑= 达到极小,即寻找
p
ββββˆ,,ˆ,ˆ,ˆ210 满足 2
221101
210)
(),,,,(ip p i i n
i i
p x x x y
Q ββββββββ-----=
∑=
2
1
22110,
,,
)(min 210
∑=-----=
n
i ip p i i i
x x x y p
βββββ
βββ (4.13)
依照(4.13)式求出的p ββββˆ,,ˆ,ˆ,ˆ210 就称为回归参数p
ββββ,,,,210 的最小二乘估计。

p
p x x x y ββββˆˆˆˆˆ22110++++= (4.14) 为经验回归方程。

五、案例分析
5.1数据说明
原始数据(见附录1))选取1990-2010年间钢材产量(y )、粗钢产量(1x )、发电量(2x )、房屋建筑面积(3x )、总能源消耗(4x )、铁路运输量(5x )、对建筑工程投资(6x )和汽车生产总量(7x )八个指标,以钢材产量为因变量,其余七个为自变量,研究钢材产量(y )与粗钢产量(1x )、发电量(2x )、房屋建筑面积(3x )、总能源消耗(4x )、铁路运输量(5x )、对建筑工程投资(6x )和汽车生产总量(7x )之间的关系。

数据来源国家统计局网站统计年鉴。

5.2求解分析 5.2.1直接进入法
表1 模型汇总 模型汇总b
模型 R R 方 调整 R 方 标准 估计的误差 Durbin-Watson
1
1.000a
1.000
.999
529.455
2.560
由表1可以看出调整后的决定系数999.02=R ,说明回归方程的拟合优度比较好。

表2 方差分析表
Anova b
模型 平方和 df
均方
F
Sig.
1
回归 1.099E10 7
1.569E9 5598.148
.000a 残差 3644196.517
13 280322.809 总计
1.099E10
20
由表2方差分析表可以看出,F 检验的检验值F=5598.148非常大,再看F 检验的P 值=1.41E-21≈0.000,可知此回归方程高度显著,即做出7个自变量整体对因变量y 产生显著线性影响的判断所犯错误的概率仅为1.41E-21≈0.000。

表3 系数表 系数a
模型 非标准化系数
标准系

t Sig.
B 的 95.0% 置信
区间
B
标准 误

试用版
下限
上限
1
(常量)
-6831.055
3995.65
-1.710
.111 -15463.132
1801.02
1 粗钢产量 .915 .114 .72
2 8.026 .000 .669 1.161 发电量 .541 .436
.255 1.242
.236 -.400 1.482 房屋建筑面积
-.016
.019 -.133 -.815
.430
-.058
.026
总能源消耗 -.051 .030 -.158 -1.689 .115 -.115 .014 铁路运输量 .052 .027 .113 1.900 .080 -.007 .111 对建筑工程投资 .112
.029
.223 3.865
.002
.049
.175
汽车生产总量
-.822 2.865 -.017 -.287 .779 -7.011 5.366
此时得到的回归方程为:
7654321822.0112.0052.0051.0016.0541.0915.0055.6831ˆx x x x x x x y
-++--++-=
首先看t 检验结果, j β的t 统计量)7,,2,1( =j t j 及其相应的p 值就是上表第五列
(Sig.)的结果。

我们可以发现显著性水平05.0=α时只有粗钢产量(1x )和对建筑工程投资(6x )通过了显著性检验。

尽管回归方程的显著性检验高度显著,但也会出现有某些自变量j x (甚至每个j x )对y 无显著影响的情况。

接着看看回归系数的置信区间除了有粗钢产量(1x )系数95%置信区间[0.669,1.161]和对建筑工程投资(6x )系数95%置信区间[0.049,0.175]不包含0,这也反映了回归系数的不合理。

再看回归系数的正负情况,房屋建筑面积(3x )、总能源消耗(4x )和汽车生产总量(7x )的回归系数为负,显然回归系数不合理。

那么究竟是什么原因导致回归方程出现上述结果呢,我们猜想可能是下列原因导致的。

(1)异方差和自相关
在回归模型的基本假设中,假定随机误差性n εεε,,
, 21具有相同的方差,独立或不相关,即对于所有样本点,有


⎪⎨

⎩⎨⎧=≠====n j i j i j i n i E j i i ,,2,1,,0,),cov(,,2,1,0)(2
σεεε 但在建立实际问题的回归模型时,经常存在于此假设相违背的情况,一种是计量经济建模中常说的异方差性,即)var()var(j i εε≠,当j i ≠时另一种是自相关性,即
0)(cov ≠j i εε,,当j i ≠时,异方差带来的问题:
当一个回归问题存在异方差时,如果仍用普通最小二乘发估计位置参数,将引起不良后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。

当存在异方差时,参数向量βˆ的方差大于在同方差条件下的方差,如果用普通最小二乘发估计参数,将出现低估βˆ的真是方差的情况,进一步将导致高估回归系数的t 检验值,可能造成本来不显著的某些回归系数变成显著。

这将给回归方程的应用效果带来一定影响。

当存在异方差是,普通最小二乘估计存在以下问题:
1、参数估计值虽然是无偏的,但不是最小方差线性无偏估计。

2、参数的显著性检验失效。

3、回归方程的应用效果极不理想。

自相关带来的问题:
当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果,一般情况下,序列自相关性会带来下列问题:
1、最小二乘估计量仍然是线性的和无偏的。

2、最小二乘估计量不是有效的,即OLS 估计量的方差不是最小的,估计量不是最优线性无偏估计量(BLUE)。

3、OLS 估计量的方差是有偏的。

用来计算方差和OLS 估计量标准误的公式会严重的低估真实的方差和标准误,从而导致t 值变大,使得某个系数表面上显著不为零,但事实却相反。

4、t 检验和F 检验不是可信的。

5、计算得到的误差方差2σ=df SSE /(残差平方和/自由度)是真实2σ的有偏估计量,并且很可能低估了真实的2σ。

6、计算的2R 也不能真实的反映实际2R 。

7、计算的预测方差和标准误差通常是无效的。

(2)多重共线性
多元线性回归有一个基本假设,就是要求设计矩阵X 的秩1)(+=p X rank ,即要求X 中的列向量之间线性无关。

如果存在不全为零的1+p 个数p c c c c ,,,,210 ,使得
,022110=++++ip p i i x c x c x c c n i ,,2,1 = (5.1)
则自变量p x x x ,,,21 之间存在完全多重共线性。

在实际问题中,完全的多重共线性并不多见,常见的是(5.1)式近似成立的情况,即存在不全为零的1+p 个数p c c c c ,,,,210 ,使得
,022110≈++++ip p i i x c x c x c c n i ,,2,1 = (5.2)
当自变量p x x x x ,,,,210 存在(5.2)式的关系时,称自变量p x x x x ,,,,210 之间存在多重共线性(multi-collinearity ),也称为复共线性。

多重共线性到来的影响:
(1)完全共线性下参数估计量不存在
(2)近似共线性下OLS 估计量非有效,多重共线性使参数估计值的方差增大,
)1/(12
r -为方差扩大因子(Variance Inflation Factor, VIF)
(3)参数估计量经济含义不合理
(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外 (5)模型的预测功能失效。

变大的方差容易使区间预测的“区间”变大,使预测失去意义。

5.3 方程的异方差、自相关以及多重共线性诊断 5.3.1异方差诊断
这里使用等级相关系数法检验,计算残差绝对值||i e (见附录2)与自变量i x 的相关性时采用Spearman 等级相关系数,而不采用Pearson 简单相关系数,这是由于等级相关系数可以反映非线性相关的情况,而简单相关系数不能如实反映非线性相关情况。

表4 异方差检验表
相关性
残差
绝对值
粗钢产量
发电量 房屋建筑面积
总能
源消耗 铁路运输量 对建筑工程投资 汽车生产总量 残差绝对值
Pearson 相关性 1 .197 .200
.178
.238
.226
.057
.071
显著性(双侧) .392 .385 .439 .300 .324 .807 .760
N
21
21 21 21 21 21 21 21
**. 在 .01 水平(双侧)上显著相关。

由表4可得等级相关系数s r 很P 值,因为在显著性水平05.0=α下,每个p 值都大于
05.0=α,认为残差绝对值||i e 与自变量i x 不显著相关,即认为不存在异方差。

5.3.2自相关诊断
这里我们采用DW 检验。

可以用SPSS 算出DW 的值,结果如表5。

表5 自相关检验表
模型汇总b
模型 R R 方 调整 R 方
标准 估计的误
差 Durbin-Watson
1
1.000a
1.000
.999
529.455
2.560
由表5我们可以得到DW=2.56,查DW 表,n=21,k=8,显著性水平05.0=α,得
29
.2,637.0==U L d d 。

由L U d DW d -≤≤4-4,可知不能判定残差是否有自相关。

下面
借助图示检验法来判定自相关性。

1、绘制1,-t t e e 的散点图。

用)(1,-t t e e )
(21,,3,2 =t 作为散布点绘图。

图1 1,-t t e e 的残差散点图
从图1我们不能看出大部分点落在Ⅰ,Ⅲ象限或者是Ⅱ,Ⅳ象限,不能判定随即扰动项t ε存在自相关性。

2、绘制按照时间顺序回归残差项t e 的图形。

图2 时间序列残差散点图
t
e 1-t e
t
t
e
从图2可以看出t e 随着t 的变化逐次有规律地变化,呈现锯齿形,表明t e 存在负相关,随机扰动项t ε存在负的序列相关。

5.3.3 消除自相关
这里我们用迭代法消除自相关,需要求出t y '和t i x ,',其中
⎩⎨
⎧-='-='--1,,1
t t i t
i t t t x x x y y y ρρ 7,,2,1 =i (5.3) (5.3)式中自相关系数ρ是未知的,用DW
21-1ˆ≈ρ
来估计ρ,计算出ρ后,带
入(5.3)式,计算变换因变量t y '和变换自变量t i x ,'(见附录3),然后用变换得到自变量和因变量作普通最小二乘回归,看看自相关是否消除。

表6 迭代后的自相关检验表
模型汇总b
模型 R R 方 调整 R 方 标准估计的误差 Durbin-Watson
1
1.000a
1.000
1.000
515.8203064
2.423
由表6我们可以得到DW=2.423,查DW 表,n=20,k=8,显著性水平05.0=α,得
339.2,595.0==U L d d 。

由L U d DW d -≤≤4-4,可知不能判定残差是否有自相关。

下面
仍然借助图示检验法来判定自相关性。

1、绘制1,-t t e e 的散点图。

用)(1,-t t e e )
(21,,3,2 =t 作为散布点绘图。

图3 1,-t t e e 的残差散点图
从图3我们不能看出大部分点落在Ⅰ,Ⅲ象限或者是Ⅱ,Ⅳ象限,不能判定随即扰
1-t e
t
e
动项t ε存在自相关性。

2、绘制按照时间顺序回归残差项t e 的图形。

图4时间序列残差散点图
从图4可以看出t e 随着t 的变化并没有呈现有规律地变化,不能看出t e 存在自相关。

即认为同归迭代法变换后消除了自相关。

5.3.4多重共线性诊断
这里采用方差扩大因子和条件数检验回归方程的多重共线性。

方差扩大因子法中,当10≥j VIF 时,就说明自变量j x 与其与自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。

条件数法中,当100<≤k 时,没有多重共线性;
10010<≤k 时,存在较强的多重共线性;100≥k 时,存在严重的多重共线性。

用SPSS
可以直接得到上述结果,见表7和表8。

表7 方差扩大因子检验表
系数a 模型 非标准化系数
标准系

t Sig. 共线性统计量
B
标准 误

试用版 容差 VIF 1
(常量)
-8976.210
4630.99
8
-1.938
.076
粗钢产量 .893 .112
.706 7.962 .000 .002 480.432
t
t
e
由表7可以看出发电量(2x ),房屋建筑面积(3x )的方差扩大因子很大,分别为
464.23932=VIF ,039.15943=VIF ,远远超过10,说钢材生产回归方程存在着严重的多
重共线性。

表8 条件数检验表 共线性诊断a
发电量 .701 .422 .329 1.662 .122 .000 2393.46
4
房屋建筑面积
-.023 .019 -.193 -1.195 .255 .001 1594.03
9
总能源消耗 -.051 .026 -.160 -1.970 .072 .002 400.533 铁路运输量 .048 .026 .106 1.876 .085 .005 193.811 对建筑工程投资 .117
.026
.228 4.443
.001
.006 161.371
汽车生产总量
-.609 2.867 -.012 -.212 .835 .005 193.369

型 维
数 特征值 条件
索引 方差比例
(常
量) 粗钢产量 发电量 房屋建
筑面积 总能
源消耗 铁路运输量 对建筑工程投资 汽车生产总量
1
1
7.448
1.00
.00 .00 .00
.00
.00
.00
.00
.00
2
.520 3.78
5
.00 .00 .00
.00
.00
.00
.00
.00
3 .026 16.9
20
.00 .00 .00 .00 .00 .00 .02 .02
4 .003 50.1
27
.00 .11 .00 .03 .00 .00 .06 .06
5 .002 55.5
08
.00 .02 .00 .01 .00 .00 .57 .43
6 .000 163.
105
.01 .02 .01 .01 .66 .37 .06 .23
由表8,从条件数看到,最大的条件数8k =329.135,说明自变量间存在严重的多重共线性,这与方差扩大因子法的结果一致。

5.3.5消除多重共线性
由表7可以看到,变量之间的多重共线性比较严重,我们先用逐步回归的方法剔除一些变量。

用普通最小二乘回归对迭代法得到的数据进行分析,输出结果如表9。

表9 逐步回归后的多重共线性检验表
系数a
7 .000 200.
702
.96 .52 .00 .04 .33 .54 .28 .01
8 6.876E-5 329.135
.02 .32 .98 .92 .01 .09 .01 .26
模型 非标准化系数
标准
系数 t Sig. 共线性统计量
B
标准 误

试用版 容差 VIF 1
(常量)
-4710.276 573.699
-8.210
.000
粗钢产量 1.262 .015 .999 82.663 .000 1.000
1.000
2 (常量) -2851.51
3 291.878
-9.770 .000
粗钢产量
1.023
.025 .809 41.448 .000
.059 16.976
对建筑工程投资 .100 .010 .195 10.000 .000 .059 16.976
3
(常量)
-10606.04
6
3599.50
8
-2.947
.009
粗钢产量 .880 .070 .696 12.633 .000 .006 164.541
对建筑工程投资
.106 .009 .207 11.170 .000 .054 18.613
可以看到回归方程保留了三个自变量,而方差扩大因子321VIF VIF VIF 和,均比较大,说明自变量之间仍存在多重共线性。

由于1VIF 最大,剔除粗钢产量这个变量在用普通最小二乘回归得到表10。

表10 剔除变量后的多重共线性检验表
系数a 模型 非标准化系数
标准系

t Sig. 共线性统计量
B
标准 误

试用版 容差 VIF 1
(常量)
-52728.167
4358.37
2
-12.09
8
.000
铁路运输量 .305 .022 .665 13.682 .000 .081 12.385 对建筑工程投资
.175
.025
.343
7.048
.000 .081 12.385
由表10可以看到方差扩大因子10385.1221>==VIF VIF ,依然存在多重共线性,此时回归方程只剩下两个自变量了,再剔除自变量的话就和实际问题不符合了,所以用剔除解释变量消除多重共线性的方法不可行。

鉴于此我们用另外一种变换—岭回归,消除多重共线性,重新建立回归方程。

5.4岭回归法 5.4.1岭回归的定义
当自变量间存在多重共线性,|X X '|≈0时,设想给X X '加上一个正常数矩阵
kI )0(>k 那么X X '+kI 接近奇异的程度就会比X X '接近奇异的程度小得多。

考虑到变量
的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用X 表示,定义
y X kI X X k '+'=-1)()(ˆβ
称为β的岭回归估计,其中,k 称为岭参数。

由于假设X 已经标准化,所以X X '就是自变量样本相关阵。

y 可以标准化也可以未标准化,如果y 也经过
标准化,那么计算的实际是标准化岭回归估计。

)(ˆk β
作为β的估计应比最小二乘估计βˆ稳定,当0=k 时的岭回归估计)0(ˆβ
就是普通的最小二乘估计。

因为岭参数k 不是唯一确定的,所以得到的岭回归估计)(ˆk β
实际是回归参数β的一个估计族。

铁路运输量 .047 .022 .102 2.160 .046 .008 120.042
5.4.2岭迹法
岭迹法的直观考虑是,如果最小二乘估计看来有不合理之外,如估计值以及正负号不符合经济意义,希望能通过采用适当的岭估计)
来加以一定程度的改善,岭参数k
(ˆk
值的选择就是尤为重要。

选择k值的一般原则是:
(1)各回归系数的岭估计基本稳定;
(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理。

(3)回归系数没有不合乎经济意义的绝对值;
(4)残差平方和增大不太多。

岭迹法与传统的基于残差方法相比,在概念上来说是完全不同的,岭迹法对于分析各变量之间的作用和关系是有帮助的。

5.4.3岭回归选择变量的原则:
1、在岭回归的计算中,假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。

可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。

2、当k值较小时,标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零,像这样岭回归系数不稳定,震动趋于零的自变量可以予以剔除。

3.去掉标准化岭回归系数很不稳定的自变量。

如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。

5.4.4 用岭回归选择变量建立回归方程
对迭代法得到的数据进行分析,SPSS进行岭回归程序如下:
INCLUDE'E:\SPSS19.0\SPSS\Samples\English\Ridge regression.sps'. RIDGEREG DEP=y/ENTER x1 x2 x3 x4 x5 x6 x7.
得到图5岭迹图。

图5 岭迹图
可以看到,变量3x 的岭回归系数)ˆ3k (β从负值迅速变成正值,|)ˆ|1
k (β和|)ˆ|3k (β都迅速减少。

从岭回归的角度看,1x 与3x 只要保留一个就可以了。

其余变量的岭回归系数相对稳定。

在这里我们决定剔除1x ,用y 与其余六个自变量作岭回归。

把领参数步长改为0.02,范围减小到0.4。

修改后的语句如下:
INCLUDE'E:\SPSS19.0\SPSS\Samples\English\Ridge regression.sps'. RIDGEREG DEP=y/ENTER x2 x3 x4 x5 x6 x7 /START=0.0/STOP=0.4/INC=0.02. 得到岭迹图6。

岭迹图6
由图6看,变量2x 和变量3x 的岭回归系数依然不稳定,剔除2x ,范围减小到0.2再分析,语法如下:
INCLUDE'E:\SPSS19.0\SPSS\Samples\English\Ridge regression.sps'. RIDGEREG DEP=y/ENTER x3 x4 x5 x6 x7 /START=0.0/STOP=0.2/INC=0.02. 结果如图7。

岭迹图7
从岭迹图7看,岭参数k 在0.04~0.1之间时,岭参数已经基本稳定,当k=0.08时,
996
.02
R 仍然很大,因而可以选取岭参数k=0.08。

重新作岭回归,语法如下:
INCLUDE'E:\SPSS19.0\SPSS\Samples\English\Ridge regression.sps'. RIDGEREG DEP=y/ENTER x3 x4 x5 x6 x7 /k=0.08
计算结果如表11。

表11 k=0.08的岭回归结果
Mult R .998045 RSquare .996093 Adj RSqu .994698 SE 2129.130623
ANOVA table
df SS MS F value Sig F
Regress 5.000 1.62E+010 3.24E+009 713.8648164 .0000000
Residual 14.000 63464761 4533197.2
B SE(B) Beta B/SE(B) X3 .000002198 .000000164 .000018359 .001338742 X4 .000007388 .000000560 .000023065 .001319257 X5 .000010632 .000000797 .000023194 .001334201 X6 .000009249 .000000956 .000018122 .000967485 X7 .000837960 .000095618 .000016448 .000876364 Constant -2.731553041 .216522090 .000000000 -.001261559
得到y 对76543,,,,x x x x x 的标准化岭回归方程为
76543000016448.0000018122.0000023194.000002306.0000018359.0ˆx x x x x y
++++= 未标准化的岭回归方程为
7
654
3000837960
.0000009249
.0000010632
.0000007388.0000002198.0731553041.2ˆx x x x x y
+++++-=
5.5结果分析
我们用上述岭回归的方法消除了自变量之间的多重共线性,并且得到了岭回归方程,各个岭回归系数也都为正值,与实际情况向符合,说明钢材生产量主要与房屋建筑面积(3x )、总能源消耗(4x )、铁路运输量(5x )、对建筑工程投资(6x )和汽车生产总量(7x )五个指标有关。

从最后得到的标准化岭回归方程可以用于比较最后进入回归方程的五个自变量对钢铁生产的影响程度大小,岭回归系数越大那么对钢铁生产的影响也就越大,可以看出铁路运输量对钢铁生产的影响比较大。

我们还可以从未标准化的岭回归方程解释五个自变量对钢铁生产的作用。

六、模型评价与推广
6.1 模型评价 6.1.1 优点
本文以多元线性回归建立模型,分别选用了等级相关系数法诊断异方差;图示检验法和DW 检验法诊断自相关迭代法消除自相关;方差和扩大因子法诊断多重共线性岭回归法消除多重共线性最终建立岭回归方程。

用多元线性回归模型得到的回归方程能很明白的说明问题,容易理解。

6.1.2 缺点
为了解决多重共线性问题,选取的七个自变量未能全部进入最后的回归方程。

6.2 模型推广
本文建立的多元线性回归模型很好地决绝了实际问题,并且能够推广应用到现实生活中的很多问题,如:
1、分析国家财政收入与选取自变量之间的关系,并对其作出短期预测;
2、分析股票变动与选取自变量之间的关系,并对其作出短期预测。

七、参考文献
[1] 薛薇,《SPSS统计分析方法及应用(第二版)》,北京:电子工业出版社,2009年
[2] 茆诗松,《概率论与数理统计》,北京:高等教育出版社,2011年
[3] 何晓群,《应用回归分析(第三版)》,北京:中国人民大学出版社,2011年
[4] 贾俊平,《统计学》,北京:清华大学出版社,2004年
八、附录
附录1
年份y x1 x2 x3 x4 x5 x6 x7
1990 5153 6635 6212 37923 98703 146209 3008.7
2 51.4
1991 5638 7100 6775 41054.2 103783 147898 3647.6
8 71.42
1992 6697 8094 7539 51885.4 109170 152317 5163.3
7 106.67
1993 7716 8956 8395 65374.2 115993 156791 8201.2
1 129.85
1994 8428 9261 9281 78032.2 122737 157278 10786.
52 136.69
1995 8979.8 9535.9
9
10070.
3 89862.8 131176 159473
13173.
33 145.27
1996 9338.0
2
10124.
06
10813.
1 129087 13519
2 161787
15109.
29 147.52
1997 9978.9
3
10894.
17
11355.
53 128680.3 135909 162010
15614.
03 158.25
1998 10737.
8 11559 11670 137593.6 136184 153435
17874.
53 163
1999 12109.
78 12426 12393 147262.5 140569 157239
18795.
93 183.2
2000 13146 12850 13556 160141.1 145531 166056 20536.
26 207
2001 16067.
61
15163.
44
14808.
02 188328.7 150406 179201
22954.
88 234.17
2002 19251.
59
18236.
61 16540 215608.7 159431 187578
26578.
89 325.1
2003 24108.
01
22233.
6
19105.
75 259377.13 183792 199814
33447.
17 444.39
2004 31975.28291.22033.310985.71 213456 217816 42803.509.11
72 09 09 57
2005 37771.
14
35323.
98
25002.
6 352744.
7 235997 231839
53382.
5936 570.49
2006 46893.
36
41914.
85
28657.
26 410154.4 258676 245476
66775.
8302 727.89
2007 56560.
87
48928.
8
32815.
53 482005.5 280508 262400
83518.
2752 888.89
2008 60460.
29
50305.
75
34957.
61
530518.62
76 291448
275243.42
37
104958
.8788 930.59
2009 69405.
4
57218.
23
37146.
51
588593.90
96 306647
277571.69
81
138758
.3348
1379.5
3
2010 80276.
58
63722.
99
42071.
6
708023.51
41 324939
309541.08
35
171351
.8291
1826.5
3
附录2
年份y x1 x2 x3 x4 x5 x6 x7 残差绝对值
1990 5153 6635 6212 37923 98703 146209 3008.
72 51.4
292.9
1
1991 5638 7100 6775 41054.2 10378
3 147898
3647.
68 71.42
212.1
6
1992 6697 8094 7539 51885.4 10917
0 152317
5163.
37
106.6
7 23.02
1993 7716 8956 8395 65374.2 11599
3 156791
8201.
21
129.8
5
203.8
8
1994 8428 9261 9281 78032.2 12273
7 157278
10786
.52
136.6
9 17.94
1995 8979.
8
9535.
99
10070
.3 89862.8
13117
6 159473
13173
.33
145.2
7 95.64
1996 9338.
02
10124
.06
10813
.1 129087
13519
2 161787
15109
.29
147.5
2 3.08
1997 9978.
93
10894
.17
11355
.53 128680.3
13590
9 162010
15614
.03
158.2
5
383.4
6
1998 10737
.8 11559 11670 137593.6
13618
4 153435
17874
.53 163 54.08。

相关文档
最新文档