第三章多元线性回归模型案例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章多元线性回归模型案例
第三章多元线性回归模型案例
⼀、邹式检验(突变点检验、稳定性检验) 1.突变点检验
1985—2002年中国家⽤汽车拥有量(t y ,万辆)与城镇居民家庭⼈均可⽀配收⼊(t x ,元),数据见表3.1。

表3.1 中国家⽤汽车拥有量(t y )与城镇居民家庭⼈均可⽀配收⼊(t x )数据
年份 t y (万辆)
t x (元)
年份 t y (万辆)
t x (元)
1985 28.49 739.1 1994 205.42 3496.2 1986 34.71 899.6 1995 249.96 4283 1987 42.29 1002.2 1996 289.67 4838.9 1988 60.42 1181.4 1997 358.36 5160.3 1989 73.12 1375.7 1998 423.65 5425.1 1990 81.62 1510.2 1999 533.88 5854 1991 96.04 1700.6 2000 625.33 6280 1992 118.2 2026.6 2001 770.78 6859.6 1993
155.77
2577.4
2002
968.98
7702.8
下图是关于t y 和t x 的散点图:
从上图可以看出,1996年是⼀个突变点,当城镇居民家庭⼈均可⽀配收⼊突破4838.9元之后,城镇居民家庭购买家⽤汽车的能⼒⼤⼤提⾼。

现在⽤邹突变点检验法检验1996年是不是⼀个突变点。

H 0:两个⼦样本(1985—1995年,1996—2002年)相对应的模型回归参数相等 H 1:备择假设是两个⼦样本对应的回归参数不等。

在1985—2002年样本范围内做回归。

在回归结果中作如下步骤:
输⼊突变点:
得到如下验证结果:
由相伴概率可以知道,拒绝原假设,即两个样本(1985—1995年,1996—2002年)的回归参数不相等。

所以,1996年是突变点。

2.稳定性检验
以表3.1为例,在⽤1985—1999年数据建⽴的模型基础上,检验当把2000—2002年数据加⼊样本后,模型的回归参数时候出现显著性变化。

因为已经知道1996年为结构突变点,所以设定虚拟变量:
0,19851995
11,19962002
D -??
-?
对1985—2002年的数据进⾏回归分析:
做邹模型稳定性检验:
输⼊要检验的样本点:
得到如下检验结果:
由上述结果可以知道,F 值对应的概率为0.73,所以接受原假设,模型加⼊2000、2001和2002年的样本值后,回归参数没有发⽣显著性变化。

⼆、似然⽐(LR )检验
有中国国债发⾏总量(t DEBT ,亿元)模型如下:
0123t t t t t DEBT GDP DEF REPAY u ββββ=++++
其中t GDP 表⽰国内⽣产总值(百亿元),t DEF 表⽰年财政⾚字额(亿元),t REPAY 表⽰年还本付息额(亿元)。

1980—2001年数据见表3.2。

表3.2 国债发⾏总量t DEBT 、t GDP 、财政⾚字额t DEF 、年还本付息额(t REPAY )数

年份 DEBT GDP DEF REPAY 年份 DEBT GDP DEF REPAY 1980 43.01 45.178 68.9 28.58 1991 461.4 216.178 237.14 246.8 1981 121.74
48.624 -37.38 62.89 1992 669.68 266.381 258.83 438.57 1982 83.86 52.947 17.65 55.52 1993
739.22
346.344 293.35 336.22 1983 79.41 59.345 42.57 42.47 1994 1175.25 467.594 574.52 499.36 1984
77.34
71.71 58.16 28.9 1995 1549.76 584.781 581.52 882.96 1985 89.85
89.644
-0.57 39.56 1996 1967.28 678.846 529.56 1355.03 1986 138.25 102.022 82.9 50.17 1997 2476.82 744.626 582.42 1918.37 1987 223.55 119.625
62.83
79.83 1998 3310.93 783.452 922.23
2352.92
1988 270.78 149.283 133.97 76.76 1999 3715.03 820.6746 1743.59 1910.53
1989 407.97 169.092 158.88 72.37 2000 4180.1 894.422 2491.27 1579.82 1990 375.45 185.479 146.49 190.07
2001
4604
959.333
2516.54 2007.73
得到如下输出结果:
对应的回归表达式为:
4.310.35 1.000.88t t t t DEBT GDP DEF REPAY =+++
(0.2) (2.2) (31.5) (17.8)
20.999, 2.1,5735.3R DW F ===
现在⽤似然⽐(LR )统计量检验约束t GDP 对应的回归系数1β等于零是否成⽴。

过程如下:
输⼊要检验的变量名:
得到如下输出结果:
输出结果上部是关于约束GDP系数为零的F检验和LR检验。

由于两种检验的相应概率均不为零,模型中应该保留解释变量GDP。

⼩于0.05,即拒接原假设,GDP系数
1
输出结果下部是去掉了GDP变量的约束模型估计结果。

三、Wald检验(以表3.2为例进⾏Wald检验,对输出结果进⾏检验。


检验过程如下:
输⼊约束表达式:
得到如下结果:
从输出结果上部可以看出,相应概率⾮常⼤,远远⼤于0.05,表明原假设成⽴,即约束条件3*(2)(3)c c =成⽴,2β是1β的3倍。

输出结果的下部给出了约束条件3*(2)(3)0c c -=的样本值和样本标准差,分别为0.04和0.48。

四、表3.3中列出了中国2000年按⾏业分的全部制造业国有企业及规模以上制造业⾮国有企业的⼯业总产值Y ,资产合计K 及职⼯⼈数L 。

表3.3 中国2000年按⾏业分的全部制造业国有企业及规模以上制造业⾮国有企业的⼯业
总产值Y ,资产合计K 及职⼯⼈数L
序号⼯业总产值Y/亿元资产合计K/亿元职⼯⼈数L/万⼈
序号⼯业总产值Y/亿元资产合计K/亿元职⼯⼈数L/
万⼈ 1 3722.700 3078.220 113.0000 17 812.7000 1118.810 43.00000 2 1442.520 1684.430 67.00000 18 1899.700 2052.160 61.00000 3 1752.370 2742.770 84.00000 19 3692.850 6113.110 240.0000 4 1451.290 1973.820 27.00000 20 4732.900 9228.250 222.0000 5 5149.300 5917.010 327.0000 21 2180.230 2866.650 80.00000 6 2291.160 1758.770 120.0000 22 2539.760 2545.630 96.00000 7 1345.170 939.1000 58.00000 23 3046.950 4787.900 222.0000 8 656.7700 694.9400
31.00000 24 2192.630 3255.290 163.0000 9 370.1800 363.4800 16.00000 25 5364.830 8129.680 244.0000 10
1590.360
2511.990
66.00000
26
4834.680
5260.200
145.0000
11 616.7100 973.7300 58.00000 27 7549.580 7518.790 138.0000 12 617.9400 516.0100 28.00000 28 867.9100 984.5200 46.00000 13 4429.190 3785.910 61.00000 29 4611.390 18626.94 218.0000 14 5749.020 8688.030 254.0000 30 170.3000 610.9100 19.00000 15 1781.370 2798.900 83.00000 31
325.5300
1523.190
45.00000
16
1243.070
1808.440
33.00000
设定模型为:Y AK L e α
βµ
=
(1)利⽤上述资料,进⾏回归分析;
(2)回答:中国2000年的制造业总体呈现规模报酬不变状态吗?将模型进⾏双对数变换如下:ln ln ln ln Y A K L αβµ=+++
1)进⾏回归分析:
得到如下回归结果:
于是,样本回归⽅程为:
ln 1.1540.609ln 0.361ln Y
K L =++ (1.59) (3.45) (1.79)
20.8099,0.7963,59.66R R F ===
从回归结果可以看出,模型的拟合度较好,在显著性⽔平0.1的条件下,各项系数均通过了
t 检验。

从F 检验可以看出,⽅程对Y 的解释程度较少。

0.7963R =表明,⼯业总产值对数值的79.6%的变化可以由资产合计对数与职⼯的对数值
的变化来解释,但仍有20.4%的变化是由其他因素的变化影响的。

从上述回归结果看,??0.971α
β+=≈,即资产与劳动的产出弹性之和近似为1,表明中国制造业在2000年基本呈现规模报酬不变的状态。

下⾯进⾏Wald 检验对约束关系进⾏检验。

过程如下:
结果如下:
由对应概率可以知道,不能拒绝原假设,即资产与劳动的产出弹性之和为1,表明中国制造业在2000年呈现规模报酬不变的状态。

五、已知数据如表:
Y X1 X2 1 1 10 3 2 9 8 3 5 15 4 1 28
5
-6
1、 0111i i i Y X u αα=++ 0222i i i Y X u λλ=++ 01122i i i i Y X X u βββ=+++
(1)回答下列问题:11αβ=吗?为什么?22λβ=吗?为什么?对上述3个⽅程进⾏回归分析,结果分别如下:
即: 18.8 6.6Y X =-+
即: 217.34 1.66Y X =-
从上述回归结果可知:11??αβ≠,22
λβ≠。

⼆元回归与分别对1X 与2X 所作的⼀元回归,其对应的参数估计不相等,主要原因在于1X 与2X 有很强的相关性。

其相关分析结果如下:
可见,两者的相关系数为0.9679。

即: 1221.92 1.18 1.94Y X X =--
六、表3.4中列出了某地区家庭⼈均鸡⾁年消费量Y 与家庭⽉平均收⼊X ,鸡⾁价格P 1,猪⾁价格P 2与⽜⾁价格P 3的相关数据。

表3.4 某地区家庭⼈均鸡⾁年消费量Y 与家庭⽉平均收⼊X ,鸡⾁价格P 1,猪⾁价格P 2
与⽜⾁价格P 年份 Y/千克 X/元 P 1/(元/
千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/千克) P 2/(元/
千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258
6.64 14.10 22.16 1990 4.04 768 3.86
7.32 10.61 2002 5.29 2478
7.04
16.82
23.26
1991 4.03 843
3.98
6.78
10.48
(1)求出该地区关于家庭鸡⾁消费需求的如下模型:
01213243ln ln ln ln ln Y X P P P u βββββ=+++++
(2)请分析,鸡⾁的家庭消费需求是否受猪⾁及⽜⾁价格的影响。

先做回归分析,过程如下:
输出结果如下:
所以,回归⽅程为:
123ln 0.73150.3463ln 0.5021ln 0.1469ln 0.0872ln Y X P P P =-+-++
(-2.463) (4.182) (-4.569) (1.483) (0.873)
由上述回归结果可以知道,鸡⾁消费需求受家庭收⼊⽔平和鸡⾁价格的影响,⽽⽜⾁价格和猪⾁价格对鸡⾁消费需求的影响并不显著。

验证猪⾁价格和鸡⾁价格是否有影响,可以通过⾚池准则(AIC )和施⽡茨准则(SC )。

若AIC 值或SC 值增加了,就应该去掉该解释变量。

去掉猪⾁价格P2与⽜⾁价格P3重新进⾏回归分析,结果如下:
Variable Coefficient Std. Error t-Statistic Prob.
C -1.125797 0.088420 -12.73237 0.0000
LOG(X) 0.451547 0.024554 18.38966 0.0000
LOG(P1) -0.372735 0.063104 -5.906668 0.0000
R-squared 0.980287 Mean dependent var 1.361301
Adjusted R-squared 0.978316 S.D. dependent var 0.187659
S.E. of regression 0.027634 Akaike info criterion -4.218445
Sum squared resid 0.015273 Schwarz criterion -4.070337
Log likelihood 51.51212 F-statistic 497.2843
Durbin-Watson stat 1.877706 Prob(F-statistic) 0.000000
通过⽐较可以看出,AIC值和SC值都变⼩了,所以应该去掉猪⾁价格P2与⽜⾁价格P3这两个解释变量。

所以该地区猪⾁与⽜⾁价格确实对家庭的鸡⾁消费不产⽣显著影响。

七、某硫酸⼚⽣产的硫酸的透明度指标⼀直达不到优质要求,经分析透明度低与硫酸中⾦属杂质的含量太⾼有关。

影响透明度的主要⾦属杂质是铁、钙、铅、镁等。

通过正交试验的⽅法发现铁是影响硫酸透明度的最主要原因。

测量了47组样本值,数据见表3.5。

21 56 48 45 122 27
22 56 50 46 154 20
23 58 56 47 210 20
24 58 52
硫酸透明度y与铁杂质含量的散点图如下
所以应该建⽴⾮线性回归模型。

1.通过线性化的⽅式估计⾮线性模型。

(1)建⽴倒数模型,在Equation Specification(⽅程设定)框中输⼊
得到输出结果为
所以倒数表达式为:=-
1/0.069 2.37(1/)
y x
(18.57) (-11.95) 20.76,143, 1.095
===
R F DW
(2)建⽴指数函数⽅程设定为:
所以指数表达式为:
ln 1.99104.5(1/)
y x
=+
(22) (21.6)
20.91,468.38, 1.71
R F DW
===
把表达式还原为指数形式:ln ln(7.33)104.5(1/)
y x
=+即
1
104.5()
7.33x y e
=
可决系数也由0.76提⾼到0.91,可见拟合为指数函数⽐倒数函数更好。

2.直接估计⾮线性回归模型
直接估计的⽅程设定如下图所⽰:
对应的⾮线性估计结果是:
1
100.1()
y e
=
8.2965x
R=
(11) (29.4) 20.96
可见可决系数由0.91提⾼到0.96,则直接估计结果⽐线性化之后估计更好。

⼋、根据表3.6中给出的1980-2003年间总产出(⽤国内⽣产总值GDP度量,单位:亿元),最终消费CS(单位:亿元),投资总额I(⽤固定资产投资总额度量,单位:亿元),出⼝总额(单位:亿元)统计数据,试对中国经济增长影响因素进⾏回归分析。

年份GDP 最终消费CS 投资总额I 出⼝总额EX 1980 4551.3 2976.1 910.9 271.2
1981 4901.4 3309.1 961.0 367.6
1982 5489.2 3637.9 1230.4 413.8 1983 6076.3 4020.5 1430.1 438.3 1984 7164.4 4694.5 1832.9 580.5 1985 8792.1 5773.0 2543.2 808.9 1986 10132.8 6542.0 3120.6 1082.1 1987 11784.7 7451.2 3791.7 1614.2 1988 14704.0 9360.1 4753.8 1766.7 1989 16466.0 10556.5 4410.4 1956.1 1990 18319.5 11365.2 4517.0 2985.8 1991 21280.4 13145.9 5594.5 3827.1 1992 25863.7 15952.1 8080.1 4676.3 1993 34500.7 20182.1 13072.3 5284.8 1994 46690.7 26796.0 17042.1 10421.8。

相关文档
最新文档