回归、Logstic模型的预测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2013年数学建模第二次实战训练论文题目线性回归模型的预测
2013年8月21日
摘要
本文主要是根据所给的回归数据,利用SPSS软件建立线性回归模型,并根据所建立的数学模型来解决相应的实际问题。
首先,根据杠杆原理,确定强影响点,其次,对所给的数据利用单样本K-S检验进行正态性检验,得出数据是符合正态分布的,并对回归数据进行相关性检验,得出 y对自变量有显著的线性关系。
再次,利用条件数原理进行自变量的多重共线性检测,消除后得到模型。
最后,利用残差的自相关性来进行模型的检验,并作出相应的预测。
一、问题重述
本文需要解决的六个问题是:
1. 检测强影响点,并求出杠杆值;
2. 正态性检验;
3. 相关性检验;
4. 自变量的多重共线性检测,若有多重共线性,试消除,再建模;
5. 残差的自相关分析,模型的合理性分析。
6. 预测T X )225,7,13,50,82,81,470(0 时Y 的预测值。
一. 模型假设
1. 假设所给的数据真实、可靠; 2. 假设未来的数据没有太大的变动; 3. 假设所给数据都是随机的的变量。
二. 符号说明
∧
y y 的预测值;
ij D 第ij 个数据的库克距离;
ij h 第ij 个数据的杠杆值;
Sig 相伴概率;
三. 问题分析
该问题主要是处理回归数据的问题,从而想到建立多元线性回归模型,由于是回归模型,所以我们选用SPSS 软件来建立模型,但在建立模型之前必须做相关性的检验,检验都通过后,才能建立模型,并作出相应的预测。
五. 模型建立与求解
5.1问题一模型建立与求解 5.1.1问题一的分析
由残差向量的方差阵公式:
2)1()(σii i h e D -=
可知,因为杠杆值大的观测点远离样本中心,较大的杠杆值的残差偏小,所以它能够把回归方程拉向自身,我们把杠杆值大的样本点称为强影响点。
由于强影响点并不总是因变量的异常值点,因而不能单纯根据杠杆值ii h 的大小判断强影响点是否异常。
为此,我们引入库克距离来判断强影响点是否为因变量的异常值点。
库克距离的计算公式为:
2
2
2)
1()1(ii ii
i
i h h p e D -∙
+=
∧σ
库克距离反映了杠杆值ii h 与残差i e 大小的一个综合效应。
根据帽子矩阵H 的迹的公式:
1)(1
+=∑==p h H tr ii n
i
则杠杆值ii h 的平均值为:
n
p h n h ii n i 111+=∑==
这样,杠杆值ii h 如果大于2倍或3倍的h ,我们就认为这个杠杆值是大的。
对于库克距离大小标准的判定比较复杂,较精确的方法请见参考文献]2[。
我们提供一个粗略的标准是:当5.0<i D 时,认为该强影响点不是异常值点; 当1>i D 时,认为该强影响点是异常值点。
在用SPSS 软件计算杠杆值时,计算的是中心化杠杆值ii ch ,由参考文献]2[可知
n
h ch ii ii 1
-
= 因此,p ch ii n
i =∑=1
,中心化杠杆值ii ch 的平均值是
n
p ch n ch ii n i =∑==11
5.1.2问题一模型的建立
对所给的数据进行处理,利用SPSS 软件计算出库克距离(cook )和杠杆值得到表一所示。
表1:
行 y x1 x2 x3 x4 x5 x6 残差 删除残差 学生残差
删除学 生残差 Cook
距离
杠杆值 1 443 49 79 76 8 15 205 8.87 10.0093 0.24451 0.2561 0.00124 0.0893 2 290 27 70 31 6 6 129 -5.9 -7.4063 -0.16375 -0.18019 0.00118 0.1733 3 676 115 92 130 0 9 339 2.67 4.37602 0.07378 0.09293 0.00081 0.3637 4 536 92 62 92 5 8 247 25.4 28.3872 0.69974 0.73498 0.0093 0.0812 5 481 67 42 94 16 3 202 6.6 7.75207 0.18198 0.19435 0.00097 0.1238 6 296 31 54 34 14 11 119 0.28 0.32325 0.00773 0.00818 0 0.1075 7 453 105 60 47 5 10 212 8.9 11.1997 0.24542 0.27144 0.0028 0.1805 8 617 114 85 84 17 20 285 -2.4 -3.3525 -0.06496 -0.07632 0.00036 0.2724 9 514 98 72 71 12 -1 242 -40 -47.027 -1.1093 -1.20779 0.03478 0.1197 10 400 15 59 99 15 11 174 -0.6 -0.772 -0.01553 -0.01791 0.00002 0.2453 11 473 62 62 81 9 1 207 11 12.2132 0.30467 0.31595 0.00155 0.0705 12 157 25 11 7 9 9 45 39.8 55.0561 1.09631 1.30383 0.09157 0.253 13 440 45 65 84 19 13 195 -19 -22.413 -0.51853 -0.56024 0.0088 0.1362 14 480 92 75 63 9 20 232 -0.1 -0.1161 -0.00253 -0.0028 0 0.1847 15 136 27 26 82 4 17 134 -122 -166.27 -3.3513 -5.2811 0.80856 0.2442 16 530 111 52 93 11 13 256 -12 -14.411 -0.32726 -0.35585 0.00399 0.1516 17
610 78 102 84 5 7 266 46.8 54.4018 1.29004 1.41204 0.04509
0.1152
18 617 106 87 82 18 7 276 -18 -20.373
-0.48279 -0.515 0.00635 0.1158 19 600 97 98 71 12 8 266 5.52 5.99485 0.15215 0.15624 0.00031 0.0548 20 480 67 65 62 13 12 196 41.6 43.7764 1.14655 1.18368 0.01049 0.0254 21 279 38 26 44 10 8 110 26.4 29.3288 0.72935 0.76321 0.00919 0.0733 22 446 56 32 99 16 8 188 16.9 20.522 0.46737 0.50851 0.00797 0.1493 23 450 54 100 50 11 15 205 -7.2 -8.5676 -0.19928 -0.21384 0.00125 0.1316 24 335 53 55 60 8 0 170 -52 -58.455 -1.42819 -1.54925 0.04237 0.0891 25 459 61 53 79 6 5 193 44.6 48.2549 1.22973 1.29221 0.01923 0.051 26 630 60 108 104 17 8 273 3.03 3.80807 0.08362 0.09229 0.00032 0.1789 27 483 83 78 71 11 8 233 -33 -34.619 -0.91921 -0.93504 0.00485 0.0123 28 617 74 125 66 16 4 265 -10 -13.102 -0.28434 -0.31614 0.00398 0.1881 29 605 89 121 71 8 8 283 -11 -12.642 -0.29289 -0.31518 0.00278 0.135 30 388 64 30 81 10 10 176 10.4 11.4078 0.28624 0.29592 0.00128 0.0652 31 351 34 44 65 7 9 143 40.6 44.4239 1.11903 1.17776 0.01858 0.0617 32 366 71 34 56 8 9 162 18 19.7359 0.49652 0.51404 0.00372 0.0628 33 493 88 30 87 13 0 207 24.1 29.9199 0.66374 0.7349 0.01903 0.1707 34 648 112 105 123 5 12 34 0.81 2751.19 0.02228 1.31442 822.2362 0.9747 35 449 57 69 72 5 4 200 20.2 22.4882 0.55615 0.58139 0.00568 0.0783 36 340 61 35 55 13 0 152 -28 -32.133 -0.76468 -0.8191 0.01539 0.1122 37 292 29 45 47 13 13 123 4.91 5.52477 0.13534 0.14146 0.00037 0.0868 38 688 82 105 81 20 9 268 56.7 67.4956 1.56406 1.75968 0.0791 0.1348 39 408 80 55 61 11 1 197 -44 -49.234 -1.22544 -1.30354 0.02569 0.0725 40 461 82 88 54 14 7 225 -60 -65.513
-1.64631
-1.78052
0.04144
0.0639
0.15
5.1.3问题一模型的求解 由5.1.2的表一知,
9747.034=h
15.0=h
第34个数据的库克距离为:6362.82234=D ,因为
9497.040
1
3434=-
=h ch 540
1
==∑=i ii ch p
15.040
1
51401=+==∑=i ii h n h
于是有
45.0334=>h h
根据库克距离原理可知:第34个数据是强影响点。
5.2 问题二模型建立与求解
5.2.1问题二的分析
由单样本K-S检验正态分布原理可知,当相伴概率(sig)的值大于0.05,说明检验的数据分布和正态分布没有显著差异,即检验的数据属于正态分布。
在统计中,原假设H0一般是:变量与某某不存在显著差异或没有显著关系,而研究假设H1则是:变量与某某存在显著差异或有显著关系(而这里的原假设就是数据的分布和正态分布没有显著差异)。
即当sig大于0.05,则接受原假设,小于0.05,则拒绝原假设,这在统计中是永远成立的。
5.2.2问题二的模型建立
通过K-S原理利用SPSS软件进行正态性检验得到表二
表2:
* This is a lower bound of the true significance.
a Lilliefors Significance Correction
5.2.3问题二的模型求解
由5.2.2中的表二结果知,Kolmogorov-Smirnov(a)、Shapiro-Wilk中的sig值全部大于0.05,故所给的回归数据属于正态分布。
5.3问题三的模型建立与求解
5.3.1问题三的分析
问题三是要对题目所给的回归数据进行相关性检验,就是要看变量之间的相关系数,即皮尔逊相关系数、斯皮尔曼相关系数、肯德尔相关系数、偏相关系数,系数越大说明相关性越大,当两个变量的线性关系增强时,相关系数趋于1或-1。
正相关时趋于1,负相关时趋于-1。
5.3.2问题三的模型建立及求解
利用SPSS软件作出Y1x,2x,3x,4x,5x,6x的相关系数矩阵得到表三,
表3:
X1 Pearson
Correlation .773(**)
1 .465(**) .452(**) -.045 -.025 .614(**) Sig.(2-tailed) .000 .00
2 .00
3 .782 .876 .000 N 40 40 40 40 40 40 40 X2 Pearson
Correlation .783(**)
.465(**) 1 .307 .105 .102 .589(**) Sig.(2-tailed) .000 .002 .054 .518 .531 .000
N
40 40 40 40 40 40 40 X3 Pearson
Correlation .644(**) .452(**) .307 1 -.009 .045 .439(**) Sig.
(2-tailed) .000 .003 .054 .955 .781 .005 N 40 40 40 40 40 40 40 X4 Pearson
Correlation .191 -.045 .105 -.009 1 -.005 .170 Sig.(2-tailed) .239 .782 .518 .955 .978 .294
N
40 40 40 40 40 40 40 X5 Pearson
Correlation -.030 -.025 .102 .045 -.005 1 -.034 Sig.(2-tailed) .854 .876 .531 .781 .978 .835
N
40
40 40 40 40 40 40 X6 Pearson
Correlation .745(**)
.614(**) .589(**) .439(**) .170 -.034 1 Sig.(2-tailed) .000 .000 .000 .005 .294 .835
N
40
40
40
40
40
40
40
** Correlation is significant at the 0.01 level (2-tailed).
从表三可知Y 与1x ,
2x ,3x ,4x ,5x ,6x 都相关,但与4x ,5x 相关性较小,
并且x1与x6的相关性较强。
为进一步确定再作出Y 与1x ,2x ,3x ,4x ,5x ,6x 的偏相关系数矩阵,得到表4, 表4:
Correlations
Y X1 X2 X3 X4 X5 X6 Spearm an's rho Y Correlatin Coefficient 1.000 .800(**) .735(**) .594(**) .182 -.079 .830(**
) Sig.(2-taile
d) . .000 .000 .000
.262 .630 .000
N 40 40 40 40 40
40
40
X1 Correlation Coefficient .800(**) 1.000 .457(**
) .353(*)
-.018 -.076
.706(**
)
Sig. .000 . .003 .025
.914 .642 .000
(2-tailed) N
40 40 40 40 40 40
40
X2 Correlation Coefficient .735(**) .457(**) 1.000
.193 .099 .034
.666(**) Sig.
(2-tailed) .000
.003
. .232 .544 .834 .000
N
40 40 40 40 40 40
40 X3 Correlation Coefficient .594(
**) .353(*) .193 1.000
.092 .050
.413(**) Sig.
(2-tailed) .000 .025 .232 . .571 .757 .008 N
40 40 40 40
40
40
40 X4 Correlation Coefficient .182 -.018 .099 .092 1.000 -.023 .197 Sig.
(2-tailed) .262 .914 .544 .571 . .886 .224 N
40 40 40 40 40
40
40 X5 Correlation Coefficient -.079 -.076 .034 .050 -.023 1.000 -.098 Sig.
(2-tailed) .630
.642
.834
.757
.886 . .548 N
40 40 40 40 40
40
40 X6 Correlation Coefficient .830(**) .706(**) .666(**) .413(**) .197 -.098 1.000
Sig.
(2-tailed) .000 .000 .000 .008 .224 .548 .
N
40
40
40
40
40
40
40
** Correlation is significant at the 0.01 level (2-tailed).
* Correlation is significant at the 0.05 level (2-tailed). 做Y 与1x ,
2x ,3x ,4x ,5x ,6x 的回归分析后的出D-W 检验
表5:
a Predictors: (Constant), X6, X5, X4, X3, X2, X1
b Dependent Variable: Y
得出D-W 的值为1.853,经查DW 检验上下界表得dl=1.23,du=1.79,由于dl<DW<du 说明残差具有随机性。
表6:
ANOVA(b)
从表六可知所做的Y 与1x ,
2x ,3x ,4x ,5x ,6x 的回归分析中F 检验通过,说明
因变量Y 对自变量有显著的线性关系,回归方程是显著的。
5.3.3问题三模型的求解 5.4.1问题四的问题分析
由特征根判定法知,当X X T
有一个特征根近似为零时,设计矩阵X 的列向量间必存在多重共线性,并且X X T
有多少个特征根接近零,X 的就有多少个多重共线性关系。
在这里,特征根近似为零的标准根据条件数确定。
记X X T
的最大特征根为m λ,我们称
p i k i
m
i ,...,2,1,0,==λλ (*1)
为特征根i λ的条件数。
在其他一些书中,条件数定义为
p i k i
m
i ,...,2,1,0,==λλ
没有开平方根,SPSS 软件是采用的(*1)式,这一点请读者注意。
条件数度量了矩阵X X T
的特征根的散布程度,可以用它来判断多重共线性是否存在及多重共线性的严重程度。
通常认为100<<k
时,设计矩阵X
的没有多重共线性;
10010<≤k 存在较强的多重共线性100≥k ;存在严重的多重共线性。
当通过条件数检验发现解释变量中存在严重的多重共线性时,就要设法消除这种共线性,这样,我们采用剔除一些不重要的解释变量来消除这种共线性。
5.4.2问题四的模型建立
根据以上的分析利用SPSS 软件做出系数表及判断条件数的表记为表7 表7:
表8:
由表:7可得出模型一为:
65432117.0999.1206.4683.1152.2805.1122.9x x x x x x y +-++++=∧
(1)
第三列condition index 的值可看出有大于10的值说明1x ,2x ,3x ,4x ,5x ,6x 之间存在共线性,看出6x 的系数为0.92,说明6x 自身存在较强的共线性。
剔出6x 后再做条件数分析得表9 表9:
表10:
表11:
剔除6x 后得模型为:
54321141.2563.4758.1289.2957.1833.15x x x x x y -++++=∧
(2)
同理剔除5x 后再做条件数分析得表11 表12:
表13:
得出模型三为:
4321620.4733.1233.2003.2522.0
x x x x y ++++-=∧
(3)
同理再剔除1x 后再做条件数分析得表14 表14:
从表14可看出已经消除了多重共线性从而进行建模得表15 表15:
从表15可以得出模型四的方程为:
432653.3524.296.2165.42x x x y +++=∧
5.4.3问题四的模型求解
通过表九中的条件数看,最大的条件数为841.137
=k ,说明自变量间存在较强的多重
共线性。
表9中第7行0x (常数项),1x ,2x ,6x 的系数分别为0.16,0.21,0.17,0.92,说明0x (常数项),1x ,2x ,6x 之间存在多重共线性。
根据SPSS 软件得到的结果剔除6x ;再由表12中5x 的系数0.85,剔除5x ;同样的方法剔除1x ;从输出结果表17,表18,表19中看到,回归系数就合理了,说明此回归模型不存在强多重共线性,得模型四为:
432653.3524.296.2165.42x x x y +++=∧
(4)
标准化回归方程是:
*
*
*
*
∧++=432128.0452.0631.0x x x y
5.5问题五的模型建立与求解 5.5.1问题五的分析
根据自相关性的诊断中的一种直观的诊断方法图示检验法来绘制残差的散点图,若大部分点都落在第Ⅰ,Ⅲ象限,表明随机扰动项存在正的序列相关;若大部分点落在第Ⅱ,Ⅳ象限,表明随机扰动项存在负相关。
若所有的点都分散在各个象限,说明随机扰动项不存在相关性,说明模型比较好。
然后通过DW 检验来验证上述诊断结果是否正确,并建立相应的模型。
DW 检验只能适用于检验随机扰动项具有一节自回归形式的序列相关问题。
这种检验方法是建立计量经济学模型中最常用的方法,一般的计算机软件都可以计算出DW 的值。
自相关系数的估计值为:
∑∑∑=-==-∧
=
n
t t n
t t
n
t t t
e e e
e 2
2
1
2
2
2
1ρ(*2)
随机扰动项的一阶自回归形式为: t t t u +=
-1ρεε
为了检验序列的相关性,构造的假设是
0:0=ρH
为了检验上述假设,构造DW 统计量首先要求算出回归估计式的残差t e ,定义DW 统计量为
∑∑==--=
n
t t
n
t t t
e
e e
DW 2
22
2
1)( (*3)
其中,
),...3,2,1(n t y y e t t t =-=∧
下面我们推导出DW 值的取值范围。
由(*3)式有
∑∑∑∑==-=-=++=
n
t t
n
t t t n t t n
t t
e e e e e
DW 2
2
2
1
2
2
12
2
(*4)
如果认为
∑=n
t t
e
2
2
与
∑=-n
t t e
22
1
近似相等,则由(*4)式得
)1(22
2
2
1
∑∑==--
≈n
t t
n
t t t
e
e
e DW (*5)
同样,在认为
∑=n
t t
e
2
2
与
∑=-n
t t e
2
2
1
近似相等时,则由(*2)式得
∑∑==-∧
≈
n
t t
n
t t t
e
e
e 2
22
1
ρ
因此,(*5)式可以为
)1(2∧
-≈ρDW
5.5.2问题五模型的建立 做出参差图,如图1
图1 参差图
从图1可看出点都比较分散无规律性,说明参差无自相关性,为进一步确定再做出D-W 表16 表16
5.5.3问题五模型的求解
根据样本n=40和解释变量的数目k=4(这里包括常数项)查DW 分布表,得到临界值
66.1,34.1==U L d d ,由此表12我们可以得到827.1=DW ,则有
34.266.1<<DW ,故结论为误差项间无自相关,故模型拟合效果很好。
5.6问题六的模型建立与求解 5.
6.1问题六的模型的建立 表17:
5.6.2问题六的模型选优及求解
根据问题五所建立的模型一、二、三、四,再把题目所给的T X )225,7,13,50,82,81,470(0=值代入模型一、二、三、四分别得到Y 的预测值为:494.876、494.28、463.817、76.006从而可得出模型三的拟合较好故选用模型三作为最终模型为
4321620.4733.1233.2003.2522.0x x x x y ++++-=∧
六、模型的评价与推广
该模型思路清晰,适用于建立一般的线性回归模型,经过严格的检验再建立出模型,模型的效果较好。
但是为了消除变量之间的多重共线性可能会剔除了重要的变量,会导致所预测的效果不优,所以模型的检验也是很重要的。
七、参考文献
[1]何晓群,刘文卿.应用回归分析.北京:中国人民大学,2001;
[2]陈希孺,王松桂.近代回归分析.合肥:安徽教育出版社,1987 ;。