多元线性回归模型及其应用剖析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元线性回归模型及其应用
摘要
多元线性回归研究一个因变量、与两个或两个以上自变量的回归,是反映一种现象或事物的数量依多种现象或事物的数量的变动而相应地变动的规律。

建立多个变量之间线性或非线性数学模型数量关系式的统计方法。

多元线性回归模型主要分为建模、基本假设、检验、预测等。

检验是建立模型的核心,包括拟合检验、F 检验、T 检验。

本文采用2005-2006年全国财政支出数据和2005年全国各地生产总值数据,建立多元线性回归模型,预测2006年全国各地生产总值,并与实际数据分析比较。

建模使用了SPSS 和MATLAB 软件。

1.引言
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。

事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。

因此多元线性回归比一元线性回归的实用意义更大。

在实际经济问题中,一个变量往往受到多个变量的影响。

因此本文运用多元线性回归模型分析2005年全国各地财政支出对生产总值的影响,并对2006年生产总值进行预测,将预测值与实际数据进行比较,从而体现多元线性回归模型预测的准确性。

2.模型建立
2.1准备数据
本文选取2005年我国31个省、市、自治区的地区生产总值和13个重要支
出项,分别是:1x 为基本建设支出,2x 为企业挖潜改造资金,3x
为科技三项费
用,4x 为农业支出,5x 为农林水利气象等部门事业费,6x
为工业交通部门事业
费,7x 为流动部门事业费,8x 为教育事业费,9x 为科学事业费,10x
为卫生经费,11x 为行政管理费,12x 为公检法司支出,13x 为城市维护费。

y 为地区生产总值。

(数据单位为:万元)
2.2
建模
将13个重要支出项设为自变量,用)
13,,1(,,21 =p x x x p 表示;将地区生产总值y 设为因变量。

采用最小二乘法拟合一个多元线性回归模型,采用数学软
表2.1
因而y 对13个自变量的线性回归方程为:
13
121110987654321953.40696.55111.46360.81117.62639.50668.188590.11767.43598.95032.6681.26770.25892.4182809ˆx x x x x x x x x x x x x y
+++--+-+---+--= (2.1)
2.3模型检验
首先,对模型(2.1)进行拟合优度的检验,采用数学软件SRSS 计算样2
R 2
R 表2.2 模型汇总
由表2.2可知,模型(2.1)拟合效果很好。

然后,对模型(2.1)进行显著性F 检验,提出原假设:0
:210====P H βββ
表2.3 方差分析表
表2.3中的Sig.即为显著性P 值,由P 值=0.000(近似值),
05.0=α,P 值小于05.0=α,所以,拒绝原假设0H
,认为在显著性水平05.0=α的条
件下,因变量y 对自变量)
13,,1(,,21 =p x x x p 有显著的线性关系,即回
归方程(2.1)是显著的。

最后,对模型(2.1)进行回归系数的显著性检验,提出原假设0
:0=j j
H β其中 13,,2,1 =j 。

利用SPSS 计算出关于j β的t 统计量)
13,,2,1( =j t j 及相应
的P 值,见表2.1。

由表我们可以发现并不是所有的j x
单独对因变量y 都有显著
影响。

这说明尽管回归方程通过了显著性检验,但也会出现某些单个变量j x
对y
并不显著的情况。

由于某些变量不显著,因此本文采取后退法[3]简单的剔除多余变量,由于变量间的交互作用,不能一次性剔除所有不显著的变量,所以进行依次剔除,首先剔除P 值最大的一个变量,然后再进回归系数的显著性检验,如果有不显著的变量,那么再进行剔除,依次下去,知道保留的变量都对y 有显著性影响为止。

根据表2.1,我们首先剔除3
x ,用剩余变量与y 进行回归系数的显著性检验,
表2.4 回归系数表
由结果看,剔除
3
x 后,剩余变量的显著性都发生了变化,仍然有部分变量不
显著,所以继续进行剔除(由于剔除过程比较繁琐,在此不一一列出,只列出最
终保留的变量)。

最终保留的变量为1x ,2x ,4x ,8x ,10x ,11x ,12x ,13x。


y
表2.5回归系数表
由表2.5建立新的多元线性回归模型
13
1211108421499.45637.32575.49625.73465.49286.101266.28897.26970.3731367ˆx x x x x x x x y
+++-+-+--= (2.2)
2
R 2
R 表2.6 模型汇总
由表2.5可知,模型(2.2)拟合效果很好。

然后,对模型(2.2)进行显著性F 检验,采用数学软件SRSS 计算出的方差
表2.7 方差分析表
由P 值=0.000(近似值),05.0=α,P 值小于05.0=α,所以,在显著性水平05.0=α的条件下,回归方程(2.2)是显著的。

经过以上算法步骤,新建立的模型(2.2)通过了显著性检验,因此。

模型(2.2)为最终确定的模型。

2.4模型的预测
根据2007年的《中国统计年鉴》记载的2006年各地财政支出,本文选取基本建设支出、企业挖潜改造资金、农业支出、教育事业费、卫生经费、行政管理费、公检法司支出、城市维护费8个支出项的数据对2006年的生产总值进行预测。

应用数学软件Matlab 进行运算,结果如下表
表2.8 2006年生产总值预测区间
单位:万元 地区 上限 下限 地区 上限 下限 北 京 54367992 81136991 湖 北 62625161 80174459 天 津 33077214 51240288 湖 南 53000598 70996574 河 北 84934118 100376200 广 东 206995770 239603322 山 西 45399582 55058702 广 西 42731549 51852491 内蒙古 29485670 44062937 海 南 -410896 13041281 辽 宁 68833940 91533570 重 庆 31324564 45667699 吉 林 26849068 37322150 四 川 56072652 81252972 黑龙江 51049236 61100438 贵 州 34294196 43198582 上 海 77033579 109817842 云 南 27946469 47878550 江 苏 169479431 194980895 西 藏 -9864045 3265983 浙 江 129359173 147898948 陕 西 42697157 52939843 安 徽 50976746 61954404 甘 肃 19548768 29721201 福 建 44511882 58752981 青 海 -8004149 3995799 江 西
35019739
47205103
宁 夏
-9380970
2464400
山东167368967 191219444 新疆11388477 25585111 河南90576451 111193357
3.结论
将2007年《中国统计年鉴》中记载的2006年生产总值(附录三)与我们利用模型(2.2)预测得到的2006年生产总值(表2.8)进行比较,我们发现:2006年生产总值的实际值包含在我们对2006年生产总值的预区间内,因此,我们建立的模型是比较合适的。

在实际应用中,要充分考虑各个因素指标是否符线性回归模型;是否符合模型的基本假设,只有科学合理的建立了模型,并进行了模型检验,才能满足我们的分析要求。

当模型检验不能通过时,需要重新筛选变量,建立新的线性回归模型,直到模型符合实际为止。

只有这样,我们的分析才能真正和实际结合,也才能为我们的实际生产工作提供指导与支持。

附录
附录一
附录二
附录三。

相关文档
最新文档