北航数理统计大作业-多元线性回归

合集下载

多元线性回归模型习题与答案

多元线性回归模型习题与答案

第三章多元线性回归模型习题与答案1、极大似然估计法的基本思想2、多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有效性的过程中,哪些基本假设起了作用?3、以企业研发支出(R&D)占销售额的比重为被解释变量(Y),以企业销售额(X1)与利润占销售额的比重(X2)为解释变量,一个有32容量的样本企业的估计结果如下:099 .0)046.0()22.0()37.1(05.0)log(32.0472.022 1=++ =RX XY其中括号中为系数估计值的标准差。

(1)解释log(X1)的系数。

如果X1增加10%,估计Y会变化多少个百分点?这在经济上是一个很大的影响吗?(2)针对R&D强度随销售额的增加而提高这一备择假设,检验它不虽X1而变化的假设。

分别在5%和10%的显著性水平上进行这个检验。

(3)利润占销售额的比重X2对R&D强度Y是否在统计上有显著的影响?4、1960-1982年美国对子鸡的需求。

为了研究美国每人的子鸡消费量,我们提供如下的数据:表1 1960-1982年子鸡的消费情况年份Y X2 X3 X4 X5 X61960 27.8 397.5 42.2 50.7 78.3 65.8 1961 29.9 413.3 38.1 52.0 79.2 66.9 1962 29.8 439.2 40.3 54.0 79.2 67.8 1963 30.8 459.7 39.5 55.3 79.2 69.6 1964 31.2 92.9 37.3 54.7 77.4 68.7 1965 33.3 528.6 38.1 63.7 80.2 73.6 1966 35.6 560.3 39.3 69.8 80.4 76.3 1967 36.4 624.6 37.8 65.9 83.9 77.2 1968 36.7 666.4 38.4 64.5 85.5 78.1 1969 38.4 717.8 40.1 70.0 93.7 84.7 1970 40.4 768.2 38.6 73.2 106.1 93.3 1971 40.3 843.3 39.8 67.8 104.8 89.7 1972 41.8 911.6 39.7 79.1 114.0 100.7 1973 40.4 931.1 52.1 85.4 124.1 113.5 1974 40.7 1021.5 48.9 94.2 127.6 115.3 1975 40.1 1165.9 58.3 123.5 142.9 136.7 1976 42.7 1349.6 57.9 129.9 143.6 139.2 1977 44.1 1449.4 56.5 117.6 139.2 132.0 1978 46.7 1575.5 63.7 130.9 165.5 132.1 1979 50.6 1759.1 61.6 129.8 203.3 154.4 1980 350.1 1994.2 58.9 128.0 219.6 174.91981 51.7 2258.1 66.4 141.0 221.6 180.8 198252.92478.770.4168.2232.6189.4资料来源:Y 数据来自城市数据库;X 数据来自美国农业部。

北航数理统计回归分析大作业

北航数理统计回归分析大作业

应用数理统计第一次大作业学号:姓名:班级:2013年12月国家财政收入的多元线性回归模型摘 要本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程:46ˆ578.4790.1990.733yx x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。

关键词:多元线性回归,逐步回归法,财政收入,SPSS0符号说明变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额X 6进出口总额X71 引言中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。

近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。

经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。

政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。

所以对国家财政的收入状况进行研究是十分必要的。

国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。

为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。

而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。

本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。

北航数理统计第一次大作业

北航数理统计第一次大作业

数理统计第一次课程论文广州恒大队在2015赛季亚冠的进球数的多元线性回归模型学号: SY1527205姓名:郭谢有摘要本赛季亚洲冠军联赛,来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队,三年之内第二次夺得亚冠冠军。

为了研究恒大的夺冠过程,本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。

最终确定了进球数与各因素之间关系的“最优”回归方程。

关键词:多元线性回归,逐步回归法,广州恒大,SPSS目录摘要 (1)1.引言 (3)2.符号说明 (3)3.数据的采集和整理 (3)3.1数据的采集 (3)3.2建模 (4)4.数据分析及计算 (4)4.结论 (9)参考文献 (10)致谢 (10)1.引言一场足球比赛的进球数说明了一支球队攻击力的强弱,也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。

而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。

并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析,从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。

2.符号说明3.数据的采集和整理3.1数据的采集本文统计数据时,查阅了搜达足球数据库,确定恒大在亚冠14场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量,具体数据见下表1。

3.2建模本文选取了恒大在亚冠比赛中的进球数作为因变量y,并选取可能对进球数造成影响的因素为自变量,其中对应关系在符号说明中已经列举。

这里构建模型如下:7⋅X i+εy=β0+∑βii=1其中,其中ε为随机误差项,β0为常数项,βi为待估计的参数。

北航应用数理统计大作业多元线性回归

北航应用数理统计大作业多元线性回归

多元线性回归分析摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。

并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。

关键字:回归分析;线性;相关系数;正态分布1. 引言变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。

研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。

回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。

一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。

如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。

回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。

通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。

实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。

本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。

以探求影响居民消费水平的各个因素,得到最优线性回归模型。

随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。

本文将分为5章进行论述。

在第2章,我们介绍多元线性回归模型的概念。

第3章,我们进行模型的建立与数据的收集和整理。

我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。

在第5章,我们进行总结。

数理统计 北航 大作业

数理统计 北航 大作业

北京市财政收入的逐步回归模型研究摘要:财政收入水平高低是反映一国经济实力的重要标志,关系着一个国家经济的发展和社会的进步。

本文根据北京市2012年度统计年鉴,选取了农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值,共10个指标,对北京市财政收入及其可能的影响因素进行了研究。

文中运用逐步线性回归方法建立了多元线性回归模型,分析各因素对该地区财政收入的影响;利用SPSS软件进行求解。

通过分析SPSS软件计算的数据,从相关性检验、多重共线性检验、方差分析以及残差分析四个角度,分别对模型合理性进行了验证。

结果表明,北京市财政收入与建筑业总产值和农林牧渔也总产值呈显著线性关系。

其中与建筑业正相关,与农林牧渔业负相关。

关键字:财政收入,多元,逐步线性回归,SPSS1. 引言财政收入是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而集中的一切资金的综合,包括税收、企事业收入、能源交通重点建设基金收入、债务收入、规费收入、罚没收入等[1]。

财政收入水平高低是反映一国经济实力的重要标志,关系着一个国家经济的发展和社会的进步。

因此,研究财政收入的增长及就显得尤为必要[2]。

一个地区的财政收入可能受到诸多因素的影响,如工业总产值、农业总产值、建筑业总产值、人口数等。

本文以北京市为例,以财政收入为因变量,选取农林牧渔业总产值、工业总产值、建筑业总产值、常驻总人口数、社会消费品零售总额、入境旅游人数、客运量、货运量、全社会固定资产投资以及第三产业总产值这10个指标为自变量,利用SPSS统计软件进行回归分析,建立财政收入影响因素模型,分析影响财政收入的主要因素及其影响程度。

2. 理论概述2.1 多元线性回归[3]在许多实际问题中,影响一个事物的因素常常不止一个,采用多元线性回归分析方法可以找出这些因素与事物之间的数量关系。

数理统计第一次大作业——回归分析

数理统计第一次大作业——回归分析

北京市农业经济总产值的逐步回归分析姓名:学号:摘要:农业生产和农村经济是国民经济的基础,影响农村经济总产值的因素有多种,主要包括农林牧渔业。

本文以北京市农业生产和农村经济总产值为对象,首先分析了各种因素的线性相关性,建立回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。

以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。

关键词:农业生产和农村经济,线性回归模型,逐步回归分析,SPSS1.引言农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。

军委系统的农林牧渔业生产(除军马外)也应包括在内,但不包括农业科学试验机构进行的农业生产。

在近几年中国经济快速增长的带动下,各地区农林牧渔业也得到了突飞猛进的发展。

以北京地区为例,2005年的农业总产值为1993年的6倍。

因此用统计方法研究分析农业总产值对指导国民经济生产,合理有效的进行产业布局,提高生产力等有着重要意义。

表1 北京市农业经济产值及各产品产量统计数据本文以北京市农生产为对象,分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系,并建立农业经济总产值的回归模型。

表1中列出了1999年至2008年间的统计数据(数据来源于北京统计信息网)。

2.线性回归模型的建立2.1 线性回归模型的假设为了研究农业经济总产值与各种农生产量的关系,必须要建立二者之间的数学模型。

数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。

而实际生活中,影响农业经济总产值的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立农业经济总产值的数学模型往往是很难的。

但是为了便于研究,我们可以先假定一些前提条件,然后在这些条件下得到简化后的近似模型。

以下我们假定两个前提条件:1) 农产品的价格是不变的。

多元线性回归模型(习题与解答)

多元线性回归模型(习题与解答)

多元线性回归模型(习题与解答)第三章多元线性回归模型一、习题(一)基本知识类题型3-1.解释下列概念:1)多元线性回归2)虚变量3)正规方程组4)无偏性5)一致性6)参数估计量的置信区间7)被解释变量预测值的置信区间8)受约束回归9)无约束回归10)参数稳定性检验3-2.观察下列方程并判断其变量是否呈线性?系数是否呈线性?或都是?或都不是?1)i i i X Yεββ++=3102)i i i X Yεββ++=log103)i i i X Yεββ++=log log104)i i i X Yεβββ++=)(2105)i ii X Yεββ+=106)i i i X Yεββ+−+=)1(1107)i i i i X X Yεβββ+++=10221103-3.多元线性回归模型与一元线性回归模型有哪些区别?3-4.为什么说最小二乘估计量是最优的线性无偏估计量?多元线性回归最小二乘估计的正规方程组,能解出唯一的参数估计的条件是什么?3-5.多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有效性的过程中,哪些基本假设起了作用?3-6.请说明区间估计的含义。

(二)基本证明与问答类题型3-7.什么是正规方程组?分别用非矩阵形式和矩阵形式写出模型:i ki k i i i u x x x y+++++=ββββL22110,n i,,2,1L =的正规方程组,及其推导过程。

3-8.对于多元线性回归模型,证明:(1)∑=0i e(2)0)ˆˆˆ(ˆ110=+++=∑∑iki k i i i e x x e yβββL3-9.为什么从计量经济学模型得到的预测值不是一个确定的值?预测值的置信区间和置信度的含义是什么?在相同的置信度下如何才能缩小置信区间?为什么?3-10.在多元线性回归分析中,t检验与F检验有何不同?在一元线性回归分析中二者是否有等价的作用?3-11.设有模型:u x x y+++=22110βββ,试在下列条件下:(1)121=+ββ(2)21ββ=分别求出1β和2β的最小二乘估计量。

北师大应用多元统计分析作业——回归分析

北师大应用多元统计分析作业——回归分析

应用多元统计分析作业(七)——回归分析4-2:利用回归分析方法分析某种消费品的销售量于相关指标之间的关系。

解:●执行SAS程序代码:data dxiti42;input number x1 x2 x3 x4 Y;cards;1 82.9 92.0 17.1 94.0 8.42 88.0 93.0 21.3 96.0 9.63 99.9 96.0 25.1 97.0 10.44 105.3 94.0 29.0 97.0 11.45 117.7 100.0 34.0 100.0 12.26 131.0 101.0 40.0 101.0 14.27 148.2 105.0 44.0 104.0 15.88 161.8 112.0 49.0 109.0 17.99 174.2 112.0 51.0 111.0 19.610 184.7 112.0 53.0 111.0 20.8;proc reg data=dxiti42;model Y = x1 x2 x3 x4;run;quit;●结果分析:输出结果首先给出了回归模型的方差分析表:Model 4 169.5535 42.38838 1021.41 <.0001Error 5 0.2075 0.0415Corrected Total 9 169.761以及回归模型的一些统计量的值:0.20.9988Dependent Mean14 Adj R‐Sq 0.9978Coeff Var 1.45从以上两表中可以看出,此回归模型的拟合效果较好,R2值达到了0.9978;同时回归模型的F值也很大,为1021.41;并且F的p值很小(<0.0001),小于显著性水平α=0.05。

综上,可以判定此回归模型在α = 0.05 的水平上是显著的。

进一步给出了回归模型参数估计的一些信息:Intercept 1 ‐17.6677 5.9436 ‐2.97 0.0311 x1 1 0.09006 0.02095 4.3 0.0077x2 1 ‐0.23132 0.07132 ‐3.24 0.0229x3 1 0.01806 0.03907 0.46 0.6633x4 1 0.42075 0.11847 3.55 0.0164从上表中的最后一栏可以看出,截距项、x1、x2、x4的回归系数的t统计量的尾概率均小于显著水平α=0.05,而x3的回归系数的t统计量的尾概率大于显著水平α=0.05。

北航数理统计大作业

北航数理统计大作业

北航数理统计大作业(逐步回归)(总14页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--应用数理统计第一次大作业学号:姓名:班级: B11班2015年12月民航客运量的多元线性回归分析摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。

关键词:多元线性回归,逐步回归法,民航客运量0.符号说明1铁路客运量X2民航航线里程X3入境过夜旅游人数X4城镇居民人均可支配收入X51.引言随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。

因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。

近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。

科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。

本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行分析,研究1996年起至2013年我国民航客运量y(万人)与国民生产总值X1(亿元)、铁路客运量X2(万人)、民航航线里程X3(万公里)、入境过夜旅游人数X4(万人)、城镇居民人均可支配收入X5(元)的关系。

采用逐步回归法建立线性模型,选出较优的线性回归模型。

2.数据的统计与分析本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。

北航《应用数理统计》考习题及参考解答

北航《应用数理统计》考习题及参考解答

北航2010应用数理统计考试题及参考解答09B一、填空题每小题3分;共15分 1;设总体X 服从正态分布(0,4)N ;而1215(,,)X X X 是来自X 的样本;则221102211152()X X U X X ++=++服从的分布是_______. 解:(10,5)F .2;ˆn θ是总体未知参数θ的相合估计量的一个充分条件是_______.解:ˆˆlim (), lim Var()0n nn n E θθθ→∞→∞==. 3;分布拟合检验方法有_______与_______. 解:2χ检验、柯尔莫哥洛夫检验. 4;方差分析的目的是_______.解:推断各因素对试验结果影响是否显着.5;多元线性回归模型=+Y βX ε中;β的最小二乘估计ˆβ的协方差矩阵ˆβCov()=_______. 解:1ˆσ-'2Cov(β)=()X X . 二、单项选择题每小题3分;共15分1;设总体~(1,9)X N ;129(,,,)X X X 是X 的样本;则___B___. A 1~(0,1)3X N -;B 1~(0,1)1X N -; C1~(0,1)9X N -;~(0,1)N . 2;若总体2(,)XN μσ;其中2σ已知;当样本容量n 保持不变时;如果置信度1α-减小;则μ的置信区间____B___.A 长度变大;B 长度变小;C 长度不变;D 前述都有可能.3;在假设检验中;就检验结果而言;以下说法正确的是____B___. A 拒绝和接受原假设的理由都是充分的;B 拒绝原假设的理由是充分的;接受原假设的理由是不充分的;C 拒绝原假设的理由是不充分的;接受原假设的理由是充分的;D 拒绝和接受原假设的理由都是不充分的.4;对于单因素试验方差分析的数学模型;设T S 为总离差平方和;e S 为误差平方和;A S 为效应平方和;则总有___A___.A T e A S S S =+;B 22(1)AS r χσ-;C/(1)(1,)/()A e S r F r n r S n r ----;D A S 与e S 相互独立.5;在多元线性回归分析中;设ˆβ是β的最小二乘估计;ˆˆ=-εY βX 是残差向量;则___B____.A ˆn E ()=0ε;B 1ˆ]σ-''-εX X 2n Cov()=[()I X X; Cˆˆ1n p '--εε是2σ的无偏估计;DA 、B 、C 都对.三、本题10分设总体21(,)XN μσ、22(,)YN μσ;112(,,,)n X X X 和212(,,,)n Y Y Y 分别是来自X 和Y 的样本;且两个样本相互独立;X Y 、和22XY S S 、分别是它们的样本均值和样本方差;证明12)(2)X Y t n n +-;其中2221212(1)(1)2X Yn S n S S n n ω-+-=+-.证明:易知221212(,)X YN n n σσμμ--+;(0,1)X Y U N =.由定理可知22112(1)(1)Xn S n χσ--;22222(1)(1)Yn S n χσ--.由独立性和2χ分布的可加性可得222121222(1)(1)(2)XYn S n S V n n χσσ--=++-.由U 与V 得独立性和t 分布的定义可得12(2)X Y t n n =+-.四、本题10分设总体X 的概率密度为1, 0,21(;), 1,2(1)0, x f x x θθθθθ⎧<<⎪⎪⎪=≤<⎨-⎪⎪⎪⎩其他,其中参数01)θθ<<(未知;12()n X X X ,,,是来自总体的一个样本;X 是样本均值;1求参数;的矩估计量θθˆ2证明24X 不是2θ的无偏估计量.解:1101()(,)22(1)42x x E X xf x dx dx dx θθθθθθ+∞-∞==+=+-⎰⎰⎰; 令()X E X =;代入上式得到θ的矩估计量为1ˆ22X θ=-.2222211141 (4)44[()]4()424E X EX DX EX DX DX n nθθθ⎡⎤==+=++=+++⎢⎥⎣⎦;因为()00D X θ≥>,;所以22 (4)E X θ>.故24X 不是2θ的无偏估计量.五、本题10分设总体X 服从[0,](0)θθ>上的均匀分布;12(,,)n X X X 是来自总体X 的一个样本;试求参数θ的极大似然估计.解:X 的密度函数为 似然函数为显然0θ>时;()L θ是单调减函数;而{}12max ,,,n x x x θ≥;所以{}12ˆmax ,,,nX X X θ=是θ的极大似然估计.六、本题10分设总体X 服从(1,)B p 分布;12(,,)n X X X 为总体的样本;证明X 是参数p 的一个UMVUE .证明:X 的分布律为1(;)(1),0,1x x f x p p p x -=-=.容易验证(;)f x p 满足正则条件;于是21()ln (;)(1)I p E f x p p p p ⎡⎤∂==⎢⎥∂-⎣⎦. 另一方面1(1)1Var()Var()()p p X X n n nI p -===; 即X 得方差达到C-R 下界的无偏估计量;故X 是p 的一个UMVUE .七、本题10分某异常区的磁场强度服从正态分布20(,)N μσ;由以前的观测可知056μ=.现有一台新仪器;用它对该区进行磁测;抽测了16个点;得261, 400x s ==;问此仪器测出的结果与以往相比是否有明显的差异α=0.05.附表如下:t 分布表χ2分布表解:设0H :560==μμ.构造检验统计量)15(~0t ns X t μ-=;确定拒绝域的形式2t t α⎧⎫>⎨⎬⎩⎭.由05.0=α;定出临界值1315.2025.02/==t t α;从而求出拒绝域{}1315.2>t .而60,16==x n ;从而||0.8 2.1315t ===<;接受假设0H ;即认为此仪器测出的结果与以往相比无明显的差异.八、本题10分已知两个总体X 与Y 独立;211~(,)X μσ;222~(,)Y μσ;221212, , , μμσσ未知;112(,,,)n X X X 和212(,,,)n Y Y Y 分别是来自X 和Y 的样本;求2122σσ的置信度为1α-的置信区间.解:设布定理知的样本方差,由抽样分,分别表示总体Y X S S 2221 ,[]/2121/212(1,1)(1,1)1P F n n F F n n ααα---<<--=-;则222221211221/2122/212//1(1,1)(1,1)S S S S P F n n F n n αασασ-⎛⎫<<=- ⎪----⎝⎭; 所求2221σσ的置信度为α-1的置信区间为222212121/212/212//, (1,1)(1,1)S S S S F n n F n n αα-⎛⎫ ⎪----⎝⎭. 九、本题10分试简要论述线性回归分析包括哪些内容或步骤.。

多元线性回归(习题答案)

多元线性回归(习题答案)

第3章练习题参考解答3.1为研究中国各地区入境旅游状况,建立了各省市旅游外汇收入(Y ,百万美元)、旅行社职工人数(X1,人)、国际旅游人数(X2,万人次)的模型,用某年31个省市的截面数据估计结果如下:ii i X X Y 215452.11179.00263.151ˆ++-= t=(-3.066806) (6.652983) (3.378064)(1) 从经济意义上考察估计模型的合理性。

(2) 在5%显著性水平上,分别检验参数21,ββ的显著性。

(3) 在5%显著性水平上,检验模型的整体显著性。

3.1参考解答:由模型估计结果可看出:旅行社职工人数和国际旅游人数均与旅游外汇收入正相关。

平 均说来,旅行社职工人数增加1人,旅游外汇收入将增加0.1179百万美元;国际旅游人数增加1万人次,旅游外汇收入增加1.5452百万美元。

取0.05α=,查表得0.025t (313) 2.048-=因为3个参数t 统计量的绝对值均大于048.2)331(025.0=-t ,说明经t 检验3个参数均显著不为0,即旅行社职工人数和国际旅游人数分别对旅游外汇收入都有显著影响。

取0.05α=,查表得0.05(1,)(2,28) 3.34F k n k F α--==由于34.3)28,2(1894.19905.0=>=F F ,说明旅行社职工人数和国际旅游人数联合起来对旅游外汇收入有显著影响,线性回归方程显著成立。

3.2根据下列数据试估计偏回归系数、标准误差,以及可决系数与修正的可决系数:3.2参考解答:由已知,偏回归系数21221222221212ˆ()i iii ii i iii iy x x y x x xx x x x β-=-∑∑∑∑∑∑∑274778.346280.0004250.9004796.00084855.096280.0004796.000⨯-⨯=⨯- 0.726594= 22111232221212ˆ()i iii ii i iii iy x x y x x xx x x x β-=-∑∑∑∑∑∑∑24250.90084855.09674778.3464796.00084855.096280.0004796.000⨯-⨯=⨯- 2.73628=12132ˆˆˆY X X βββ=-+ 367.6930.726594402.760 2.736288.0=-⨯-⨯ 53.1598=可决系数 213222ˆˆi i i iiy x y x R yββ+=∑∑∑0.72659474778.346 2.736284250.966042.269⨯+⨯=0.998832=修正的可决系数2211(1)n R R n k-=--- 1511(10.998832)153-=--- 0.998637=标准误差 由于 2∑i e =21RSSR TSS=- 即22(1)ieR TSS =-∑(10.998832)66042.269=-⨯ 77.1374= F 统计量2211n k R F k R -=--=1530.9988323110.998832---=5130.986标准误差22ˆie n kσ=-∑77.1374153=-6.4281=所以标准误差ˆ 2.5354σ=3.3参考解答:(1)建立家庭书刊消费的计量经济模型: i i i i u T X Y +++=321βββ其中:Y 为家庭书刊年消费支出、X 为家庭月平均收入、T 为户主受教育年数 (2)估计模型参数,结果为Dependent Variable: Y Method: Least Squares Date: 10/20/13 Time: 18:32 Sample: 1 18Included observations: 18Variable Coefficient Std. Error t-Statistic Prob. C -50.01638 49.46026 -1.011244 0.3279 X 0.086450 0.029363 2.944186 0.0101 T52.370315.202167 10.067020.0000 R-squared0.951235 Mean dependent var 755.1222 Adjusted R-squared 0.944732 S.D. dependent var 258.7206 S.E. of regression60.82273 Akaike info criterion11.20482Sum squared resid 55491.07 Schwarz criterion 11.35321 Log likelihood -97.84334 Hannan-Quinn criter. 11.22528 F-statistic 146.2974 Durbin-Watson stat 2.605783 Prob(F-statistic)0.000000即 ˆ50.01640.086552.3703i i iY X T =-++ (49.46026)(0.02936) (5.20217)t= (-1.011244) (2.944186) (10.06702) R 2=0.951235 944732.02=R F=146.2974(3)检验户主受教育年数对家庭书刊消费是否有显著影响:由估计检验结果, 户主受教育年数参数对应的t 统计量为10.06702, 明显大于t 的临界值131.2)318(025.0=-t ,(户主受教育年数参数所对应的P 值为0.0000,明显小于05.0=α)可判断户主受教育年数对家庭书刊消费支出确实有显著影响;同理可以判断,家庭月平均收入对家庭书刊消费支出的影响也是显著的。

数理统计大作业(北航)2014版

数理统计大作业(北航)2014版

应用数理统计大作业一学院:XXXXXXX学号:XXXXXXX姓名:XXX指导老师:XXX2014年12月21日国民生产总值增量的多元线性回归模型摘要:国民生产总值一直是衡量国家综合经济水平的重要指标,本文要讨论研究的是国民生产总值的增量趋势与各产业增值趋势间的多元线性关系[1]。

本论文搜集了我国从1998至2012年15年的国民生产与各产业增量指标,拟定数个自变量,代入统计软件SPSS 19.0[2]对各影响因素进行了统计分析,综合分析结果模拟多元线性回归函数。

模型建立之后,又将2013年数据作为测试集测试模型的拟合精确度,得到的结果达到预期值,得出模型建立较为成功。

关键词:逐步回归法,国民生产总值增量,线性拟合一引言国民生产总值(Gross Domestic Product)是在一定时期中,一个国家地区经济生产出的全部最终产品和劳务的价值,被公认为衡量国家经济状况的较佳指标。

它不仅仅反映了一定的经济表现,还可以反映国家的综合国力与经济发展前景,作为经济政策的制定依据,研究我国的国民生产总值的制约因素成为了学者们的热点问题。

下文就以1998年至2012年的统计数据为标准,利用SPSS软件作出了多元线性回归分析。

二统计分析2.1变量说明因变量——国民生产总值增值(亿元);自变量——第一产业增加值(亿元)自变量——第二产业增加值(亿元)自变量——第三产业增加值(亿元)自变量——工业增加值(亿元)自变量——建筑业增加值(亿元)2.2统计数据2000年9537.5 14944.72 45555.88 38713.95 40033.59 5522.29 1999年5274.77 14770.03 41033.58 33873.44 35861.48 5172.1 1998年5429.25 14817.63 39004.19 30580.47 34018.43 4985.76 表格2-11998~2012年训练集数据测试组国民生产总值增值(亿元)第一产业增加值(亿元)第二产业增加值(亿元)第三产业增加值(亿元)工业增加值(亿元)建筑业增加值(亿元)2013年49375.11 56957 249684.4 262203.8 210689.4 38995表格2-22013年测试集数据以上数据来自《中国统计年鉴2013》[3]中收录的近15年全国国民生产总值增值数据,考察与各产业间增量趋势变化中关系密切并且直观上有线性关系的因素,因此选取了第一产业增值、第二产业增值、第三产业增值、工业总产值增值、建筑业增值五大因素为自变量。

(完整word版)北航数理统计大作业1-线性回归分析

(完整word版)北航数理统计大作业1-线性回归分析

应用数理统计作业一学号:姓名:电话:二〇一四年十二月国内生产总值的多元线性回归模型摘要:本文首先选取了选取我国自1978至2012年间的国内生产总值为因变量,并选取了7个主要影响因素,进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。

从而找到了能反映国内生产总值与各因素之间关系的“最优”回归方程.然后利用多重线性的诊断找出存在共线性的自变量,剔除缺失值较多的因子.再次进行主成份线性回归分析,找出最优回归方程。

所得结论与我国当前形势相印证。

关键词:多元线性回归,逐步回归法,多重共线性诊断,主成份分析目录0符号说明 (1)1 介绍 (2)2 统计分析步骤 (3)2。

1 数据的采集和整理 (3)2。

2采用多重逐步回归分析 (7)2.3进行共线性诊断 (17)2。

4进行主成分分析确定所需主成份 (24)2。

5进行主成分逐步回归分析 (27)3 结论 (30)参考文献 (31)致谢 (32)0符号说明1 介绍文中主要应用逐步回归的主成份分析方法,对数据进行分析处理,最终得出能够反映各个因素对国内生产总值影响的最“优”模型及线性回归方程.国内生产总值是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标.它不但可反映一个国家的经济表现,还可以反映一国的国力与财富。

2012年1月,国家统计局公布2011年重要经济数据,其中GDP增长9.2%,基本符合预期。

2012年10月18日,统计显示,2012年前三季度国内生产总值353480亿元,同比增长7.7%;其中,一季度增长8.1%,二季度增长7。

6%,三季度增长7.4%,三季度增幅创下2009年二季度以来14个季度新低。

中国的GDP核算历史不长,上世纪90年代之前通常用“社会总产值”来衡量经济发展情况。

上世纪80年代初中国开始研究联合国国民经济核算体系的国内生产总值(GDP)指标。

(完整版)多元线性回归模型习题及答案

(完整版)多元线性回归模型习题及答案

、单项选择题1.在由n 30的一组样本估计的、包含3 个解释变量的线性回归模型中,计算得多重决定系数为0.8500 ,则调整后的多重决定系数为(D )A. 0.8603B. 0.8389C. 0.8655D.0.83272.下列样本模型中,哪一个模型通常是无效的(B)A. Ci(消费)=500+0.8 Ii(收入)B. Q i (商品需求)=10+0.8 Ii(收入)+0.9 Pi(价格)3.用一组有30个观测值的样本估计模型y t b o blXlt dX2t U t后,在0.05的显著性水平上对bl的显著性作t检验,则bl显著地不等于零的条件是其统计量t大于等于(C)A.t0.05 (30)B. t0.025 (28)C. t0.025 (27)D. F 0.025 (1,28)4.模型ln yt lnbo bl 1 nXt Ut中,b i的实际含义是(B)A. x关于y的弹性B. y关于x的弹性C.x关于y的边际倾向D.y关于x的边际倾向5.在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在( C )A. 异方差性B.序列相关C.多重共线性D.高拟合优度6.线性回归模型y t b0 b i x it b2x2t ................... b k x kt U t 中,检验H0 :b t 0(i 0,i,2,...k)时,所用的统计量A. t(n-k+i)B.t(n-k-2)C. t(n-k-i)D.t(n-k+2)多元线性回归模型C.D. Qi(商品供给)=20+0.75 Pi(价格)Yi(产出量)=0.65 L i(劳动)K i0.4资本)服从( C )7.调整的判定系数 &关于经济计量模型进行预测出现误差的原因,正确的说法是( A. 只有随机因素 B. 只有系统因素 C.既有随机因素,又有系统因素 D.A 、B 、C 都不对 9•在多元线性回归模型中对样本容量的基本要求是 (k 为解释变量个数):(C )A n > k+1B *k+1C n > 30 或 n > 3 ( k+1)D n > 30 10、下列说法中正确的是: (D )2A 如果模型的R 很高,我们可以认为此模型的质量较好2B 如果模型的R 较低,我们可以认为此模型的质量较差C 如果某一参数不能通过显著性检验,我们应该剔除该解释变量D 如果某一参数不能通过显著性检验,我们不应该随便剔除该解释变量 11.半对数模型丫 011nX 中,参数 1的含义是(与多重判定系数A.R 2C. R 2 丄丄R 2n k 11 n 1 (1 R 2) D.n k 1B.R 21R 2 1之间有如下关系丄丄R 2 n k 1 丄^(1 n k 1R 2)C )。

北航数理统计回归分析大作业

北航数理统计回归分析大作业

北航数理统计回归分析大作业(总17页)-CAL-FENGHAI.-(YICAI)-Company One1-CAL-本页仅作为文档封面,使用请直接删除数理统计(课程大作业1) 逐步回归分析学院:机械工程学院专业:材料加工工程日期:2014年12月7日摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。

关键字:多元线性回归 逐步回归法 财政收入 SPSS1 引言自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。

为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。

数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。

财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。

财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。

财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。

本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。

2 多元线性回归2.1 多元线性回归简介在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。

由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。

对多元线性回归模型简要介绍如下:如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式:εββββ++++=m m x x x y 22110 2,0σεε==D E(2.1)其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

多元线性回归模型(习题与解答)

多元线性回归模型(习题与解答)

(1) β1 + β 2 = 1
(2) β1 = β 2
分别求出 β1 和 β 2 的最小二乘估计量。
3-12.多元线性计量经济学模型
yi = β0 + β1x1i + β2 x2i + ⋅ ⋅ ⋅ + βk xki + μi
i = 1,2,…,n
(2.11.1)
的矩阵形式是什么?其中每个矩阵的含义是什么?熟练地写出用矩阵表示的该模型的普通
(2)证明:残差的最小二乘估计量相同,即: uˆi = uˆi′
(3)在何种情况下,模型Ⅱ的拟合优度 R22 会小于模型Ⅰ拟合优度 R12 。
3-17.假设要求你建立一个计量经济模型来说明在学校跑道上慢跑一英里或一英里以上的人 数,以便决定是否修建第二条跑道以满足所有的锻炼者。你通过整个学年收集数据,得到两 个可能的解释性方程:
)
+
ε
i
7) Yi = β 0 + β1 X 1i + β 2 X 2i 10 + ε i
3-3.多元线性回归模型与一元线性回归模型有哪些区别? 3-4.为什么说最小二乘估计量是最优的线性无偏估计量?多元线性回归最小二乘估计的正 规方程组,能解出唯一的参数估计的条件是什么? 3-5.多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有效 性的过程中,哪些基本假设起了作用? 3-6.请说明区间估计的含义。 (二)基本证明与问答类题型
(1)产出量的资本弹性和劳动弹性是等同的;
(2)存在不变规模收益,即α + β = 1 。
3-14.对模型 yi = β0 + β1x1i + β 2 x2i + L + β k xki + ui 应用 OLS 法,得到回归方程如下: yˆi = βˆ0 + βˆ1x1i + βˆ2 x2i + L + βˆk xki

应用数理统计大作业

应用数理统计大作业

一、非参数假设检验数据来自《2009中国卫生统计年鉴》8-1-2各地区人口出生率和死亡率:北京市的人口出生率服从正态分布。

检验假设H由上表可知,假设不成立,即北京市的人口出生率不符合正态分布,应用同种方法可以得到北京市的人口死亡率同样不符合正态分布。

二、多元线性回归分析改革开放以来,我国城乡居民收入分配制度发生了很大的变化。

随着城乡居民收入水平的不断提高,其差距也在逐渐扩大,如果不采取相应的经济政策,任其发展,有可能会影响社会生产力的发展和社会的稳定,因此,需要分析影响城乡居民收入差距的主要因素。

以城乡居民收入比(Y )作为被解释变量,而第一产业增加值占GDP 的比重(X 1)、国家财政对农业支出的增长率(X 2)、乡镇企业职工增长率(X 3)、城镇居民人均年生活费收入增长率(X 4)、第一产业增加值指数(X 5)作为解释变量。

本模型采用时间序列数据,数据来自《中国统计年鉴》(1982—1998)。

模型的理论方程为:Y=0β+1βX 1+2βX 2+3βX 3+4βX 4+5βX 5 城乡居民收入比模型样本观测值数据obs 城乡居民收入比Y 第一产业增加值占GDP 的比重X1 国家财政对农业支出的增长率X2 乡镇企业职工增长率X3 城镇居民人均年生活费收入增长率X4 第一产业增加值指数X51981 2.05 31.73 -26.50 -1.00 4.33 7.00 1982 1.83 33.31 9.33 4.83 8.08 11.50 1983 1.70 32.90 10.27 3.91 6.26 8.30 1984 1.71 32.47 6.34 61.01 15.59 12.90 1985 1.72 28.35 8.73 34.00 12.66 1.80 1986 1.95 27.09 19.91 13.73 20.88 3.30 1987 1.98 26.79 6.25 10.94 10.63 4.70 1988 2.05 25.66 9.38 8.41 22.16 2.50 1989 2.09 25.00 24.23 -1.87 12.69 3.10 1990 2.02 27.05 15.76 -1.09 9.99 7.30 1991 2.18 24.46 12.91 3.72 11.32 2.40 1992 2.33 21.77 8.19 10.12 18.26 4.70 1993 2.53 19.87 17.13 16.67 27.98 4.70 1994 2.60 20.23 21.01 -2.65 36.03 4.00 1995 2.47 20.51 7.93 7.02 22.46 5.00 1996 2.27 20.45 21.83 5.02 12.43 5.10 19972.2318.6810.01-3.396.633.50(以上内容是从网上找的资料)用SPSS进行线性回归分析,结果如下:上表说明了因变量和自变量进入方程的情况。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用数理统计多元线性回归分析(第一次作业)学院:姓名:学号:2013年12月交通运输业产值的多元线性回归分析摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。

关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。

它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。

交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。

根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。

变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。

研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。

回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。

一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。

如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。

回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。

通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。

实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。

本文查找2012年《中国统计年鉴》取1996年-2011年共16年间的数据,利用SPSS软件对影响交通运输业发展的因素进行讨论构造多元线性线性回归模型。

以探求影响交通运输业发展水平的各个因素,得到最优线性回归模型。

随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。

2,基础知识及相关理论2.1 回归分析回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。

回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。

在实际问题回归分析模型的建立和分析中有几个重要的阶段:●根据研究的目的设置指标变量回归分析模型主要是揭示事物间相关变量的数量联系。

首先要根据所研究问题的目的设置因变量Y,然后再选取与Y有统计关系的一些变量作为自变量。

●收集、整理统计数据回归分析模型的建立是基于回归变量的样本统计数据。

当确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。

●确定理论回归模型的数学形式当收集到所设置的变量的数据之后,就要确定适当的数学形式来描述这些变量之间的关系。

如果因变量与自变量的散点图近似一条直线,可考虑用线性回归模型去拟合这条直线,如果二者之间无线性关系,则需要使用非线性模型构造回归模型。

●模型参数的估计回归理论模型确定之后,便可以利用收集、整理的样本数据对模型的未知参数给出估计。

位置参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。

●模型的检验当模型的位置参数估计出来后,需要通过对模型的检验才能决定参数估计是否合适。

模型的检验一般需要进行统计检验和模型经济意义的检验。

统计检验是对回归方程的显著性检验、以及回归系数的显著性检验,还有拟合优度的检验,残差的独立性检验等。

回归模型的运用当一个问题的回归模型通过了各种统计检验,且模型具有合理的经济意义时,就可以运用这个模型来进一步研究此问题。

在客观问题的研究中,我们需要参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在客观问题研究中得到正确运用。

2.2 多元回归分析一元线性回归模型研究的是某一个因变量和一个自变量之间的关系问题,但在实际中,因变量的变化常常受到不止一个自变量的影响,可能同时有两个或两个以上的自变量对因变量的变化产生影响。

这种研究某一个因变量和多个自变量之间的相互关系的理论和方法就是多元线性回归分析方法,它是一元线性模型的拓展。

设随机变量Y与个一般变量的线性回归模型可表示为:称为回归常数,称为偏回归系数,他们决定了因变量Y与自变量的线性关系的具体形式;是随机误差,满足。

如果获得满足条件的n组观测数据,其中,则线性回归模型可表示为其中。

上式写成方程组形式为记,,,则回归模型成为2.3 逐步回归法在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。

所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量y影响显著的自变量而不包含对y影响不显著的自变量的回归方程。

逐步回归分析正是根据这种原则提出来的一种回归分析方法。

它的主要思路是在考虑的全部自变量中按其对y的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对y作用不显著的变量可能始终不被引人回归方程。

另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。

引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行F检验, 以保证在引人新变量前回归方程中只含有对y影响显著的变量, 而不显著的变量已被剔除。

由此可见,逐步回归法是一种向前法和向后法的一种结合,具体步骤是(预先给定一个F出和F进或α出和α进,为避免死循环,要求F出≤F进):1)逐步回归法的前两部与向前法的前两步相同,并假定已建立了不完全的相关模型;2)当引入变量X2(XL2)后,对X1(XL1)做偏F检验,看X1是否需要剔除(即为向后法):<1>如果F L1>F出,则不剔除X L1,并继续引入下一个变量;<2>如果F L1<F出,则从模型中剔除X L1,再继续引入下一个变量。

重复上述步骤,直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。

3,模型建立本文查询了1996年至2011间共16的交通运输业增加值,详细分析了影响交通运输业发展的相关因素,利用统计软件SPSS逐步回归法尝试建立交通运输业增加值与各个因素间的线性回归模型。

3.1 设置变量近年来,国内交通运输业得到了大力发展,交通运输业产值可以作为衡量交通运输业发展水平的重要指标,本文设置交通运输业产值作为指标变量。

交通运输业作为为国民经济服务的第三产业,其发展受到工农业的发展、能源生产的影响,同时国内外贸易交流水平近年来也深刻影响了运输业的发展,作为交通运输主要对象的居民,居民消费水平、旅游花费等也影响了运输业的发展。

经过分析,本文选择农业生产总值、工业生产总值、能源生产总量、进出口总额、居民消费价格指数、国民旅游总花费以及交通运输年客运量共7个因素作为解释变量研究交通运输业的发展。

各变量具体设置为:解释变量:X1:农业生产总值(亿元)X2:工业生产总值(亿元)X3:能源生产总量(万吨标准煤)X4:进出口总额(亿元)X5:居民消费价格指数X6:国民旅游总花费(亿元)X7:客运量(万人)指标变量:Y:交通运输增加值(亿元)3.2 数据收集和整理本文所用数据均来源于《中国统计年鉴》(2012年),选取1996年-2011数据作为回归模型样本。

数据见表1所示。

表 1 1996年-2011年各变量数据4,数据处理与分析本文基于表1数据样本建立多元线性回归模型并进行检验,研究思路为:首先对解释变量进行相关性分析筛选主要影响因素,然后利用逐步回归法,取显著性水平采用SPSS软件对回归系数进行估计,最后从回归方程显著性、拟合度以及残差三个方面对模型进行检验,证实模型的有效性。

4.1 初步确定理论回归模型研究指标变量与各个解释变量的相关性可以利用散点图直观分析剔除相关性不显著的因素,也可以利用SPSS软件直接计算Pearson相关系数筛选主要影响因素。

本文利用SPSS软件计算各因素相关系数如表2所示。

表 2 各影响因素与指标变量的相关系数相关系数可以数值的方式精确的反应两个变量间线性关系的强弱,样本相关系数为r,|r|>0.8时认为高度相关,0.5<|r|<0.8中度相关,0.3<|r|<0.5低度相关,|r|<0.3相关程度极弱,可视为不相关。

从表2中可知,Y与X5相关系数为0.305,相关程度很弱,在建立回归模型中可以忽略该因素的影响;而Y与其他因素都高度相关,从相关性选取回归模型主要影响因素X2、X3和X4。

图1与图2分别表示指标变量Y与解释变量X5和X2的散点图,从图中也可直观分析出影响Y变量的X变量的线性相关性。

图 1 Y 与X5散点图图 2 Y 与X2散点图交通运输业产值与居民消费价格指数相关性很弱,这是因为居民消费价格指数反映的是一定时期内城乡居民做购买的生活消费品和服务价格变动趋势和程度,居民消费水平受到多种因素影响,不能以它作为影响交通运输业发展的主要线性因素。

而交通运输业的发展主要受益于工业水平的发展,以及能源生产水平的发展,近年来受国内外贸易交流影响增大,故选这三个主要因素作为回归模型分析。

回归模型建立为:0234234Y X X X ββββε=++++ 4.2 模型参数估计确定主要影响因素X2、X3和X4后,采用逐步回归法,取显著性水平使用SPSS 软件对原始数据作线性回归分析,得到最优回归方程,逐步回归法得到回归系数表如表3所示。

表 3 模型回归系数表逐步回归模型中采用F检验引入解释变量显著性水平阈值10.05α=,剔除解释变量显著性水平20.1α=。

从表3可知逐步回归得到两个模型,其中模型2为最优模型,回归方程为:ˆ1676.2090.0820.0244Y X X=++由回归方程可知,对Y有显著影响的是X2和X4,即影响交通运输业产值的主要因素时工业产值与进出口总额,换句话说就是影响交通运输业发展的主要因素时工业水平的发展与国家进出口贸易水平。

相关文档
最新文档