数理统计回归分析大作业

合集下载

应用数理统计大作业1——逐步回归法分析终教学提纲

应用数理统计大作业1——逐步回归法分析终教学提纲

应用数理统计大作业1——逐步回归法分析终应用数理统计多元线性回归分析(第一次作业)学院:机械工程及自动化学院姓名:学号:2014年12月逐步回归法在AMHS物流仿真结果中的应用摘要:本文针对自动化物料搬运系统 (Automatic Material Handling System,AMHS)的仿真结果,根据逐步回归法,使用软件IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS 数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。

关键词:逐步回归;残差;SPSS;AMHS;物流仿真目录1、引言 (1)2、逐步回归法原理 (4)3、模型建立 (6)3.1确定自变量和因变量 (6)3.2分析数据准备 (6)3.3逐步回归分析 (7)4、结果输出及分析 (9)4.1输入/移去的变量 (9)4.2模型汇总 (10)4.3方差分析 (10)4.4回归系数 (11)4.5已排除的变量 (12)4.6残差统计量 (13)4.7残差分布直方图和观测量累计概率P-P图 (14)5、异常情况说明 (15)5.1异方差检验 (15)5.2残差的独立性检验 (17)5.3多重共线性检验 (17)6、结论 (18)参考文献 (20)1、引言回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。

这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。

逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。

SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。

北航应用数理统计大作业多元线性回归

北航应用数理统计大作业多元线性回归

多元线性回归分析摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。

并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。

关键字:回归分析;线性;相关系数;正态分布1. 引言变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。

研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。

回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。

一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。

如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。

回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。

通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。

实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。

本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。

以探求影响居民消费水平的各个因素,得到最优线性回归模型。

随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。

本文将分为5章进行论述。

在第2章,我们介绍多元线性回归模型的概念。

第3章,我们进行模型的建立与数据的收集和整理。

我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。

在第5章,我们进行总结。

《应用数理统计》吴翊李永乐第四章-回归分析课后作业参考标准答案

《应用数理统计》吴翊李永乐第四章-回归分析课后作业参考标准答案

《应用数理统计》吴翊李永乐第四章-回归分析课后作业参考答案————————————————————————————————作者:————————————————————————————————日期:第四章 回归分析课后作业参考答案4.1 炼铝厂测得铝的硬度x 与抗张强度y 的数据如下:i x68 53 70 84 60 72 51 83 70 64 i y288 298 349 343 290 354 283 324 340 286(1)求y 对x 的回归方程(2)检验回归方程的显著性(05.0=α) (3)求y 在x =65处的预测区间(置信度为0.95) 解:(1) 1、计算结果一元线性回归模型εββ++=x y 10只有一个解释变量其中:x 为解释变量,y 为被解释变量,10,ββ为待估参数,ε位随机干扰项。

()()()()685.222,959.4116,541.35555.76725.19745.109610,5.3151,5.671221212112121211=-==-====-=-==-=--==-=-======∑∑∑∑∑∑∑∑========n Q U L Q L L U y n yyy L y x n y x y y x x L x n xxx L n y n y x n x ee yy e xxxyni ini i yy ni i i n i i i xy ni ini i xx ni i n i i σ使用普通最小二乘法估计参数10,ββ上述参数估计可写为95.193ˆˆ,80.1ˆ101=-===x y L L xxxy βββ 所求得的回归方程为:x y80.195.193ˆ+= 实际意义为:当铝的硬度每增加一个单位,抗张强度增加1.80个单位。

2、软件运行结果 根据所给数据画散点图9080706050xi360340320300280y i由散点图不能够确定y 与x 之间是否存在线性关系,先建立线性回归方程然后看其是否能通过检验线性回归分析的系数模型 非标准化系数标准化系数T 值 P 值95% 系数的置信区间β值 学生残差 β值下限上限 1 常数项 193.951 46.796 4.145 0.003 86.039 301.862x1.8010.6850.6812.629 0.030 0.2213.381由线性回归分析系数表得回归方程为:x y801.1951.193ˆ+=,说明x 每增加一个单位,y 相应提高1.801。

数理统计第一次大作业——回归分析

数理统计第一次大作业——回归分析

北京市农业经济总产值的逐步回归分析姓名:学号:摘要:农业生产和农村经济是国民经济的基础,影响农村经济总产值的因素有多种,主要包括农林牧渔业。

本文以北京市农业生产和农村经济总产值为对象,首先分析了各种因素的线性相关性,建立回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。

以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。

关键词:农业生产和农村经济,线性回归模型,逐步回归分析,SPSS1.引言农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。

军委系统的农林牧渔业生产(除军马外)也应包括在内,但不包括农业科学试验机构进行的农业生产。

在近几年中国经济快速增长的带动下,各地区农林牧渔业也得到了突飞猛进的发展。

以北京地区为例,2005年的农业总产值为1993年的6倍。

因此用统计方法研究分析农业总产值对指导国民经济生产,合理有效的进行产业布局,提高生产力等有着重要意义。

表1 北京市农业经济产值及各产品产量统计数据本文以北京市农生产为对象,分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系,并建立农业经济总产值的回归模型。

表1中列出了1999年至2008年间的统计数据(数据来源于北京统计信息网)。

2.线性回归模型的建立2.1 线性回归模型的假设为了研究农业经济总产值与各种农生产量的关系,必须要建立二者之间的数学模型。

数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。

而实际生活中,影响农业经济总产值的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立农业经济总产值的数学模型往往是很难的。

但是为了便于研究,我们可以先假定一些前提条件,然后在这些条件下得到简化后的近似模型。

以下我们假定两个前提条件:1) 农产品的价格是不变的。

数理统计第一次大作业

数理统计第一次大作业

2010 29723.12 27279.79 21870
70073 216961
39.46 27745.38
2011
39692
35239
24747
88604 230920
39.87
34552.1
2012
47339.6 42266
28344 109870 244395
39.87 41557.15
2013 56894.4 48966 32777.2 137239 261239 40.24 51043.71
中央政府为了缓解钢铁行业面临的巨大压力,将巨额“救市”资金投向钢铁 行业,另外政府还通过大力发展用钢量较大的行业 如铁路、房地产行业等 间接 拉动钢铁行业的“复苏”。基于目前特殊的经济背景和钢铁行业的重要地位,对 钢铁行业的发展水平、与其他产业的关联特征以及影响钢铁行业发展的因素进行 再认识具有重要的理论和实际意义。
X5
26.57372 92.71114 0.286629 0.7793
X6
0.015459 0.125003 0.123667 0.9036
R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
《钢铁产业调整和振兴规划》阐明,我国是钢铁生产和消费大国,粗钢产量 连续 13 年居世界第一。进入 21 世纪以来,我国钢铁产业快速发展,粗钢产量年 均增长 21.1%。2008 年,粗钢产量达到 5 亿吨,占全球产量的 38%,国内粗钢表 观消费量 4.53 亿吨,直接出口折合粗钢 6000 万吨,占世界钢铁贸易量的 15%。 2007 年,规模以上钢铁企业完成工业增加值 9936 亿元,占全国 GDP 的 4%,实现 利润 2436 亿元,占工业企业利润总额的 9%,直接从事钢铁生产的就业人数 358 万。钢铁产品基本满足国内需要,部分关键品种达到国际先进水平。钢铁产业有 力支撑和带动了相关产业的发展,促进了社会就业,对保障国民经济又好又快发 展做出了重要贡献。

《应用数理统计》吴翊李永乐第四章-回归分析课后作业参考答案

《应用数理统计》吴翊李永乐第四章-回归分析课后作业参考答案

第四章 回归分析课后作业参考答案4.1 炼铝厂测得铝的硬度x 与抗张强度y 的数据如下:i x68 53 70 84 60 72 51 83 70 64 i y288 298 349 343 290 354 283 324 340 286(1)求y 对x 的回归方程(2)检验回归方程的显著性(05.0=α) (3)求y 在x =65处的预测区间(置信度为0.95) 解:(1) 1、计算结果一元线性回归模型εββ++=x y 10只有一个解释变量其中:x 为解释变量,y 为被解释变量,10,ββ为待估参数,ε位随机干扰项。

()()()()685.222,959.4116,541.35555.76725.19745.109610,5.3151,5.671221212112121211=-==-====-=-==-=--==-=-======∑∑∑∑∑∑∑∑========n Q U L Q L L U y n yyy L y x n y x y y x x L x n xxx L n y n y x n x ee yy e xxxyni ini i yy ni i i n i i i xy ni ini i xx ni i n i i σ使用普通最小二乘法估计参数10,ββ上述参数估计可写为95.193ˆˆ,80.1ˆ101=-===x y L L xxxy βββ 所求得的回归方程为:x y80.195.193ˆ+= 实际意义为:当铝的硬度每增加一个单位,抗张强度增加1.80个单位。

2、软件运行结果 根据所给数据画散点图过检验由线性回归分析系数表得回归方程为:x y801.1951.193ˆ+=,说明x 每增加一个单位,y 相应提高1.801。

(2) 1、计算结果①回归方程的显著性检验(F 检验):0H 线性回归效果不显著 :1H 线性回归效果显著()91.62/=-=n Q UF e在给定显著性水平05.0=α时,()()F F n F <==--32.58,12,195.01α,所以拒绝0H ,认为方程的线性回归效果显著 ②回归系数的显著性检验(t 检验)0:10=βH 0:11≠βH()628.22/ˆ1=-=n Q L t e xx β在给定显著性水平05.0=α时,()()t t n t<==--306.282975.021α,所以拒绝0H ,认为回归系数显著,说明铝的硬度对抗张强度有显著的影响。

北航数理统计大作业(逐步回归)

北航数理统计大作业(逐步回归)

BEIHANG UNIVERSITY应用数理统计第一次大作业学号:姓名:一班级:B11班2015年12月民航客运量的多元线性回归分析摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS寸各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。

关键词:多元线性回归,逐步回归法,民航客运量1. 引言随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。

因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。

近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。

科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。

本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行分析,研究1996年起至2013年我国民航客运量y (万人)与国民生产总值X i (亿元)、铁路客运量X2 (万人)、民航航线里程X3 (万公里)、入境过夜旅游人数X4 (万人)、城镇居民人均可支配收入X5 (元)的关系。

采用逐步回归法建立线性模型,选出较优的线性回归模型。

2. 数据的统计与分析本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。

整理如表1所示。

表1:年份民航客运量(万人)国内生产总值(亿元)铁路客运量(万人)民航航线里程(万公里)入境过夜旅游人数(万人)城镇居民可支配收入(元)1996 5555 78973 94797 116.65 1356.26 4838.9 1997 5630 84402.3 93308 142.5 1578.53 5160.3 1998 5755 89677.1 95085 150.58 1692.45 5425.1 1999 6094 88479.2 100164 152.22 1765.25 5854.1 2000 6722 99214.6 105073 150.29 1750.96 6280.1 2001 7524 109655.2 105155 155.36 1880.36 6859.6 2002 8594 120332.7 105606 163.77 2012.45 7702.8 2003 8759 135822.8 97260 174.95 2033.58 8472.2 2004 12123 159878.3 111764 204.94 2519.89 9421.6 2005 13827 184937.4 115583 199.85 2925.63 10493.1 2006 15968 216314.4 125656 211.35 3486.45 11759.5 2007 18576 265810.3 135670 234.3 3398.58 13785.8 2008 19251 314045.4 146193 246.18 3696.71 15780.8 2009 23052 340506.9 152451 234.51 4025.96 17174.7 2010 26769 397983.5 168145 276.5 4753.84 19109.4 2011 29316 473104 146192 349.05 4924.32 21809.8 2012 31896 519470.1 189337 328.01 5668.63 24564.7 2013 35397 568845.2 210597 410.6 5562.39 26955.12.1模型的建立以民航客运量y为因变量,以上5种影响因素为自变量X,构建回归方程:y = ?? + ?????+ e其中??为常数项,为误差项。

统计学回归分析大作业

统计学回归分析大作业

建筑业总产值影响因素的分析一、问题的提出通过研究1995-2012年我国建筑行业总产值与建筑行业的动力装备率、劳动力人数、技术装备率以及国有企业总产值在行业总产值中所占比重的关系,来建立建筑行业总产值与其影响因素直接的归回模型,并分析其原因。

本文全部数据来源于《中国统计年鉴》。

表1.1 1995-2012年建筑行业总产值及其影响因素年份建筑行业总产值(亿元)动力装备率(千瓦/人)劳动力人数(万人)技术装备率(元/人)国有企业所占比重1995 5793.75 4.70 1497.87 4264.00 0.631996 8282.25 4.60 2121.87 4154.00 0.501997 9126.48 4.10 2101.51 4729.00 0.501998 10061.99 4.30 2029.99 5127.00 0.451999 11152.86 4.50 2020.13 5756.00 0.442000 12497.60 4.60 1994.30 6304.00 0.402001 15361.56 4.86 2110.66 7136.00 0.352002 18527.18 4.91 2245.19 9675.00 0.302003 23083.87 4.85 2414.27 9957.00 0.262004 27745.38 5.80 2557.86 9297.00 0.262005 34552.10 5.10 2699.92 9273.48 0.242006 41557.16 4.92 2878.16 9109.14 0.222007 51043.71 4.97 3133.71 9208.36 0.212008 62036.81 5.50 3314.95 9915.00 0.202009 76807.74 5.20 3672.56 10088.00 0.202010 96031.13 4.66 4160.44 9547.04 0.192011 116463.32 5.66 3852.47 12025.29 0.182012 137217.86 5.69 4267.24 13374.17 0.17为了研究影响建筑行业总产值的因素,把建筑行业总产值(亿元)作为被解释变量Y,将动力装备率(千瓦/人)、技术装备率(元/人)、劳动力人数(万人)、国有企业所占比重作为解释变量,分别设为X1、X2、X3、X4,假定其多元线性回归模型表示为:Y=β0+β1X1+β2X2+β3X3+β4X4二、相关性问题图2.1 各变量之间的散点图散点图如图2.1所示。

回归分析大作业

回归分析大作业

用回归方法分析浙江省地区生产总值1 引言:地区生产总值是指本地区所有常住单位在一定时期内生产活动的最终成果。

地区生产总值等于各产业增加值之和。

分析地区生产总值时,一般考虑其可能的影响因素,包括有第一产业、第二产业、工业、建筑业、金融业、户籍人口等。

对于一个预测量,建立若干个都能通过检验的模型是可能的,这就需要根据实际情况进行挑选。

在线形回归模型的建立和应用的过程中,选择合适的自变量是十分重要的。

如果从数学上来说,对于一个有n-1个自变量的线形回归问题,其可能的回归模型为2n-1-1 ,若对这么多的回归模型逐一进行分析、检验其所包含的自变量是否显著且无遗漏,是很不容易的。

从方法上而言,有“全部比较法”、“只出不进法”、“只进不出法”及“逐步回归法”。

在这些方法中,逐步回归法是最为重要也是应用最为广泛的一种。

逐步回归分析的基本思想是,先对全部自变量按其对因变量的影响程度大小进行排队,从大到小变量一个一个引入,引入变量的条件是其偏回归平方和经检验是显著的。

同时,每引入一个新变量,为保证所得的自变量子集中的每个变量都是显著的,随时进行检查,及时将由于引入新自变量而变得不显著者剔除[1]。

此过程经过若干步直到不能再引入新变量为止。

所以,利用逐步回归法所得到的回归方程中的所有自变量对因变量都是显著的,而不在回归方程中的变量对因变量都是检验不显著的。

由此可见,逐步回归方法选择变量的过程包含两个基本步骤:一是从回归方程中剔除经检验不显著的自变量;二是引入新的自变量到回归方程中。

2 数据的采集与模型的建立2.1解决方法与模型建立影响地区生产总值的可能因素有:第一产业、第二产业、工业、建筑业、金融业、户籍人口等。

因而本次选取了这6个影响财政收入的变量,利用逐步回归的方法建立浙江地区生产总值的回归模型。

多元线性回归模型一般形式:Y=β0+β1X1+β2X2+…+βkXk+ε其中,X1,X2,……,Xk代表影响因素,通常是可以控制或预先给定的,称为解释变量或自变量;Y是所研究的对象,即预测目标,称为被解释变量或因变量;ε代表各种随机因素对y的影响的总和,称为随机误差项[2],且服从正态分布,即ε~N(0,σ2);βi称为多元线性回归模型的回归系数;k为多元线性回归模型中解释变量的个数。

数理统计大作业

数理统计大作业

数理统计大作业-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII应用数理统计(论文)国家财政收入的逐步回归分析指导教师院系名称学号学生姓名2012年11月18日摘要财政收入是国民经济基础,是实现国家职能的财力保证。

本文采用SPSS统计软件中的逐步回归分析方法,得出影响我国财政收入的显著性变量,建立国家财政收入回归模型,并将所得的模型给予合理的经济解释。

关键字:国家财政收入,逐步回归,SPSS1 引言财政收入是指国家财政参与社会产品分配所取得到的收入,是实现国家职能的财力保证。

影响财政收入的因素有很多,包括工业总产值、农业总产值、建筑业总产值、社会商品零售总额、人口数、受灾面积等等。

在经济模型的建立中,其中有些自变量对问题的研究可能并不重要,有些自变量数据的质量可能很差,有些变量可能和其它变量有很大程度的重叠。

如果用回归模型把这些变量都包含进来不但会使模型计算复杂,而且往往会扩大估计方差,降低模型精度,直接影响到回归方程的应用。

另外,选进太多的自变量又会造成共线性的存在。

因此,本文采用线性回归中的逐步回归方法,利用SPSS多元统计软件得出影响我国财政收入的显著性变量,剔除了不显著的变量,并且克服了变量间的多重共线性,得出了一个较合理的财政回归模型。

2初始模型的建立及数据分析2.1 自变量与因变量的提出本模型是研究1997年至2011年国家财政收入与主要影响因素之间的定量关系。

本文选取财政收入Y(亿元)为因变量,自变量选取如下:第一产业国内生产总值X1(亿元),第二产业国内生产总值X2(亿元,第三产业国内生产总值X3(亿元),社会消费品零售总额X4(亿元),人口数X5(万人),受灾面积X6(万公顷)。

根据《中国统计年鉴》获取1997-2011年共十五年的统计数据,见表1。

表11997-2011年财政收入与部分项目的统计数据财政收入(亿元)第一产业国内生产总值(亿元)第二产业国内生产总值(亿元)第三产业国内生产总值(亿元)社会商品零售总额(亿元)人口总数(万人)受灾面积(万公顷)1997 8651.14 14441.89 37543.00 26988.15 31252.90 123626.00 5342.70 1998 9875.95 14817.63 39004.19 30580.47 33378.10 124761.00 5014.50 1999 11444.08 14770.03 41033.58 33873.44 35647.90 125786.00 4998.00 2000 13395.23 14944.72 45555.88 38713.95 39105.70 126743.00 5468.80 2001 16386.04 15781.27 49512.29 44361.61 43055.40 127627.00 5221.50 2002 18903.64 16537.02 53896.77 49898.90 48135.90 128453.00 4694.60 2003 21715.25 17381.72 62436.31 56004.73 52516.30 129227.00 5450.60 2004 26396.47 21412.73 73904.31 64561.29 59501.00 129988.00 3710.60 2005 31649.29 22420.00 87598.09 74919.28 67176.60 130756.00 3881.80 2006 38760.20 24040.00 103719.54 88554.88 76410.00 131448.00 4109.10 2007 51321.78 28627.00 125831.36 111351.95 89210.00 132129.00 4899.20 2008 61330.35 33702.00 149003.44 131339.99 114830.10 132802.00 3999.00 2009 68518.30 35226.00 157638.78 148038.04 132678.40 133450.00 4721.40 2010 83101.51 40533.60 187383.21 173595.98 156998.40 134091.00 3742.60 2011 103874.43 47486.20 220412.80 204982.50 183918.60 134735.00 3247.10 2.2 做散点图,设定理论模型作数据散点图,并进行线性拟合,观察因变量与自变量之间关系是否有线性特点。

(完整word版)北航数理统计大作业1-线性回归分析

(完整word版)北航数理统计大作业1-线性回归分析

应用数理统计作业一学号:姓名:电话:二〇一四年十二月国内生产总值的多元线性回归模型摘要:本文首先选取了选取我国自1978至2012年间的国内生产总值为因变量,并选取了7个主要影响因素,进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。

从而找到了能反映国内生产总值与各因素之间关系的“最优”回归方程.然后利用多重线性的诊断找出存在共线性的自变量,剔除缺失值较多的因子.再次进行主成份线性回归分析,找出最优回归方程。

所得结论与我国当前形势相印证。

关键词:多元线性回归,逐步回归法,多重共线性诊断,主成份分析目录0符号说明 (1)1 介绍 (2)2 统计分析步骤 (3)2。

1 数据的采集和整理 (3)2。

2采用多重逐步回归分析 (7)2.3进行共线性诊断 (17)2。

4进行主成分分析确定所需主成份 (24)2。

5进行主成分逐步回归分析 (27)3 结论 (30)参考文献 (31)致谢 (32)0符号说明1 介绍文中主要应用逐步回归的主成份分析方法,对数据进行分析处理,最终得出能够反映各个因素对国内生产总值影响的最“优”模型及线性回归方程.国内生产总值是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标.它不但可反映一个国家的经济表现,还可以反映一国的国力与财富。

2012年1月,国家统计局公布2011年重要经济数据,其中GDP增长9.2%,基本符合预期。

2012年10月18日,统计显示,2012年前三季度国内生产总值353480亿元,同比增长7.7%;其中,一季度增长8.1%,二季度增长7。

6%,三季度增长7.4%,三季度增幅创下2009年二季度以来14个季度新低。

中国的GDP核算历史不长,上世纪90年代之前通常用“社会总产值”来衡量经济发展情况。

上世纪80年代初中国开始研究联合国国民经济核算体系的国内生产总值(GDP)指标。

数理统计回归分析大作业

数理统计回归分析大作业

《应用数理统计》第一次大作业回归分析姓名:学号:班级:2014-12-20国家财政收入的多元线性回归模型摘 要:本文以多元线性回归为出发点,选取我国自1990至2009年连续20年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的回归方程:43806.0044.0357.817y x x ++=从而得出了结论,最后我们用2010年的数据进行了验证,得出的结果(86482.00)在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。

关键词:多元线性回归,逐步回归法,财政收入,SPSS0符号说明变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 进出口总额 X 3 建 筑 业 X 4 人 口 X 5 商品销售额 X 6 国内生产总值X 71 引言定义:所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。

回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。

此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。

通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

回归分析法预测是利用回归分析方法,根据一个或一组自变量的变动情况预测与其有相关关系的某随机变量的未来值。

进行回归分析需要建立描述变量间相关关系的回归方程。

根据自变量的个数,可以是一元回归,也可以是多元回归。

根据所研究问题的性质,可以是线性回归,也可以是非线性回归。

本文应用逐步回归的方法进行分析。

中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。

数理统计大作业

数理统计大作业

数理统计论文财政收入回归模型的建立与分析学院名称航空科学与工程专业名称飞行器设计学生姓名学生学号2012年11月摘要:本文采用多元线性回归的方法,对河北省1995年到2010年的财政收入数据与第一产业、第二产业中的工业、建筑业和第三产业的总产值进行了相关性分析,并在此基础上采用逐步回归法对影响财政收入的以上各因素进行选择与剔除,得到影响财政收入的主要因素为工业和第三产业,并给出两者与财政收入的计算公式。

最后通过对比公式预测与实际公布的2011年河北省财政收入,验证了公式的准确性与精度,因此,本文的结论可以为河北省将来的财政收入预测提供准确简便的计算方法。

关键词:财政收入多元回归逐步回归法引言财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。

财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。

财政收入是衡量政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。

河北濒临渤海湾,自古以来一直都是华北一带经济大省。

改革开放以来,河北省经济和社会发展的各个领域发生了历史性的重大变革,影响财政收入的因素也可能很多,为了研究影响河北省财政收入增长的主要原因,分析财政收入的增长规律,预测河北省财政未来的增长趋势,需要建立计量经济模型。

由于计算机技术的发展,统计软件的使用大大简化了回归分析方法的人工劳动,也因为其较高的计算精度而普遍在统计学中使用。

SAS、SPSS、S-PLUS等成为目前使用最广的统计软件,本文使用了SPSS软件作为计算工具,更加精确、简化的对影响财政收入的各因素进行分析。

正文一、变量选取本文研究的是河北省不同年份的财政收入状况,而影响财政收入状况的因素很多,在不同的参考资料中给出不同的解释,大多数相关的研究文献中都把总税收、地区生产总值这两个指标作为影响财政收入的基本因素,还有一些文献中也提出了其他一些变量,比如就业人员数、固定资产投资等。

回归分析大作业

回归分析大作业

回归大作业国内旅游消费影响的回归分析一、问题引入我国第三产业发展迅速,在2010年其已占国内生产总值的43.14%,而旅游业在第三产业中占有重要地位,且与餐饮、住宿、休闲、运输等产业联系密切,所以此次分析以探究国内旅游消费的影响为目的,并建立回归模型。

二、模型设计运用多元线性模型拟合,若拟合效果不显著,则进行log或平方根变换或使用多项式拟合等其他模型。

1、相关性分析,首先确定与因变量有相关性的变量。

2、建立全模型多元线性回归,若回归方程F检验未通过,则查找原因、更换模型;若有部分回归系数检验未通过,则进行选元(步骤2),剔除部分变量再继续;若所有检验都良好,则模型初步确立,跳过步骤2。

3、运用逐步回归方法筛选变量,并进行t检验,若效果显著,则可初步确立多元线性回归模型;若仍有部分变量未通过检验,则再单独进行变量筛选,综合运用AIC准则等确定剔除变量,直至所有变量都通过t检验。

4、回归诊断。

进行残差分析,检验残差是否满足正态分布,是否有相关性,也即自变量间是否有自相关性,检验是否存在异常值和强影响值,是否存在异方差性,是否存在多重共线性。

若以上问题存在,则需修改模型,或重新筛选变量,或增减样本。

5、模型最终确立。

数据来源:《中国统计年鉴2011》数据说明:Year:年份。

Income:国民总收入,单位亿元。

Number:旅游人数。

Expense:人均旅游花费,单位元。

Level:居民消费水平指数,以1978年为基年。

Road:公路里程,单位万公里。

Rail:铁路里程,单位万公里。

Air:民航里程,单位万公里。

Roadtran:公路客运量,单位万人。

Railtran:铁路客运量,单位万人。

Shiptran:水路客运量,单位万人。

Airtran:民航客运量,单位万人。

Travel:国内旅游消费总额,单位亿元。

四、回归分析1、相关性首先分析相关性,画出散布阵。

可较为直观地看出,travel与各变量间有较强的相关性,除了road,和shiptran两项,做相关性检验,可见,travel与road是线性相关的,相关系数为0.93,p-value = 4.563e-08,而travel与shiptran不相关,p-value = 0.9983,所以可先排除shiptran,再做回归。

北航数理统计回归分析大作业

北航数理统计回归分析大作业

北航数理统计回归分析大作业(总17页)-CAL-FENGHAI.-(YICAI)-Company One1-CAL-本页仅作为文档封面,使用请直接删除数理统计(课程大作业1) 逐步回归分析学院:机械工程学院专业:材料加工工程日期:2014年12月7日摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。

关键字:多元线性回归 逐步回归法 财政收入 SPSS1 引言自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。

为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。

数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。

财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。

财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。

财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。

本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。

2 多元线性回归2.1 多元线性回归简介在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。

由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。

对多元线性回归模型简要介绍如下:如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式:εββββ++++=m m x x x y 22110 2,0σεε==D E(2.1)其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

统计学习题——回归分析

统计学习题——回归分析

回归分析例1、假定一个4家庭的随机样本的年收入和年节余如下表所示(单位:千元):1) 估计总体回归直线X Y βα+=2) 构造斜率β的95%置信区间;3) 作图画出4个样本点和拟合的直线,然后尽你所能在图中表示由2)的置信区间所给出的可接受的斜率(范围)。

解:(1) 方法1因为X Y βα+=,X =(4.8+7.2+8.5+9.5)/4=7.5 Y =(1.2+3.0+3.5+3.5)/4=2.8 记i x =i X -X ,i y =i Y -Y所以βˆ=∑∑2x iii xy=0.513732(代入数值计算过程略), =αˆY -βˆ*X = -1.052989 即估计总体回归方程为:Y=-1.052989+0.513732X.即估计总体回归方程为:Y=-1.052989+0.513732X. 说明结果一致。

(2)∑2ie =∑2iy-2ˆβ∑2ix=3.58-0.513732*0.513732*12.38=0.312666(与上一致)2Òˆ=2n 2-∑ie =0.156333。

(n =4) Se(βˆ)=∑2Òˆix =0.11237。

所以β的95%置信区间为(βˆ-2/t a * Se(βˆ),βˆ+2/t a * Se(βˆ))=(0.513732-4.3027*0.11237,0.513732+4.3027*0.11237)=(0.0304,1.0027)(自由度为2)(3)在Eviews 中作X-Y 图如下:1.01.52.02.53.03.54.056789XY例2、从某单位随机地抽取了相互独立的两个样本(男、女职工收入),其月收入数据如下:男:2300,2500,3000,2800,2600; 女:2400,2200,2000,2500,2700 用Y 表示收入,用哑变量X 表示性别:其中对于男性X =1,对于女性X =0。

1) 画出Y 对X 的图形;2) 用眼睛拟合一条Y 对X 的回归线;3) 计算Y 对X 的回归线;与2)中用眼睛拟合的相比,后者的精度如何? 4) 构造一个斜率为95%的置信区间,用简单的语言解释一下它的意义; 5) 在 5%的错误水平下,检验收入是否与性别无关; 6) 4)和5)的结果是否度量了该单位对女性的歧视? 解:(1)在Eviews 中作X-Y 图如下:180020002200240026002800300032000.00.20.40.60.81.0XY(2)由上图用眼睛拟合拟合一条Y 对X 的回归线:Y=2390+200X (3) 利用Eviews 进行回归:即回归方程为:Y=2380+280X与(2)中直观看到的:我们发现在斜率差距较大。

应用数理统计大作业1——逐步回归法分析终

应用数理统计大作业1——逐步回归法分析终

应用数理统计多元线性回归分析(第一次作业)学院:机械工程及自动化学院姓名:学号:2014年12月逐步回归法在AMHS物流仿真结果中的应用摘要:本文针对自动化物料搬运系统 (Automatic Material Handling System,AMHS)的仿真结果,根据逐步回归法,使用软件IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS 数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。

关键词:逐步回归;残差;SPSS;AMHS;物流仿真目录1、引言 (1)2、逐步回归法原理 (4)3、模型建立 (5)3.1确定自变量和因变量 (5)3.2分析数据准备 (6)3.3逐步回归分析 (7)4、结果输出及分析 (8)4.1输入/移去的变量 (8)4.2模型汇总 (9)4.3方差分析 (9)4.4回归系数 (10)4.5已排除的变量 (11)4.6残差统计量 (11)4.7残差分布直方图和观测量累计概率P-P图 (12)5、异常情况说明 (13)5.1异方差检验 (13)5.2残差的独立性检验 (14)5.3多重共线性检验 (15)6、结论 (15)参考文献 (17)1、引言回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。

这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。

逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。

SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。

数理统计期末练习题0.

数理统计期末练习题0.

统 计 分 析(方差分析和回归分析)三、典型题解例1:某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表.饲喂不同饲料的鱼的增重 (单位:10g )饲料鱼的增重(x ij )合计.i x 平均.i x A 1 31.9 27.9 31.8 28.4 35.9 155.9 31.18 A 2 24.8 25.7 26.8 27.9 26.2 131.4 26.28 A 3 22.1 23.6 27.3 24.9 25.8 123.7 24.74 A 427.0 30.829.024.528.5139.827.96合计..x =550.8解:这是一个单因素等重复试验,因素数4s =,重复数05n =.各项平方和及自由度计算如下:220/550.8/(45)15169.03C T n s ==⨯=总平方和 222231.927.928.5T ij S x T C =∑∑-=+++-67.19903.151697.15368=-=组间平方和22222011(155.9131.4123.7139.8)515283.315169.03114.27A jS x C C n =-=+++-=-=∑ 组内平方和 199.67114.2785.40E T A S S S =-=-= 总自由度 0154119T f n s =-=⨯-= 处理间自由度 1413A f s =-=-= 处理内自由度 19316E T A f f f =-=-=用A S 、E S 分别除以A f 和E f 便得到处理间均方A MS 及处理内均方E MS ./114.27/338.09/85.40/16 5.34A A A E E E MS S f MS S f ======因为/38.09/5.347.13A E F MS MS ===;根据13A f f ==,216E f f ==,查表得F >F 0.01(3,16) =5.29,,表明四种不同饲料对鱼的增重效果差异极显著,用不同的饲料饲喂,增重是不同的.例2:抽测5个不同品种的若干头母猪的窝产仔数,结果见下表,试检验不同品种母猪平均窝产仔数的差异是否显著.五个不同品种母猪的窝产仔数品种号 观 察 值x ij (头/窝) x i..i x1 8 13 12 9 9 51 10.2 2 7 8 10 9 7 41 8.23 13 14 10 11 12 60 12 4 13 9 8 8 10 48 9.65 121115 14136513 合计T =265解:这是一个单因素试验,因素数5s =,重复数05n =.现对此试验结果进行方差分析如下:计算各项平方和与自由度220/265/(55)2809.00C T sn ==⨯=22222222222.0(8131413)2809.002945.002809.00136.0011(5141604865)2809.0052882.202809.0073.20T ij A jS x C S x C n =-=++++-=-==-=++++-=-=∑∑∑ 136.0073.2062.80E T A S S S =-=-=0155124,1514,24420T A E T A f sn f s f f f =-=⨯-==-=-==-=-=列出方差分析表,进行F 检验不同品种母猪的窝产仔数的方差分析表变异来源 平方和 自由度 均方 F 值品种间 73.20 4 18.30 5.83 误差 62.80 20 3.14 总变异136.0024根据14A f f ==,220E f f ==查临界F 值得:F 0.05(4,20) =2.87,F 0.05(4,20) =4.43,因为F >F 0.01(4,20),表明品种间产仔数的差异达到1%显著水平.例3:以A 、B 、C 、D 4种药剂处理水稻种子,其中A 为对照,每处理各得4个苗高观察值(cm),其结果如下表,试分解其自由度和平方和.水稻不同药剂处理的苗高(cm )药 剂苗高观察值总和i T平均i yA 18 21 20 13 72 18B 20 24 26 22 92 23C 10 15 17 14 56 14D 28 27 29 3211629T =336 =y 21解:计算各项平方和与自由度20T C n s ===⨯23367056442T ijS y C C =-=+++-=∑∑222182132602201()()kT i i S n y y T n C C =-=-=+++-=∑∑2222729256116/4504或 A S =⨯-+-+-+-=22224[(1821)(2321)(1421)(2921)]504 2221111()knnkkE ij i iji T A S y y y T n S S =-=-=-=-=∑∑∑∑60250498进而可得均方:T MS ==602/1540.13 A MS ==504/3168.00 E MS ==98/128.17总方差自由度44115T f =⨯-=,药剂间自由度413A f =-=,药剂内自由度15312E f =-=例4:为研究雌激素对子宫发育的影响,现有4窝不同品系未成年的大白鼠,每窝3只,随机分别注射不同剂量的雌激素,然后在相同条件下试验,并称得它们的子宫重量,见下表,试作方差分析.各品系大白鼠不同剂量雌激素的子宫重量(g)品系(A )雌激素注射剂量(mg/100g)(B )合计x i. 平均.i x B 1(0.2)B 2(0.4)B 3(0.8)A 1 106 116 145 367 122.3 A 2 42 68 115 225 75.0 A 3 70 111 133 314 104.7 A 442 63 87 192 64.0 合计x .j 260 358 480 1098 平均j x .65.089.5120.0解:这是一个双因素单独观测值试验结果.A 因素(品系)有4个水平,即a =4;B 因素(雌激素注射剂量)有3个水平,即b =3,共有a ×b =3×4=12个观测值.方差分析如下:计算各项平方和与自由度22/1098/(43)100467.0000C T ab ==⨯=22222222222222.(1061166387)100467.0000113542100467.000013075.000011(367225314192)100467.00003106924.6667100467.00006457.666711(260358480)100467.00004T ij A j B j S x C S x C b S x C a =-=++++-=-==-=+++-=-==-=++-∑∑∑∑106541.0000100467.00006074.0000=-=13075.00006457.66676070000543.3333143111,14131312,11326e T A B T A B e T A B S S S S f ab f a f b f f f f =--=--==-=⨯-==-=-==-=-==--=--=列出方差分析表,进行F 检验方差分析表变异来源平方和 自由度 均方 F 值A 因素(品系) 6457.6667 3 2152.5556 23.77B 因素(剂量)6074.0000 2 3037.0000 33.54误差 543.3333 6 90.5556总变异13075.000011根据13A f f ==,26E f f ==查临界F 值,F 0.01(3,6)=9.78;根据12B f f ==,26E f f ==查临界F 值,F 0.01(2,6)=10.92.因为A 因素的F 值23.77>F 0.01(3,6),差异极显著;B 因素的F 值33.54>F 0.01(2,6),差异极显著.说明不同品系和不同雌激素剂量对大白鼠子宫的发育均有极显著影响.例7:在某个地区抽取了9家生产同类产品的企业,其月产量和单位产品成本的资料如表8-1,建立月产量x 和单位产品成本y 之间的直线方程.并估计当月产量x=10(千件)时,单位产品成本的数值.22293332.953.7613ˆ 6.46()9370.6553.7n xy x y bn x x -⋅⨯-⨯===--⨯-∑∑∑∑∑ 5.97x =,68.11y =,ˆ68.11( 6.46) 5.97106.68ay bx =-=--⨯= 所以回归方程为:ˆ106.68 6.46yx =- 当10x =(千件),ˆ106.68 6.4642.08yx =-=(元).例8:为研究某一化学反应过程中,温度()x C ο对产品得率(%)Y 的影响,测得数据如下:(1) 求变量Y 关于x 的线性回归方程. (2) 2σ的无偏估计.(3) 检验回归方程的回归效果是否显著(取0.05α=). 解: (1)10n =,经计算得101101010102211111450, 673, 218500, 47225, 101570ii i iii i i i i i xy x y x y ==========∑∑∑∑∑21218500145082501011015701450673398510xx xy S S =-⨯==-⨯⨯=故得ˆ0.48303xx xyS bS ==,11ˆ67314500.48303 2.739351010a=⨯-⨯⨯=- 于是得到回归直线方程ˆ 2.739350.48303yx =-+ 或写成ˆ67.30.48303(145)yx =+- (2)由以上计算计算结果得2221111()472256731932.110nn yy i i i i S y y n ===-=-⨯=∑∑ 又已知3985xyS =,ˆ0.48303b=,故 2ˆ7.23ˆ0.9082yy xy S bSn σ-===-(3)待检验假设0: 0H b =,1: 0H b ≠由(1)和(2)知2ˆˆ0.48303, 8250, 0.9xx bS σ===.查表得0.0520.025(2)(8) 2.3060t n t -==假设0: 0H b =的拒绝域为|| 2.3060ˆˆ||xx t S bσ=≥现在0.48303||825046.25 2.30600.90t =⨯=> 故拒绝0: 0H b =,认为回归效果是显著的.例9:某商品的需求量(单位:件)y 与价格x (单位:元)的统计资料如下所示y543 580 618 695 724 812 887 991 1186 1904 x45515461667074788589求需求函数的回归方程.解:画散点图,根据散点图选择曲线类型by ax-=来描绘需求量y 与价格x 的关系经变换,得''ln ln ln y y a b x x αβ==-=+ 利用最小二乘法的α和β的估计值ˆ9.1206α=, ˆ0.6902β=- 所以ˆˆ9141.685ae α==,ˆˆ0.6902b β=-=. 故需求回归方程为:0.6902ˆ9141.658yx -=,将y 与ˆy的值加以对比如下: y543 580 618 695 724 812 887 991 1186 1904ˆy5365836146827427719171050 1198 1886可见y 与ˆy数据相近,效果较好. 四、练习题1.把下面的方差分析表填写完整,方差来源平方和自由度修正(方差)组间 131.37 (1) (3) 组内 (2) 15 (4) 总和332.4819临界值参考答案:(1)4(2)201.11(3)32.84(4)13.412.一批由相同材料织成的布料,使用染整工艺1B ,2B ,3B ,分别处理后进行强度试验,实测数据(单位:2/kg m )为:工艺1B :0.94 0.86 0.90 1.26 1.04 工艺2B :1.28 1.72 1.60 1.60工艺3B :1.02 0.86 1.00 1.22 1.33 1.10试分析不同染整工艺下布料强度的差异显著性?(0.1α=) 参考答案:0.10.7615(2,11)2.86FF ,不显著.3.为考察苗猪品种对增重的影响,今选择1A ,2A ,3A 等3个品种各5头发育良好体重相等的苗猪作实验,在同等条件下喂养一段时间后重新过磅,其实际增重(单位:kg )为:工艺1A :129 122 140 140 129 工艺2A :123 135 124 104 114 工艺3A :147 131 138 150 124试问猪的品种对增重的影响是否显著?(05.0=α) 参考答案:0.14.0064(2,12)2.81FF ,显著.4.设四名工人操作机器321,,A A A 各一天, 其日产量如表8.7所示, 问不同机器或不同工人对日产量是否有显著影响(0.1α=)?参考答案:0.19.3183(3,6) 3.29AF F ,显著; 0.11.8992(2,6)3.46BF F ,不显著8.某地高校教育经费(x )与高校学生人数(y )连续6年的统计资料如下:要求:(1)建立议程回归直线方程,估计教育经费为500万元的在校学生数; (2)计算估计标准误差.参考答案:(1)Y=-17.92+0.096X , 29.84338(2)2ˆ0.8649σ= 9. 以下是子代和父代受教育年限的抽样调查求:(1)子代受教育年限(Y )关于父代受教育年限(X )的回归直线. (2)2σ的无偏估计.(3)判断该结论是否具有推论意义(0.05α=).参考答案:(1)Y=3+0.6X ,(2)2ˆ0.93σ=(3)0025|| 3.928(3) 3.1824t t =>=,显著. 10. 设对某产品的价格P 与供给量S 的一组观察数据如下表:据此求:(1)该产品的价格P 关于供给量S 的回归直线.(2)2σ的无偏估计.(3)是否具有推论意义?(0.05α=).参考答案:(1)Y=-0.1754+6.2281X ,(2)2ˆ11.84σ=(3)0025||0.3722(6) 2.4469t t =<=,不显著.11.以下是生活期望值与个人成就的抽样调查求:(1)回归直线 (2)2σ的无偏估计.(3)是否具有推论意义(0.05α=).参考答案:(1)Y=0.2668+0.8748X ,(2)2ˆ 5.089σ=(3)0025||0.2703(6) 2.4469t t =<=,不显著.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《应用数理统计》第一次大作业回归分析姓名:学号:班级:2014-12-20国家财政收入的多元线性回归模型摘 要:本文以多元线性回归为出发点,选取我国自1990至2009年连续20年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的回归方程:43806.0044.0357.817y x x ++=从而得出了结论,最后我们用2010年的数据进行了验证,得出的结果(86482.00)在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。

关键词:多元线性回归,逐步回归法,财政收入,SPSS0符号说明变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 进出口总额 X 3 建 筑 业 X 4 人 口 X 5 商品销售额 X 6 国内生产总值X 71 引言定义:所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。

回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。

此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。

通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

回归分析法预测是利用回归分析方法,根据一个或一组自变量的变动情况预测与其有相关关系的某随机变量的未来值。

进行回归分析需要建立描述变量间相关关系的回归方程。

根据自变量的个数,可以是一元回归,也可以是多元回归。

根据所研究问题的性质,可以是线性回归,也可以是非线性回归。

本文应用逐步回归的方法进行分析。

中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。

近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。

经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。

政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。

所以对国家财政的收入状况进行研究是十分必要的。

国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。

为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。

而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。

本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,零售贸易总额,进出口总额,人口总数等。

文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。

2解决问题的方法和计算结果2.1 样本数据的选取与整理本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上有线性关系的因素,初步选取这十九年的国内总产值、工业总产值、人口总数、建筑业、农业、商品零售总额、进出口总额等因素为自变量,分析它们之间的联系。

根据选择的指标,从《中国统计年鉴2010》查选数据,整理如表2-1所示。

2010年的数据是在网上搜索到的。

表2-1 1990-2009年财政收入及其影响因素统计表年份工业(亿元)农业(亿元)进出口总额(亿元)建筑业(亿元)人口(万人)社会商品零售总额(亿元)财政收入(亿元)国内生产总值(亿元)1990 18689.22 7662.1 5560.1 1345 114333 8300.1 2937.1 18718.3 1991 22088.68 8157 7225.8 1564.3 115823 9415.6 3149.48 21826.2 1992 27724.21 9084.7 9119.6 2174.4 117171 10993.7 3483.37 26937.3 1993 39693 10995.5 11271.0 3253.5 118517 14270.4 4348.95 35260.0 1994 51353.03 15750.5 20381.9 4653.3 119850 18622.9 5218.1 48108.5 1995 54946.86 20340.9 23499.9 5793.8 121121 23613.8 6242.2 59810.5 1996 62740.16 22353.7 24133.8 8282.2 122389 28360.2 7407.99 70142.5 1997 68352.68 23788.4 26967.2 9126.5 123626 31252.9 8651.14 78060.8 1998 67737.14 24541.9 26849.7 10062 124761 33378.1 9875.95 83024.3 1999 72707.04 24519.1 29896.2 11152.9 125786 35647.9 11444.08 88479.2 2000 85673.66 24915.8 39273.2 12497.6 126743 39105.7 13395.23 98000.5 2001 95448.98 26179.6 42183.6 15361.5 127627 43055.4 16386.04 108068.2 2002 110776.48 27390.8 51378.2 18527.1 128453 48135.9 18903.64 119095.7 2003 142271.22 29691.8 70483.5 23083.8 129227 52516.3 21715.25 135174.0 2004 201722.19 36239 95539.1 27745.3 129988 59501 26396.47 159586.7 2005 251619.5 39450.9 116921.8 34552.0 130756 67176.6 31649.29 185808.6 2006 316588.96 40810.8 140971.4 41557.1 131448 76410 38760.2 217522.7 2007 405177.13 48892.9 166740.2 51043.7 132129 89210 51321.78 267763.7 2008 130260.2 33702.0 179921.5 18743.2 132802 116032 61330.35 316228.82.2 模型的建立与分析[DataSet0]从散点图中看出,国内生产总值、工业生产总值、进出口总额、建筑业、商品零售总额这5个变量与财政收入总量基本呈线性分布;而人口总数虽然也与财政收入存在正比的关系,但是从直观上看线性关系不显著,并且人口因素呈现指数关系。

农业与财政收入总量的线性关系不十分明显。

因此为使得到的模型有显著的线性关系,在选取进入回归模型的自变量时,就要进行筛选。

下面给出筛选过程。

Regression[DataSet1] F:\数理作业\收入.sav将X 4建筑业和X 3进出口总额纳入自变量时得到的模型效果最为显著,回归方程如下:43806.0044.0357.817y x x ++=3 结论本次大作业,根据查阅中国统计年鉴,列举了影响财政收入的7个因素。

从直观上考虑,人口总量、农业两个因素与财政收入存在线性关系,所以特意把这两个变量列到其中,但是散点图和回归效果显示这2个因素并没有进入逐步回归模型中,由此看来,这两项因素与财政收入存在的关系可能不是严格线性的,或者这种线性关系是长期的线性关系。

另外,在对进入模型的5个因素进行回归时发现,因变量对单独变量的回归性很显著,但是整合成多元回归出现了某些回归系数不显著的现象,具体原因可能是由于数据选取的太少,未能体现出长期线性这一特点;或是各因素之间存在相关性。

虽然得到的几个模型系数都不是很显著,但经综合比较,选取了一个较为显著的模型作为最“优”解。

对得到的最“优”回归模型做预测,置信度为95%。

查阅网上公布结果,得到2010年的X 4建筑业为95206.00(亿元),X 3进出口总额为202923.00(亿元),Y 财政收入为83080.00(亿元),将自变量带入回归方程:43806.0044.0357.817y x x ++== 817.357+0.044×202923.00+95206.00=86482.00将上表数值代入得到置信度为95%的预测区间为(79067.641,104949.416),与查得的2010财政收入为83080.00(亿元)在预测区间内。

得到的数据模型显示财政收入与建筑业、进出口总额有着密切的关系,这也很符合目前国家的经济状况。

不过由于调研时间有限,上述回归模型存在一些不足,比如两个自变量之间的VIF=11.683>10,还需要不断查阅资料加以改进。

但在一定程度上体现了与选取的自变量之间的线性关系,并能对因变量做出近似的预测。

综合来看,数据模型基本达到了预期的目的。

相关文档
最新文档