作业-回归分析例题-逐步回归法
应用数理统计大作业1——逐步回归法分析终教学提纲
应用数理统计大作业1——逐步回归法分析终应用数理统计多元线性回归分析(第一次作业)学院:机械工程及自动化学院姓名:学号:2014年12月逐步回归法在AMHS物流仿真结果中的应用摘要:本文针对自动化物料搬运系统 (Automatic Material Handling System,AMHS)的仿真结果,根据逐步回归法,使用软件IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS 数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。
关键词:逐步回归;残差;SPSS;AMHS;物流仿真目录1、引言 (1)2、逐步回归法原理 (4)3、模型建立 (6)3.1确定自变量和因变量 (6)3.2分析数据准备 (6)3.3逐步回归分析 (7)4、结果输出及分析 (9)4.1输入/移去的变量 (9)4.2模型汇总 (10)4.3方差分析 (10)4.4回归系数 (11)4.5已排除的变量 (12)4.6残差统计量 (13)4.7残差分布直方图和观测量累计概率P-P图 (14)5、异常情况说明 (15)5.1异方差检验 (15)5.2残差的独立性检验 (17)5.3多重共线性检验 (17)6、结论 (18)参考文献 (20)1、引言回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。
这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。
逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。
SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。
逐步回归法计算的例子和结果
逐步回归法计算的例子和结果例1某种水泥在凝固时放出的热量(卡/克)与水泥中下列四种化学成分有关:: 的成分(%),: 的成分(%),: 的成分(%),: 的成分(%)。
所测定数据如表1所示, 试建立与、、及的线性回归模型。
表1试验序号1 726 660 78.52 1291552 74.331156 820104.3 41131 847 87.65 752 633 95.961155 922109.27 37117 6102.78 1312244 72.59 2541822 93.1102147 426115.911 1402334 83.8121166 912113.3 131068 812109.4注: 本例子引自中国科学院数学研究室数理统计组编,《回归分析方法》, 科学出版社, 1974年本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出):指标名称: 热量单位: 卡/克因素1名称: 3CaO.Al2O3含量单位: %因素2名称: 3CaO.SiO2含量单位: %因素3名称: 4CaO.Al2O3.Fe2O3含量单位: %因素4名称: 2CaO.SiO2含量单位: %------------------- 多元回归分析 -------------------回归分析采用逐步回归法, 显著性水平α=0.10引入变量的临界值Fa=3.280剔除变量的临界值Fe=3.280拟建立回归方程:y = b(0) + b(1)*X(1) + b(2)*X(2) + b(3)*X(3) + b(4)*X(4)第1步, 引入变量:各项的判别值(升序排列):Vx(3)= 0.286Vx(1)= 0.534Vx(2)= 0.666Vx(4)= 0.675未引入项中, 第4项[X(4)]Vx值(≥0)的绝对值最大,引入检验值Fa(4)=22.80, 引入临界值Fa=3.280,Fa(4)>Fa, 引入第4项, 已引入项数=1。
实验3——逐步回归分析
会选入较多的自变量 。
取得较小(即临界值 F (1, n m 1)较大),将
会导致一些重要的自变量被删除 。
4. 模型摘要
模型1为首次引入变量铁所对应的回归方程 ; 模型2为在引入变量铁的基础上又引入变量钙所对 应的回归方程.
5.方差分析表
模型2所对应的统计量 F = 44.557 , p≈.000<0.01, 认为变量铁、钙对血红蛋白的线性回归显著,
6.回归方程中变量对应的回归系数
Y1 0.657+0.029X铁
多元线性逐步(Stepwise)回归分析
例 已知29例儿童的血红蛋白与钙、镁、铁、锰、 铜的含量如下表,试建立钙、镁、铁、锰、铜对血
红蛋白的最佳多元回归方程。
使用SPSS软件进行分析
1. 单击 “开始” → “程序” → SPSS for windows → SPSS10.0 for windows → type in data → OK → 单击 “Variable View”( 在第一列 输入钙 、镁 、铁 、锰 、铜 、血红蛋白 ;单击 “ Data View”。
回归方程:
Y2 1.072+0.031X铁 0.041X钙
7. 各步被拒绝引入变量表
实际应用中, 使用逐步回归方法要恰当地选取显
著性水平 。
查表: 0.10, F0.1(1,5) 4.06
0.05, 0.01,
F0.05(1,5) 6.61 F0.01(1,5) 16.3
取得较大(即临界值 F (1, n m 1)较小),将
2. SPSS输入数据格式: 29行6列
2. 程序选项 Analyze: 血红蛋白 引入回归分析的自变量 : 钙、镁、铁、锰、铜
在多元回归方法(Method)中选:逐步引入法(Stepwise)
实用统计学—11.逐步回归分析
从未解释变差 (残差平方和)角度考虑, 图中 ||e||2是中心化 数据 y 对所有自变量 (x2, ·, xk )回归的未解释变差(残差 · · 平方和), ||e*||2是中心化数据 y 对自变量x3, ·, xk (剔除了 · · x2 )回归的未解释变差 (残差平方和).由勾股定理, 得||e*||2 - ||e||2 = ||e(2) ||2. ||e(2) ||2就是未解释变差的增加部分, 也就 是变量 x2 的偏解释变差V2 .
2
( n k )V k / Q
与统计量 Fj = (n-k)Vj / Q 完全相同.
2、逐步回归法
逐步回归法的基本思想: 在考虑 Y 对已知的一群变量( X2, ·,Xk )回归时, 从变量X2, · · ·,Xk中, 逐步选出对已解释变差的贡献 (也就是偏解释变差) · · 最大的变量,进入回归方程. 而对已解释变差的贡献大小的判 别依据, 就是包含了偏解释变差的 F 统计量Fj. 统计量Fj 的 值 fj 最大的 xj , 先进入方程; 最后一个进入方程的自变量 xj , 也应当满足: 统计量的值 fj 的显著性概率 p 小于等于选定的 显著性水平 (即, 要求其系数 j 显著异于 0). 逐步回归法也可以按照反过来的顺序进行. 先把 Y 对所有 的自变量 X2, ·,Xk 回归, 然后逐步把 fj 最小的 xj 剔除出方程. · · 所有剔除出方程的 xj , 在剔除时, 其统计量的值 fj 的显著性概 率 p 大于选定的显著性水平 (即, 要求其系数j 与 0 没有显 著性差异).
从 2 (n-k)分布)相互独立.
ˆ2 若再记: V )Vj / Q 服从F ( 1, n-k) 分布.
把 Fj 的显著性概率 p 与置信度水平 比较, 就可以判断 一个变量 xj 是否应当成为自变量:
回归分析(3)多元逐步回归
§2.5.1 逐步回归算法的形成思路 引入方程后, 如 x1 , x 2引入方程后,再引入 x5 ,也许由 x5 的引 的重要性反而变得不重要,应及时剔除。 入而 x1的重要性反而变得不重要,应及时剔除。 假设已有 l 个自变量引入回归方程,即已知回 个自变量引入回归方程, 归方程是: 归方程是: ˆ y = b0 + b1 x1 + b2 x 2 + L + bl x l 此时该方程相应的总离差l
i 1 2 l
i
1
2
l
统计理论表明, 统计理论表明,用统计量
F1i = Vi ( x1 , x2 ,L , xl ) / 1 ~ F (1, n − l − 2) Q( x1 , x 2 ,L , xl , x i ) /( n − l − 2)
i = l + 1, l + 2,L, m
S 总 = S回 + S 剩 = U ( x 1 , x 2 , L , x l ) + Q ( x1 , x 2 , L , x l )
(2.14)
§2.5.2 引入自变量的依据 现在在已有的 l个自变量所组成的回归方程中再 引入一个自变量, 引入一个自变量,不妨记为 x ( i = l + 1, l + 2,L, m ) ,于 是引入了一个自变量 xi 的回归方程可表示为
Vi
Vi ( x1 , x 2 , L , x l ) / 1 F2 i = ~ F (1, n − l − 1) Q( x1 ,L , x l ) /( n − l − 1)
i = 1,2,L, l
可被考虑剔除出方程。 来检验方程中哪个自变量 可被考虑剔除出方程。
对于给定的水平α ,查 分布表得临界 值 Fα (1, n − l − 1) = F出 。 应从方程中剔除; 如果F2 i ≤ F出 ,则 xi 应从方程中剔除; 不应从方程中剔除。 如果 F2 i > F出 ,则 xi 不应从方程中剔除。 同样需要说明的是, 同样需要说明的是,实际问题可能有多个 F2 i ≤ F出 ,由于每次只能从方程中剔除一个变 因此在算法上, 量,因此在算法上,我们选最小的 F2 i 值所对应 的变量考虑剔除, 的变量考虑剔除,即先求
数理统计第一次大作业——回归分析
北京市农业经济总产值的逐步回归分析姓名:学号:摘要:农业生产和农村经济是国民经济的基础,影响农村经济总产值的因素有多种,主要包括农林牧渔业。
本文以北京市农业生产和农村经济总产值为对象,首先分析了各种因素的线性相关性,建立回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。
以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。
关键词:农业生产和农村经济,线性回归模型,逐步回归分析,SPSS1.引言农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。
军委系统的农林牧渔业生产(除军马外)也应包括在内,但不包括农业科学试验机构进行的农业生产。
在近几年中国经济快速增长的带动下,各地区农林牧渔业也得到了突飞猛进的发展。
以北京地区为例,2005年的农业总产值为1993年的6倍。
因此用统计方法研究分析农业总产值对指导国民经济生产,合理有效的进行产业布局,提高生产力等有着重要意义。
表1 北京市农业经济产值及各产品产量统计数据本文以北京市农生产为对象,分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系,并建立农业经济总产值的回归模型。
表1中列出了1999年至2008年间的统计数据(数据来源于北京统计信息网)。
2.线性回归模型的建立2.1 线性回归模型的假设为了研究农业经济总产值与各种农生产量的关系,必须要建立二者之间的数学模型。
数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。
而实际生活中,影响农业经济总产值的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立农业经济总产值的数学模型往往是很难的。
但是为了便于研究,我们可以先假定一些前提条件,然后在这些条件下得到简化后的近似模型。
以下我们假定两个前提条件:1) 农产品的价格是不变的。
逐步回归
= -0.135742 除了主对角线上的值为1外,其它的值都可以通过以 上的方法求出,得到以下矩阵:
第二步 选择第一个自变量
可以看出x1的偏回归平方和最大,所以对其进行F检验
=
0.805172 ( 0.805172( 1 1 1 ) 15 ) = 53.73
F>F0.01(1,13)=9.07 ,所以引入自变量x1 第三步 变化矩阵
列出一级和二级数据 列出一级和二级数据 计算简单相关系数矩阵
剔 除 不 显 著 自 变 量
计算算阵A 、B、cij得出 b1、b2……..
计算各自变量的偏回归平方和 并对方程和自变量做假设检验
选 入 显 著 自 变 量
选择自变量的标准偏回归 平方和最大的进行F检验 若显著则选入自变量, 不显著则终止
逐 步 回 归
逐步回归分析
1 目的:建立最优回归方程
2 方式:逐个淘汰不显著自变量和逐 个选入显著自变量
两种途径: 1、 从m元回归分析开始,每一步舍去一个步显著且 偏回归平方和最小的自变量,在每一次舍去一个偏 回归不显著且平方和最小的自变量之后,需要对回 归方程和各自变量重新假设检验,如此反复,知道 回归方程所包含的自变量全部显著为止。(计算麻 烦,工作量大) 2、 从一元回归分析开始,按各自自变量对y作用的 秩次,依次每部仅选入一个对y作用显著的自变量, 且每引入一个自变量后,对在此之前已引入的自变 量进行重新检验,有不显著的则舍弃,直到选入的 自变量都显著,而为被选入的自变量都不显著为止。 此时建立回归方程为最优回归方程。
该方程的意义是:当x2,x3保持一定时,x1 每 增加一穗,y平均增加2.01克;同理,当x1,x3 保持一定时,x2每增加一穗,y平均增加0.67 克;当x1,x2保持一定时,x3每增加1克,y 平 均增加7.83克。
逐步回归分析案例
逐步回归分析案例:逐步回归分析在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互作关系。
在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更较好。
逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每—个自变量进行假设检验。
当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某—个自变量对y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。
筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。
回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。
但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。
因此在多元回归模型中,选择适宜的变量数目尤为重要。
逐步回归在病虫预报中的应用实例:以陕西省某地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例(数据见DATA6.xls),建立蚜传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。
影响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病情指数影响显著的因子,从而建立相应的模型。
对1984~1995年的病情指数进行回检,然后对1996~1998年的病情进行预报,再检验预报的效果。
变量说明如下:y:历年病情指数x1:前年冬季油菜越冬时的蚜量(头/株)x2:前年冬季极端气温x3:5月份最高气温x4:5月份最低气温x5:3~5月份降水量x6:4~6月份降水量x7:3~5月份均温x8:4~6月份均温x9:4月份降水量x10:4月份均温x11:5月份均温x12:5月份降水量x13:6月份均温x14:6月份降水量x15:第一次蚜迁高峰期百株烟草有翅蚜量x16:5月份油菜百株蚜量x17:7月份降水量x18:8月份降水量x19:7月份均温x20:8月份均温x21:元月均温1)准备分析数据在SPSS数据编辑窗口中,用“File→Open→Data”命令,打开“DATA6.xls”数据文件。
天大matlab大作业逐步回归方法分析
逐步回归分析方法在实际中,影响Y的因素很多,这些因素可能存在多重共线性(相关性),这就对系数的估计带来不合理的解释,从而影响对Y的分析和预测。
“最优”的回归方程就是包含所有对Y有影响的变量, 而不包含对Y 影响不显著的变量回归方程。
选择“最优”的回归方程有以下几种方法:(1)从所有可能的因子(变量)组合的回归方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著因子;(3)从一个变量开始,把变量逐个引入方程;(4)“有进有出”的逐步回归分析。
以第四种方法,即逐步回归分析法在筛选变量方面较为理想.逐步回归分析法的思想:从一个自变量开始,视自变量Y作用的显著程度,从大到小地依次逐个引入回归方程。
当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。
引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。
对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。
这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。
原理:1、最优选择的标准设n 为观测样本数,},,,{21m x x x X为所有自变量构成的集合,li i i x x x A ,,,21 为X 的子集。
(1)均方误差s2最小达到最小(2)预测均方误差最小A S l n l n A J E 11)(达到最小(3)统计量最小准则nl m n S A S A C EE p21达到最小(4)AIC 或BIC 准则n lA S A AIC E 2ln )(或n n l A S A BIC E ln ln )( 达到最小 (5)修正R 2准则)1(122R l n in R 达到最大2、选择最优回归子集的方法(1)选择最优子集的简便方法:逐步筛选法(STEPWISE)向前引入法或前进法(FORWARD)向后剔除法或后退法(BACKWARD)(2)计算量最大的全子集法:R2选择法(RSQUARE)Cp选择法(CP)修正R2选择法(ADJRSQ)。
多重共线性逐步回归--案例分析
多重共线性的估计和消除一,研究对象影响中国旅游市场发展的主要因素。
二、模型设定及其估计经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。
为此,考虑的影响因素主要有国内旅游人数2X ,城镇居民人均旅游支出3X ,农村居民人均旅游支出4X ,并以公路里程5X 和铁路里程6X 作为相关基础设施的代表。
为此设定了如下对数形式的计量经济模型:23456123456t t t t t t t Y X X X X X u ββββββ=++++++其中 :t Y ——第t 年全国旅游收入2X ——国内旅游人数 (万人)3X ——城镇居民人均旅游支出 (元)4X ——农村居民人均旅游支出 (元) 5X ——公路里程(万公里) 6X ——铁路里程(万公里)为估计模型参数,收集旅游事业发展最快的1994—2003年的统计数据,如表4.2所示:利用Eviews 软件,输入Y 、X2、X3、X4、X5、X6等数据,采用这些数据对模型进行OLS 回归,结果如表4.3:表4.3由此可见,该模型9954.02=R ,9897.02=R 可决系数很高,F 检验值173.3525,明显显著。
但是当05.0=α时776.2)610()(025.02=-=-t k n t α,不仅2X 、6X 系数的t 检验不显著,而且6X 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。
计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据,点”view/correlations ”得相关系数矩阵(如表4.4):表4.4由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。
三、消除多重共线性采用逐步回归的办法,去检验和解决多重共线性问题。
分别作Y 对X2、X3、X4、X5、X6的一元回归,结果如表4.5所示:表4.5 变量 X2 X3 X4 X5 X6 参数估计值 0.0842 9.0523 11.6673 34.3324 2014.146 t 统计量8.6659 13.1598 5.1967 6.4675 8.7487 2R0.90370.95580.77150.83940.9054按2R 的大小排序为:X3、X6、X2、X5、X4。
北航数理统计大作业(逐步回归)
BEIHANG UNIVERSITY应用数理统计第一次大作业学号:姓名:一班级:B11班2015年12月民航客运量的多元线性回归分析摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS寸各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。
关键词:多元线性回归,逐步回归法,民航客运量1. 引言随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。
因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。
近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。
科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。
本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行分析,研究1996年起至2013年我国民航客运量y (万人)与国民生产总值X i (亿元)、铁路客运量X2 (万人)、民航航线里程X3 (万公里)、入境过夜旅游人数X4 (万人)、城镇居民人均可支配收入X5 (元)的关系。
采用逐步回归法建立线性模型,选出较优的线性回归模型。
2. 数据的统计与分析本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。
整理如表1所示。
表1:年份民航客运量(万人)国内生产总值(亿元)铁路客运量(万人)民航航线里程(万公里)入境过夜旅游人数(万人)城镇居民可支配收入(元)1996 5555 78973 94797 116.65 1356.26 4838.9 1997 5630 84402.3 93308 142.5 1578.53 5160.3 1998 5755 89677.1 95085 150.58 1692.45 5425.1 1999 6094 88479.2 100164 152.22 1765.25 5854.1 2000 6722 99214.6 105073 150.29 1750.96 6280.1 2001 7524 109655.2 105155 155.36 1880.36 6859.6 2002 8594 120332.7 105606 163.77 2012.45 7702.8 2003 8759 135822.8 97260 174.95 2033.58 8472.2 2004 12123 159878.3 111764 204.94 2519.89 9421.6 2005 13827 184937.4 115583 199.85 2925.63 10493.1 2006 15968 216314.4 125656 211.35 3486.45 11759.5 2007 18576 265810.3 135670 234.3 3398.58 13785.8 2008 19251 314045.4 146193 246.18 3696.71 15780.8 2009 23052 340506.9 152451 234.51 4025.96 17174.7 2010 26769 397983.5 168145 276.5 4753.84 19109.4 2011 29316 473104 146192 349.05 4924.32 21809.8 2012 31896 519470.1 189337 328.01 5668.63 24564.7 2013 35397 568845.2 210597 410.6 5562.39 26955.12.1模型的建立以民航客运量y为因变量,以上5种影响因素为自变量X,构建回归方程:y = ?? + ?????+ e其中??为常数项,为误差项。
多元回归与逐步回归 例题
y= b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4 =
(2)四元线性回归方程的回归平方和
U = b1l1 y + b2l2 y + b3l3 y + b4l4 y =
残差平方和 Q = l yy − U = 由表 3-2 得
−1 = C L = xx
系数 b j 的标准差为
= Sb j = Sb1 = Sb2 = Sb3 = Sb4
2 199.50
3 215.70
4 224.60
5 230.20
2 3 4 5 6 7 8 9 10
18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96
19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10
19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71
ˆ0 。 4)求当 = x01 12, = x02 30, = x03 8, = x04 20 时的 y
表 1-1 原始数据 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 均值
y
78.5 74.3 104.2 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4 95.4154
y= b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4 =
(2)四元线性回归方程的回归平方和
U = b1l1 y + b2l2 y + b3l3 y + b4l4 y =
应用数理统计大作业1——逐步回归法分析终
应用数理统计多元线性回归分析(第一次作业)学院:机械工程及自动化学院姓名:学号:2014年12月逐步回归法在AMHS物流仿真结果中的应用摘要:本文针对自动化物料搬运系统 (Automatic Material Handling System,AMHS)的仿真结果,根据逐步回归法,使用软件IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS 数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。
关键词:逐步回归;残差;SPSS;AMHS;物流仿真目录1、引言 (1)2、逐步回归法原理 (4)3、模型建立 (5)3.1确定自变量和因变量 (5)3.2分析数据准备 (6)3.3逐步回归分析 (7)4、结果输出及分析 (8)4.1输入/移去的变量 (8)4.2模型汇总 (9)4.3方差分析 (9)4.4回归系数 (10)4.5已排除的变量 (11)4.6残差统计量 (11)4.7残差分布直方图和观测量累计概率P-P图 (12)5、异常情况说明 (13)5.1异方差检验 (13)5.2残差的独立性检验 (14)5.3多重共线性检验 (15)6、结论 (15)参考文献 (17)1、引言回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。
这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。
逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。
SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。
计量经济学逐步回归作业
计量经济学
-作业1
20172109040 管理科学与工程黄亮峰请自行收集一组数据,设定相关被解释变量、解释变量或控制变量,建立一个线性计量方程,根据OLS计量方法,采用逐步回归方法进行估计,最终只报告其整理结果。
题目:空气中因素的辐射强迫对气温的影响
变量:对流层气溶胶反射(reflaer)、雪反照率(snowalb)、平流层气溶胶(straer)、土地使用类型(landuse)
逐步回归命令:
sw reg tem reflaer snowalb straer landuse,pe(0.05) 回归结果:
根据结果,P<0.05,分析出解释变量对被解释变量影响显著,即对流层气溶胶反射(reflaer)、雪反照率(snowalb)、平流层气溶胶(straer)、土地使用类型(landuse)对气温具有显著影响。
回归分析逐步回归分析
43(1)
最优回归方程的问题
• 在有p个自变量的情况下,根据自变量的不 同组合可能建立的回归方程众多。这些回 归方程的效果有好有坏,而人们希望的是 回归效果最好的,即“最优”的回归方程
• 最优回归方程的要求:
– 回归效果最佳 – 自变量的个数最少
• 一方面对因变量起显著作用的自变量都选进回归方 程,另一方面对因变量作用不显著的自变量都剔除 回归方程,选择一个最佳的变量组合
标准正规方程组
•
标准化正规方程组的解
ˆ
* j
称为标准回归系
数,其常数项 ˆ0* 为0 。由于因变量也进行
了标准化,其总离差平方和 Lyy=1
• 求解标准化正规方程组还需要解决以下两
个问题
①引入变量和剔除变量的标准;
②引入变量与剔除变量的方法。
43(10)
二、变量的引入、剔除与消去法的关系
• 假定已有 l 个自变量引入到回归方程,即
43(8)
标准正规方程组
• 由标准化数据建立的正规方程组的系数矩 阵即为变量间的相关系数矩阵,称为标准 化正规方程组
• 标准化正规方程组为:
r11ˆ1* r12ˆ2* r21ˆ1* r22ˆ2*
rp1ˆ1* rp2ˆ2*
r1
p
ˆ
* p
r1 y
r2
p
ˆ
* p
r2 y
rpp
ˆ
* p
rpy
43(9)
• 由于回归系数和自变量所取的单位(或数量级)有 关,而各个自变量取不同的量纲的情况是常见的, 因而不能将回归系数直接进行比较
43(7)
建立标准正规方程组
• 为了消除这个影响,对自变量和因变量都 要加以标准化
作业-回归分析例题-逐步回归法
回归分析举例习题作业本次作业采用的是回归分析中的stepwise 的用法。
举例如下:水泥凝固时放出的热量y 与水泥中4种化学成分4321,,,x x x x 有关,今测得一组数据如表1,试用逐步回归来确定一个线性模型。
表1序号 1x2x3x4xy1 7 26 6 60 78.52 1 29 15 52 74.3 3 11 56 8 20 104.34 11 31 8 47 87.65 7 526 33 95.9 6 11 55 9 22 109.27 3 71 17 6 102.78 1 31 22 44 72.59 2 54 18 22 93.1 10 21 47 4 26 115.9 11 1 40 23 34 93.8 12 11 66 9 12 113.3 13 1068812109.4编写程序如下: clc,clearx0=[1 7 26 6 60 78.5 2 1 29 15 52 74.3 3 11 56 8 20 104.3 4 11 31 8 47 87.6 5 7 52 6 33 95.9 6 11 55 9 22 109.2 7 3 71 17 6 102.7 8 1 31 22 44 72.5 9 2 54 18 22 93.1 10 21 47 4 26 115.9 11 1 40 23 34 83.8 12 11 66 9 12 113.3 13 10 68 8 12 109.4]; x=x0(:,2:5); y=x0(:,6);stepwise(x,y,[1:4])在MATLAB 中运行上述程序得到图一所示图形界面:-2-1123X 1X 2X 3X 4Coefficients with Error BarsCoeff. t-stat p-val 1.5511 2.0827 0.07080.510168 0.7049 0.50090.101909 0.1350 0.8959-0.144061 -0.2032 0.844111234Model HistoryR M S E图一 逐步式回归交互画面由上图可以看出43,x x 不显著,移去这两个变量后的统计结果如图2。
第四章回归分析3逐步回归分析
R (0)
• 从矩阵R(0)中可以看出: x1与x2 两因子不相关,x2与x4、x1与x3之间关 系密切,x3与y关系不太密切,x4与y最相关
43(23)
逐步回归步骤:
第一步(t =1)
①选择第一个变量进入回归方程
对所有4个变量,按下面公式计算偏回归平方和←当变 F0.05 (2,10) 4.10 量引入回归方程后 计算公式:
( s) yy
(s)
1 r
( s) yy
(证明)
由相关矩阵构成的系数矩阵中,第 i 个变量的偏回 归平方和ui(s)为: ( s 1) 2 riy (s) ˆ2 c 由u ui ( s 1) i ii rii 可推倒出来
i
ui(s) 为下一步引进变量的指标,每一步引入都是从 未出现在回归方程的剩余变量中挑选ui(s)的最大者
43(21)
• 说明:按第一种方法选最优,全部可能的 回归方程有C41+C42+C43+C44=15个
• 准备工作:
计算各要素之间的相关系数,得到相关系数矩 阵R(0)
(0) r11 (0) r41 (0) ry1 (0) r14 (0) r44 ry(0) 4
43(16)
构造检验统计量
Fi ( s ) Q
(s)
ui( s ) 1 [n (l 1) 1]
式中,l 为先前已经引入到回归方程中的变量个 数,Fi 服从F(1,n-l-2)分布。 如果已引进的变量中有不显著的,则选其最不显 著者作剔除变换,然后再检验。在未引入的变量中 检验有无回归显著的变量,若有,则挑选最显著的 作引入的消去变换,然后再检验。 反复进行,直到没有变量可以引进,也没有变量 可以从方程中剔除为止。
2019-07-多元逐步等回归分析716203120
y' a K'L'u
17
本章小节
➢线性回归模型的一般形式为
yi 1xi12 xi2 ...m xim i
线性回归分析有以下共同特点: (1) 概率模型的形式是假设的; (2)必须对模型作一些适当的假设; (3) 模型中的系数用最小二乘法估计;
18
本章小节
(4) 利用整体F检验、对单个β参数的 t 检验、对部分β参
非线性回归模型按变量个数也可以分为一元 非线性回归模型和多元非线性回归模型;曲线的 形式也因实际情况不同而有多种形式,如指数曲 线、双曲线、S形曲线等。
11
非线性回归模型
非线性回归模型的形式
(1)双曲线模型:
y 1
u i
1
2
i
xi
(2)多项式模型:
y x x u i
1
2i
3
2 i
R 数的F检验、对自相关的 DW 检验、以及 R2 和修正 2 来检
查模型的有效性; (5) 通过残差分析来确定数据是否遵从给定的假设,如有必 要,可以修改模型,如将品质变量引入线性回归模型中(重 大变异出现为 1,未出现为 0),建立带虚拟变量的回归模型; (6) 如果认为模型有效和假设满足,就可利用模型来求各种 估计值和预测 y 的未来值。
3
多元逐步回归要求回归方程中包含所 有对因变量作用显著的自变量,而不包含作 用不显著的自变量,从而建立最优回归方程。
4
逐步筛选变量的方法:
1、强行进入法(Enter): 预先选定的自变量全部进入回归模型,
这是系统默认方式。 2、消去法(Remove): 根据设定的条件剔除部分自变量。
5
3、向前引入法(Forward):
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分析举例习题作业
本次作业采用的是回归分析中的stepwise 的用法。
举例如下:
水泥凝固时放出的热量y 与水泥中4种化学成分4321,,,x x x x 有关,今测得一组数据如表1,试用逐步回归来确定一个线性模型。
编写程序如下: clc,clear
x0=[1 7 26 6 60 78.5 2 1 29 15 52 74.3 3 11 56 8 20 104.3 4 11 31 8 47 87.6 5 7 52 6 33 95.9 6 11 55 9 22 109.2 7 3 71 17 6 102.7 8 1 31 22 44 72.5 9 2 54 18 22 93.1 10 21 47 4 26 115.9 11 1 40 23 34 83.8 12 11 66 9 12 113.3 13 10 68 8 12 109.4]; x=x0(:,2:5); y=x0(:,6);
stepwise(x,y,[1:4])
在MATLAB 中运行上述程序得到图一所示图形界面:
X X X X
Coefficients with Error Bars
Coeff. t-stat p-val Model History
R M S E
图一 逐步式回归交互画面
由上图可以看出43,x x 不显著,移去这两个变量后的统计结果如图2。
X X X X
Coefficients with Error Bars
Coeff. t-stat p-val 1
2
3
Model History
R M S E
图二 逐步式回归交互画面
图4中的43,x x 两行用红色显示,表明它们已移去。
从新的统计结果可以看出,虽然剩余标准差)(RMSE s 没有太大的变化,但是统计量F 的值明显增大,因此新的回归模型更好一些。
可以求出最终的模型为
216623.04683.15773.52x x y ++=。