回归分析(3)多元逐步回归
多元线性回归分析与逐步回归分析的比较研究
多元线性回归分析与逐步回归分析的比较研究陈正江;蒲西安【摘要】文章用多元线性回归分析与逐步回归分析方法的应用进行对比研究,其结果为:一是多元回归分析和逐步回归分析两种方法对方程的检验方法和步骤都相同,均可用相关性检验和方差分析两种方法中的任何一种.二是多元回归方程方差分析模型只有一种,而逐步回规方程方差分析模型可有两种或两种以上.三多元回归分析,它将假定从方程中去掉一个自变量xi后,减少的回归平方和称为该自变量的偏回归平方和pi,并对其进行显著性检验;逐步回归则是对所有自变量进行检验,依次对作用不大、无意义的变量进行剔除,并选入有效的、对因变量Y影响较大的自变量进入方程,使其得到最佳方程.【期刊名称】《牡丹江教育学院学报》【年(卷),期】2016(000)005【总页数】3页(P131-133)【关键词】多元线性回归;逐步回归;回归系数;复相关系数【作者】陈正江;蒲西安【作者单位】四川民族学院,四川康定 626001;四川民族学院,四川康定 626001【正文语种】中文【中图分类】G80-3多元线性回归分析与逐步回归分析是科学研究领域最常用的也是最重要的两种统计方法。
在各研究领域中,一个应变量往往受到许多因素的影响,而多元线性回归分析与逐步回归分析可以解决一个应变量与多个自变量之间的数量依存关系。
那么,如何正确使用统计方法,使研究结果更加科学合理,显得尤其重要。
用多元线性回归分析和逐步回归分析方法,对同一数据统计分析,将其结果进行比较研究。
1.多元线性回归分析与逐步回归分析概述(1)多元线性回归分析。
当所有研究问题中有一组自变量x1,x2,x3……xp对一个因变量Y共同发生作用时,可以利用多元回归建立Y与诸多xi之间的关系。
如果选用的函数模型为线性模型,那么,这种回归就称为多元线性回归[1]。
它们的数据较复杂,一般不考虑变量间的因果关系,不必区分应变量与因变量,也就是说,它可以任何一变量作为因变量。
逐步回归分析
逐步回归分析1、逐步回归分析的主要思路在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。
所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。
逐步回归分析正是根据这种原则提出来的一种回归分析方法。
它的主要思路是在考虑的全部自变量中按其对的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对作用不显著的变量可能始终不被引人回归方程。
另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。
引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行检验, 以保证在引人新变量前回归方程中只含有对影响显著的变量, 而不显著的变量已被剔除。
逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方和(即贡献), 然后选一个偏回归平方和最小的变量, 在预先给定的水平下进行显著性检验, 如果显著则该变量不必从回归方程中剔除, 这时方程中其它的几个变量也都不需要剔除(因为其它的几个变量的偏回归平方和都大于最小的一个更不需要剔除)。
相反, 如果不显著, 则该变量要剔除, 然后按偏回归平方和由小到大地依次对方程中其它变量进行检验。
将对影响不显著的变量全部剔除, 保留的都是显著的。
接着再对未引人回归方程中的变量分别计算其偏回归平方和, 并选其中偏回归平方和最大的一个变量, 同样在给定水平下作显著性检验, 如果显著则将该变量引入回归方程, 这一过程一直继续下去, 直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止, 这时逐步回归过程结束。
2、逐步回归分析的主要计算步骤(1) 确定检验值在进行逐步回归计算前要确定检验每个变量是否显若的检验水平, 以作为引人或剔除变量的标准。
逐步回归分析
逐步回归分析在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互作关系。
在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更较好。
逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每—个自变量进行假设检验。
当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某—个自变量对y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。
筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。
回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。
但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。
因此在多元回归模型中,选择适宜的变量数目尤为重要。
逐步回归在病虫预报中的应用实例:以陕西省长武地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例(数据见DATA6.xls),建立蚜传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。
影响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病情指数影响显著的因子,从而建立相应的模型。
对1984~1995年的病情指数进行回检,然后对1996~1998年的病情进行预报,再检验预报的效果。
变量说明如下:y:历年病情指数x1:前年冬季油菜越冬时的蚜量(头/株)x11:5月份均温 x12:5月份降水量 x13:6月份均温 x14:6月份降水量x2:前年冬季极端气温 x3:5月份最高气温x4:5月份最低气温x5:3~5月份降水量x6:4~6月份降水量x7:3~5月份均温x8:4~6月份均温x9:4月份降水量x10:4月份均温x15:第一次蚜迁高峰期百株烟草有翅蚜量 x16:5月份油菜百株蚜量x17:7月份降水量x18:8月份降水量x19:7月份均温x20:8月份均温x21:元月均温1)准备分析数据在SPSS数据编辑窗口中,用“File→Open→Data”命令,打开“DATA6.xls”数据文件。
回归分析
回归分析摘要回归分析是应用极其广泛的数据分析方法之一。
它基于观测数据建立变量间适当的相关关系,以分析数据的内在规律,并用于预报、控制等问题。
本次我们选取27名糖尿病人的四种血液成分测量值,依次选用线性回归模型、逐步回归模型和线性Logistic 回归模型来进行数据分析。
关键字:多元线性回归 逐步回归 Logistic 回归题目:27名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值于表1中,建立三种回归模型进行分析血糖和其他指标的关系。
表1序 号 总胆 固醇 甘油 三酯 胰岛 素 糖化血 红蛋白 血糖 序 号 总胆 固醇 甘油 三酯 胰岛 素 糖化血 红蛋白 血糖X1 X2 X3 X4 Y X1 X2 X3 X4 Y5 1 5.68 1.90 4.53 8.2 11.2 15 6.13 2.06 10.35 10.5 10.9 2 3.79 1.64 7.32 6.9 8.8 16 5.71 1.78 8.53 8.0 10.1 3 6.02 3.56 6.95 10.8 12.3 17 6.4 2.4 4.53 10.3 14.8 4 4.85 1.07 5.88 8.3 11.6 18 6.06 3.67 12.79 7.1 9.1 5 4.60 2.32 4.05 7.5 13.4 19 5.09 1.03 2.53 8.9 10.8 6 6.05 0.64 1.42 13.6 18.3 20 6.13 1.71 5.28 9.9 10.2 7 4.90 8.50 12.60 8.5 11.1 21 5.78 3.36 2.96 8.0 13.6 8 7.08 3.00 6.75 11.5 12.1 22 5.43 1.13 4.31 11.3 14.9 9 3.85 2.11 16.28 7.9 9.6 23 6.50 6.21 3.47 12.3 16.0 10 4.65 0.63 6.59 7.1 8.4 24 7.98 7.92 3.37 9.8 13.2 11 4.59 1.97 3.61 8.7 9.3 25 11.54 10.89 1.20 10.5 20.0 12 4.29 1.97 6.61 7.8 10.6 26 5.84 0.92 8.61 6.4 13.3 13 7.79 1.93 7.87 9.9 8.4 27 3.84 1.20 6.45 9.6 10.4 14 6.19 1.18 1.42 6.9 9.6一.多元线性回归分析解:设Y 与 1X ,2X ,3X 和4X 的观测值之间满足关系i i i i i i x x x x y εβββββ+++++=443322110 27,...,2,1=i ,其中)27,...,2,1(=i i ε相互独立,均服从正态分布).,0(2σN 利用SAS 系统中的PROC REG 过程可得如下分析结果。
回归分析
回归分析1、回归分析的概念在工农业生产和科学研究中,常常需要研究变量之间的关系。
变量之间的关系可以分为两类:确定性关系、非确定性关系。
确定性关系就是指存在某种函数关系。
然而,更常见的变量之间的关系存在着某种不确定性。
例如:商品的销售量与当地人口有关,人口越多,销售量越大,但它们之间并没有确定性的数值关系,同样的人口,可能有不同的销售量。
这种既有关联,又不存在确定性数值关系的相互关系,就称为相关关系。
回归分析就是研究变量之间相关关系的一种数理统计分析方法。
在回归分析中,主要研究以下几个问题: (1)拟合:建立变量之间有效的经验函数关系; (2)变量选择:在一批变量中确定哪些变量对因变量有显著影响,哪些没有实质影响; (3)估计与检验:估计回归模型中的未知参数,并且对模型提出的各种假设进行推断; (4)预测:给定某个自变量,预测因变量的值或范围。
根据自变量个数和经验函数形式的不同,回归分析可以分为许多类别。
2、一元线性回归⏹ 回归系数的最小二乘估计已知(x1, y1),(x2 ,y2),...,(xn, yn),代入回归模型得到: 一元线性回归模型给定一组数据点(x1, y1),(x2 ,y2),...,(xn, yn),如果通过散点图可以观察出变量间大致存在线性函数关系,则可以建立如下模型:其中a,b 称为一元线性回归的回归系数;ε表示回归值与测量值之间的误差。
针对该模型,需要解决以下问题: (1)如何估计参数a,b 以及σ2; (2)模型的假设是否正确?(3)如何应用所求的回归方程对试验指标进行预测。
⏹ 回归系数的最小二乘估计已知(x1, y1),(x2 ,y2),...,(xn, yn),代入回归模型得到: 采用最小二乘法(即使观测值与回归值的离差平方和最小):⎩⎨⎧++=),0(~2σεεN bX a Y 2,~(0,),1,2,...,i i i i y a bx N i n e e s =++=1221111112111(,)2[()]0min (,)[()](,)2[()]011ˆˆˆn i i n n i i i i n i i i i i i n i i n n i i ii i n n n i i i ii i i Q a b y a bx a Q a b y a bx Q a b x y a bx b a y b x y n n na b x y a x b x x y e ==========ì锒ï=--+=ïï¶ï==-+ íï¶ï=--+=ïï¶ïî=-=-ìïï+=ïïï揶íïï+=ïïïîå邋åå邋邋1111221ˆ1n i n n n i i i ixy i i i nn xxbx x y x y L n b L ====ìïïïïïïïïí-ïï==ïïïå邋⏹ 回归系数估计量的性质⏹ 样本相关系数及其显著性检验显然:样本相关系数R 的符号决定于Lxy ,因此与相关系数b 的符号一致。
回归分析
图 2-11-1 销售收入与广告费用散点 从散点图可以看出,随着广告费用的增加,销售收入也随之增加,二者的数 据点分布在一条直线的附近,因此二者之间具有正的线性相关关系。 通过散点图观察可以判断两个变量之间有无相关关系, 并对关系形态做出大 致描述,但要准确度量变量间的关系强度,则需要计算相关系数。 Step2 计算相关系数度量关系强度并对相关系数的可靠性进行检验 (显著性 检验) 相关系数(Correlation Coefficient)是度量两个随机变量之间线性关系 强度的统计量,计算相关系数时,假定两个变量是线性关系。样本相关系数记为
p 2.7415E 09 0.05 ,双尾检验的p值接近于0,拒绝 H 0 ,说明销售收入
与广告费用之间存在显著线性相关关系。 Step3 求销售收入与广告费用的估计的回归方程 回归模型中的参数 0 和 1 是未知的,需要利用样本数据去估计它们。当用
ˆ 和 ˆ 估计模型中的参数 和 时,就得到了估计的回归方程 样本统计量 0 1 0 1
显著的线性关系。从表 3-2知 F 116.396 , p 值接近于0,表明销售收入与广告 费用之间的线性关系显著。 回归系数检验( t 检验):它用于检验自变量对因变量的影响是否显著。在 一元线性回归中,由于只有一个自变量,故回归系数检验与线性关系检验等价。 检验统计量是基于回归系数 1 的抽样分布来构造的 t 统计量。从表2-11-2知 1 的 95%的置信区间为 (4.132,6.130) , 0 的95%的置信区间为 (-4.913,554.013) 。 其中 1 的置信区间表示: 广告费用每变动1万元, 销售收入的平均变动量为4.132 万 6.130万元。 实验2 多元线性回归 一家高技术公司人事部为研究软件开发人员的薪金与他们的资历、 管理水平、 教育水平等因素之间的关系, 要建立一个数学模型,以便分析公司人事策略的合 理性, 并作为新聘用人员薪金的参考。他们认为目前公司人员的薪金总体上是合 理的,可以作为建模的依据,于是调查了46名软件开发人员的档案资料,见表 2-11-3, 其中资历一列指从事专业工作的年数, 管理水平一列中1表示管理人员, 0表示非管理人员,教育水平一列中1表示中学水平,2表示大学水平,3表示研究 生水平。 表2-11-3
你应该要掌握的7种回归分析方法
go你应该要掌握的7种回归分析方法标签: 机器学习回归分析2015-08-24 11:29 4749人阅读 评论(0) 收藏 举报 分类:转载:原文链接:7 Types of Regression Techniques you should know!(译者/刘帝伟 审校/刘翔宇、朱正贵 责编/周建丁)什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。
这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
回归分析是建模和分析数据的重要工具。
在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。
我会在接下来的部分详细解释这一点。
我们为什么使用回归分析?如上所述,回归分析估计了两个或多个变量之间的关系。
下面,让我们举一个简单的例子来理解它:比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。
现在,你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的2.5倍。
那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。
使用回归分析的好处良多。
具体如下:1.它表明自变量和因变量之间的显著关系;2.它表明多个自变量对一个因变量的影响强度。
回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。
这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。
我们有多少种回归技术?有各种各样的回归技术用于预测。
这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。
我们将在下面的部分详细讨论它们。
对于那些有创意的人,如果你觉得有必要使用上面这些参数的一个组合,你甚至可以创造出一个没有被使用过的回归模型。
但在你开始之前,先了解如下最常用的回归方法:1. Linear Regression线性回归它是最为人熟知的建模技术之一。
(整理)多元回归分析原理及例子
多元回归分析原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。
回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系, 但可以设法找出最能代表它们之间关系的数学表达形式。
回归分析主要解决以下几个方面的问题:(1) 确定几个特定的变量之间是否存在相关关系, 如果存在的话, 找出它们之间合适的数学表达式;(2) 根据一个或几个变量的值, 预测或控制另一个变量的取值, 并且可以知道这种预测或控制能达到什么样的精确度;(3) 进行因素分析。
例如在对于共同影响一个变量的许多变量(因素)之间, 找出哪些是重要因素, 哪些是次要因素, 这些因素之间又有什么关系等等。
回归分析有很广泛的应用, 例如实验数据的一般处理, 经验公式的求得, 因素分析, 产品质量的控制, 气象及地震预报, 自动控制中数学模型的制定等等。
多元回归分析是研究多个变量之间关系的回归分析方法, 按因变量和自变量的数量对应关系可划分为一个因变量对多个自变量的回归分析(简称为“一对多”回归分析)及多个因变量对多个自变量的回归分析(简称为“多对多”回归分析), 按回归模型类型可划分为线性回归分析和非线性回归分析。
本“多元回归分析原理”是针对均匀设计3.00软件的使用而编制的, 它不是多元回归分析的全面内容, 欲了解多元回归分析的其他内容请参阅回归分析方面的书籍。
本部分内容分七个部分, §1~§4介绍“一对多”线性回归分析, 包括数学模型、回归系数估计、回归方程及回归系数的显著性检验、逐步回归分析方法。
“一对多”线性回归分析是多元回归分析的基础, “多对多”回归分析的内容与“一对多”的相应内容类似, §5介绍“多对多”线性回归的数学模型, §6介绍“多对多”回归的双重筛选逐步回归法。
§7简要介绍非线性回归分析。
§1 一对多线性回归分析的数学模型§2 回归系数的最小二乘估计§3 回归方程及回归系数的显著性检验§4 逐步回归分析§5 多对多线性回归数学模型§6 双重筛选逐步回归§7 非线性回归模型§1 一对多线性回归分析的数学模型设随机变量与个自变量存在线性关系:, (1.1)(1.1)式称为回归方程, 式中为回归系数, 为随机误差。
数学建模之逐步回归分析(精品讲义)
第6节逐步回归分析逐步回归分析实质上就是建立最优的多元线性回归方程,显然既实用而应用又最广泛。
6.1逐步回归分析概述1 概念逐步回归模型是以已知地理数据序列为基础,根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。
逐步回归分析是指在多元线性回归分析中,利用求解求逆紧奏变换法和双检验法,来研究和建立最优回归方程的并用于地理分析和地理决策的多元线性回归分析。
它实质上就是多元线性回归分析的基础上派生出一种研究和建立最优多元线性回归方程的算法技巧。
主要含义如下:1)逐步回归分析的理论基础是多元线性回归分析法;2)逐步回归分析的算法技巧是求解求逆紧奏变换法;3)逐步回归分析的方法技巧是双检验法,即引进和剔除检验法;4)逐步回归分析的核心任务是建立最优回归方程;5)逐步回归分析的主要作用是降维。
11主要用途:主要用于因果关系分析、聚类分析、区域规划、综合评价等等。
2 最优回归模型1)概念最优回归模型是指仅包含对因变量有显著影响的自变量的回归方程。
逐步回归分析就是解决如何建立最优回归方程的问题。
2)最优回归模型的含义最优回归模型的含义有两点:(1)自变量个数自变量个数要尽可能多,因为通过筛选自变量的办法,选取自变量的个数越多,回归平方和越大,剩余平方和越小,则回归分析效果就越好,这也是提高回归模型分析效果的重要条件。
(2)自变量显著性自变量对因变量y 有显著影响,建立最优回归模型的目的主要是用于预测和分析,自然要求自变量个数尽可能少,且对因变量y 有显著影响。
若自变量个数越多,一方面预测计算量大,另一方面因n 固定,所以Q S k n Q →--1增大,即造成剩余标准差增大,故要求自变量个数要适中。
且引入和剔除自变量时都要进行显著性检验,使之达到最优化状态,所以此回归方程又称为优化模型。
3 最优回归模型的选择方法最优回归模型的选择方法是一种经验性发展方法,主要有以下四种:(1)组合优选法组合优选法是指从变量组合而建立的所有回归方程中选取最优着。
多元回归分析原理及例子
多元回归分析原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。
回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系, 但可以设法找出最能代表它们之间关系的数学表达形式。
回归分析主要解决以下几个方面的问题:(1) 确定几个特定的变量之间是否存在相关关系, 如果存在的话, 找出它们之间合适的数学表达式;(2) 根据一个或几个变量的值, 预测或控制另一个变量的取值, 并且可以知道这种预测或控制能达到什么样的精确度;(3) 进行因素分析。
例如在对于共同影响一个变量的许多变量(因素)之间, 找出哪些是重要因素, 哪些是次要因素, 这些因素之间又有什么关系等等。
回归分析有很广泛的应用, 例如实验数据的一般处理, 经验公式的求得, 因素分析, 产品质量的控制, 气象及地震预报, 自动控制中数学模型的制定等等。
多元回归分析是研究多个变量之间关系的回归分析方法, 按因变量和自变量的数量对应关系可划分为一个因变量对多个自变量的回归分析(简称为“一对多”回归分析)及多个因变量对多个自变量的回归分析(简称为“多对多”回归分析), 按回归模型类型可划分为线性回归分析和非线性回归分析。
本“多元回归分析原理”是针对均匀设计3.00软件的使用而编制的, 它不是多元回归分析的全面内容, 欲了解多元回归分析的其他内容请参阅回归分析方面的书籍。
本部分内容分七个部分, §1~§4介绍“一对多”线性回归分析, 包括数学模型、回归系数估计、回归方程及回归系数的显著性检验、逐步回归分析方法。
“一对多”线性回归分析是多元回归分析的基础, “多对多”回归分析的内容与“一对多”的相应内容类似, §5介绍“多对多”线性回归的数学模型, §6介绍“多对多”回归的双重筛选逐步回归法。
§7简要介绍非线性回归分析。
§1 一对多线性回归分析的数学模型§2 回归系数的最小二乘估计§3 回归方程及回归系数的显著性检验§4 逐步回归分析§5 多对多线性回归数学模型§6 双重筛选逐步回归§7 非线性回归模型§1 一对多线性回归分析的数学模型设随机变量与个自变量存在线性关系:, (1.1)(1.1)式称为回归方程, 式中为回归系数, 为随机误差。
回归分析及预测
n
2
2
y y
i 1
yi y
1
2
e
i 1 n i 1
n
2
i
2 2 y ny i
YOUR SITE HERE
R2性质:
①R2度量了由回归模型作出的解释的y变差在 y总变差中所占的比例(或百分数),由于在 总变差恒定,故R2越大,回归效果越好。 ②反映回归直线(回归方程)拟合程度 ③取值范围是 0≤R2≤1 R2=1表示完全拟合; R2=0表示自变量和因变量之间没有任何线性 关系。 ④测定系数等于相关系数的平方。 R
YOUR SITE HERE
0 , 1,..., p
为待估回归参数,在多元线性回归中称 为偏回归系数(partial regression coefficient),表示各个回归系数在回归 方程中其它自变量保持不变情况下,自 变量xj每增加一个单位时因变量y的平均 增加程度。
多元线性回归模型 的回归方程为:
名称 性质 因变量 被解释变量 已知 随机 可观测因素 回归系数 未知 随机 自变量 随机扰动误差项 解释变量 已知 未知 非随机 随机 可观测因素 不可观测因素 不确定性部分
确定性部分
一元线性回归模型 的回归方程为:
ˆ ˆx ˆ y 0 1
YOUR SITE HERE
二、参数估计
1. 回归系数 0 和 1 的最小二乘估计
②预测
根据一个或几个变量值(自变量,相对而言较易测定),来预测 另一个变量(因变量)的估计值,并确定预测精度;
③判断自变量与因变量的亲疏关系
在共同影响某个特定变量(因变量)的许多变量(自变量)之中 ,找出哪些是重要的,哪些是次要的,以及它们之间有什么关系 。
多元回归分析结果解读
多元回归分析结果解读一、多元回归分析简介用回归方程定量地刻画一个应变量与多个自变量间的线性依存关系,称为多元回归分析(multiple linear regression),简称多元回归(multiple regression)。
多元回归分析是多变量分析的基础,也是理解监督类分析方法的入口!实际上大部分学习统计分析和市场研究的人的都会用回归分析,操作也是比较简单的,但能够知道多元回归分析的适用条件或是如何将回归应用于实践,可能还要真正领会回归分析的基本思想和一些实际应用手法!回归分析的基本思想是:虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。
二、多元回归线性分析的运用具体地说,多元线性回归分析主要解决以下几方面的问题。
(1)确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式;(2)根据一个或几个变量的值,预测或控制另一个变量的取值,并且可以知道这种预测或控制能达到什么样的精确度;(3)进行因素分析。
例如在对于共同影响一个变量的许多变量(因素)之间,找出哪些是重要因素,哪些是次要因素,这些因素之间又有什么关系等等。
在运用多元线性回归时主要需要注意以下几点:首先,多元回归分析应该强调是多元线性回归分析!强调线性是因为大部分人用回归都是线性回归,线性的就是直线的,直线的就是简单的,简单的就是因果成比例的;理论上讲,非线性的关系我们都可以通过函数变化线性化,就比如:Y=a+bLnX,我们可以令t=LnX,方程就变成了Y=a+bt,也就线性化了。
第二,线性回归思想包含在其它多变量分析中,例如:判别分析的自变量实际上是回归,尤其是Fisher线性回归方程;Logistics回归的自变量也是回归,只不过是计算线性回归方程的得分进行了概率转换;甚至因子分析和主成分分析最终的因子得分或主成分得分也是回归算出来的;当然,还有很多分析最终也是回归思想!第三:什么是“回归”,回归就是向平均靠拢。
多元线性回归与多元逐步回归
P 0.000
由表11-4可知,F=21.54,P<0.05。从而,拒绝H0,可以认为β1和 β2不全为0,即所求回归方程有统计学意义。
15
2.偏回归系数的检验
(1)F 检验
H 0 : j 0;H1 : j 0 j=1,2,…,k
Fj=
U /1 SS残差 ( / n
k
1)
Fj服从F(1 ,n - k - 1)分布
Y2
3
X13
X23
……
Xk3
Y3
……
……
n
X1n
X2n
……
Xkn
Yn
5
Yˆ
一 、多元线性回归方程 (multiple linear regression equation)
Yˆ b0 b1X1 b2 X2 bk Xk
bj为偏回归系数(partial regression coefficient)
第十一章 多元线性回归与多元逐步回归 (Multiple Linear Regression
and Multiple Stepwise Regression)
华中科技大学同济医学院 尹 平
1
例子
儿童身高与年龄、性别的关系
肺活量与年龄、性别、身高、体重 以及胸围的呼吸差等因素的关系
多元线性回归
一个应变量与多个自变量间的关系
一般可将 F 值定在 为0.05、0.10或0.20水平上。对于
回归方程的选入和剔除水平往往选择
选入≤剔除。
选择不同的F 值(或水平),其回归方程的结果可能不 一致,一般可选不同的F 值(或值) 作调试。至于何种 结果是正确的,必须结合医学的实际意义来确定。
26
多元回归及逐步回归分析
程。设引入变量为x1。 此时,由于引入新变量,方程中原有变量xj的p值发生改变
2、衡量回归方程的标准
1、剩余标准差
建立多元回归方程,其精确性由剩余标准 差来表达。
S = Y.1,2…,L Q /(N − L −1)
2、决定系数
3、校正复相关系数:与用剩余标准差筛选
Ra2d出j =的1方−程n常−n是−p1一−1致(1的−。R2
)
=
1
−
MSr MST
4、AIC--反应了回归方程的拟和精度,其 值越小越好
参数检验βi=0均无统计意义。
/ 回归系数估计值与专业背景不符 / 由专业知识可知某因素与因变量有明显的相
关关系,但作回归时的回归系数检验结果 P>α。
/在模型中增加一个变量或减少一个变量,引
起回归系数估计值有较大的变化。
应检查数据是否正确 样本的代表性 检查变量定义等问题 强影响点 要考虑自变量之间是否高度的线性相 关性或某个自变量可用其他自变量线 性表示。即:多重共线性问题
义。
H0:βj=0, H1:βj≠0,
x
的偏回归平方和
j
:
SSR(x j | x1, x j−1, x j+1 xp )
= SSR(x1, , xp ) − SSR(x1, x j−1, x j+1 xp )
Fj
=
SSR(x j | x1, SSE ( x1 ,
《应用回归分析》课后习题部分答案何晓群版
第二章 一元线性回归2.14 解答:(1)散点图为:(2)x 与y 之间大致呈线性关系。
(3)设回归方程为01y x ββ∧∧∧=+1β∧=12217()ni ii nii x y n x yxn x --=-=-=-∑∑0120731y x ββ-∧-=-=-⨯=-17y x ∧∴=-+可得回归方程为(4)22ni=11()n-2i i y y σ∧∧=-∑ 2n 01i=11(())n-2i y x ββ∧∧=-+∑=2222213⎡⎤⨯+⨯+⨯⎢⎥+⨯+⨯⎣⎦(10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1169049363110/3=++++=6.1σ∧=≈ (5)由于211(,)xxN L σββ∧t σ∧==服从自由度为n-2的t 分布。
因而/2|(2)1P t n αασ⎡⎤⎢⎥<-=-⎢⎥⎣⎦也即:1/211/2(p t t ααβββ∧∧∧∧-<<+=1α-可得195%β∧的置信度为的置信区间为(7-2.3537+2.353 即为:(2.49,11.5)2201()(,())xxx Nn L ββσ-∧+t ∧∧==服从自由度为n-2的t 分布。
因而/2(2)1P t n αα∧⎡⎤⎢⎥⎢⎥<-=-⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦即0/200/2()1p βσββσα∧∧∧∧-<<+=- 可得195%7.77,5.77β∧-的置信度为的置信区间为()(6)x 与y 的决定系数22121()490/6000.817()nii nii y y r y y ∧-=-=-==≈-∑∑(7)由于(1,3)F F α>,拒绝0H ,说明回归方程显著,x 与y 有显著的线性关系。
(8)t σ∧==其中2221111()22n ni i i i i e y y n n σ∧∧====---∑∑ 7 3.661==≈ /2 2.353t α= /23.66t t α=>∴接受原假设01:0,H β=认为1β显著不为0,因变量y 对自变量x 的一元线性回归成立。
回归分析(3)多元逐步回归
此时该方程的总离差平方和可表示为
S总 S回 S剩 U ( x1, x2 ,, xl ) Q( x1, x2 ,, xl ) (2.16)
现在已有的 l 个自变量中剔除一个自变量,不妨 剔除xi , i 1,2,, l ,于是可得剔除自变量 xi 后的 回归方程,记为
yˆ b0 b1 x1 bi1 xi1 bi1 xi1 blxl (2.17)
(2.14)
§2.5.2 引入自变量的依据
现在在已有的 l个自变量所组成的回归方程中再 引入一个自变量,不妨记为 xi (i l 1, l 2,, m),于 是引入了一个自变量 xi 的回归方程可表示为
S总 U ( x1, x2 ,, xl , xi ) Q( x1, x2 ,, xl xi ) (2.15) 现在用式(2.15)减去式(2.14),并注意到 式(2.14)与式(2.15)总离差平方和不变, 可得
计量
F2i
Vi ( x1 , x2 ,, xl ) / 1 Q( x1,, xl ) /(n l 1)
~
F (1, n l 1)
i 1,2,, l
来检验方程中哪个自变量 可被考虑剔除出方程。
F
对于给定的水平 ,查 分布表得临界
值F (1, n l 1) F出 。 如果F2i F出 ,则 xi 应从方程中剔除; 如果 F2i F出 ,则 xi 不应从方程中剔除。 同样需要说明的是,实际问题可能有多个
U( x1, x2 ,, xl , xi ) U( x1, x2 ,, xl ) Q( x1, x2 ,, xl ) Q( x1, x2 ,, xl , xi )
令
Vi ( x1 , x2 ,, xl ) U ( x1 , x2 ,, xl , xi ) U ( x1 , x2 ,, xl )
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
= Q( x1 , x2 ,L , xl ) − Q( x1 , x 2 ,L , x l , xi )
V ( x , x ,L , x ) = U ( x , x ,L , x , x ) − U ( x , x ,L , x ) 令 于是称 V ( x , x ,L, x ) 为自变量 xi 对因变量 y 的方 差贡献。也就是, 越大, 差贡献。也就是,如果 Vi ( x1 , x2 ,L, xl ) 越大,则 x i 对 y 的影响就越大,x i 对回归方程就越显重要, 的影响就越大, 对回归方程就越显重要, V ( x , x ,L , x ) 应该引入。 应大到什么程度, 应该引入。但是 应大到什么程度,自 xi 才可被引入方程呢? 变量 才可被引入方程呢?这就需要给出 的引入标准(或称引入门坎值)。 的引入标准(或称引入门坎值)。
i
S总 = U ( x1 , x 2 , L , x l , x i ) + Q ( x1 , x 2 , L , x l x i ) (2.15)
现在用式( ),并注意到 现在用式(2.15)减去式(2.14),并注意到 )减去式( ), 式(2.14)与式(2.15)总离差平方和不变, )与式( )总离差平方和不变, 可得 U ( x1 , x2 , L , xl , x i ) − U ( x1 , x 2 ,L , x l )
1.输入模型原始数据
x11 x 21 X= M x n1 x12 L x1m y1 y2 M yn
x 22 L x2 m M L M x n 2 L x nm
m 其中, 为样品个数, 为自变量个数。 其中, n 为样品个数, 为自变量个数。
2.作如下预处理变换 . (1) 求各变量均值 x ) (2) 求 )
是否可以引入方程。式中, 可以检验自变量 xi 是否可以引入方程。式中, n 是样本容量,l 是已进入方程的自变量个数。 是样本容量, 是已进入方程的自变量个数。 分布表, 对于给定水平 ,查 F 分布表,可得临界 可引入方程; 值 Fα = F进 。如果 F1i > F进 ,则表明 x i 可引入方程;
§2.6.1 数据准备 回归分析的原始数据包括两部分, 回归分析的原始数据包括两部分,一部分是自 的观测值。 变量 x1 , x2 ,L , xm 及因变量 y 的观测值。我们称为 模型数据值。另一部分是只有自变量的观测值, 模型数据值。另一部分是只有自变量的观测值, 的取值未知,称预测数据部分。 因变量 y 的取值未知,称预测数据部分。 模型数据用来求回归方程的参数, 模型数据用来求回归方程的参数,在模型显著 的预测计算。 时,再用以对预测部分作 y 的预测计算。
Vi
Vi ( x1 , x 2 , L , x l ) / 1 F2 i = ~ F (1, n − l − 1) Q( x1 ,L , x l ) /( n − l − 1)
i = 1,2,L, l
可被考虑剔除出方程。 来检验方程中哪个自变量 可被考虑剔除出方程。
对于给定的水平α ,查 分布表得临界 值 Fα (1, n − l − 1) = F出 。 应从方程中剔除; 如果F2 i ≤ F出 ,则 xi 应从方程中剔除; 不应从方程中剔除。 如果 F2 i > F出 ,则 xi 不应从方程中剔除。 同样需要说明的是, 同样需要说明的是,实际问题可能有多个 F2 i ≤ F出 ,由于每次只能从方程中剔除一个变 因此在算法上, 量,因此在算法上,我们选最小的 F2 i 值所对应 的变量考虑剔除, 的变量考虑剔除,即先求
i 1 2 l 1 2 l i 1 2 l
i 1 2 l
i
1
2
l
统计理论表明, 统计理论表明,用统计量
F1i = Vi ( x1 , x2 ,L , xl ) / 1 ~ F (1, n − l − 2) Q( x1 , x 2 ,L , xl , x i ) /( n − l − 2)
i = l + 1, l + 2,L, m
§ 2.5
多元逐步回归算法原理
多元回归模型首先将实际问题所提取的全部变量引 入方程, 入方程,然后再根据变量的显著性检验把方程中不重 要的变量逐一剔除,建立新方程。 要的变量逐一剔除,建立新方程。
缺点:( )首先在实际问题中,要提取合 缺点:(1)首先在实际问题中, :( 适的变量来建立回归方程本身不是一件很容易 的事情, 的事情,变量间可能存在高度的相互依赖性会 给回归系数的估计带来不合理的解释; 给回归系数的估计带来不合理的解释; (2)其次变量的一次性引入方程,易导致计 )其次变量的一次性引入方程, 算量增大,运算效率降低,精度不够等问题。 算量增大,运算效率降低,精度不够等问题。
§ 2.5
多元逐步回归算法原理
为了得到一个稳健的、 为了得到一个稳健的、可靠的回归模 这就需要给出一种方法, 型,这就需要给出一种方法,使得能从 影响 y 的因素中自动根据某种准则将 y 对 贡献大的变量 x(或者说对 y 重要的变 i 量 x )引入方程,不重要的变量从方程 i 引入方程, 中剔除。 中剔除。最终在观测数据基础上建立最 优的回归方程。 优的回归方程。
§2.5.1 逐步回归算法的形成思路 引入方程后, 如 x1 , x 2引入方程后,再引入 x5 ,也许由 x5 的引 的重要性反而变得不重要,应及时剔除。 入而 x1的重要性反而变得不重要,应及时剔除。 假设已有 l 个自变量引入回归方程,即已知回 个自变量引入回归方程, 归方程是: 归方程是: ˆ y = b0 + b1 x1 + b2 x 2 + L + bl x l 此时该方程相应的总离差平方和记为
为由式( 为由式(2.16)与式(2.17)可得 )与式( )
Vi ( x1 , x 2 ,L , x l ) = U ( x1 ,L , x l ) − U ( x1 , L x i −1 , x i +1 , L , x l )
这里仍然称
Vi
的方差贡献。 为 xi 对 y 的方差贡献。
xi 的影响越大, 越重要, 越大说明 xi对 y 的影响越大,即 xi 对 y 越重要, 在方程中就不能被剔除,反之亦然。 当然 xi 在方程中就不能被剔除,反之亦然。然而 Vi应小到什么程度,自变量 x i 才考虑从方程中被剔 应小到什么程度, 除呢? 的剔除标准( 除呢?这就需要给出 xi 的剔除标准(或称剔除门 坎值)。和前面所介绍的引入标准一样, )。和前面所介绍的引入标准一样 坎值)。和前面所介绍的引入标准一样,可用统 计量
k(i) 进
max F1i 记 → Fk ( i )
(l < i ≤ m )
比较, 然后将它与 F进 比较,如 F1i > F进 ,相应的自变量 x k ( i ) 入选;如 F1i ≤ F进 ,引入变量的步骤就到此为 入选; 止。
§2.5.3 剔除自变量的依据 个自变量引入回归方程, 设已有 l 个自变量引入回归方程,即已知回归方 程为
lj =
j
1 n = ∑ x ij n i =1
( j = 1,2, L , m + 1)
∑(x
i =1
n
ij
− x j )2
( j = 1,2, L , m + 1)
(3) 作变换 )
x ij * =
x ij − x j lj
( j = 1,2, L , n; j = 1,2, L , m + 1)
该变换使变换后的数据各变量均值为0, 该变换使变换后的数据各变量均值为 ,离差 平方和为l。 平方和为 。
ˆ y = b0 + b1 x1 + b2 x2 + L + bt x t
此时该方程的总离差平方和可表示为
S总 = S回 + S 剩 = U ( x1 , x 2 , L , x l ) + Q ( x1 , x 2 , L , x l )
(2.16) )
现在已有的 l 个自变量中剔除一个自变量,不妨 个自变量中剔除一个自变量, 剔除xi , i = 1,2,L , l ,于是可得剔除自变量 x i 后的 回归方程, 回归方程,记为
min F2 i = Fk ( i )
1≤ i ≤ l
记
然后将 与 F出比较,如 F ≤ F 时,就应从回归 比较, 方程中剔除变量 xk ( i ) ;如 F > F ,则方程中没 有变量被剔除,转入是否可以引入新变量的讨论。 有变量被剔除,转入是否可以引入新变量的讨论。
k(i) 出
k(i)
出
§ 2.6
x 不重要, 如果 F ≤ F ,则说明自变量x i 不重要, i 不能引 入方程。需要说明的是, 入方程。需要说明的是,实际问题可能 Fk ( i ) > F进 有 多个,由于每次只能引入一个变量进入方程, 多个,由于每次只能引入一个变量进入方程,因 此在算法上, 此在算法上,我们是选最大的 F1i 值所对应的变量 考虑引入, 考虑引入,即,先求
§2.5.1 逐步回归算法的形成思路 逐步回归算法基本思路 根据各自变量的重要性, 根据各自变量的重要性,每一步选一个重要 的变量进入回归方程。 的变量进入回归方程。
第一步是在所有可供挑选的变量中选出一个变量, 第一步是在所有可供挑选的变量中选出一个变量, 使它组成的一元回归方程比其他变量有更大的回归平方 l 和。第二步是在剩下的自变量中选这样一个变量,它与 第二步是在剩下的自变量中选这样一个变量, 已选入方程的那个变量所组成的二元回归方程, 已选入方程的那个变量所组成的二元回归方程,比其他 任一变量与已先选入方程的变量所组成的二元回归方程, 任一变量与已先选入方程的变量所组成的二元回归方程,
ˆ ′ ′ y = b0 + b1 x1 + L + bi′−1 x i −1 + bi′+1 x i +1 + L + bl′ x l