回归分析方法总结全面
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、什么是回归分析
回归分析(Regression Analysis)是研究变量之间作用关系的一种统计分析方法,其基本组成是一个(或一组)自变量与一个(或一组)因变量。回归分析研究的目的是通过收集到的样本数据用一定的统计方法探讨自变量对因变量的影响关系,即原因对结果的影响程度。回归分析是指对具有高度相关关系的现象,根据其相关的形态,建立一个适当的数学模型(函数式),来近似地反映变量之间关系的统计分析方法。利用这种方法建立的数学模型称为回归方程,它实际上是相关现象之间不确定、不规则的数量关系的一般化。
二、回归分析的种类
1.按涉及自变量的多少,可分为一元回归分析和多元回归分析一元回归分析是对一个因变量和一个自变量建立回归方程。多元回归分析是对一个因变量和两个或两个以上的自变量建立回归方程。
2.按回归方程的表现形式不同,可分为线性回归分析和非线性回归分析
若变量之间是线性相关关系,可通过建立直线方程来反映,这种分析叫线性回归分析。
若变量之间是非线性相关关系,可通过建立非线性回归方程来反映,这种分析叫非线性回归分析。
三、回归分析的主要内容
1.建立相关关系的数学表达式。依据现象之间的相关形态,建立适当的数学模型,通过数学模型来反映现象之间的相关关系,从数量上近似地反映变量之间变动的一般规律。
2.依据回归方程进行回归预测。由于回归方程反映了变量之间的一般性关系,因此当自变量发生变化时,可依据回归方程估计出因变量可能发生相应变化的数值。因变量的回归估计值,虽然不是一个必然的对应值(他可能和系统真值存在比较大的差距),但至少可以从一般性角度或平均意义角度反映因变量可能发生的数量变化。
3.计算估计标准误差。通过估计标准误差这一指标,可以分析回归估计值与实际值之间的差异程度以及估计值的准确性和代表性,还可利用估计标准误差对因变量估计值进行在一定把握程度条件下的区间估计。
四、一元线性回归分析
1.一元线性回归分析的特点
1)两个变量不是对等关系,必须明确自变量和因变量。
2)如果x和 y两个变量无明显因果关系,则存在着两个回归方程:一个是以x为自变量,y 为因变量建立的回归方程;另一个是以y为自变量,x为因变量建立的回归方程。若绘出图形,则是两条斜率不同的回归直线。
3)直线回归方程中,回归系数b可以是正值,也可以是负值。若 0 b > ,表示直线上升,说明两个变量同方向变动;若 0 b < ,表示直线下降,说明两个变量是反方向变动。
2.建立一元线性回归方程的条件
任何一种数学模型的运用都是有前提条件的,配合一元线性回归方程应具备以下两个条件:1)两个变量之间必须存在高度相关的关系。
两个变量之间只有存在着高度相关的关系,回归方程才有实际意义。
2)两个变量之间确实呈现直线相关关系。
两个变量之间只有存在直线相关关系,才能配合直线回归方程。
3.建立一元线性回归方程的方法
一元线性回归方程是用于分析两个变量(一个因变量和一个自变量)线性关系的数学表达式,一般形式为:y c=a+bx
式中:x代表自变量;
y c代表因变量y的估计值(又称理论值);
ab为回归方程参数。其中,a是直线在y轴上的截距,它表示当自变量x等于 0 时,因变量所达到的数值;b是直线的斜率,在回归方程中亦称为回归系数,它表示当自变量x每变动一个单位时,因变量y平均变动的数值。
一元线性回归方程应根据最小二乘法原理建立,因为只有用最小二乘法原理建立的回归方程才可以同时满足两个条件:
1)因变量的实际值与回归估计值的离差之和为零;
2)因变量的实际值与回归估计值的离差平方和为最小值。
只有满足这两个条件,建立的直线方程的误差才能最小,其代表性才能最强。
现在令要建立的一元线性回归方程的标准形式为y c=a+bx,依据最小二乘法原理,因变量实际值y与估计值y c的离差平方和为最小值,即Q=∑(y-y c)2取得最小值。为使Q=∑(y-y c)2=最小值
根据微积分中求极值的原理,需分别对a,b求偏导数,并令其为0,经过整理,可得到如下方程组:
∑y=an+b∑x
∑xy=a∑x+b∑x2
解此方程组,可求得a,b两个参数
4. 计算估计标准误差
回归方程只反映变量x和y之间大致的、平均的变化关系。因此,对每一个给定的x值,回归方程的估计值y c与因变量的实际观察值y之间总会有一定的离差,即估计标准误差。
估计标准误差是因变量实际观察值 y与估计值y c离差平方和的平均数的平方根,它反映因变量实际值y与回归直线上各相应理论值y c之间离散程度的统计分析指标。
估计标准误差:
式中:s y——估计标准误差;y——因变量实际观察值;y c——因变量估计值;n-2——自由度
如何描述两个变量之间线性相关关系的强弱?
利用相关系数r来衡量
当r>0时,表示x与y为正相关; 当r<0时,表示x与y为负相关。
5.残差分析与残差图:残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差
在研究两个变量间的关系时,
a) 要根据散点图来粗略判断它们是否线性相关;
b) 判断是否可以用回归模型来拟合数据;
c) 可以通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作就称为残差分析。
6.残差图的制作及作用。
坐标纵轴为残差变量,横轴可以有不同的选择;若模型选择的正确,残差图中的点应该分布在以横轴为心的带状区域,带状区域的宽度越窄精度越高。对于远离横轴的点,要特别注意。
7.几点注解:
第一个样本点和第 6 个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就应该予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。
另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。还可以用判定系数r2来刻画回归的效果,该指标测度了回归直线对观测数据的拟合程度,其计算公式是:
其中:SSR -回归平方和;
SSE -残差平方和;
Sst=ssr+sse总离差平方和。
由公式知,R(相关指数)的值越大,说明残差平方和越小,也就是说模型拟合效果越好。在含有一个解释变量的线性模型中r2恰好等于相关系数r的平方,即R2=r2
在线性回归模型中,R2表示解释变量对预报变量变化的贡献率。R2越接近1,表示回归的效果越好(因为R2越接近1,表示解释变量和预报变量的线性相关性越强)。
如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。
总的来说:相关指数R2是度量模型拟合效果的一种指标。在线性模型中,它代表自变量刻画预报变量的能力。
五、多元线性回归分析
在一元线性回归分析中,因变量y只受某一个因素的影响,即只由一个自变量x来估计。但对于复杂的自然界中的问题,影响因素往往很多,在这种情况下,因变量y要用多个自变量同时进行估计。例如,某种产品的总成本不仅受原材料价格的影响,而且也与产品产量、管理水平等因素有关;农作物产量的髙低受品种、气候、施肥量等多个因素的影响。描述因变量与两个或两个以上自变量之间的数量关系的回归分析方法称为多元线性回归分析。它是一元线性回归分析的推广,其分析过程相对复杂一些,但基本原理与一元线性回归分析类似。