回归分析自学整理21页

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

回归分析自学整理

一、回归分析的数学模型与假设 (1)

二、回归分析的步骤 (3)

三、回归分析的SPSS 操作与数据解释 (12)

一、回归分析的数学模型与假设

总体回归模型(理论模型)

β0为常数项,也叫截距。

β1,β2,…,βj 为总体偏回归系数。

βj (j=1,2,…,m )表示当方程中其它自变量保持常量时,自变量Xj 每增

加(或减少)一个计量单位时,反应变量Y 平均变化βj 个单位。 ε表示去除m 个自变量对Y 影响后的随机误差,也称作残差。

样本回归模型(估计模型)

j j x b x b x b b y ++++=Λ22110ˆ就是回归方程。

总体回归与样本回归的区别

假设

古典线性回归模型总是假设

1.误差项ε是一个服从均值为零(零均值)、方差是常数(同方差)正态分布的随机变量,即ε~N(0,2 ),E(ε)=0,且相互独立(残差无自相关);

2.解释变量x1,x2,…,xk是可以精确观察的普通变量(非随机变量)。

3.解释变量X与随机误差项ε是各自独立对解释变量Y产生影响(残差与自变量无相关)。

多元回归增加的假定:各自变量之间不存在线性关系。在此条件下,自变量观测值矩阵X列满秩

二、回归分析的步骤

(一)画散点图。选择合适的回归方法。初步判定自变量与因变量的关系。

(二)建立回归方程。求出b

0和b

j

(三)回归方程检验。方程精度检验(R2)、回归系数检验(F检验和T检验)

(四)预测。求出总体回归系数β

0和β

j.

并求出预测区间。

(一)画散点图

散点图的重要作用

回归分析时,有时R比较明显,达到0.8以上,但是并不表示Y与X之间的关系是线性的,因此进行回归分析时,不能进行简单判断。图示分析方法是最基本、最直观的方法,有助于对数据的内在性质进行准确判断。

例如:下面四图中的数据,计算相关系数差不多都为0.8,但实际却差别巨大。第一图虽然数据比较散,但线性趋势比较模型。第二图模型是曲线趋势。第三图有一个异常点,该点导致直线的斜率发生较大改变。第四图本来没什么趋势,也只是一个异常点的影响使其线性相关系数较大。

后面三图直接进行回归分析都会得出错误的回归模型,不能反映事实。(二)建立回归方程

建立多元线性回归方程同样要根据最佳拟合原则,采用最小二乘法,使所求直线在y轴

上与实际观测值y间的误差平方和Q最小。根据微积分求极值的原理,只需分别对a、求偏导数,令它们等于零,整理后可得标准(正规)方程组。达到最小,其充分必要条件

得到正规方程组

利用最小乘法建立多元回归方程的过程

直观地说,所谓最小二乘法,就是如果散点图中每一点沿y轴方向到直线的距离最小,简单讲就是使误差平方和最小,则在所有直线中这条直线的代表性就是最好的,它的表达式就是所求的回归方程.由于x与y的关系是分布在一个区域,两个变量的成对数据画成散点图后,两点确定一条直线,因此可以画出不止一条直线,在这些直线中有的离散点远,用它来表示两变量的关系,准确性就较差.只有Q最小的直线准确性最好.

由于建立多元线性回归方程所应用的数据也是样本数据,所以建立的方程也是样本回归方程,记作:

在高等数学中,要使Q最小,就是求Q的极值。求Q的极值,就是要求Q 的一阶偏导并令其为0组成偏导方程组,然后解偏导方程组求出参数估计值。

多元线性回归方程的建立从原理上说,与一元线性回归方程的建立相同,但由于涉及到多个因变量,所以数学处理更复杂。这里,我们试图通过二元线性回归方程的建立,来寻找多元线性回归方程的求建规律和方法。

设二元线性回归方程为:

根据最小二乘法,有:

最小

将回归方程代入,则有:

先求Q对常数项b0的一阶偏导并令其为0,有:

整理后,得到:

(三)回归方程有效性检验

1.模型整体拟合效果检验(自变量联合效应方差分析)

(检验模型整体是否显著,即各回归系数是否全为0。)

回归模型整体拟合效果的显著性检验。检验多个自变量联合对因变量是否有显著影响。

它是建立在总离差平方和分解的基础上(SST=SSR+SSE)。回归平方和SSR 越大,变量之间线性相关性越大,设统计量F分别服从自由度为1、n-2的

卡方分布,并计算F值。

多元线性回归方程建立后,也要通过统计检验判断其有无实用价值,检验方法还是方差分析法。经过证明,多元线性回归的总离差平方和也是分解为回归平方和U与剩余平方和Q两部分,有:

其中,总离差平方和的自由度为n-1,回归平方和U的自由度为自变量个数k,剩余平方和Q的自由度为n-k-1。

总变差平方和(SST、Lyy)

反映因变量Y的n个观察值与其均值的总离差。

回归变差平方和(SSR、U)

反映自变量x的变化对因变量y取值变化影响。(可用X来解释的变化。)剩余变差平方和(SSE、Q)

反映除x以外的其他因素对y取值的影响。(一些不规则偶然因素所致的变化。)

假设

整个检验过程可列表如下:

F=(U/k)/(Q/N-k-1)=回归均方/残差均方=MSR/MSE。其意义为所有自变量产生的回归变异是否显著。

2.决定系数(R2)分析(自变量联合效应比例)

(所有自变量决定的因变量离差的比例)

经过有效性检验我们判定了所求多元线性回归方程是有效的、有价值的,但是,价值有多大,或者说有效性有多高,还必须进一步判断。多元线性回归方程的有效性高低仍然采用决定系数R2表示,其值是:

相关文档
最新文档