回归分析自学整理21页
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分析自学整理
一、回归分析的数学模型与假设 (1)
二、回归分析的步骤 (3)
三、回归分析的SPSS 操作与数据解释 (12)
一、回归分析的数学模型与假设
总体回归模型(理论模型)
β0为常数项,也叫截距。
β1,β2,…,βj 为总体偏回归系数。
βj (j=1,2,…,m )表示当方程中其它自变量保持常量时,自变量Xj 每增
加(或减少)一个计量单位时,反应变量Y 平均变化βj 个单位。 ε表示去除m 个自变量对Y 影响后的随机误差,也称作残差。
样本回归模型(估计模型)
j j x b x b x b b y ++++=Λ22110ˆ就是回归方程。
总体回归与样本回归的区别
假设
古典线性回归模型总是假设
1.误差项ε是一个服从均值为零(零均值)、方差是常数(同方差)正态分布的随机变量,即ε~N(0,2 ),E(ε)=0,且相互独立(残差无自相关);
2.解释变量x1,x2,…,xk是可以精确观察的普通变量(非随机变量)。
3.解释变量X与随机误差项ε是各自独立对解释变量Y产生影响(残差与自变量无相关)。
多元回归增加的假定:各自变量之间不存在线性关系。在此条件下,自变量观测值矩阵X列满秩
二、回归分析的步骤
(一)画散点图。选择合适的回归方法。初步判定自变量与因变量的关系。
(二)建立回归方程。求出b
0和b
j
。
(三)回归方程检验。方程精度检验(R2)、回归系数检验(F检验和T检验)
(四)预测。求出总体回归系数β
0和β
j.
并求出预测区间。
(一)画散点图
散点图的重要作用
回归分析时,有时R比较明显,达到0.8以上,但是并不表示Y与X之间的关系是线性的,因此进行回归分析时,不能进行简单判断。图示分析方法是最基本、最直观的方法,有助于对数据的内在性质进行准确判断。
例如:下面四图中的数据,计算相关系数差不多都为0.8,但实际却差别巨大。第一图虽然数据比较散,但线性趋势比较模型。第二图模型是曲线趋势。第三图有一个异常点,该点导致直线的斜率发生较大改变。第四图本来没什么趋势,也只是一个异常点的影响使其线性相关系数较大。
后面三图直接进行回归分析都会得出错误的回归模型,不能反映事实。(二)建立回归方程
建立多元线性回归方程同样要根据最佳拟合原则,采用最小二乘法,使所求直线在y轴
上与实际观测值y间的误差平方和Q最小。根据微积分求极值的原理,只需分别对a、求偏导数,令它们等于零,整理后可得标准(正规)方程组。达到最小,其充分必要条件
得到正规方程组
利用最小乘法建立多元回归方程的过程
直观地说,所谓最小二乘法,就是如果散点图中每一点沿y轴方向到直线的距离最小,简单讲就是使误差平方和最小,则在所有直线中这条直线的代表性就是最好的,它的表达式就是所求的回归方程.由于x与y的关系是分布在一个区域,两个变量的成对数据画成散点图后,两点确定一条直线,因此可以画出不止一条直线,在这些直线中有的离散点远,用它来表示两变量的关系,准确性就较差.只有Q最小的直线准确性最好.
由于建立多元线性回归方程所应用的数据也是样本数据,所以建立的方程也是样本回归方程,记作:
在高等数学中,要使Q最小,就是求Q的极值。求Q的极值,就是要求Q 的一阶偏导并令其为0组成偏导方程组,然后解偏导方程组求出参数估计值。
多元线性回归方程的建立从原理上说,与一元线性回归方程的建立相同,但由于涉及到多个因变量,所以数学处理更复杂。这里,我们试图通过二元线性回归方程的建立,来寻找多元线性回归方程的求建规律和方法。
设二元线性回归方程为:
根据最小二乘法,有:
最小
将回归方程代入,则有:
先求Q对常数项b0的一阶偏导并令其为0,有:
整理后,得到:
(三)回归方程有效性检验
1.模型整体拟合效果检验(自变量联合效应方差分析)
(检验模型整体是否显著,即各回归系数是否全为0。)
回归模型整体拟合效果的显著性检验。检验多个自变量联合对因变量是否有显著影响。
它是建立在总离差平方和分解的基础上(SST=SSR+SSE)。回归平方和SSR 越大,变量之间线性相关性越大,设统计量F分别服从自由度为1、n-2的
卡方分布,并计算F值。
多元线性回归方程建立后,也要通过统计检验判断其有无实用价值,检验方法还是方差分析法。经过证明,多元线性回归的总离差平方和也是分解为回归平方和U与剩余平方和Q两部分,有:
其中,总离差平方和的自由度为n-1,回归平方和U的自由度为自变量个数k,剩余平方和Q的自由度为n-k-1。
总变差平方和(SST、Lyy)
反映因变量Y的n个观察值与其均值的总离差。
回归变差平方和(SSR、U)
反映自变量x的变化对因变量y取值变化影响。(可用X来解释的变化。)剩余变差平方和(SSE、Q)
反映除x以外的其他因素对y取值的影响。(一些不规则偶然因素所致的变化。)
假设
整个检验过程可列表如下:
F=(U/k)/(Q/N-k-1)=回归均方/残差均方=MSR/MSE。其意义为所有自变量产生的回归变异是否显著。
2.决定系数(R2)分析(自变量联合效应比例)
(所有自变量决定的因变量离差的比例)
经过有效性检验我们判定了所求多元线性回归方程是有效的、有价值的,但是,价值有多大,或者说有效性有多高,还必须进一步判断。多元线性回归方程的有效性高低仍然采用决定系数R2表示,其值是: