第五章回归分析预测法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一节一元线性回归分析预测法

一、概念(思路)

根据预测变量(因变量)Y和影响因素(自变量)X的历史统计数

据,建立一元线性回归方程

x b

a

ˆ

ˆ+

=,然后代入X的预测值,求

出Y的预测值的方法。

基本公式:y=a+bx

其中:a、b为回归系数,是未知参数。

基本思路:

1、利用X,Y的历史统计数据,求出合理的回归系数:a、b,确

定出回归方程

2、根据预计的自变量x的取值,求出因变量y的预测值。

二、一元线性回归方程的建立

1、使用散点图定性判断变量间是否存在线性关系

例:某地区民航运输总周转量和该地区社会总产值由密切相关关系。

2、 使用最小二乘法确定回归系数

使实际值与理论值误差平方和最小的参数取值。

对应于自变量x i ,预测值(理论值)为b+m*x i ,实际值y i ,

min ∑(y i -b-mx i )2

,求a 、b 的值。

使用微积分中求极值的方法,得:

由下列方程代表的直线的最小二乘拟合直线的参数公式:

其中 m 代表斜率 ,b 代表截距。

x m y b

x x n y x y x n m

b mx y i i

i i i i ˆˆ)

(ˆ2

2

-=--=+=∑∑∑∑∑

一元线性回归.xls

三、 回归方程的显著性检验

判断X 、Y 之间是否确有线性关系,判定回归方程是否有意义。 有两类检验方法:相关系数检验法和方差分析法 1、

相关系数检验法

构造统计量r

∑∑∑∑∑∑∑∑∑∑--•-=

•=-•---=]

)(][)([)

()())((22222

2

i i i i i

i i i yy

xx xy i

i

i

i

y y n x x n y x y x n s s S y y x x y y x x r

相关系数的取值范围为:[-1,1],|r|的大小反映了两个变量间线性关系的密切程度,利用它可以判断两个变量间的关系是否可以用直线方程表示。

两个变量是否存在线性相关关系的定量判断规则:

对于给定的置信水平α,从相关系数临界值表中查出r临(n-2),把其与用样本计算出来的统计量r0比较:

若|r0|〉r临(n-2)成立,则认为X、Y之间存在线性关系,回归方程在α水平上显著。差异越大,线性关系越好。反之则认为不显著,回归方程无意义,变量间不存在线性关系。

其中:n为样本数。

2、方差分析法:

方差分析的基本特点是把因变量的总变动平方和分为两部分,一部分反映因变量的实际值与用回归方程计算出的理论值之差,一部分反映理论值与实际值的平均值之差。

Y的总变差=Y的残余变差+Y的说明变差,SST=SSE+SSR

或:总离差平方和=剩余平方和+回归平方和

U

Q S y y

Q

y y

S n y y y y y y y y yy i i

i i

yy

i

i

i i i i +=----+-=-∑∑∑∑∑∑U Y X )ˆ(Y X )ˆ()()ˆ()ˆ()(2

222

22差、可解释变差,记为的影响造成的,说明变对—由于—为差、不可解释变差,记的影响造成的,残余变以外其它因素对—除了—离程度,记为个数据和其平均值的偏——

回归平方和U 与剩余平方和Q 相比越大,说明回归效果越好。 注:在方差分析中,已被解释的和未被解释的变差除以相应的自由度的个数即变为方差。Y 的方差是Y 的总偏差平方和除以n-1,被解释的方差等于被解释的变差(因为回归只比估计Y 的均值多用一个约束条件),残余方差等于残差偏差平方和除以n-2,残差的方差S 2

是误差方差的无偏且一致的估计(S 叫做回归标准差)S 2

=Q/(n-m) 定量判断回归有效性有两种方法:

(1) 可决系数检验法

拟合优度统计量;判定系数 :r 2

=SSR/SST=U/S yy 调整的r 2

=1-[Q/(n-m)]/[Syy/(n-1)]

复相关系数检验法:构造统计量R=SQRT [1-Q/S yy ]=SQRT (U/S yy ) 判断规则:

对于给定的置信度α,从相关系数r 分布表中查出r 临(n-m ),把其与用样本计算出来的统计量R 0比较:

若R0〉r临(n-m)成立,则认为回归方程在α水平上显著。反之则认为不显著,回归方程无意义,变量间不存在线性关系。

(2)F检验法:构造统计量F=(U/m-1)/[Q/(n-m)]

其中:m为变量个数(总数);n为样本数。

统计量F服从第一自由度为m-1、第二自由度为n-m的

F(m-1,n-m)分布。

F=r2/(1-r2)*(n-m)/(m-1)

判断规则:

对于给定的置信度α,从F分布表中查出Fα(m-1,n-m),把其与用样本计算出来的统计量F0比较:

若F0〉Fα(m-1,n-m)成立,则认为回归方程在α水平上显著。

反之则认为不显著,回归方程无意义,变量间不存在线性关系。

四、回归方程没有通过检验的原因

1、定性分析选择的各变量间,本来不存在因果关系。定性分析

设想不准确。

2、选择的变量间存在因果关系,但还存在其它起着更重要作用

的变量尚未列入模型之中。

3、选择变量之间的关系是非线性关系。

五、利用检验通过的回归方程进行预测

y=6.34+0.213x

点估计值:若给定x值,则y的预测值为6.34+0.213*58=18.69

相关文档
最新文档