第五章回归分析预测法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一节一元线性回归分析预测法
一、概念(思路)
根据预测变量(因变量)Y和影响因素(自变量)X的历史统计数
据,建立一元线性回归方程
x b
a
yˆ
ˆ
ˆ+
=,然后代入X的预测值,求
出Y的预测值的方法。
基本公式:y=a+bx
其中:a、b为回归系数,是未知参数。
基本思路:
1、利用X,Y的历史统计数据,求出合理的回归系数:a、b,确
定出回归方程
2、根据预计的自变量x的取值,求出因变量y的预测值。
二、一元线性回归方程的建立
1、使用散点图定性判断变量间是否存在线性关系
例:某地区民航运输总周转量和该地区社会总产值由密切相关关系。
2、 使用最小二乘法确定回归系数
使实际值与理论值误差平方和最小的参数取值。
对应于自变量x i ,预测值(理论值)为b+m*x i ,实际值y i ,
min ∑(y i -b-mx i )2
,求a 、b 的值。
使用微积分中求极值的方法,得:
由下列方程代表的直线的最小二乘拟合直线的参数公式:
其中 m 代表斜率 ,b 代表截距。
x m y b
x x n y x y x n m
b mx y i i
i i i i ˆˆ)
(ˆ2
2
-=--=+=∑∑∑∑∑
一元线性回归.xls
三、 回归方程的显著性检验
判断X 、Y 之间是否确有线性关系,判定回归方程是否有意义。 有两类检验方法:相关系数检验法和方差分析法 1、
相关系数检验法
构造统计量r
∑∑∑∑∑∑∑∑∑∑--•-=
•=-•---=]
)(][)([)
()())((22222
2
i i i i i
i i i yy
xx xy i
i
i
i
y y n x x n y x y x n s s S y y x x y y x x r
相关系数的取值范围为:[-1,1],|r|的大小反映了两个变量间线性关系的密切程度,利用它可以判断两个变量间的关系是否可以用直线方程表示。
两个变量是否存在线性相关关系的定量判断规则:
对于给定的置信水平α,从相关系数临界值表中查出r临(n-2),把其与用样本计算出来的统计量r0比较:
若|r0|〉r临(n-2)成立,则认为X、Y之间存在线性关系,回归方程在α水平上显著。差异越大,线性关系越好。反之则认为不显著,回归方程无意义,变量间不存在线性关系。
其中:n为样本数。
2、方差分析法:
方差分析的基本特点是把因变量的总变动平方和分为两部分,一部分反映因变量的实际值与用回归方程计算出的理论值之差,一部分反映理论值与实际值的平均值之差。
Y的总变差=Y的残余变差+Y的说明变差,SST=SSE+SSR
或:总离差平方和=剩余平方和+回归平方和
U
Q S y y
Q
y y
S n y y y y y y y y yy i i
i i
yy
i
i
i i i i +=----+-=-∑∑∑∑∑∑U Y X )ˆ(Y X )ˆ()()ˆ()ˆ()(2
222
22差、可解释变差,记为的影响造成的,说明变对—由于—为差、不可解释变差,记的影响造成的,残余变以外其它因素对—除了—离程度,记为个数据和其平均值的偏——
回归平方和U 与剩余平方和Q 相比越大,说明回归效果越好。 注:在方差分析中,已被解释的和未被解释的变差除以相应的自由度的个数即变为方差。Y 的方差是Y 的总偏差平方和除以n-1,被解释的方差等于被解释的变差(因为回归只比估计Y 的均值多用一个约束条件),残余方差等于残差偏差平方和除以n-2,残差的方差S 2
是误差方差的无偏且一致的估计(S 叫做回归标准差)S 2
=Q/(n-m) 定量判断回归有效性有两种方法:
(1) 可决系数检验法
拟合优度统计量;判定系数 :r 2
=SSR/SST=U/S yy 调整的r 2
=1-[Q/(n-m)]/[Syy/(n-1)]
复相关系数检验法:构造统计量R=SQRT [1-Q/S yy ]=SQRT (U/S yy ) 判断规则:
对于给定的置信度α,从相关系数r 分布表中查出r 临(n-m ),把其与用样本计算出来的统计量R 0比较:
若R0〉r临(n-m)成立,则认为回归方程在α水平上显著。反之则认为不显著,回归方程无意义,变量间不存在线性关系。
(2)F检验法:构造统计量F=(U/m-1)/[Q/(n-m)]
其中:m为变量个数(总数);n为样本数。
统计量F服从第一自由度为m-1、第二自由度为n-m的
F(m-1,n-m)分布。
F=r2/(1-r2)*(n-m)/(m-1)
判断规则:
对于给定的置信度α,从F分布表中查出Fα(m-1,n-m),把其与用样本计算出来的统计量F0比较:
若F0〉Fα(m-1,n-m)成立,则认为回归方程在α水平上显著。
反之则认为不显著,回归方程无意义,变量间不存在线性关系。
四、回归方程没有通过检验的原因
1、定性分析选择的各变量间,本来不存在因果关系。定性分析
设想不准确。
2、选择的变量间存在因果关系,但还存在其它起着更重要作用
的变量尚未列入模型之中。
3、选择变量之间的关系是非线性关系。
五、利用检验通过的回归方程进行预测
y=6.34+0.213x
点估计值:若给定x值,则y的预测值为6.34+0.213*58=18.69