回归分析实例讲解 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

§2.多元线性回归
●结构
yˆ b0 b1x1 b2 x2 b3x3 bm xm
二元时：
yˆ b0 b1x1 b2 x2
信息分析
●参数确定
n
Q ( yˆi yi )2 min i 1
n
( yi b0 b1x1i b2 x2i )2 i 1
信息分析
• 根据前表可知：
b n xy x y 9 345.09 30.3 91.1 2.9303
n x2 ( x)2
9 115.11 30.32
a y bx 91.1 2.9303 30.3 0.2579
9
9
所以有 y a bx 0.2579 2.9303x

2.2767
aˆ y bˆ x 4720 2.2767 1167 171.9243
n
n 12
12
所求回归预测模型为： yˆ 171.9243 2.2767x
信息分析
y/亿元
900 800 700 600 500 400 300 200 100
0 0
散点图
10000 20000 30000 40000 50000 60000 70000 80000 90000 100000 x/亿元
故在α＝0.05显著性水平上，检验通过，说明两变量之间相关关系显著。
信息分析
5.预测
当显著性水平α＝0.05，自由度＝n-m=13时，查t分布表得：
t0.025(13)=2.16 当2008年时,GDP为153671.7866，y的点估计值为：
yˆ0 69.8587 0.0073153671.7866 1051.9453(亿元)
x2i 2
信息分析
设有n组样本 ( yi x1i xmi / i 1,2,, n)
矩阵形式： Yˆ XB 或 Y XB e
y1
Y

y2

yn

1
X

1

1
b0
B

b1

bm
x11 x21
信息分析
表3显示，电冰箱销售量Y与新结婚户数X1、居民户均收入X2有着极强的正相关，皮尔逊相关系数分别高达0.943和0.993。
信息分析
最后，从表3中可以看出电冰箱销售量Y同居民新结婚户数X1、居民户均收入X2有一定关系，可用二元线性回归预测法进行预测。具体步骤如下：
1.运行SPSS，读取数据文件后按 Analyze→Regression→Linear顺序单击菜单项，展开对话框；
yˆ0 t /2 (n m) S y
1 1 nn
n(x0-x)2 x2 ( x )2
1051.9453 75169.06 2.16 1 1 11032419833.9687
13
15 12133312186
1051.9453 230.8842
信息分析
信息分析
信息分析其次，分别考察Y变量与X1变量、X2变量的关系，对其进行相关分析，具体步骤如下： 1.运行SPSS，读取数据文件后按 Analyze→Correlate→Bivariate顺序单击菜单项，展开对话框； 2.制定分析变量，选择源变量栏中的Y、X1、X2送入Variable(s)栏； 3.分别选择Person相关，One-tailed单尾t检验，选中Flagsignificantcorrelations复选项； 4.在主对话框中单击OK按钮，提交运行。输出结果如表3所示。表3表在行变量与列变量的交叉单元格上市这两个变量的相关计算结果。自上而下三个统计量分别为：PersonCorrelation——皮尔逊相关系数；Sig.(1-tailed)——单尾t检验结果。对于相关系数为0的假设成立的概率；N为参与相关系数计算的有效观测量数。
Q 0 b0 Q 0 b1 Q 0 b2

yi nb0 b1 x1i b2 x2i
x 1i
yi

b0
x1i b1
x1i 2 b2
x1i x2i

x2i yi b0
x2i b1
x1i x2i b2
由于经变换后改变了因变量的形态，使得变形后模型的最小平方估计失去了原模型的残差平方和最小的意义，从而估计不到原模型的最佳回归系数，造成回归模型与原数列之间的偏差较大。
信息分析
(3)线性化迭代方法
如： yˆ a bcx
高斯—牛顿迭代方法的基本思想就是使用泰勒级数展开或去近似地代替非线性回归模型，通过多次迭代，多次修正系数，使回归系数不断逼近非线性回归模型的最佳回归系数，最后使原模型的残差平方和达到最小。
(5)幂函数回归模型 (6)指数回归模型
yˆ axb yˆ abx
信息分析
二、参数确定的方法
(1)直接换元法 (2)间接代换法(如对数变换等) (3)线性化迭代方法
信息分析
(1)直接换元法
通过简单的变量换元直接化为线性回归模型
如令：
yˆ a b
x
a
,
x 则
yˆ
a bx
2.在左侧的源变量栏中选择变量Y（电冰箱销售量）作为因变量进入Dependent框中，选择X1（居民新结婚户数）、X2（居民户均收入）作为自变量进入Independent(s)框中；
3.在Method选择框中选择Stepwise（逐步回归）作为分析方式； 4.提交系统执行结果。从输出的众多表格中选取表4（回归系数分析表）。其中， Model为回归方程模型编号，UnstandardizedCoefficients为非标准化回归系数，StandardizedCoefficients为标准化回归系数，t 为偏回归系数为0的假设检验的t值，Sig.为偏回归系数为0的假设检验的显著性水平值。
信息分析
实例
全国GDP及技术贸易额统计数据(亿元)
年份
序号全国GDP x 全国技术贸易额 y
1987
1
11954.5
33.52
1988
2
14922.3
72.49
1989
3
16917.8
81.46
1990
4
18598.4
75.10
1991
5
21662.5
94.80
1992
6
26651.9
150.89

2.03 1 1 (4 3.37)2 0.6612
n2
n (x x)2 9 2
9 13.1
(令yx0
t
4) (n

2)

S
(
y)
11.98 2.365 0.6612 10.42
2
y t (n 2) S( y) 11.98 2.365 0.6612 13.54
信息分析
§3.非线性回归预测
一、常见一元非线性回归预测模型结构
(1)双曲线回归模型 (2)多项式回归模型 (3)对数曲线回归模型
yˆ a b x
yˆ b0 b1x b2 x2 b3x3 bk xk
yˆ a b ln x
(4)三角函数回归模型 yˆ a bSinx
信息分析
一元线性回归预测案例研究
例：x、y两变量的观察数据如下表所示，根据数据进行回归预测。
数据序号
x
1
1.5
2
1.8
3
2.4
4
3.0
5
3.5
6
3.9
7
4.4
8
4.8
9
5.0
合计
30.3
y
x2
y2
xy
4.8
2.25 23.04 7.20
5.7
3.24 32.49 10.26
7.0
5.76 49.00 16.80
1993
7
34560.5
207.55
1994
8
46670.0
228.87
1995
9
57494.9
268.35
1996
10
66850.5
300.20
1997
11
73142.7
351.37
1998
12
76967.2
435.82
1999
13
80579.2
523.41
2000
14
88228.1
650.75
2001
信息分析
4.检验线性关系的显著性
R
n xy x y
0.9471
n x2 ( x)2 n y2 ( y )2
当显著性水平α＝0.05，自由度＝n-m＝15-2＝13时，查相关系数临界值表，得R0.05（13）＝0.5139，因
R＝0.9471＞0.5139＝ R0.05（13）
8.3
9.00 68.89 24.90
10.9 12.25 118.81 38.15
12.4 15.21 153.76 48.36
13.1 19.36 171.61 57.64
13.6 23.04 184.96 65.28
15.3 25.00 234.09 76.50
91.1 115.11 1036.65 345.09
15
94346.4
784.75
百度文库
信息分析
解：
1、绘制散点图 2、建立一元线性回归模型
yˆ a bx
3、计算回归系数
bˆ

n xy x y n x2 ( x)2

12 600566 1167 4720 12 175661 11672

1698552 746043
查表得
r (n 2) r0.05 (9 2) r0.05 (7) 0.666 即有
r r0.05 (7)
信息分析
• 计算确定置信区间。计算得到置信区间为[10.42,13.54]，具体计算过程如下：
S( y)
( y y)2
1 1
(x0 x)2
x12 x22

x1n 2n
e1
e

e2

en
xm1
xm
2

xmn

信息分析
Q min
(Y XB)'(Y XB) (Y 'B' X ')(Y XB) Y 'Y Y ' XB B' X 'Y B' X ' XB 根据：( AB) ' B ' A', (Y ' XB) ' B ' X 'Y
所以：Y ' XB与B'X'Y是同值矩阵 Q 2X 'Y 2X'XB＝0 B B (X'X )1X'Y
信息分析
例如：一电器公司对某地区电冰箱的销售情况进行了市场调查，其中，年份、电冰箱销售量Y（千台）、新结婚户数X1（千户）、居民户均收入X2（千户）的资料如表1所示：
信息分析
首先，分别对电冰箱销售量Y（千台）、新结婚户数X1 （千户）、居民户均收入X2（千户）进行描述性统计分析，具体步骤如下： 1.运行SPSS，按 Analyze→DescriptiveStatistics→Descriptives顺序打开Descriptives对话框； 2.选定Y、X1、X2变量送入 Variable(s)栏中；选中Savestandardizedvaluesasvariables复选项，要求计算变量的标准化值，并保存在当前数据文件中； 3.单击Options按钮，打开对话框，选中Mean、 Sum、Std.deviation、Minimum、Maximum、Range复选项； 4.在主对话框中单击OK按钮，提交运行。
信息分析
• 相关系数检验。
根据前表数据以及相关系数计算公式可知本例为显著线性相关。
r

xy

1 n

x
y
x2

1 n
(
x) 2

y2

1 n
(
y) 2
345.09 1 30.3 91.1

9
115.11 1 30.32 1036.65 1 91.12
9
9
0.9911
x
由于这类模型因变量没有变形，直接采用
最小平方法估计回归系数，并进行检验和预测。
信息分析
(2)间接代换法
通过对数变形的代换间接地化为线性回归模型
如 yˆ axb ln yˆ ln a b ln x
令 yˆ ln yˆ, x ln x, a ln a 则： yˆ a bx
信息分析
表4显示，常数（Constant）、居民户均收入（X2）具有统计意义，而居民新结婚户数（X1）因显著性水平值（t=0.834＞0.5）较高而不具有统计意义。从表4中可以推出模型方程： Y=-20.771+1.387X2。若预计2006年该地区居民新婚户数为30.2千户，居民户均收入62.5千元，根据模型方程不难推出2006年电冰箱销售量Y=-20.771+1.387×62.5=65.92（千台）。