回归分析实例讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§2.多元线性回归
●结构
yˆ b0 b1x1 b2 x2 b3x3 bm xm
二元时:
yˆ b0 b1x1 b2 x2
信息分析
●参数确定
n
Q ( yˆi yi )2 min i 1
n
( yi b0 b1x1i b2 x2i )2 i 1
信息分析
• 根据前表可知:
b n xy x y 9 345.09 30.3 91.1 2.9303
n x2 ( x)2
9 115.11 30.32
a y bx 91.1 2.9303 30.3 0.2579
9
9
所以有 y a bx 0.2579 2.9303x
2.2767
aˆ y bˆ x 4720 2.2767 1167 171.9243
n
n 12
12
所求回归预测模型为: yˆ 171.9243 2.2767x
信息分析
y/亿元
900 800 700 600 500 400 300 200 100
0 0
散点图
10000 20000 30000 40000 50000 60000 70000 80000 90000 100000 x/亿元
故在α=0.05显著性水平上,检验通过,说明两变量之间相关关 系显著。
信息分析
5.预测
当显著性水平α=0.05,自由度=n-m=13时,查t分布表得:
t0.025(13)=2.16 当2008年时,GDP为153671.7866,y的点估计值为:
yˆ0 69.8587 0.0073153671.7866 1051.9453(亿元)
x2i 2
信息分析
设有n组样本 ( yi x1i xmi / i 1,2,, n)
矩阵形式: Yˆ XB 或 Y XB e
y1
Y
y2
yn
1
X
1
1
b0
B
b1
bm
x11 x21
信息分析
表3显示,电冰箱销售量Y与新结婚户数X1、居民户均收入X2有着 极强的正相关,皮尔逊相关系数分别高达0.943和0.993。
信息分析
最后,从表3中可以看出电冰箱销售量Y同居民新结婚户数X1、居民 户均收入X2有一定关系,可用二元线性回归预测法进行预测。具体 步骤如下:
1.运行SPSS,读取数据文件后按 Analyze→Regression→Linear顺序单击菜单项,展开对话框;
yˆ0 t /2 (n m) S y
1 1 nn
n(x0-x)2 x2 ( x )2
1051.9453 75169.06 2.16 1 1 11032419833.9687
13
15 12133312186
1051.9453 230.8842
信息分析
信息分析
信息分析 其次,分别考察Y变量与X1变量、X2变量的关系,对其进 行相关分析,具体步骤如下: 1.运行SPSS,读取数据文件后按 Analyze→Correlate→Bivariate顺序单击菜单项,展 开对话框; 2.制定分析变量,选择源变量栏中的Y、X1、X2送 入Variable(s)栏; 3.分别选择Person相关,One-tailed单尾t检验, 选中Flagsignificantcorrelations复选项; 4.在主对话框中单击OK按钮,提交运行。 输出结果如表3所示。表3表在行变量与列变量的 交叉单元格上市这两个变量的相关计算结果。自上而 下三个统计量分别为:PersonCorrelation——皮尔逊 相关系数;Sig.(1-tailed)——单尾t检验结果。对于 相关系数为0的假设成立的概率;N为参与相关系数计 算的有效观测量数。
Q 0 b0 Q 0 b1 Q 0 b2
yi nb0 b1 x1i b2 x2i
x 1i
yi
b0
x1i b1
x1i 2 b2
x1i x2i
x2i yi b0
x2i b1
x1i x2i b2
由于经变换后改变了因变量的形态,使得变形后 模型的最小平方估计失去了原模型的残差平方和最小 的意义,从而估计不到原模型的最佳回归系数,造成 回归模型与原数列之间的偏差较大。
信息分析
(3)线性化迭代方法
如: yˆ a bcx
高斯—牛顿迭代方法的基本思想就是使用泰勒级 数展开或去近似地代替非线性回归模型,通过多次迭 代,多次修正系数,使回归系数不断逼近非线性回归 模型的最佳回归系数,最后使原模型的残差平方和达 到最小。
(5)幂函数回归模型 (6)指数回归模型
yˆ axb yˆ abx
信息分析
二、参数确定的方法
(1)直接换元法 (2)间接代换法(如对数变换等) (3)线性化迭代方法
信息分析
(1)直接换元法
通过简单的变量换元直接化为线性回归模型
如 令:
yˆ a b
x
a
,
x 则
yˆ
a bx
2.在左侧的源变量栏中选择变量Y(电冰箱销售量)作为因变 量进入Dependent框中,选择X1(居民新结婚户数)、X2(居民户 均收入)作为自变量进入Independent(s)框中;
3.在Method选择框中选择Stepwise(逐步回归)作为分析方式; 4.提交系统执行结果。 从输出的众多表格中选取表4(回归系数分析表)。其中, Model为回归方程模型编号,UnstandardizedCoefficients为非标 准化回归系数,StandardizedCoefficients为标准化回归系数,t 为偏回归系数为0的假设检验的t值,Sig.为偏回归系数为0的假设 检验的显著性水平值。
信息分析
实例
全国GDP及技术贸易额统计数据(亿元)
年份
序号 全国GDP x 全国技术贸易额 y
1987
1
11954.5
33.52
1988
2
14922.3
72.49
1989
3
16917.8
81.46
1990
4
18598.4
75.10
1991
5
21662.5
94.80
1992
6
26651.9
150.89
2.03 1 1 (4 3.37)2 0.6612
n2
n (x x)2 9 2
9 13.1
(令yx0
t
4) (n
2)
S
(
y)
11.98 2.365 0.6612 10.42
2
y t (n 2) S( y) 11.98 2.365 0.6612 13.54
信息分析
§3.非线性回归预测
一、常见一元非线性回归预测模型结构
(1)双曲线回归模型 (2)多项式回归模型 (3)对数曲线回归模型
yˆ a b x
yˆ b0 b1x b2 x2 b3x3 bk xk
yˆ a b ln x
(4)三角函数回归模型 yˆ a bSinx
信息分析
一元线性回归预测案例研究
例:x、y两变量的观察数据如下表所示,根据数据进行 回归预测。
数据序号
x
1
1.5
2
1.8
3
2.4
4
3.0
5
3.5
6
3.9
7
4.4
8
4.8
9
5.0
合计
30.3
y
x2
y2
xy
4.8
2.25 23.04 7.20
5.7
3.24 32.49 10.26
7.0
5.76 49.00 16.80
1993
7
34560.5
207.55
1994
8
46670.0
228.87
1995
9
57494.9
268.35
1996
10
66850.5
300.20
1997
11
73142.7
351.37
1998
12
76967.2
435.82
1999
13
80579.2
523.41
2000
14
88228.1
650.75
2001
信息分析
4.检验线性关系的显著性
R
n xy x y
0.9471
n x2 ( x)2 n y2 ( y )2
当显著性水平α=0.05,自由度=n-m=15-2=13时,查相关系 数临界值表,得R0.05(13)=0.5139,因
R=0.9471>0.5139= R0.05(13)
8.3
9.00 68.89 24.90
10.9 12.25 118.81 38.15
12.4 15.21 153.76 48.36
13.1 19.36 171.61 57.64
13.6 23.04 184.96 65.28
15.3 25.00 234.09 76.50
91.1 115.11 1036.65 345.09
15
94346.4
784.75
百度文库
信息分析
解:
1、绘制散点图 2、建立一元线性回归模型
yˆ a bx
3、计算回归系数
bˆ
n xy x y n x2 ( x)2
12 600566 1167 4720 12 175661 11672
1698552 746043
查表得
r (n 2) r0.05 (9 2) r0.05 (7) 0.666 即有
r r0.05 (7)
信息分析
• 计算确定置信区间。计算得到置信区间为[10.42,13.54], 具体计算过程如下:
S( y)
( y y)2
1 1
(x0 x)2
x12 x22
x1n 2n
e1
e
e2
en
xm1
xm
2
xmn
信息分析
Q min
(Y XB)'(Y XB) (Y 'B' X ')(Y XB) Y 'Y Y ' XB B' X 'Y B' X ' XB 根据:( AB) ' B ' A', (Y ' XB) ' B ' X 'Y
所以:Y ' XB与B'X'Y是同值矩阵 Q 2X 'Y 2X'XB=0 B B (X'X )1X'Y
信息分析
例如:一电器公司对某地区电冰箱的销售情况进行了市场调查,其 中,年份、电冰箱销售量Y(千台)、新结婚户数X1(千户)、居民 户均收入X2(千户)的资料如表1所示:
信息分析
首先,分别对电冰箱销售量Y(千台)、新结婚户数X1 (千户)、居民户均收入X2(千户)进行描述性统计 分析,具体步骤如下: 1.运行SPSS,按 Analyze→DescriptiveStatistics→Descriptives顺 序打开Descriptives对话框; 2.选定Y、X1、X2变量送入 Variable(s)栏中;选 中Savestandardizedvaluesasvariables复选项,要求 计算变量的标准化值,并保存在当前数据文件中; 3.单击Options按钮,打开对话框,选中Mean、 Sum、Std.deviation、Minimum、Maximum、Range复选 项; 4.在主对话框中单击OK按钮,提交运行。
信息分析
• 相关系数检验。
根据前表数据以及相关系数计算公式可知本例为显著 线性相关。
r
xy
1 n
x
y
x2
1 n
(
x) 2
y2
1 n
(
y) 2
345.09 1 30.3 91.1
9
115.11 1 30.32 1036.65 1 91.12
9
9
0.9911
x
由于这类模型因变量没有变形,直接采用
最小平方法估计回归系数,并进行检验和预测。
信息分析
(2)间接代换法
通过对数变形的代换间接地化为线性回归模型
如 yˆ axb ln yˆ ln a b ln x
令 yˆ ln yˆ, x ln x, a ln a 则: yˆ a bx
信息分析
表4显示,常数(Constant)、居民户均收入(X2)具有统计意义, 而居民新结婚户数(X1)因显著性水平值(t=0.834>0.5)较高而 不具有统计意义。从表4中可以推出模型方程: Y=-20.771+1.387X2。若预计2006年该地区居民新婚户数为30.2千户, 居民户均收入62.5千元,根据模型方程不难推出2006年电冰箱销售 量Y=-20.771+1.387×62.5=65.92(千台)。
●结构
yˆ b0 b1x1 b2 x2 b3x3 bm xm
二元时:
yˆ b0 b1x1 b2 x2
信息分析
●参数确定
n
Q ( yˆi yi )2 min i 1
n
( yi b0 b1x1i b2 x2i )2 i 1
信息分析
• 根据前表可知:
b n xy x y 9 345.09 30.3 91.1 2.9303
n x2 ( x)2
9 115.11 30.32
a y bx 91.1 2.9303 30.3 0.2579
9
9
所以有 y a bx 0.2579 2.9303x
2.2767
aˆ y bˆ x 4720 2.2767 1167 171.9243
n
n 12
12
所求回归预测模型为: yˆ 171.9243 2.2767x
信息分析
y/亿元
900 800 700 600 500 400 300 200 100
0 0
散点图
10000 20000 30000 40000 50000 60000 70000 80000 90000 100000 x/亿元
故在α=0.05显著性水平上,检验通过,说明两变量之间相关关 系显著。
信息分析
5.预测
当显著性水平α=0.05,自由度=n-m=13时,查t分布表得:
t0.025(13)=2.16 当2008年时,GDP为153671.7866,y的点估计值为:
yˆ0 69.8587 0.0073153671.7866 1051.9453(亿元)
x2i 2
信息分析
设有n组样本 ( yi x1i xmi / i 1,2,, n)
矩阵形式: Yˆ XB 或 Y XB e
y1
Y
y2
yn
1
X
1
1
b0
B
b1
bm
x11 x21
信息分析
表3显示,电冰箱销售量Y与新结婚户数X1、居民户均收入X2有着 极强的正相关,皮尔逊相关系数分别高达0.943和0.993。
信息分析
最后,从表3中可以看出电冰箱销售量Y同居民新结婚户数X1、居民 户均收入X2有一定关系,可用二元线性回归预测法进行预测。具体 步骤如下:
1.运行SPSS,读取数据文件后按 Analyze→Regression→Linear顺序单击菜单项,展开对话框;
yˆ0 t /2 (n m) S y
1 1 nn
n(x0-x)2 x2 ( x )2
1051.9453 75169.06 2.16 1 1 11032419833.9687
13
15 12133312186
1051.9453 230.8842
信息分析
信息分析
信息分析 其次,分别考察Y变量与X1变量、X2变量的关系,对其进 行相关分析,具体步骤如下: 1.运行SPSS,读取数据文件后按 Analyze→Correlate→Bivariate顺序单击菜单项,展 开对话框; 2.制定分析变量,选择源变量栏中的Y、X1、X2送 入Variable(s)栏; 3.分别选择Person相关,One-tailed单尾t检验, 选中Flagsignificantcorrelations复选项; 4.在主对话框中单击OK按钮,提交运行。 输出结果如表3所示。表3表在行变量与列变量的 交叉单元格上市这两个变量的相关计算结果。自上而 下三个统计量分别为:PersonCorrelation——皮尔逊 相关系数;Sig.(1-tailed)——单尾t检验结果。对于 相关系数为0的假设成立的概率;N为参与相关系数计 算的有效观测量数。
Q 0 b0 Q 0 b1 Q 0 b2
yi nb0 b1 x1i b2 x2i
x 1i
yi
b0
x1i b1
x1i 2 b2
x1i x2i
x2i yi b0
x2i b1
x1i x2i b2
由于经变换后改变了因变量的形态,使得变形后 模型的最小平方估计失去了原模型的残差平方和最小 的意义,从而估计不到原模型的最佳回归系数,造成 回归模型与原数列之间的偏差较大。
信息分析
(3)线性化迭代方法
如: yˆ a bcx
高斯—牛顿迭代方法的基本思想就是使用泰勒级 数展开或去近似地代替非线性回归模型,通过多次迭 代,多次修正系数,使回归系数不断逼近非线性回归 模型的最佳回归系数,最后使原模型的残差平方和达 到最小。
(5)幂函数回归模型 (6)指数回归模型
yˆ axb yˆ abx
信息分析
二、参数确定的方法
(1)直接换元法 (2)间接代换法(如对数变换等) (3)线性化迭代方法
信息分析
(1)直接换元法
通过简单的变量换元直接化为线性回归模型
如 令:
yˆ a b
x
a
,
x 则
yˆ
a bx
2.在左侧的源变量栏中选择变量Y(电冰箱销售量)作为因变 量进入Dependent框中,选择X1(居民新结婚户数)、X2(居民户 均收入)作为自变量进入Independent(s)框中;
3.在Method选择框中选择Stepwise(逐步回归)作为分析方式; 4.提交系统执行结果。 从输出的众多表格中选取表4(回归系数分析表)。其中, Model为回归方程模型编号,UnstandardizedCoefficients为非标 准化回归系数,StandardizedCoefficients为标准化回归系数,t 为偏回归系数为0的假设检验的t值,Sig.为偏回归系数为0的假设 检验的显著性水平值。
信息分析
实例
全国GDP及技术贸易额统计数据(亿元)
年份
序号 全国GDP x 全国技术贸易额 y
1987
1
11954.5
33.52
1988
2
14922.3
72.49
1989
3
16917.8
81.46
1990
4
18598.4
75.10
1991
5
21662.5
94.80
1992
6
26651.9
150.89
2.03 1 1 (4 3.37)2 0.6612
n2
n (x x)2 9 2
9 13.1
(令yx0
t
4) (n
2)
S
(
y)
11.98 2.365 0.6612 10.42
2
y t (n 2) S( y) 11.98 2.365 0.6612 13.54
信息分析
§3.非线性回归预测
一、常见一元非线性回归预测模型结构
(1)双曲线回归模型 (2)多项式回归模型 (3)对数曲线回归模型
yˆ a b x
yˆ b0 b1x b2 x2 b3x3 bk xk
yˆ a b ln x
(4)三角函数回归模型 yˆ a bSinx
信息分析
一元线性回归预测案例研究
例:x、y两变量的观察数据如下表所示,根据数据进行 回归预测。
数据序号
x
1
1.5
2
1.8
3
2.4
4
3.0
5
3.5
6
3.9
7
4.4
8
4.8
9
5.0
合计
30.3
y
x2
y2
xy
4.8
2.25 23.04 7.20
5.7
3.24 32.49 10.26
7.0
5.76 49.00 16.80
1993
7
34560.5
207.55
1994
8
46670.0
228.87
1995
9
57494.9
268.35
1996
10
66850.5
300.20
1997
11
73142.7
351.37
1998
12
76967.2
435.82
1999
13
80579.2
523.41
2000
14
88228.1
650.75
2001
信息分析
4.检验线性关系的显著性
R
n xy x y
0.9471
n x2 ( x)2 n y2 ( y )2
当显著性水平α=0.05,自由度=n-m=15-2=13时,查相关系 数临界值表,得R0.05(13)=0.5139,因
R=0.9471>0.5139= R0.05(13)
8.3
9.00 68.89 24.90
10.9 12.25 118.81 38.15
12.4 15.21 153.76 48.36
13.1 19.36 171.61 57.64
13.6 23.04 184.96 65.28
15.3 25.00 234.09 76.50
91.1 115.11 1036.65 345.09
15
94346.4
784.75
百度文库
信息分析
解:
1、绘制散点图 2、建立一元线性回归模型
yˆ a bx
3、计算回归系数
bˆ
n xy x y n x2 ( x)2
12 600566 1167 4720 12 175661 11672
1698552 746043
查表得
r (n 2) r0.05 (9 2) r0.05 (7) 0.666 即有
r r0.05 (7)
信息分析
• 计算确定置信区间。计算得到置信区间为[10.42,13.54], 具体计算过程如下:
S( y)
( y y)2
1 1
(x0 x)2
x12 x22
x1n 2n
e1
e
e2
en
xm1
xm
2
xmn
信息分析
Q min
(Y XB)'(Y XB) (Y 'B' X ')(Y XB) Y 'Y Y ' XB B' X 'Y B' X ' XB 根据:( AB) ' B ' A', (Y ' XB) ' B ' X 'Y
所以:Y ' XB与B'X'Y是同值矩阵 Q 2X 'Y 2X'XB=0 B B (X'X )1X'Y
信息分析
例如:一电器公司对某地区电冰箱的销售情况进行了市场调查,其 中,年份、电冰箱销售量Y(千台)、新结婚户数X1(千户)、居民 户均收入X2(千户)的资料如表1所示:
信息分析
首先,分别对电冰箱销售量Y(千台)、新结婚户数X1 (千户)、居民户均收入X2(千户)进行描述性统计 分析,具体步骤如下: 1.运行SPSS,按 Analyze→DescriptiveStatistics→Descriptives顺 序打开Descriptives对话框; 2.选定Y、X1、X2变量送入 Variable(s)栏中;选 中Savestandardizedvaluesasvariables复选项,要求 计算变量的标准化值,并保存在当前数据文件中; 3.单击Options按钮,打开对话框,选中Mean、 Sum、Std.deviation、Minimum、Maximum、Range复选 项; 4.在主对话框中单击OK按钮,提交运行。
信息分析
• 相关系数检验。
根据前表数据以及相关系数计算公式可知本例为显著 线性相关。
r
xy
1 n
x
y
x2
1 n
(
x) 2
y2
1 n
(
y) 2
345.09 1 30.3 91.1
9
115.11 1 30.32 1036.65 1 91.12
9
9
0.9911
x
由于这类模型因变量没有变形,直接采用
最小平方法估计回归系数,并进行检验和预测。
信息分析
(2)间接代换法
通过对数变形的代换间接地化为线性回归模型
如 yˆ axb ln yˆ ln a b ln x
令 yˆ ln yˆ, x ln x, a ln a 则: yˆ a bx
信息分析
表4显示,常数(Constant)、居民户均收入(X2)具有统计意义, 而居民新结婚户数(X1)因显著性水平值(t=0.834>0.5)较高而 不具有统计意义。从表4中可以推出模型方程: Y=-20.771+1.387X2。若预计2006年该地区居民新婚户数为30.2千户, 居民户均收入62.5千元,根据模型方程不难推出2006年电冰箱销售 量Y=-20.771+1.387×62.5=65.92(千台)。