第6章回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

45.4
3.25
150.0
38.0
3.0
164.0
43.5
3.0
153.5
42.2
2.75
149.5
39.7
2.75
170.5
54.5
3.5
159.6
44.5
3.0
157.0
37.0
2.25
162.5
45.0
3.2
01.08.2021
《统计学》第3章参数估计
6-12
表 6.2 初一男生身高、体重和肺活量的相关系数表
20121212统计学第3章参数估计645引入矩阵符号20121212统计学第3章参数估计646与一元回归类似设的估计则多元线性回归方程的估计式为求导并令其等于0可得正规方程如下于是可得的lse20121212统计学第3章参数估计647类似地可以求得随机误差项的方差定理63多元线性回归模型634的参数的估计具有以下性质20121212统计学第3章参数估计648632可决系数和调整的可决系数由于可决系数是回归方程中的自变量的函数而且通常随自变量个数的增加而增大所以需要调整可决系数以剔除自变量个数对拟合优度的影响
《统计学》第3章参数估计
6-13
表 6.3 初一男生身高、体重和肺活量偏相关系数表
Correlations
Control Variables
x 身高,cm y 肺活量,L
z 体重,kg x 身高,cm Correlation
1.000
.186
Significance (2-tailed)
.
.508
第6章回归分析
可以证明 1,当时 1,称 X 与 Y 完全相关,当 =0 时,称 X 与 Y 零相关, 当 >0 时,称 X 与 Y 正相关, <0 时, 称 X 与 Y 负相关。 越接近 1, 表示相关程度越高, 越接近 0, 表示相关程度越低。
01.08.2021
《统计学》第3章参数估计
回归方程
yˆ ˆ0 ˆ1x (6.7)
其中 yˆ 是 y 的估计值(预测值), ˆ0 和 ˆ1
分别是 0 和 1 的估计。
问题是:如何求得 ˆ0 和 ˆ1 ?
01.08.2021
《统计学》第3章参数估计
6-17
6.2.3 最小二乘估计
图6.4 x和y的散点图
01.08.2021
《统计学》第3章参数估计
《统计学》第3章参数估计
6-22
定理 6.1 在模型(6.8)下,最小二乘估计具有以下性质
(1) ˆ0
N
(0
,
(
1 n
x2 Sxx
)
2
),
ˆ1
N
(1,
2
Sxx
)
(2)
Cov(ˆ0
,
ˆ1
)
x Sxx
2
(6.16)
(3) 对于给定的x0,有yˆ0 ˆ0 ˆ1x0
N
(0
1x0
,
(
1 n
(
x0 x Sxx
01.08.2021
《统计学》第3章参数估计
6-19
n
采用偏差平方和 Q ( yi yˆi )2 (6.9) i 1
度量 n 个点偏离直线 l 的程度,那么,
使得 Q 达到最小的直线 l 视为最优直线。
n
注意 Q ( yi ˆ0 ˆ1xi )2 Q(ˆ0, ˆ1)
(6.10)
i 1
所以 Q 对 ˆ0 和 ˆ1分别求偏导令其为 0 可得
01.08.2021
《统计学》第3章参数估计
6-27
表 6.6 年人均可支配收入和年人均消费性支出的方差分析表
ANOVAb
Model
Sum of Squares df Mean Square
F
Sig.
1
Regression 182436901.370 1 182436901.370 583.144 .000a
山 东 14264.70 9666.61 新 疆 10313.44 7874.27
河 南 11477.05 7826.72
01.08.2021
《统计学》第3章参数估计
6-25
图6.5人均可支配收入x和人均消费性支出y散点图
01.08.2021
《统计学》第3章参数估计
6-26
表 6.5 年人均可支配收入和年人均消费性支出的相关系数表 Correlations
Correlations
x 身高,cm z 体重,kg y 肺活量,L
x 身高,cm Pearson Correlation
1
.810**
.650**
Sig. (2-tailed)
.000
.006
z 体重,kg
N Pearson Correlation
16 .810**
16
16
1
.707**
Sig. (2-tailed)
01.08.2021
《统计学》第3章参数估计
6-24
表 6.4 城镇居民年人均可支配收入和年人均消费性支出数据
地区
可支 配收入
消费 性支出
地区
可支 配收入
消费 性支出
北 京 21988.71 15330.44 湖 北 11485.80 8701.18
天 津 16357.35 12028.88 湖 南 12293.54 8990.72
回归分析(regression analysis)是通过 建立回归模型来研究相关变量的关系并作 出相应估计和预测的一种统计方法,
01.08.2021
《统计学》第3章参数估计
6-15
6.2.2 一元线性回归
设 y 与 x 之间有相关关系,且 y 是随机变量, 但 x 是非随机变量,它们之间的关系为
y f (x) (6.5)
n
SSE ( yi yˆi )2 称为残差平方和,
i 1
表示观测值 yi 与回归值 yˆi 的偏差平方和。
01.08.2021
《统计学》第3章参数估计
6-31
定理 6.2 如果 y1, , y n 相互独立,且 yi N(0 1xi, 2),(i 1, ,n) ,那么 (1) SST/ 2 2(n 2) (2) 若假设检验(6.17)的H0成立,则SSR / 2 2(1) (6.21) (3) SSR与SSE相互独立
其中 是随机误差,它表示变量 x 之外的因素对 y 的影响,如果 y 与 x 呈直线相关,那么 f(x)的 形式是直线形式,因此上式可以写成
y 0 1x (6.6)
这里 0 是常数项,称为截距, 1称为斜率, 统称为回归系数。
01.08.2021
《统计学》第3章参数估计
6-16
我们要估计回归系数 0 和 1 ,并建立
Residual
9072666.765 29 312850.578
Total
191509568.135 30
a. Predictors: (Constant), x 可支配收入
b. Dependent Variable: y 消费支出
01.08.2021
《统计学》第3章参数估计
6-28
表 6.7 年人均可支配收入和年人均消费性支出的回归方程系数表
吉 林 11285.52 8560.30 四 川 11098.28 8691.99
黑龙江 10245.28 7519.28 贵 州 10678.40 7758.69
上 海 23622.73 17255.38 云 南 11496.11 7921.83
江 苏 16378.01 10715.15 西 藏 11130.93 7532.07
x 可支配收入 y 消费支出
x 可 支 配 收 Pearson Correlation

Sig. (2-tailed)
1
.976**
.000
N
31
31
y 消费支出 Pearson Correlation
.976**
1
Sig. (2-tailed)
.000
N
31
31
**. Correlation is significant at the 0.01 level (2-tailed).
河 北 11690.47 8234.97 广 东 17699.30 14336.87
山 西 11564.95 8101.84 广 西 12200.44 8151.26
内蒙古 12377.84 9281.46 海 南 10996.87 8292.89
辽 宁 12300.39 9429.73 重 庆 12590.78 9890.31
.976 24.148 .000
01.08.2021
《统计学》第3章参数估计
6-29
6.2.4 回归方程的检验
回归方程的显著性检验等价于作以下检验
H0 : 1 0 H1 : 1 0 (6.17)
拒绝 H0 就说明回归方程是显著的。 对于一元线性回归来说,检验(6.17)有三种 等价的方法,即 F 检验,t 检验和 r 检验。
n
(xi x )( yi y)
ˆ1 i1 n
(xi x )2
i 1
ˆ0 y ˆ1x
(6.12)
01.08.2021
《统计学》第3章参数估计
6-21
记回归残差 ei yi yˆi ,可以求得随机 误差项的方差的 LSE 为
n
ei2ቤተ መጻሕፍቲ ባይዱ
ˆ 2 i1
n2
(6.15)
01.08.2021
偏相关系数(partial correlation coefficient)为
rxy,z
rxy rxz ryz 1 r 2xz 1 r 2 yz
(6.3)
其中 r 是简单样本相关系数,例如 rxz 是变量 x 和 z 之间的简单样本相关系数。
01.08.2021
《统计学》第3章参数估计
6-11
【例6.1】
浙 江 20573.82 14091.19 陕 西 10763.34 8427.06
安 徽 11473.58 8531.90 甘 肃 10012.34 7875.78
福 建 15506.05 11055.13 青 海 10276.06 7512.39
江 西 11451.69 7810.73 宁 夏 10859.33 7817.28
df y 肺活量,L Correlation
0
13
.186
1.000
Significance (2-tailed)
.508
.
df
13
0
01.08.2021
《统计学》第3章参数估计
6-14
6.2 一元线性回归
6.2.1 回归的含义
回归(regression)一词最早由英国生物 学家兼统计学家高尔顿(F.Galton)于 1886年在论文“Regression towards mediocrity in hereditary stature”中正式 提出。
6-18
图 6.4 显示 y 与 x 呈直线相关,可以用一元线性 回归模型来拟合这 n 个点,我们假定一元线性 回归统计模型为
yi
i
0 1xi i , i 1, N(0, 2 )且相互独立
,n
(6.8)
要找一条最优直线 l : yˆ ˆ0 ˆ1x来拟合这 n 个点,
那么,什么是最优直线?
6-9
样本相关系数 r 定义如下
rxy
n
(xi x )( yi y)
i 1
n
n
(x i x )2 ( yi y)2
i 1
i 1
(6.2)
01.08.2021
《统计学》第3章参数估计
6-10
2. 偏相关系数
设三个变量 x、y 和 z 是相互关联的一组变量,
那么,在控制了变量 z 的影响后,变量 x 和 y 的
表 6.1 初一男生身高 x、体重 z 和肺活量 y 的测量值
身高 x
体 重z
肺 活量 y
身高 x
体 重z
肺 活量 y
140.1
37.0
2.25
162.5
48.3
2.75
151.5
38.5
3.0
165.5
42.5
2.5
161.2
42.1
3.25
148.0
36.5
2.25
172.8
46.5
3.25
165.8
.000
.002
N y 肺活量,L Pearson
Correlation
16
16
16
.650**
.707**
1
Sig. (2-tailed)
.006
.002
N
16
16
16
**. Correlation is significant at the 0.01 level (2-tailed).
01.08.2021
)2
)
2
)
01.08.2021
《统计学》第3章参数估计
6-23
【例6.2】
(数据文件为example 6.2) 已知我国2007 年31个地区城镇居民年人均可支配收入和 年人均消费性支出数据如下表(单位: 元),试分析城镇居民年人均可支配收入 和年人均消费性支出之间的关系,如果有 线性相关关系,试建立一元线性回归模型。
01.08.2021
《统计学》第3章参数估计
6-30
1. F检验
n
总偏差平方和 SST ( yi y)2 i 1
可以分解为
n
n
SST ( yˆi y)2 ( y i yˆi )2 =SSR SSE
i 1
i 1
n
其中 SSR ( yˆi y)2 称为回归平方和,
i 1
表示回归值 yˆi 与 y 的偏差平方和;
Q 2 n
0
i 1
Q 2 n (
1
i 1
( yi ˆ0 ˆ1xi yi ˆ0 ˆ1xi )
)0 xi 0
01.08.2021
《统计学》第3章参数估计
6-20
简单整理可得
nˆ0
nx
ˆ 1
ny
nx
ˆ0
n
xi2ˆ1
n
xi yi
i 1
i 1
(6.11)
方程组(6.11)称为正规方程组,解这个方程组容易求得
Coefficientsa
Model
Unstandardized Standardized
Coefficients
Coefficients
B Std. Error Beta
t
Sig.
1 (Constant)
450.334 388.906
1.158 .256
x 可支配收入
.692
.029
a. Dependent Variable: y 消费支出
相关文档
最新文档