第6章回归分析 《统计学》PPT
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ1 i1 n
(xi x )2
i 1
ˆ0 y ˆ1x
(6.12)
记回归残差 ei yi yˆi ,可以求得随机 误差项的方差的 LSE 为
n
ei2
ˆ 2 i1
n2
(6.15)
定理 6.1 在模型(6.8)下,最小二乘估计具有以下性质
(1) ˆ0
N
(0
,
(
1 n
x2 Sxx
)
1
16 .707** .002
16
.650** .006 16 .707** .002 16
1
16
(3)计算偏相关系数,分析身高x、体重z和 肺活量y的之间的偏相关关系
【软件操作】
选 择 “ 分 析 ( A ) ” → 点 击 “ 相 关 (C)”→“偏相关(R)”
将身高x和肺活量y两个变量同时选入“变 量”框,再将控制变量体重z选入“控制 (C)”框中
i 1
n
n
(x i x )2 ( yi y)2
i 1
i 1
(6.2)
2. 偏相关系数
设三个变量 x、y 和 z 是相互关联的一组变量,
那么,在控制了变量 z 的影响后,变量 x 和 y 的
偏相关系数(partial correlation coefficient)为
rxy,z
rxy rxz ryz 1 r 2xz 1 r 2 yz
6.2.4 回归方程的检验
(6.3)
其中 r 是简单样本相关系数,例如 rxz 是变量 x 和 z 之间的简单样本相关系数。
【例6.1】
(数据文件为li6.1.sav)为研究初中一年级男生身高 x (单位:厘米)、体重z (单位:千克) 和肺活量 y(单位:升) 的关系,随机抽取了16名初一男生 测量得有关数据如表6.2所示:
3. 按相关形式划分: 分为线性相关和非线性 相关;如图6.3所示 。
4. 按变量多少划分: 分为简单相关和复相关。
6.1.3 相关关系的度量
1. 简单线性相关系数
总体 X 与总体 Y 的相关程度的相关系数 定义如下
XY
Cov(X ,Y ) Var(X ) Var(Y )
(6.1)
其中 Cov(X ,Y ) 是 X 和 Y 的协方差, Var(X ) 和 Var(Y ) 分别是 X 与 Y 的方差。
表 6.5 城镇居民年人均可支配收入和年人均消费性Fra bibliotek出数据地区
可支 配收入
消费 性支出
地区
可支 配收入
消费 性支出
北 京 21988.71 15330.44 湖 北 11485.80 8701.18
天 津 16357.35 12028.88 湖 南 12293.54 8990.72
河 北 11690.47 8234.97 广 东 17699.30 14336.87
b. 预测变量: (常量), 可支配收入。
表6.8 年人均可支配收入和年人均消费性支出的回归方程系数表
系数a
模型
非标准化系数 标准系 t
Sig.
数
B 标准误 试用版 差
(常量) 450.334 388.906
1.158 .256
1
可支配收
入
.692 .029 .976 24.148 .000
a. 因变量: 消费支出
表6.7 年人均可支配收入和年人均消费性支出的方差分析表
模型
平方和
回归 182436901 .370
Anovaa
df
均方
F
1
182436901 583.14
.370
4
Sig. .000b
1
残差 9072666.7 65
29
312850.57 8
总计 191509568 .135
30
a. 因变量: 消费支出
点击“确定”即可得相关系数表表6.4。
控制变量 体重,kg
表6.4初一男生身高、体重和肺活量偏相关系数表
相关性
身高,cm 肺活量,L
相关性 显著性(双侧) df 相关性 显著性(双侧) df
身高,cm 1.000 . 0 .186 .508 13
肺活量,L .186 .508 13 1.000 . 0
和肺活量y之间是否存在相关关系; (2)计算简单相关系数,分析身高x、体
重z和肺活量y的之间是否存在直线相关关 系;
(3)计算偏相关系数,分析身高x、体重z 和肺活量y的之间的偏相关关系。
解: (1)画散点图,观察身高x、体重z和肺活量y 之间的相关关系
【软件操作】
打开数据文件li6.1.sav
可以证明 1,当时 1,称 X 与 Y 完全相关,当 =0 时,称 X 与 Y 零相关, 当 >0 时,称 X 与 Y 正相关, <0 时, 称 X 与 Y 负相关。 越接近 1, 表示相关程度越高, 越接近 0, 表示相关程度越低。
样本相关系数 r 定义如下
rxy
n
(xi x )( yi y)
图6.5 人均可支配收入x和人均消费性支出y散点图
2. 计算相关系数
点击“分析 ”→点击“相关”→点击“双 变量”,将两个变量年人均可支配收入x和 年人均消费性支出y同时选入“变量”,在 “相关系数”中选“Pearson”,点“确定” 即可得相关系数表,如表6.6所示。
表6.6 年人均可支配收入和年人均消费性支出的相关系数表
选择“图形(G)”→点击“旧对话框(L) →“散点/点状(S)”
在“散点图/点图”中选“矩阵分布”→点击 “定义” →将身高x、体重z和肺活量y选入 “矩阵变量(M)”框中
→点击“确定”,可得图6.1。
图6.1 身高x、体重z和肺活量y矩阵式散点图
(2)计算身高x、体重z和肺活量y之间的相 关系数
身高x
162.5 165.5 148.0 165.8 164.0 149.5 159.6 162.5
体重z
48.3 42.5 36.5 45.4 43.5 39.7 44.5 45.0
肺活量y
2.75 2.5 2.25 3.25 3.0 2.75 3.0 3.2
【例6.1】
要求: (1)绘制变量散点图,分析身高x、体重z
6.1 相关分析
6.1.1 相关的概念 1. 人的身高与体重有相关关系。 2. 居民可支配收入与支出有相关关系。 3. 粮食产量与施肥量有相关关系。
6.1.2 相关的种类
1. 按相关程度划分: 分为完全相关、不完全 相关和不相关;如图6.1所示。
2. 按相关方向划分: 分为正相关和负相关。 如图6.2所示。
Q 2 n
0
i 1
Q 2 n (
1
i 1
( yi ˆ0 ˆ1xi yi ˆ0 ˆ1xi )
)0 xi 0
简单整理可得
nˆ0
nx
ˆ 1
ny
nx
ˆ0
n
xi2ˆ1
n
xi yi
i 1
i 1
(6.11)
方程组(6.11)称为正规方程组,解这个方程组容易求得
n
(xi x )( yi y)
相关性 可支配收入 消费支出
Pearson 相关性
1
可支配收入 显著性(双侧)
消费支出
N Pearson 相关性
显著性(双侧)
31 .976**
.000
N
31
**. 在 .01 水平(双侧)上显著相关。
.976** .000 31
1
31
3. 作一元线性回归
点击“分析”→点击“回归 ”→点击“线 性”,将自变量年人均可支配收入x选入 “自变量”,再将因变量年人均消费性支 出y选入“因变量”中,然后选择“方法” 为默认值“进入”,点“确定”即可得表 6.7和表6.8。
采用偏差平方和 Q ( yi yˆi )2 (6.9) i 1
度量 n 个点偏离直线 l 的程度,那么,
使得 Q 达到最小的直线 l 视为最优直线。
n
注意 Q ( yi ˆ0 ˆ1xi )2 Q(ˆ0, ˆ1)
(6.10)
i 1
所以 Q 对 ˆ0 和 ˆ1分别求偏导令其为 0 可得
【软件操作】
“分析”→点击“相关(C) ”→“双变量” (B)
将身高x、体重z和肺活量y三个变量同时选 入“变量”框,在“相关系数”框选 “Pearson”
点击“确定”即可得如表6.3所示的相关系 数。
表6.3 初一男生身高、体重和肺活量的相关系数表
相关性 身高,cm
体重,kg
肺活量,L
身高(cm)
黑龙江 10245.28 7519.28 贵 州 10678.40 7758.69
上 海 23622.73 17255.38 云 南 11496.11 7921.83
江 苏 16378.01 10715.15 西 藏 11130.93 7532.07
浙 江 20573.82 14091.19 陕 西 10763.34 8427.06
图 6.4 显示 y 与 x 呈直线相关,可以用一元线性 回归模型来拟合这 n 个点,我们假定一元线性 回归统计模型为
yi
i
0 1xi i , i 1, N(0, 2 )且相互独立
,n
(6.8)
要找一条最优直线 l : yˆ ˆ0 ˆ1x来拟合这 n 个点,
那么,什么是最优直线?
n
6.2.2 一元线性回归
设 y 与 x 之间有相关关系,且 y 是随机变量, 但 x 是非随机变量,它们之间的关系为
y f (x) (6.5)
其中 是随机误差,它表示变量 x 之外的因素对 y 的影响,如果 y 与 x 呈直线相关,那么 f(x)的 形式是直线形式,因此上式可以写成
y 0 1x (6.6)
Pearson 相关性
显著性(双侧)
体重(kg)
N Pearson 相关性
显著性(双侧)
肺活量(L)
N Pearson 相关性
显著性(双侧)
N **. 在 .01 水平(双侧)上显著相关。
1
16 .810** .000
16 .650** .006
16
2021/7/12
《统计学实验》第6章回归分析
.810** .000 16
安 徽 11473.58 8531.90 甘 肃 10012.34 7875.78
福 建 15506.05 11055.13 青 海 10276.06 7512.39
江 西 11451.69 7810.73 宁 夏 10859.33 7817.28
山 东 14264.70 9666.61 新 疆 10313.44 7874.27
表6.2初一男生身高、体重和肺活量的测量值
身高x
140.1 151.5 161.2 172.8 150.0 153.5 170.5 157.0
体重z
37.0 38.5 42.1 46.5 38.0 42.2 54.5 37.0
肺活量y
2.25 3.0 3.25 3.25 3.0 2.75 3.5 2.25
河 南 11477.05 7826.72
解:
1. 先画散点图,打开数据文件example 6.2, 点击“图形”→点击“旧对话框”→点击 “散点/点状” →点击“简单分布”,点击 “定义”,将两个变量年人均可支配收入x 和年人均消费性支出y分别选入“X轴”和 “Y轴”,点“确定”即可得散点图,如图 6.5所示。
山 西 11564.95 8101.84 广 西 12200.44 8151.26
内蒙古 12377.84 9281.46 海 南 10996.87 8292.89
辽 宁 12300.39 9429.73 重 庆 12590.78 9890.31
吉 林 11285.52 8560.30 四 川 11098.28 8691.99
这里 0 是常数项,称为截距, 1称为斜率, 统称为回归系数。
我们要估计回归系数 0 和 1 ,并建立
回归方程
yˆ ˆ0 ˆ1x (6.7)
其中 yˆ 是 y 的估计值(预测值), ˆ0 和 ˆ1
分别是 0 和 1 的估计。
问题是:如何求得 ˆ0 和 ˆ1 ?
6.2.3 最小二乘估计
图6.4 x和y的散点图
2
),
ˆ1
N
(1,
2
Sxx
)
(2)
Cov(ˆ0
,
ˆ1
)
x Sxx
2
(6.16)
(3) 对于给定的x0,有yˆ0 ˆ0 ˆ1x0
N
(0
1x0
,
(
1 n
(
x0 x Sxx
)2
)
2
)
【例6.2】
(数据文件为example 6.2) 已知我国2007 年31个地区城镇居民年人均可支配收入和 年人均消费性支出数据如表6.5(单位: 元),试分析城镇居民年人均可支配收入 和年人均消费性支出之间的关系,如果有 线性相关关系,试建立一元线性回归模型。
6.2 一元线性回归
6.2.1 回归的含义 回归(regression)一词最早由英国生物
学家兼统计学家高尔顿(F.Galton)于 1886年在论文“Regression towards mediocrity in hereditary stature”中正式 提出。
回归分析(regression analysis)是通过 建立回归模型来研究相关变量的关系并作 出相应估计和预测的一种统计方法,