简单回归分析(2)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
b≠0原因:① 由于抽样误差引起,总体回 归系数β=0
② 存在回归关系,总体回归 系数β ≠0
假设检验方法:
方差分析(F检验)、t 检验
h
11
1、方差分析
P(X,Y)实测点
Y
(Y Yˆ)剩余部分
总情(Y况Y)
(Yˆ Y)回归部分
YBiblioteka Baidu
Y Y Y Y ˆ Y ˆ Y
h
X
12
Y的离均差平方和的分解
其自由度分别为
总 n 1
回 1
残 n2
h
15
如果两变量间总体回归关系确实存在,回归的贡献就 要大于随机误差,大到何种程度时可以认为具有统计意义, 可计算统计量F:
F S S S S 残 回 回 残 M M S S 回 残 , 回 1 , 残 n 2
MS回为回归均方 MS残为残差均方。 F服从自由度为 回、残的 F 分布。
第十二章 简单回归分析
h
1
一、线性回归的基本概念
两变量间的数量关系
确定性关系是指两变量间的关系是函数关系。已知一个变 量的值,另一个变量的值可以通过这种函数关系精确计 算出来。 例如圆周长与半径:c=2πr
非确定性关系是指两变量在宏观上存在关系,但并未精确 到可以用函数关系来表达
例如身高与体重的关系
b (x (xx )(xy) 2 y)
703.023329 114.54771
61.4229
aYbX632.93 6 2.1 42 2797.27
14
14
11.0 76 864
得到的回归方程为:
Y ˆ11.7086 6.4 4 12X 29
h
10
四、线性回归方程的假设检验
需要检验总体回归方程是否成立!
h
16
2、t 检验
公式
t b 0 = b ,υ=n-2
Sb
Sb
Sb为回归系数的标准误
Sb=
SY . X
X X 2
sYX
YYˆ 2 n2
SY.X为Y的剩余标准差,即扣除X的影响后Y 的变异大小。
h
17
t 检验
H0:β=0
H1:β≠0
α=0.05
sYX
YYˆ2 n2
16,15311Sb
SS回=(YˆY)2 ,为回归平方和(regressionsumof squares),
由于X 与Y 的直线关系而使Y 变异减小的部分,即总变异中, 可以用X 解释的部分。SS回越大,回归效果越好。
h
14
SS剩=(YYˆ)2,为剩余平方和(residualsumofsquares),
X对Y的线性影响之外的一切因素对Y 的变异,即总变异中, 无法用X解释的部分。SS剩越小,回归效果越好。
b 的统计学意义是:
X 每增加(减)一个单位,Y 平均改变b个单位
h
5
二、线性回归分析适用条件
• X与Y之间呈线性关系(Linear) • 个体观察值之间独立(Independent) • 给定X时,对应的Y服从正态分布(Normal Distribution) • 不同的X所对应Y的方差相等(Equal Variance)
bt,n2Sb
h
19
4、决定系数
回归平方和与总离均差平方和之比
R 2= SS 回 SS 总
• 它反映了回归的贡献的相对程度,即在Y的 总变异中回归关系所能解释的比例
• 实际用决定系数来反映回归的实际效果
h
20
五、线性回归的应用
1、描述两个变量之间的线性依存的数量关系 2、统计预测,通过X预测估计Y的取值
h
2
实例
在某地一项膳食调查中,随机抽取14名40-60岁的健康 妇女,测得每人的基础代谢与体重数据,见下表,据此数 据如何判断这两项指标之间有无关联?
表 14名中年健康妇女的基础代谢与体重的测量值
编号 基础代谢 体重
编号 基础代谢 体重
1
4175.6
50.7
8
3970.6
48.6
2
4435.0
53.7
(Y Y)(Y Y ˆ)(Y ˆ Y)
两边平方后求和
数理统计可 2(以 YY证 ˆ)Y (ˆ明 Y)0
( Y Y ) 2 ( Y Y ˆ ) 2 ( Y ˆ Y ) 2
S总 SS剩 SS回 S
总 =剩+回
h
13
几个平方和的含义
S S总即 (YY)2,为 Y 的离均差平方
和,表示未考虑 X 与 Y 的回归关系时 Y 的 总变异。
9
3983.2
44.6
3
3460.2
37.1
10
5050.1
58.6
4
4020.8
51.7
11
5355.5
71.0
5
3987.4
47.8
12
4560.6
59.7
6
4970.6
62.8
13
4874.4
62.1
7
5359.7
67.3
14
5029.2
61.5
h
3
绘制散点图
5500
5000
基 4500 础 代 谢 4000
Yˆp t/2, SYp
SYp SY X
11 n
(XpX)2 (XX)2
16.153114.881 11.4 54 771
t6.142219.2584 14 212
4.881
查t界值表,t 0.001(12) =4.318,所以p<0.001,拒 绝H0,可以认为体重与基础代谢之间存在线 性回归关系
h
18
3、总体回归系数的可信区间
利用上述对回归系数的t检验,可以得到β的1α双侧可信区间为
h
6
7
8
根据求极值方法可得到a、b的值
b (X ( X X )X Y ) ( 2 Y ) X X 2 Y X X 2 Y /n /n l lX XX Y
aYbX
h
9
根据前面的计算有
(xx)211.5 47 47 1(x x)y ( y ) 70.2 33 02 39
(1)Y的总体均数的置信区间
给 定 X X 0 时 , 总 体 均 数 Y |X 0的 ( 1 ) 可 信 区 间 为
Yˆp t/2,n2SYˆp
SYˆp SY X
1 n
(Xp X)2 (Xi X)2
h
21
(2)个体Y值的预测区间
当X取某个固定值时,对应的Y也存在一定 的波动范围,个体Y值的预测区间(相当 于参考值范围)可以用下式求
3500
线性回归直线
3000
30
35
40
45
50
55
60
65
70
75
体重
图 14名中年健康妇女的基础代谢与体重的散点图
h
4
线性回归分析:用一条直线(即直线方程)来描 述两个变量间依存变化的数量关系,得出的直 线方程称为线性回归方程。
线性回归方程的一般表达式:
Yˆ abX
a:截距(intercept),直线与Y轴交点的纵坐标 b:斜率(slope),回归系数(regression coefficient)
② 存在回归关系,总体回归 系数β ≠0
假设检验方法:
方差分析(F检验)、t 检验
h
11
1、方差分析
P(X,Y)实测点
Y
(Y Yˆ)剩余部分
总情(Y况Y)
(Yˆ Y)回归部分
YBiblioteka Baidu
Y Y Y Y ˆ Y ˆ Y
h
X
12
Y的离均差平方和的分解
其自由度分别为
总 n 1
回 1
残 n2
h
15
如果两变量间总体回归关系确实存在,回归的贡献就 要大于随机误差,大到何种程度时可以认为具有统计意义, 可计算统计量F:
F S S S S 残 回 回 残 M M S S 回 残 , 回 1 , 残 n 2
MS回为回归均方 MS残为残差均方。 F服从自由度为 回、残的 F 分布。
第十二章 简单回归分析
h
1
一、线性回归的基本概念
两变量间的数量关系
确定性关系是指两变量间的关系是函数关系。已知一个变 量的值,另一个变量的值可以通过这种函数关系精确计 算出来。 例如圆周长与半径:c=2πr
非确定性关系是指两变量在宏观上存在关系,但并未精确 到可以用函数关系来表达
例如身高与体重的关系
b (x (xx )(xy) 2 y)
703.023329 114.54771
61.4229
aYbX632.93 6 2.1 42 2797.27
14
14
11.0 76 864
得到的回归方程为:
Y ˆ11.7086 6.4 4 12X 29
h
10
四、线性回归方程的假设检验
需要检验总体回归方程是否成立!
h
16
2、t 检验
公式
t b 0 = b ,υ=n-2
Sb
Sb
Sb为回归系数的标准误
Sb=
SY . X
X X 2
sYX
YYˆ 2 n2
SY.X为Y的剩余标准差,即扣除X的影响后Y 的变异大小。
h
17
t 检验
H0:β=0
H1:β≠0
α=0.05
sYX
YYˆ2 n2
16,15311Sb
SS回=(YˆY)2 ,为回归平方和(regressionsumof squares),
由于X 与Y 的直线关系而使Y 变异减小的部分,即总变异中, 可以用X 解释的部分。SS回越大,回归效果越好。
h
14
SS剩=(YYˆ)2,为剩余平方和(residualsumofsquares),
X对Y的线性影响之外的一切因素对Y 的变异,即总变异中, 无法用X解释的部分。SS剩越小,回归效果越好。
b 的统计学意义是:
X 每增加(减)一个单位,Y 平均改变b个单位
h
5
二、线性回归分析适用条件
• X与Y之间呈线性关系(Linear) • 个体观察值之间独立(Independent) • 给定X时,对应的Y服从正态分布(Normal Distribution) • 不同的X所对应Y的方差相等(Equal Variance)
bt,n2Sb
h
19
4、决定系数
回归平方和与总离均差平方和之比
R 2= SS 回 SS 总
• 它反映了回归的贡献的相对程度,即在Y的 总变异中回归关系所能解释的比例
• 实际用决定系数来反映回归的实际效果
h
20
五、线性回归的应用
1、描述两个变量之间的线性依存的数量关系 2、统计预测,通过X预测估计Y的取值
h
2
实例
在某地一项膳食调查中,随机抽取14名40-60岁的健康 妇女,测得每人的基础代谢与体重数据,见下表,据此数 据如何判断这两项指标之间有无关联?
表 14名中年健康妇女的基础代谢与体重的测量值
编号 基础代谢 体重
编号 基础代谢 体重
1
4175.6
50.7
8
3970.6
48.6
2
4435.0
53.7
(Y Y)(Y Y ˆ)(Y ˆ Y)
两边平方后求和
数理统计可 2(以 YY证 ˆ)Y (ˆ明 Y)0
( Y Y ) 2 ( Y Y ˆ ) 2 ( Y ˆ Y ) 2
S总 SS剩 SS回 S
总 =剩+回
h
13
几个平方和的含义
S S总即 (YY)2,为 Y 的离均差平方
和,表示未考虑 X 与 Y 的回归关系时 Y 的 总变异。
9
3983.2
44.6
3
3460.2
37.1
10
5050.1
58.6
4
4020.8
51.7
11
5355.5
71.0
5
3987.4
47.8
12
4560.6
59.7
6
4970.6
62.8
13
4874.4
62.1
7
5359.7
67.3
14
5029.2
61.5
h
3
绘制散点图
5500
5000
基 4500 础 代 谢 4000
Yˆp t/2, SYp
SYp SY X
11 n
(XpX)2 (XX)2
16.153114.881 11.4 54 771
t6.142219.2584 14 212
4.881
查t界值表,t 0.001(12) =4.318,所以p<0.001,拒 绝H0,可以认为体重与基础代谢之间存在线 性回归关系
h
18
3、总体回归系数的可信区间
利用上述对回归系数的t检验,可以得到β的1α双侧可信区间为
h
6
7
8
根据求极值方法可得到a、b的值
b (X ( X X )X Y ) ( 2 Y ) X X 2 Y X X 2 Y /n /n l lX XX Y
aYbX
h
9
根据前面的计算有
(xx)211.5 47 47 1(x x)y ( y ) 70.2 33 02 39
(1)Y的总体均数的置信区间
给 定 X X 0 时 , 总 体 均 数 Y |X 0的 ( 1 ) 可 信 区 间 为
Yˆp t/2,n2SYˆp
SYˆp SY X
1 n
(Xp X)2 (Xi X)2
h
21
(2)个体Y值的预测区间
当X取某个固定值时,对应的Y也存在一定 的波动范围,个体Y值的预测区间(相当 于参考值范围)可以用下式求
3500
线性回归直线
3000
30
35
40
45
50
55
60
65
70
75
体重
图 14名中年健康妇女的基础代谢与体重的散点图
h
4
线性回归分析:用一条直线(即直线方程)来描 述两个变量间依存变化的数量关系,得出的直 线方程称为线性回归方程。
线性回归方程的一般表达式:
Yˆ abX
a:截距(intercept),直线与Y轴交点的纵坐标 b:斜率(slope),回归系数(regression coefficient)