第12章 简单回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
它因素来解释。说明用体重来预测基础代谢量的实
际效果较佳。
第二节
线性回归的应用
统计预测; 统计控制。
统计预测:
均数的置信区间: 当X为某定值和在给定置信
度的情况下,欲知Y的总体均数的分布如何? 我们可以估计总体中当X为某定值 X i 时,Y的
总体均数
Y | X的 1 置信区间 。
随机变量时,我们既可以计算Y与X的相关系数,又
可以做Y关于X的回归(II型回归); 对同一资料作
总体相关系数 的假设检验和作总体回归系数β的
假设检验分别得到 t r 和 t b ,可以证明,二者相等。
(三) 总体回归系数β的置信区间
b t / 2,n2 Sb
(四) 决定系数
SS回 R SS总
表12-3 不同温度下溶解于100份水中的硝酸钠份数 温度(° C )X 溶解的硝酸钠份数Y
0 66.7
4 71
10 76.3
15 80.6
21 85.7
29 92.9
36 51 68 99.4 113.6 125.1
ˆ 67.508 0.871X , 由原始数据计算可知 Y l XX 4060, X 26,
MS回 4318227 .7159 F 158.361 MS残 27268 .2747
已知ν1=ν回= 1,ν2=ν残= n-2=12,查F界值表(附表3.1) 得
F (1 , 2 ) F0.05 =4.75 (1,12 ) ,今求得F = 158.361>4.75,则
P<0.05,按α=0.05水准拒绝H0,差异有统计学意义。可
H1: β≠0 即基础代谢与体重之间有线性回归关系
α= 0.05
SS总 (Y Y ) 2 4645447 .0121
ˆ ) 2 327219 SS残 (Y Y .2962
SS回 SS总 SS残 4645447 .0121 327219 .2962 4318227 .7159
II型回归
基础代谢 (KJ/day)
5800 5300 4800 4300 3800 3300 2800 30 35 40 45 50 55 60 65 70 75
体重 (kg)
图12-1 14例中老年健康妇女的基础代谢与体重的回归直线
I型回归
表12-1 不同IgG浓度下的沉淀环直径数据
IgG浓度(IU/ml ) X 沉淀环直径(mm ) Y
图12-3 线性回归模型的适用条件示意图
三、回归参数的估计
(一) 回归参数估计的最小二乘原则
N O 20 浓 0. 度 0. 15 0. 10 0. 05 0. 00 0. 75 1. 00 1. 25 1. 50 1. 75 2. 00
0. 25
图12-4 基础代谢与体重的回归直线的最小二乘原则的直观表达
1 4.0
2 5.5
3 6.2
4 7.7
5 8.5
10.0 9.0 8.0 7.0 6.0 5.0 4.0 3.0 2.0 1.0 0.0
0 1 2 3 4 5 6
沉淀环直径(mm )
IgG浓度(IU/ml )
图12-2 IgG浓度与沉淀环直径数据的散点图
二、线性回归模型的适用条件
(1) 线性(Linear) (2) 独立性(Independent) (3) 正态性(Normal distribution) (4) 方差齐性(Equal variance) LINE
认为体重与基础代谢之间有线性回归关系。
表12-2 线性回归的方差分析表
变异来源 回归 残差 总变异 SS df MS F P
4318227.72 327219.30 4645447.01
1 12 13
4318227.72 27268.27
158.36
<0.05
(二) t 检验
b0 tb Sb
图12-6 基础代谢依体重的回归直线的95%置信带与Y个体值的95%预测带
统计预测(续):
个体的容许区间: 预测是回归分析的重要应用
之一,医学上常用在给定X值(预报因子)时,
计算个体Y值的容许区间。所谓个体Y值的容许
区间是指总体中X为某定值时,个体Y值的波动
范围。
SY | X p SY . X
2 1 (X p X ) 1 n l XX
ˆ 80 时,通过上式解得Xp=16.56(℃ ),即把温度控 当Y 下限
制在16.56℃以上,就有95%的可能使溶解于100份水中的硝酸钠 份数在80份以上。
第三节
残差分析
ˆ ei Yi Y i
残差分析(residual analysis)旨在通过残差分布深入了 解实际资料是否符合回归模型假设(如正态性、等方
ˆ )有正有负,通常变成考察所有点 由于考虑到所有点的( Yi Y i ˆ )平方和最小,这就是最小二乘原则(least squares 的( Yi Y i
method)。
2 2 ˆ min Y Y min Y a bX
(二) 回归参数的估计方法
代入(12-18)式,得第一数据点Y值的95%的预测区间
为:4220.7842.179×172.5346=(3844.83,4596.737)
统计控制
例 12-6
在硝酸钠的溶解试验中,测得在不同温
度( )X下,溶解于100份水中的硝酸钠份数Y的数 据见表 12-3 。若要求溶解于 100 份水中的硝酸钠 份数在80份以上,温度应如何控制?设置信度为 95%。
ˆ a bX 1106 Y .79 61.42 50.7 4220 .784 p p
当X1=50.7时,Y 的总体均数的95%置信区间为
4220.7842.179×49.9991=(4111.84,4329.73)
5800 5300
基础代谢 (KJ/day)
4800 4300 3800 3300 2800 30 35 40 45 50 55 60 65 70 75 体重 (kg)
SS总 SS回 SS残
总 n 1
残 n 2
回 1
总 回 残
H0:β= 0,
H1:β≠0
MS回 F MS残
MS回 SS回
回
MS残
SS残
残
例12-2 试对例11-1资料的样本回归方程作假设 检验(用方差分析)
H0: β= 0 即基础代谢与体重之间无线性回归关系
X )2
a Y bX
63232 .9 777 .2 61.4229 1106 .7864 14 14
ˆ 1106.79 61.42 X Y
为了直观分析或实际需要,可按求出的回归方程 作回归直线图。在X的实测全距范围内,任取相距较
ˆ 值, 远且易读数的两个X值,代入方程得到两个 Y
SY X Sb l XX
n2
SS残 n2
l XX ( X X )
2
SY X
例12-3 试对例11-1资料的样本回归方程作假设 检验(用t 检验)。
SY X SS残 327219 .2962 165.1311 n2 14 2
SY X 165.1311 Sb 4.8810 l XX 1144 .5771
ˆ 值)。 量取值范围计算 Y
四、总体回归系数β的统计推断
H0: β= 0 即基础代谢与体重之间无线性回归关系 H1: β≠0 即基础代谢与体重之间有线性回归关系α=
0.05
(一) 方差分析
图12-5 回归前后因变量Y残差的示意图
2 2 2 ˆ ˆ ( Y Y ) ( Y Y ) ( Y Y )
差),尤其在识别离群点(outlier)方面,有着重要作
用。
•标准化残差(standardized residual)。
• 残差分析常通过标准化残差图(standardized residual
plot)来进行。若以因变量取值Y为横坐标,以标准化残差
为纵坐标,构成的散点图即是标准化残差图,见图12-7。 类似地,也可以自变量取值X为横坐标, 以标准化残差为纵 坐标作标准化残差图。
以直线连接两点即得回归直线。本例可取X1=37.1,
ˆ 3385 ˆ 得Y ;取 X =67.3 ,得 . 47 Y .36 。连接 2 1 2 5240
点即得本资料的回归直线。
注意:回归直线的适用范围一般以自变量的取值 范围为限,若无充分理由证明超过自变量的取值
范围还是直线,应该避免外延(即不要超过自变
非线性回归(nonlinear regression)
第一节
线性回归
1、线性回归的概念及其统计描述
引例: 在上一章中,对14名40~60岁的健康妇女的体 重(X)与基础代谢(Y)数据计算了相关系 数 r 0.964 ,定量地描述了变量X与Y间的线性
关联性。现在试用回归分析的方法,从预测的角 度来描述基础代谢(Y)如何依存体重(X)的变 化而变化的规律性。
第十二章
简单回归分析
郝元涛 2008.11.04
引言:
身高与体重存在相关(相关关系)
可否通过身高预测体重的平均水平?
新生儿的体重与体表面积存在相关
可否通过体重预测体表面积?(依存关系)
线性回归(linear regression),又称简单回归
(simple regression),
线性回归模型(linear regression model):
Y | X X
:截距(intercept)
β:斜率(slope),又称回归系数 (regression coefficient)
样本线性回归方程(regression equation) :
ˆ a bX Y
SY X 0.959 , =0.05, 9 2 7 ,查t界值表得单侧 t0.05,7 1.895。
本例要求溶解于100份水中的硝酸钠份数Y在80份以上,对
应于个体Y值的95%预测区间单侧下限值:
ˆ Y ˆ t Y X p t 0.05, SY X p 0.05 , S Y | X p 67.508 0.871 下限
(X
i 1 n i 1 n
b
i
X )(Yi Y )
2 ( X X ) i
(i 1,2,...,n)
a Y bX
例12-1 计算例11-1的基础代谢(Y)关于体重(X)
的线性回归方程。
b
(X
i 1 n i 1
n
i
X ቤተ መጻሕፍቲ ባይዱ(Yi Y )
i
(X
61.4229
1 1 n
( X p X )2 l XX
(12-17)
ˆ t Y p / 2,n 2 SY | X p
(12-18)
仍然以第一观测点数据(X1=50.7)为例,利用上例计
算结果,该点预测Y值的标准差为
SY | X1 SY X
1 ( X1 X )2 1 (50.7 55.5143 ) 2 1 165 .1311 1 172.5346 n l XX 14 1144 .5771
b 61.4229 tb 12.584 Sb 4.881
t 0.05 / 2,12 2.179
注意:对同一资料作总体回归系数β 是否为 零的假设检验,方差分析和t检验是等价的, 并且有 tb F 的关系。
上一章对总体相关系数 的假设检验计算出的
t r 等于这里的 t b ,这并不是巧合。当 Y与X两者都是
SYˆ SY X
p
1 n
( X p X )2 l XX
(12-15)
Y | X 的(1- )置信区间为
p
ˆ t Y ˆ p / 2, n 2 SY
(12-16)
p
SYˆ SY X
1
1 ( X1 X )2 1 (50.7 55.5143 ) 2 165 .1311 49.9991 n l XX 14 1144 .5771
2
取值在0到1之间,且无单位。它反映了回归贡献的相对 程度,即在因变量Y的总变异中回归关系所能解释的比例。
在实际应用中,通过用决定系数来反映回归的
实际效果。如例12-1,R 2 =0.930,说明40~60岁健康
妇女的体重信息大约可以解释自身基础代谢信息量
的93%,还有剩余的7%的信息则通过体重以外的其
际效果较佳。
第二节
线性回归的应用
统计预测; 统计控制。
统计预测:
均数的置信区间: 当X为某定值和在给定置信
度的情况下,欲知Y的总体均数的分布如何? 我们可以估计总体中当X为某定值 X i 时,Y的
总体均数
Y | X的 1 置信区间 。
随机变量时,我们既可以计算Y与X的相关系数,又
可以做Y关于X的回归(II型回归); 对同一资料作
总体相关系数 的假设检验和作总体回归系数β的
假设检验分别得到 t r 和 t b ,可以证明,二者相等。
(三) 总体回归系数β的置信区间
b t / 2,n2 Sb
(四) 决定系数
SS回 R SS总
表12-3 不同温度下溶解于100份水中的硝酸钠份数 温度(° C )X 溶解的硝酸钠份数Y
0 66.7
4 71
10 76.3
15 80.6
21 85.7
29 92.9
36 51 68 99.4 113.6 125.1
ˆ 67.508 0.871X , 由原始数据计算可知 Y l XX 4060, X 26,
MS回 4318227 .7159 F 158.361 MS残 27268 .2747
已知ν1=ν回= 1,ν2=ν残= n-2=12,查F界值表(附表3.1) 得
F (1 , 2 ) F0.05 =4.75 (1,12 ) ,今求得F = 158.361>4.75,则
P<0.05,按α=0.05水准拒绝H0,差异有统计学意义。可
H1: β≠0 即基础代谢与体重之间有线性回归关系
α= 0.05
SS总 (Y Y ) 2 4645447 .0121
ˆ ) 2 327219 SS残 (Y Y .2962
SS回 SS总 SS残 4645447 .0121 327219 .2962 4318227 .7159
II型回归
基础代谢 (KJ/day)
5800 5300 4800 4300 3800 3300 2800 30 35 40 45 50 55 60 65 70 75
体重 (kg)
图12-1 14例中老年健康妇女的基础代谢与体重的回归直线
I型回归
表12-1 不同IgG浓度下的沉淀环直径数据
IgG浓度(IU/ml ) X 沉淀环直径(mm ) Y
图12-3 线性回归模型的适用条件示意图
三、回归参数的估计
(一) 回归参数估计的最小二乘原则
N O 20 浓 0. 度 0. 15 0. 10 0. 05 0. 00 0. 75 1. 00 1. 25 1. 50 1. 75 2. 00
0. 25
图12-4 基础代谢与体重的回归直线的最小二乘原则的直观表达
1 4.0
2 5.5
3 6.2
4 7.7
5 8.5
10.0 9.0 8.0 7.0 6.0 5.0 4.0 3.0 2.0 1.0 0.0
0 1 2 3 4 5 6
沉淀环直径(mm )
IgG浓度(IU/ml )
图12-2 IgG浓度与沉淀环直径数据的散点图
二、线性回归模型的适用条件
(1) 线性(Linear) (2) 独立性(Independent) (3) 正态性(Normal distribution) (4) 方差齐性(Equal variance) LINE
认为体重与基础代谢之间有线性回归关系。
表12-2 线性回归的方差分析表
变异来源 回归 残差 总变异 SS df MS F P
4318227.72 327219.30 4645447.01
1 12 13
4318227.72 27268.27
158.36
<0.05
(二) t 检验
b0 tb Sb
图12-6 基础代谢依体重的回归直线的95%置信带与Y个体值的95%预测带
统计预测(续):
个体的容许区间: 预测是回归分析的重要应用
之一,医学上常用在给定X值(预报因子)时,
计算个体Y值的容许区间。所谓个体Y值的容许
区间是指总体中X为某定值时,个体Y值的波动
范围。
SY | X p SY . X
2 1 (X p X ) 1 n l XX
ˆ 80 时,通过上式解得Xp=16.56(℃ ),即把温度控 当Y 下限
制在16.56℃以上,就有95%的可能使溶解于100份水中的硝酸钠 份数在80份以上。
第三节
残差分析
ˆ ei Yi Y i
残差分析(residual analysis)旨在通过残差分布深入了 解实际资料是否符合回归模型假设(如正态性、等方
ˆ )有正有负,通常变成考察所有点 由于考虑到所有点的( Yi Y i ˆ )平方和最小,这就是最小二乘原则(least squares 的( Yi Y i
method)。
2 2 ˆ min Y Y min Y a bX
(二) 回归参数的估计方法
代入(12-18)式,得第一数据点Y值的95%的预测区间
为:4220.7842.179×172.5346=(3844.83,4596.737)
统计控制
例 12-6
在硝酸钠的溶解试验中,测得在不同温
度( )X下,溶解于100份水中的硝酸钠份数Y的数 据见表 12-3 。若要求溶解于 100 份水中的硝酸钠 份数在80份以上,温度应如何控制?设置信度为 95%。
ˆ a bX 1106 Y .79 61.42 50.7 4220 .784 p p
当X1=50.7时,Y 的总体均数的95%置信区间为
4220.7842.179×49.9991=(4111.84,4329.73)
5800 5300
基础代谢 (KJ/day)
4800 4300 3800 3300 2800 30 35 40 45 50 55 60 65 70 75 体重 (kg)
SS总 SS回 SS残
总 n 1
残 n 2
回 1
总 回 残
H0:β= 0,
H1:β≠0
MS回 F MS残
MS回 SS回
回
MS残
SS残
残
例12-2 试对例11-1资料的样本回归方程作假设 检验(用方差分析)
H0: β= 0 即基础代谢与体重之间无线性回归关系
X )2
a Y bX
63232 .9 777 .2 61.4229 1106 .7864 14 14
ˆ 1106.79 61.42 X Y
为了直观分析或实际需要,可按求出的回归方程 作回归直线图。在X的实测全距范围内,任取相距较
ˆ 值, 远且易读数的两个X值,代入方程得到两个 Y
SY X Sb l XX
n2
SS残 n2
l XX ( X X )
2
SY X
例12-3 试对例11-1资料的样本回归方程作假设 检验(用t 检验)。
SY X SS残 327219 .2962 165.1311 n2 14 2
SY X 165.1311 Sb 4.8810 l XX 1144 .5771
ˆ 值)。 量取值范围计算 Y
四、总体回归系数β的统计推断
H0: β= 0 即基础代谢与体重之间无线性回归关系 H1: β≠0 即基础代谢与体重之间有线性回归关系α=
0.05
(一) 方差分析
图12-5 回归前后因变量Y残差的示意图
2 2 2 ˆ ˆ ( Y Y ) ( Y Y ) ( Y Y )
差),尤其在识别离群点(outlier)方面,有着重要作
用。
•标准化残差(standardized residual)。
• 残差分析常通过标准化残差图(standardized residual
plot)来进行。若以因变量取值Y为横坐标,以标准化残差
为纵坐标,构成的散点图即是标准化残差图,见图12-7。 类似地,也可以自变量取值X为横坐标, 以标准化残差为纵 坐标作标准化残差图。
以直线连接两点即得回归直线。本例可取X1=37.1,
ˆ 3385 ˆ 得Y ;取 X =67.3 ,得 . 47 Y .36 。连接 2 1 2 5240
点即得本资料的回归直线。
注意:回归直线的适用范围一般以自变量的取值 范围为限,若无充分理由证明超过自变量的取值
范围还是直线,应该避免外延(即不要超过自变
非线性回归(nonlinear regression)
第一节
线性回归
1、线性回归的概念及其统计描述
引例: 在上一章中,对14名40~60岁的健康妇女的体 重(X)与基础代谢(Y)数据计算了相关系 数 r 0.964 ,定量地描述了变量X与Y间的线性
关联性。现在试用回归分析的方法,从预测的角 度来描述基础代谢(Y)如何依存体重(X)的变 化而变化的规律性。
第十二章
简单回归分析
郝元涛 2008.11.04
引言:
身高与体重存在相关(相关关系)
可否通过身高预测体重的平均水平?
新生儿的体重与体表面积存在相关
可否通过体重预测体表面积?(依存关系)
线性回归(linear regression),又称简单回归
(simple regression),
线性回归模型(linear regression model):
Y | X X
:截距(intercept)
β:斜率(slope),又称回归系数 (regression coefficient)
样本线性回归方程(regression equation) :
ˆ a bX Y
SY X 0.959 , =0.05, 9 2 7 ,查t界值表得单侧 t0.05,7 1.895。
本例要求溶解于100份水中的硝酸钠份数Y在80份以上,对
应于个体Y值的95%预测区间单侧下限值:
ˆ Y ˆ t Y X p t 0.05, SY X p 0.05 , S Y | X p 67.508 0.871 下限
(X
i 1 n i 1 n
b
i
X )(Yi Y )
2 ( X X ) i
(i 1,2,...,n)
a Y bX
例12-1 计算例11-1的基础代谢(Y)关于体重(X)
的线性回归方程。
b
(X
i 1 n i 1
n
i
X ቤተ መጻሕፍቲ ባይዱ(Yi Y )
i
(X
61.4229
1 1 n
( X p X )2 l XX
(12-17)
ˆ t Y p / 2,n 2 SY | X p
(12-18)
仍然以第一观测点数据(X1=50.7)为例,利用上例计
算结果,该点预测Y值的标准差为
SY | X1 SY X
1 ( X1 X )2 1 (50.7 55.5143 ) 2 1 165 .1311 1 172.5346 n l XX 14 1144 .5771
b 61.4229 tb 12.584 Sb 4.881
t 0.05 / 2,12 2.179
注意:对同一资料作总体回归系数β 是否为 零的假设检验,方差分析和t检验是等价的, 并且有 tb F 的关系。
上一章对总体相关系数 的假设检验计算出的
t r 等于这里的 t b ,这并不是巧合。当 Y与X两者都是
SYˆ SY X
p
1 n
( X p X )2 l XX
(12-15)
Y | X 的(1- )置信区间为
p
ˆ t Y ˆ p / 2, n 2 SY
(12-16)
p
SYˆ SY X
1
1 ( X1 X )2 1 (50.7 55.5143 ) 2 165 .1311 49.9991 n l XX 14 1144 .5771
2
取值在0到1之间,且无单位。它反映了回归贡献的相对 程度,即在因变量Y的总变异中回归关系所能解释的比例。
在实际应用中,通过用决定系数来反映回归的
实际效果。如例12-1,R 2 =0.930,说明40~60岁健康
妇女的体重信息大约可以解释自身基础代谢信息量
的93%,还有剩余的7%的信息则通过体重以外的其