【统计分析】简单线性回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
34 36 38 40 42 44 46 48 50 年龄
年龄与运动后最大心率的回归方程
X =41.8
Y 166.8
lXX 381.2 lYY 4477.2 lXY
1226.8
b lXY lXX
1226.8 381.2
3.218
a 166.8-(-3.218) 41.8 301.3124
Yˆ 301.3124 3.218X
2.研究目的不同:回归用来说明两变量数量上的依存 变化关系,相关说明变量间的相关关系。
小结
简单线性回归是研究两个变量间线性关系的数量表 达式。根据最小二乘法原则,计算回归方程。
进行简单线性回归分析需要满足线性、独立 、正 态 与等方差4个条件。
在简单线性回归分析中,对回归方程的检验等价于 对回归系数的假设检验,可通过方差分析或t检验 完成。
区别
1.资料要求不同:回归要求y服从正态分布,x是可以 精确测量和严格控制的变量,一般称为Ⅰ型回归; 相关要求两个变量服从双变量正态分布。这种资料 若进行回归分析称为Ⅱ回归,可计算两个方程。
I型回归:X是精确控制的; II型回归:X是随机的。 由X推算Y: Yˆ aY .X bY .X X 由Y推算X: Xˆ aX .Y bX .YY
n
(X X )2
Y 的容许区间估计 个体Y值的容许区间
给定 X 时 Y 的估计值是 Y 的均数 Y的一个估计。
给定X 时 Y 值的容许区间是 Y 值的可能范围。
Y 的100(1- )%容许限:
1 (X X )2
Y t ,n2 sY Y t ,n2 sY .X
1 n
(X X )2
小的。(最小二乘)
三、总体回归系数的假设检验
与直线相关一样,直线回归方程也是从样本资料 计算而得的,同样也存在着抽样误差问题。所以, 需要对样本的回归系数b进行假设检验,以判断b 是否从回归系数为零的总体中抽得。总体的回归
系数用β表示。
一般步骤
1. H0:β=0 回归方程无意义 H1:β≠0 回归方程有意义 α=0.05
案例
原文题目《高效毛细管电泳法测定血浆 中布比卡因的浓度》,采用毛细管电泳 法,于0.5ml空白血浆中分别加入0.05, 0.1,0.2,0.3,0.4,0.5μg的布比卡因 进行测定,原作者以样品峰的峰面积与 内标峰的峰面积之比(Y)对样品量(X) 进行相关分析,线性关系良好( r>0.99)
总 回 剩
剩余标准差
sYX
Y Yˆ 2 n2
(1) 扣除了X的影响后Y方面的变异; (2) 引进 回归方程后, Y方面的变异。
回归系数检验的基本思想
如果X与Y无线性回归关系,在SS回归和 SS剩余都是其他随机因素对Y的影响,由 此,MS回归≈MS剩余,总体回归系数 β=0,反之, β ≠ 0。所以用F检验对X 与Y之间有无回归关系进行检验。
b 的单位为 (Y的单位/X的单位)
b is the regression coefficient and the slope of the line 。
b>0,y increase with the
increase of X
Y
b<0 , y decrease with
the increase of X
Yˆ 的可信区间与Y的容许区间
可信区间是针对条件均数的,而容许区间是针对Y的取值范围 的。
X=46时,Yˆ 的可信区间为:149.7501~156.8187(次/分), 表示:年龄为46岁的男子,估计其运动后最大心率为 153.2844,95%可信区间为(149.7501,156.8187 )(次/分),
根据 t 分布原理估计:
tb
b0 sb
,
n2
b t ,n2 sb
-3.218±2.101×0.2777=-3.8014~-2.6346
Yˆ 的可信区间估计 总体回归线的95%置信带
样本
总体
Y的总平均
Y
给定X时Y的平均
Y
YHale Waihona Puke 根据 t 分布原理:(Y的条件均数)
1 (X X )2
Y t ,n2 s Y t ,n2 sY . X Y
但在实际生活当中,由于其它因素的干扰,许多双变量之 间的关系并不是严格的函数关系,不能用函数方程来准确
反映,为了区别于两变量间的函数方程,我们称这种关系
为回归关系,用直线方程来表示这种关系称为回归直线或
线性回归。
Y a bx
小插曲:为什么叫”回归“?
F. Galton
K.Pearson
二、回归参数的估计
b=0 , no linear
correlation between
two variables.
0
b>0 b=0 b<0 X
statistical significance of b :when X changed a unit , the Y changed b units on average.
公式
SS总
Y Y
2
Y
2
Y
n
2
SS回归
Y Y
2
blxy
lx2y lxx
SS剩余 SS总 SS回归
v总 n 1
v回归 1
v剩余 n 2
MS回归
SS回归 v回归
MS剩余
SS剩余 v剩余
F MS回归 MS剩余
H0:β=0 H1:β≠0 α=0.05
SS总 (Y Y )2 4477.2 SS回归 (Yˆ Y )2 39481591 SS剩余 SS总 SS回归 529.0409 F MS回归 SS回归 / v回归 134.3313
6.0
5.5
5.0
4.5 11 12 13 14 15 16
五、残差分析
线性回归的应用条件(LINE):
(1)线性(linear) (2)独立(independent) (3)给定X时,Y正态分布(normal) (4)等方差(equal variance)
可通过散点图、残差图等方法来判断数据是否满足 这些条件。
残差图
标准残差:(残差-均值)/标准差 以自变量(或因变量)为横坐标,标准残差为
纵坐标,构成的散点图称之为残差图。
运动后最大心率Y和回归残差图
残差图示意图
残差图示意图含义
以上给出几种以自变量取值为横坐标、以标准 化残差为纵坐标的残差图的常见类型。
在此残差图中: 情况(a)、情况(b)和情况(f)表示残
R2 取值在0到1之间,反映了回归贡献的相对程
度。
R2 SS回 SS总
决定系数除了作为回归拟合效果的概括统计量, 还可利用它对回归方程做假设检验。
F
R2 (1 R2 )
k (n 2)
MS回 MS剩
四、回归问题的区间估计
回归系数的可信区间估计
估计值
Y
的可信区间估计
个体Y值的容许区间估计
总体回归系数 的可信区间估计
引进回归以后的变异(剩余): (Y Y )2
(sum of squares about regression)
回归的贡献,回归平方和: (Y Y )2
(sum of squares due to regression)
Y的总变异分解
Y
Y
2
ˆ Y
Y 2
Y
ˆ Y
2
SS总 SS回 SS剩
给定X时,Y的估计值。
当 X X 时,Y Y
Yˆ Y 的意义
Yˆ Y 为残差:实测点到回归直线的纵向距离。
6.5
6.0
5.5
5.0
11
12
13
14
15
16
(Yˆ Y )2 的意义
残差平方和 (residual sum of squares). 综合表示点距直线的纵向距离。 在所有的直线中,回归直线的残差平方和是最
MS剩余 SS剩余 / v剩余
查F界值表,F0.05(1,18)=4.41,F> F0.05(1,18) ,P<0.05,拒绝H0
t检验法
tb
b0
sb
v n2
sb
Sy,x lxx
SS剩余 / v剩余
(X X )2
Sb是样本回归系数的标准误
H 0: =0, H 1: ≠0, =0.05。
Y a bx
式中的Y 是由自变量X推算应变量Y的估计值,a是回归直
线在Y 轴上的截距;b为样本的回归系数,即回归直线的斜 率,表示当X变动一个单位时,Y平均变动b个单位。 计算原理:最小二乘法,即保证各实测点到回归直线的纵 向距离的平方和最小,并使计算出的回归方程最能代表实 测数据所反映出的直线趋势。
4.注意线性回归模型的应用条件:LINE 5.建立回归方程后,须对回归系数进行假设检验。 6.使用回归方程估计时,在建立方程时的自变量
的取值范围内。
七、 线性相关和回归的 区别和联系
联系: 1.b和r符号一致 2.b和r的检验是等价的 3.用回归解释相关
tb tr F
r2 SS回 SS总
回归系数和回归方程的意义及性质
Yˆ a bX
b 的意义 a 的意义 Yˆ 的意义 Yˆ -Y 的意义
n Yˆi -Yi 2 的意义 i 1
b 的意义
斜率(slope)
Yˆ =301.3124 -3.218 X
年龄每增加 1 岁,其运动后最大心率
平均减少 3.218(次/分钟)
2. 选择合适的假设检验方法(方差分析或t检 验),计算统计量
3. 计算概率值P
4. 做出推论:统计学结论和专业结论
方差分析法
因变量总变异的分解
P
Y
(X,Y)
Y
(Y Y) (Y Y)
(Y Y)
Y
Y
X
Y的总变异分解
未引进回归时的总变异:
(Y Y )2
(sum of squares about the mean of Y)
差不满足等方差的条件; 情况(c)显示存在非线性关系; 情况(d)显示有点处于2倍标准差以外,
可能是离群值; 只有情况(e)显示残差呈随机分布,满足
回归条件。
六、线性回归分析的注意事项
1.进行相回归分析要有实际意义。 2.充分利用散点图。 3.在回归分析中要求因变量Y是随机变量,服从正态
分布,自变量X可以是随机变量也可以是给定的 变量。 4.自变量的选择: 因果中的因、容易测量的、变异小 的。
a 的意义
Yˆ a bX
a 截距(intercept, constant) X=0 时,Y的估计值 a的单位与Y值相同 当X可能取0时,a才有实际意义。
估计值 Yˆ 的意义
X=46时, Yˆ =153.2844, 即年龄为 46岁 的正常成年男性, 其平均运动后最 大心率估计值为 153.2844 (次/分钟);
非确定性关系:两变量在宏观上存在关系, 但并未精确到可以用函数关系来表达。
青少年身高与年龄的关系;
身高与体重的关系:标准体重(kg)=身高(cm)-105
药物浓度与反应率的关系;
一、线性回归的概念
当两个变量存在准确、严格的直线关系时,可以用 Y=a+bX,表示两者的函数关系。
其中X 为自变量(independent variable);Y是因变量 ( dependent variable )。
Y Yˆ 2=529.0409, sY.X
529.0409 5.4214 20 2
5.4214
sb
0.2777 381.2
3.218 tb 0.2777
11.588, v 18, P 0.001
年龄与运动后最大心率间存在回归关系。
决定系数 (coefficient of determination)
第十一章 简单线性回归
Linear regression
回归是设法找出变量间在数量上 的依存变化关系, 用函数表达式 表达出来,这个表达式称之为回 归方程。
两变量间的关系
确定性关系:两变量间的函数关系
圆的周长与半径的关系: C=2R
速度、时间与路程的关系:L=ST
X与Y的函数关系:
Y=a+bX
X=46时,Y的容许区间为:141.7543~164.8145 (次/分), 表示:年龄为46岁的男子, 估计有95%的人其运动后最大心 率在141.7543~164.8145 (次/分)之间。
可信区间与容许区间示意
(confidence band & tolerance band)
7.0
6.5
Y Yˆ 2 Y a bX 2
b ( X X )(Y Y ) lXY
(X X )2
l XX
a Y bX
心率
例11-1 某医师为了研究正常成年男性的运动 后最大心率与年龄的关系,测得20名正常成年男 性的有关数据,散点图如下。
200 190 180 170 160 150 140 130
给定X时,Y是正态分布、等方差示意图
给定X时,Y是正态分布、不等方差示意图
残差及残差分析
残差是指观察值Yi与预测值 Yˆi 之间的差值, 其表达式为:
ei Yi Yˆi
它反映了方程拟合数据优劣的信息。 残差分析(residual analysis)旨在通过残
差深入了解数据与方程之间的关系,评价 实际资料是否符合回归方程的假设,识别 离群值等。
年龄与运动后最大心率的回归方程
X =41.8
Y 166.8
lXX 381.2 lYY 4477.2 lXY
1226.8
b lXY lXX
1226.8 381.2
3.218
a 166.8-(-3.218) 41.8 301.3124
Yˆ 301.3124 3.218X
2.研究目的不同:回归用来说明两变量数量上的依存 变化关系,相关说明变量间的相关关系。
小结
简单线性回归是研究两个变量间线性关系的数量表 达式。根据最小二乘法原则,计算回归方程。
进行简单线性回归分析需要满足线性、独立 、正 态 与等方差4个条件。
在简单线性回归分析中,对回归方程的检验等价于 对回归系数的假设检验,可通过方差分析或t检验 完成。
区别
1.资料要求不同:回归要求y服从正态分布,x是可以 精确测量和严格控制的变量,一般称为Ⅰ型回归; 相关要求两个变量服从双变量正态分布。这种资料 若进行回归分析称为Ⅱ回归,可计算两个方程。
I型回归:X是精确控制的; II型回归:X是随机的。 由X推算Y: Yˆ aY .X bY .X X 由Y推算X: Xˆ aX .Y bX .YY
n
(X X )2
Y 的容许区间估计 个体Y值的容许区间
给定 X 时 Y 的估计值是 Y 的均数 Y的一个估计。
给定X 时 Y 值的容许区间是 Y 值的可能范围。
Y 的100(1- )%容许限:
1 (X X )2
Y t ,n2 sY Y t ,n2 sY .X
1 n
(X X )2
小的。(最小二乘)
三、总体回归系数的假设检验
与直线相关一样,直线回归方程也是从样本资料 计算而得的,同样也存在着抽样误差问题。所以, 需要对样本的回归系数b进行假设检验,以判断b 是否从回归系数为零的总体中抽得。总体的回归
系数用β表示。
一般步骤
1. H0:β=0 回归方程无意义 H1:β≠0 回归方程有意义 α=0.05
案例
原文题目《高效毛细管电泳法测定血浆 中布比卡因的浓度》,采用毛细管电泳 法,于0.5ml空白血浆中分别加入0.05, 0.1,0.2,0.3,0.4,0.5μg的布比卡因 进行测定,原作者以样品峰的峰面积与 内标峰的峰面积之比(Y)对样品量(X) 进行相关分析,线性关系良好( r>0.99)
总 回 剩
剩余标准差
sYX
Y Yˆ 2 n2
(1) 扣除了X的影响后Y方面的变异; (2) 引进 回归方程后, Y方面的变异。
回归系数检验的基本思想
如果X与Y无线性回归关系,在SS回归和 SS剩余都是其他随机因素对Y的影响,由 此,MS回归≈MS剩余,总体回归系数 β=0,反之, β ≠ 0。所以用F检验对X 与Y之间有无回归关系进行检验。
b 的单位为 (Y的单位/X的单位)
b is the regression coefficient and the slope of the line 。
b>0,y increase with the
increase of X
Y
b<0 , y decrease with
the increase of X
Yˆ 的可信区间与Y的容许区间
可信区间是针对条件均数的,而容许区间是针对Y的取值范围 的。
X=46时,Yˆ 的可信区间为:149.7501~156.8187(次/分), 表示:年龄为46岁的男子,估计其运动后最大心率为 153.2844,95%可信区间为(149.7501,156.8187 )(次/分),
根据 t 分布原理估计:
tb
b0 sb
,
n2
b t ,n2 sb
-3.218±2.101×0.2777=-3.8014~-2.6346
Yˆ 的可信区间估计 总体回归线的95%置信带
样本
总体
Y的总平均
Y
给定X时Y的平均
Y
YHale Waihona Puke 根据 t 分布原理:(Y的条件均数)
1 (X X )2
Y t ,n2 s Y t ,n2 sY . X Y
但在实际生活当中,由于其它因素的干扰,许多双变量之 间的关系并不是严格的函数关系,不能用函数方程来准确
反映,为了区别于两变量间的函数方程,我们称这种关系
为回归关系,用直线方程来表示这种关系称为回归直线或
线性回归。
Y a bx
小插曲:为什么叫”回归“?
F. Galton
K.Pearson
二、回归参数的估计
b=0 , no linear
correlation between
two variables.
0
b>0 b=0 b<0 X
statistical significance of b :when X changed a unit , the Y changed b units on average.
公式
SS总
Y Y
2
Y
2
Y
n
2
SS回归
Y Y
2
blxy
lx2y lxx
SS剩余 SS总 SS回归
v总 n 1
v回归 1
v剩余 n 2
MS回归
SS回归 v回归
MS剩余
SS剩余 v剩余
F MS回归 MS剩余
H0:β=0 H1:β≠0 α=0.05
SS总 (Y Y )2 4477.2 SS回归 (Yˆ Y )2 39481591 SS剩余 SS总 SS回归 529.0409 F MS回归 SS回归 / v回归 134.3313
6.0
5.5
5.0
4.5 11 12 13 14 15 16
五、残差分析
线性回归的应用条件(LINE):
(1)线性(linear) (2)独立(independent) (3)给定X时,Y正态分布(normal) (4)等方差(equal variance)
可通过散点图、残差图等方法来判断数据是否满足 这些条件。
残差图
标准残差:(残差-均值)/标准差 以自变量(或因变量)为横坐标,标准残差为
纵坐标,构成的散点图称之为残差图。
运动后最大心率Y和回归残差图
残差图示意图
残差图示意图含义
以上给出几种以自变量取值为横坐标、以标准 化残差为纵坐标的残差图的常见类型。
在此残差图中: 情况(a)、情况(b)和情况(f)表示残
R2 取值在0到1之间,反映了回归贡献的相对程
度。
R2 SS回 SS总
决定系数除了作为回归拟合效果的概括统计量, 还可利用它对回归方程做假设检验。
F
R2 (1 R2 )
k (n 2)
MS回 MS剩
四、回归问题的区间估计
回归系数的可信区间估计
估计值
Y
的可信区间估计
个体Y值的容许区间估计
总体回归系数 的可信区间估计
引进回归以后的变异(剩余): (Y Y )2
(sum of squares about regression)
回归的贡献,回归平方和: (Y Y )2
(sum of squares due to regression)
Y的总变异分解
Y
Y
2
ˆ Y
Y 2
Y
ˆ Y
2
SS总 SS回 SS剩
给定X时,Y的估计值。
当 X X 时,Y Y
Yˆ Y 的意义
Yˆ Y 为残差:实测点到回归直线的纵向距离。
6.5
6.0
5.5
5.0
11
12
13
14
15
16
(Yˆ Y )2 的意义
残差平方和 (residual sum of squares). 综合表示点距直线的纵向距离。 在所有的直线中,回归直线的残差平方和是最
MS剩余 SS剩余 / v剩余
查F界值表,F0.05(1,18)=4.41,F> F0.05(1,18) ,P<0.05,拒绝H0
t检验法
tb
b0
sb
v n2
sb
Sy,x lxx
SS剩余 / v剩余
(X X )2
Sb是样本回归系数的标准误
H 0: =0, H 1: ≠0, =0.05。
Y a bx
式中的Y 是由自变量X推算应变量Y的估计值,a是回归直
线在Y 轴上的截距;b为样本的回归系数,即回归直线的斜 率,表示当X变动一个单位时,Y平均变动b个单位。 计算原理:最小二乘法,即保证各实测点到回归直线的纵 向距离的平方和最小,并使计算出的回归方程最能代表实 测数据所反映出的直线趋势。
4.注意线性回归模型的应用条件:LINE 5.建立回归方程后,须对回归系数进行假设检验。 6.使用回归方程估计时,在建立方程时的自变量
的取值范围内。
七、 线性相关和回归的 区别和联系
联系: 1.b和r符号一致 2.b和r的检验是等价的 3.用回归解释相关
tb tr F
r2 SS回 SS总
回归系数和回归方程的意义及性质
Yˆ a bX
b 的意义 a 的意义 Yˆ 的意义 Yˆ -Y 的意义
n Yˆi -Yi 2 的意义 i 1
b 的意义
斜率(slope)
Yˆ =301.3124 -3.218 X
年龄每增加 1 岁,其运动后最大心率
平均减少 3.218(次/分钟)
2. 选择合适的假设检验方法(方差分析或t检 验),计算统计量
3. 计算概率值P
4. 做出推论:统计学结论和专业结论
方差分析法
因变量总变异的分解
P
Y
(X,Y)
Y
(Y Y) (Y Y)
(Y Y)
Y
Y
X
Y的总变异分解
未引进回归时的总变异:
(Y Y )2
(sum of squares about the mean of Y)
差不满足等方差的条件; 情况(c)显示存在非线性关系; 情况(d)显示有点处于2倍标准差以外,
可能是离群值; 只有情况(e)显示残差呈随机分布,满足
回归条件。
六、线性回归分析的注意事项
1.进行相回归分析要有实际意义。 2.充分利用散点图。 3.在回归分析中要求因变量Y是随机变量,服从正态
分布,自变量X可以是随机变量也可以是给定的 变量。 4.自变量的选择: 因果中的因、容易测量的、变异小 的。
a 的意义
Yˆ a bX
a 截距(intercept, constant) X=0 时,Y的估计值 a的单位与Y值相同 当X可能取0时,a才有实际意义。
估计值 Yˆ 的意义
X=46时, Yˆ =153.2844, 即年龄为 46岁 的正常成年男性, 其平均运动后最 大心率估计值为 153.2844 (次/分钟);
非确定性关系:两变量在宏观上存在关系, 但并未精确到可以用函数关系来表达。
青少年身高与年龄的关系;
身高与体重的关系:标准体重(kg)=身高(cm)-105
药物浓度与反应率的关系;
一、线性回归的概念
当两个变量存在准确、严格的直线关系时,可以用 Y=a+bX,表示两者的函数关系。
其中X 为自变量(independent variable);Y是因变量 ( dependent variable )。
Y Yˆ 2=529.0409, sY.X
529.0409 5.4214 20 2
5.4214
sb
0.2777 381.2
3.218 tb 0.2777
11.588, v 18, P 0.001
年龄与运动后最大心率间存在回归关系。
决定系数 (coefficient of determination)
第十一章 简单线性回归
Linear regression
回归是设法找出变量间在数量上 的依存变化关系, 用函数表达式 表达出来,这个表达式称之为回 归方程。
两变量间的关系
确定性关系:两变量间的函数关系
圆的周长与半径的关系: C=2R
速度、时间与路程的关系:L=ST
X与Y的函数关系:
Y=a+bX
X=46时,Y的容许区间为:141.7543~164.8145 (次/分), 表示:年龄为46岁的男子, 估计有95%的人其运动后最大心 率在141.7543~164.8145 (次/分)之间。
可信区间与容许区间示意
(confidence band & tolerance band)
7.0
6.5
Y Yˆ 2 Y a bX 2
b ( X X )(Y Y ) lXY
(X X )2
l XX
a Y bX
心率
例11-1 某医师为了研究正常成年男性的运动 后最大心率与年龄的关系,测得20名正常成年男 性的有关数据,散点图如下。
200 190 180 170 160 150 140 130
给定X时,Y是正态分布、等方差示意图
给定X时,Y是正态分布、不等方差示意图
残差及残差分析
残差是指观察值Yi与预测值 Yˆi 之间的差值, 其表达式为:
ei Yi Yˆi
它反映了方程拟合数据优劣的信息。 残差分析(residual analysis)旨在通过残
差深入了解数据与方程之间的关系,评价 实际资料是否符合回归方程的假设,识别 离群值等。