简单线性相关和回归分析课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
22
( X X )(Y Y) =1750-
534 99.2 31
=41.20
X X 2 9876 5342 677.42 31
b
( X X )(Y Y )
(X
X
2
)
41.20 677 .42
0.061
23
Y 99.2
Y
3.2
n
31
X
534
X
17.23
n
31
a Y b X 3.2 0.061 17.23 2.15
20
二、回归方程的计算
在数理统计中,用最小二乘法的原理可求出
a、b的计算公式。求解a和b实际上就是怎
样”找到一条直线使所有数据点与它的平均
距离“最近”。
b
( X X )(Y Y )
2
(X X )
lxy lxx
a Y bX
21
表. 待产妇尿雌三醇含量与产儿体重
编号 (1)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
31 .610**
.000 31 1
Sig. (2-tailed) N
.000
31
31
**. Correlation is significant at the 0.01 level (2-tailed).
9
线性相关的应用
在确实存在相关关系的前提下,如果r的绝对值 越大,说明两个变量之间的关联程度越强;如果r 绝对值越小,则说明两个变量之间的关系越弱。
32
对于一元线性回归来说,方差分析与t 检验是完全等价的,且有关系式:
t F
33
利用SPSS实现直线回归:
SPSS操作步骤: Analyze --- Regression --- Linear
dependent: 因变量 independent: 自变量 method: 可选择 enter
forward backward stepwise 点击statistics: 出现若干统计选项可供选择 Continue OK
体重
肺活 量
1
.751**
肺活 量
Sig. (2-tailed) N Pearson Correlation
29 .751**
.000 29 1
Sig. (2-tailed) N
.000
29
29
**. Correlation is significant at the 0.01 level (2 -ta i l ed ).
SS总称为Y的总离均差平方和
SS回称为回归平方和
SS残称为残差平方和或剩余平方和
28
不考虑回归时,Y的总变异SS总全部视为随 机误差;而回归以后,回归的贡献使得随机 误差减小为SS剩。如果两变量间总体回归关 系确实存在,回归的贡献就应当大于随机误 差;大到何种程度时可以认为具有统计意义, 可计算如下的F统计量:
tb
b
sb
sb s lxx
s
(Y Yˆ)2
SS残
n2
n2
自由度=n-2
31
例1: H0:β=0 H1:β≠0 α=0.05
sb 0.015
tb 0.061 4.14 0.015
自由度=31-2=29,查t界值表,t0.05(29)=2.045, P<0.05,按=0.05检验水准,拒绝H0,接受 H1,认 为待产妇24小时尿中雌三醇含量与产儿体重之间存 在直线回归关系。
尿雌三醇 mg/24h (2)
7 9 9 12 14 16 16 14 16 16 17 19 21 24 15
产儿体重 kg
(3) 2.5 2.5 2.5 2.7 2.7 2.7 2.4 3.0 3.0 3.1 3.0 3.1 3.0 2.8 3.2
编号 (1)
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
.061
Std. Error .262 .015
a. Dep ende nt Vari able : 产 儿 体 重 (kg)
Stan d ard i ze d Co effi ci e nts
Beta
.610
t 8.214 4.143
Si g. .000 .000
38
四、直线回归的应用
1. 描述两变量之间的依存关系 通过回归系数的假设检验,若认为两变量之 间存在直线回归关系,则可用直线回归来 描述。
34
35
36
37
ANOVAb
M od e l
1
Re gre ssi o n
Sum of Squares
2.506
df
Mean Square
1
2.506
Re si du a l
4.234
29
.146
T o ta l
6.740
30
a. Pred ict ors: (Con stant), 尿 雌 三 醇 ( mg/24h)
b. Dep enden t Vari able: 产 儿 体 重 (kg)
F 17.162
Si g. .000a
Coefficientsa
Un stan d ard i ze d Co effi ci e nts
M od e l
1ห้องสมุดไป่ตู้
(Constant)
尿 雌 三 醇 ( mg/24h )
B 2.152
22
15
16
2.4
23
16
14
3.0
24
19
16
3.0
25
18
16
3.1
26
17
17
3.0
27
18
19
3.1
28
20
21
3.0
29
22
24
2.8
30
25
15
3.2
31
24
16
3.2
产儿体重 (kg) (3)
3.2 3.2 3.4 3.4
3.4 3.5 3.5 3.4 3.5 3.6 3.7 3.8 4.0 3.9 4.3
15
身高作为控制变量,肺活量与体重的偏相关系数
Correlations
Control Variables
身高
体重
肺活量
Co rre l a ti o n Significance (2-tailed) df Co rre l a ti o n Significance (2-tailed) df
体重 1.000 . 0 .569 .002 26
26
Y Y (Yˆ Y ) (Y Yˆ)
27
因变量Y的变异的分解
Y的分解: 移项: 考虑全部样本:
Y Y (Yˆ Y ) (Y Yˆ)
Y Y (Yˆ Y ) (Y Yˆ)
(Y Y )2 (Yˆ Y )2 (Y Yˆ)2
上式用符号表示: SS总 SS回 SS残
29
F SS回 /回 MS回 SS残 / 残 MS残
自由度分别是:ν回=1,ν残=n-2
MS回与MS残分别称为回归均方和残差均方。 求得F值后查F界值表得到P值,最后按所取水
准作出总体回归关系是否成立的推断结论。
30
(2)t检验:
H0:β=0 H1:β≠0 α=0.05
统计量t的计算公式为:
一般说来,当样本量较大(n>100),并对 r进行假设检验,有统计学意义时,r的绝对值大 于0.7,则表示两个变量高度相关;r的绝对值大 于0.4,小于等于0.7时,则表示两个变量之间中 度相关;r的绝对值小于等于0.4时,则两个变量 低度相关。
10
应用线性相关时要注意:
1.相关系数接近于零时并不意味着两变量一 定不相关,也可能存在非线性相关。
19
a称为截距(intercept),表示X取值为0时Y的 平均水平。
b称为回归系数(regression coefficient)或直 线的斜率(slope),表示X每变化一个单位时, Y平均改变b个单位。
b>0时,随X的增大而增大; b<0时,随X的增大而减小; b=0时,直线与X轴平行,Y与X无直线关系
6
7
8
SPSS输出结果:
Correlations
尿 雌 三 醇 ( mg/24h ) Pearson Correlation
尿雌 三醇 ( mg/24h )
1
产 儿 体 重 (kg) .610**
产 儿 体 重 (kg)
Sig. (2-tailed) N Pearson Correlation
^
Y a bX 2.15 0.061X
24
三、回归系数的假设检验
与直线相关一样,直线回归方程也是从样 本资料计算而得的,同样也存在抽样误差 问题。所以,需要对样本的回归系数b进行 假设检验,以判断b是否从回归系数为零的 总体中抽得。
总体的回归系数一般用β表示。
25
回归系数的检验方法有两种: (1) 方差分析 2)t检验 两种方法是等价的。
1. 意义 相关反映两变量的相互关系,即在两个变
量中,任何一个的变化都会引起另一个的 变化,是一种双向变化的关系。
回归是反映两个变量的依存关系,一个变 量的改变会引起另一个变量的变化,是一 种单向的关系。
45
2. 相关系数r与回归系数b r与b的绝对值反映的意义不同。
r的绝对值越大,散点图中的点越趋向于一 条直线,表明两变量的关系越密切,相关 程度越高。
肺活量 .569 .002 26
1.000 . 0
16
线性回归
17
第一节 简单直线回归
18
一、简单直线回归方程
简单直线回归(linear regression)是用来描述一 个变量依赖于另一个变量的线性关系。
Yˆ a bX
这里两变量的地位是不同的,其中X为自 变量,可随机变动亦可人为取值;而Y被 视为依赖于X而变化的因变量。
13
SPSS操作步骤:
Analyze-----Correlation-----Partial 把分析变量选入 Variable 框 把控制变量选入 Controlling for 框 Continue OK
14
体重与肺活量的简单相关系数
Correlations
体重
Pearson Correlation
尿雌三醇 mg/24h (2)
17 25 27 15 15 15 16 19 18 17 18 20 22 25 24
16
16
3.2
资料来源:Rosnser B: Fundamentals of Biostatistics P.364, Duxbury Press, 1982
产儿体重 kg
(3) 3.2 3.2 3.4 3.4 3.4 3.5 3.5 3.4 3.5 3.6 3.7 3.8 4.0 3.9 4.3
3
产 4.5 儿 体 重 4.0
3.5
3.0
2.5
2.0 0
10
20
30
雌三醇
产妇尿雌三醇含量与产儿出生体重的散点图
4
5
利用SPSS统计软件实现线性相关:
AnalyzeCorrelationBivariateBivaria te correlation 在弹出的对话框中同时选中待分析的 两个变量,在Correlation Coefficients项 目下选中“Pearson”即可。
简单线性相关
北京大学公共卫生学院 妇女与儿童青少年卫生学系
周虹
1
例: 一个产科医师发现孕妇尿中雌三醇 含量与产儿的体重有关。因此收集了31例 待产妇24小时的尿,测量其中的雌三醇含 量,同时记录产儿的体重,结果见下表。 问尿中雌三醇含量与产儿体重之间相关系 数是多少?是正相关还是负相关?
2
编号 (1)
42
3. 利用散点图 对于性质不明确的两组数据,可先做散点
图,在图上看它们有无关系、关系的密切 程度、是正相关还是负相关,然后再进行 相关回归分析。
43
4. 变量范围 相关分析和回归方程仅适用于样本的原
始数据范围之内,出了这个范围,我们不 能得出两变量的相关关系和回归关系。
44
(二)相关与回归的区别
1 2 3 4
5 6 7 8 9 10 11 12 13 14 15 16
表.待产妇尿雌三醇含量与产儿体重
尿雌三醇 (mg/24h)
(2)
产儿体重 (kg) (3)
编号 (1)
尿雌三醇 (mg/24h)
(2)
7
2.5
17
17
9
2.5
18
25
9
2.5
19
27
12
2.7
20
15
14
2.7
21
15
16
2.7
2. 利用回归方程进行预测 把自变量代入回归方程,对应变量进行估 计,并可求出应变量的波动范围。
39
五、应用直线相关与回归的注意事项
40
(一)注意事项
1.考虑实际意义 进行相关回归分析要有实际意义,不可把 毫无关系的两个事物或现象用来做相关回 归分析。
41
2. 相关关系 相关关系不一定是因果关系,也可能是伴 随关系,并不能证明事物间有内在联系。
2.观察值中存在异常值时要慎重处理。 3.统计学上存在相关并不一定表示两个指标
在专业上有内在联系。
11
偏相关分析
概念: 偏相关系数是用来衡量任何两个变 量之间的关系,而使与这两个变量 有联系的其它变量都保持不变。即 控制了其它一个或多个变量的影响 下,计算两个变量的相关性。
12
例题:
某地29名13岁男童身高X1(cm)、 体重X2(kg)和肺活量Y(ml)的数 据(见数据data1), 请用该资料计算体 重与肺活量的偏相关系数。
( X X )(Y Y) =1750-
534 99.2 31
=41.20
X X 2 9876 5342 677.42 31
b
( X X )(Y Y )
(X
X
2
)
41.20 677 .42
0.061
23
Y 99.2
Y
3.2
n
31
X
534
X
17.23
n
31
a Y b X 3.2 0.061 17.23 2.15
20
二、回归方程的计算
在数理统计中,用最小二乘法的原理可求出
a、b的计算公式。求解a和b实际上就是怎
样”找到一条直线使所有数据点与它的平均
距离“最近”。
b
( X X )(Y Y )
2
(X X )
lxy lxx
a Y bX
21
表. 待产妇尿雌三醇含量与产儿体重
编号 (1)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
31 .610**
.000 31 1
Sig. (2-tailed) N
.000
31
31
**. Correlation is significant at the 0.01 level (2-tailed).
9
线性相关的应用
在确实存在相关关系的前提下,如果r的绝对值 越大,说明两个变量之间的关联程度越强;如果r 绝对值越小,则说明两个变量之间的关系越弱。
32
对于一元线性回归来说,方差分析与t 检验是完全等价的,且有关系式:
t F
33
利用SPSS实现直线回归:
SPSS操作步骤: Analyze --- Regression --- Linear
dependent: 因变量 independent: 自变量 method: 可选择 enter
forward backward stepwise 点击statistics: 出现若干统计选项可供选择 Continue OK
体重
肺活 量
1
.751**
肺活 量
Sig. (2-tailed) N Pearson Correlation
29 .751**
.000 29 1
Sig. (2-tailed) N
.000
29
29
**. Correlation is significant at the 0.01 level (2 -ta i l ed ).
SS总称为Y的总离均差平方和
SS回称为回归平方和
SS残称为残差平方和或剩余平方和
28
不考虑回归时,Y的总变异SS总全部视为随 机误差;而回归以后,回归的贡献使得随机 误差减小为SS剩。如果两变量间总体回归关 系确实存在,回归的贡献就应当大于随机误 差;大到何种程度时可以认为具有统计意义, 可计算如下的F统计量:
tb
b
sb
sb s lxx
s
(Y Yˆ)2
SS残
n2
n2
自由度=n-2
31
例1: H0:β=0 H1:β≠0 α=0.05
sb 0.015
tb 0.061 4.14 0.015
自由度=31-2=29,查t界值表,t0.05(29)=2.045, P<0.05,按=0.05检验水准,拒绝H0,接受 H1,认 为待产妇24小时尿中雌三醇含量与产儿体重之间存 在直线回归关系。
尿雌三醇 mg/24h (2)
7 9 9 12 14 16 16 14 16 16 17 19 21 24 15
产儿体重 kg
(3) 2.5 2.5 2.5 2.7 2.7 2.7 2.4 3.0 3.0 3.1 3.0 3.1 3.0 2.8 3.2
编号 (1)
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
.061
Std. Error .262 .015
a. Dep ende nt Vari able : 产 儿 体 重 (kg)
Stan d ard i ze d Co effi ci e nts
Beta
.610
t 8.214 4.143
Si g. .000 .000
38
四、直线回归的应用
1. 描述两变量之间的依存关系 通过回归系数的假设检验,若认为两变量之 间存在直线回归关系,则可用直线回归来 描述。
34
35
36
37
ANOVAb
M od e l
1
Re gre ssi o n
Sum of Squares
2.506
df
Mean Square
1
2.506
Re si du a l
4.234
29
.146
T o ta l
6.740
30
a. Pred ict ors: (Con stant), 尿 雌 三 醇 ( mg/24h)
b. Dep enden t Vari able: 产 儿 体 重 (kg)
F 17.162
Si g. .000a
Coefficientsa
Un stan d ard i ze d Co effi ci e nts
M od e l
1ห้องสมุดไป่ตู้
(Constant)
尿 雌 三 醇 ( mg/24h )
B 2.152
22
15
16
2.4
23
16
14
3.0
24
19
16
3.0
25
18
16
3.1
26
17
17
3.0
27
18
19
3.1
28
20
21
3.0
29
22
24
2.8
30
25
15
3.2
31
24
16
3.2
产儿体重 (kg) (3)
3.2 3.2 3.4 3.4
3.4 3.5 3.5 3.4 3.5 3.6 3.7 3.8 4.0 3.9 4.3
15
身高作为控制变量,肺活量与体重的偏相关系数
Correlations
Control Variables
身高
体重
肺活量
Co rre l a ti o n Significance (2-tailed) df Co rre l a ti o n Significance (2-tailed) df
体重 1.000 . 0 .569 .002 26
26
Y Y (Yˆ Y ) (Y Yˆ)
27
因变量Y的变异的分解
Y的分解: 移项: 考虑全部样本:
Y Y (Yˆ Y ) (Y Yˆ)
Y Y (Yˆ Y ) (Y Yˆ)
(Y Y )2 (Yˆ Y )2 (Y Yˆ)2
上式用符号表示: SS总 SS回 SS残
29
F SS回 /回 MS回 SS残 / 残 MS残
自由度分别是:ν回=1,ν残=n-2
MS回与MS残分别称为回归均方和残差均方。 求得F值后查F界值表得到P值,最后按所取水
准作出总体回归关系是否成立的推断结论。
30
(2)t检验:
H0:β=0 H1:β≠0 α=0.05
统计量t的计算公式为:
一般说来,当样本量较大(n>100),并对 r进行假设检验,有统计学意义时,r的绝对值大 于0.7,则表示两个变量高度相关;r的绝对值大 于0.4,小于等于0.7时,则表示两个变量之间中 度相关;r的绝对值小于等于0.4时,则两个变量 低度相关。
10
应用线性相关时要注意:
1.相关系数接近于零时并不意味着两变量一 定不相关,也可能存在非线性相关。
19
a称为截距(intercept),表示X取值为0时Y的 平均水平。
b称为回归系数(regression coefficient)或直 线的斜率(slope),表示X每变化一个单位时, Y平均改变b个单位。
b>0时,随X的增大而增大; b<0时,随X的增大而减小; b=0时,直线与X轴平行,Y与X无直线关系
6
7
8
SPSS输出结果:
Correlations
尿 雌 三 醇 ( mg/24h ) Pearson Correlation
尿雌 三醇 ( mg/24h )
1
产 儿 体 重 (kg) .610**
产 儿 体 重 (kg)
Sig. (2-tailed) N Pearson Correlation
^
Y a bX 2.15 0.061X
24
三、回归系数的假设检验
与直线相关一样,直线回归方程也是从样 本资料计算而得的,同样也存在抽样误差 问题。所以,需要对样本的回归系数b进行 假设检验,以判断b是否从回归系数为零的 总体中抽得。
总体的回归系数一般用β表示。
25
回归系数的检验方法有两种: (1) 方差分析 2)t检验 两种方法是等价的。
1. 意义 相关反映两变量的相互关系,即在两个变
量中,任何一个的变化都会引起另一个的 变化,是一种双向变化的关系。
回归是反映两个变量的依存关系,一个变 量的改变会引起另一个变量的变化,是一 种单向的关系。
45
2. 相关系数r与回归系数b r与b的绝对值反映的意义不同。
r的绝对值越大,散点图中的点越趋向于一 条直线,表明两变量的关系越密切,相关 程度越高。
肺活量 .569 .002 26
1.000 . 0
16
线性回归
17
第一节 简单直线回归
18
一、简单直线回归方程
简单直线回归(linear regression)是用来描述一 个变量依赖于另一个变量的线性关系。
Yˆ a bX
这里两变量的地位是不同的,其中X为自 变量,可随机变动亦可人为取值;而Y被 视为依赖于X而变化的因变量。
13
SPSS操作步骤:
Analyze-----Correlation-----Partial 把分析变量选入 Variable 框 把控制变量选入 Controlling for 框 Continue OK
14
体重与肺活量的简单相关系数
Correlations
体重
Pearson Correlation
尿雌三醇 mg/24h (2)
17 25 27 15 15 15 16 19 18 17 18 20 22 25 24
16
16
3.2
资料来源:Rosnser B: Fundamentals of Biostatistics P.364, Duxbury Press, 1982
产儿体重 kg
(3) 3.2 3.2 3.4 3.4 3.4 3.5 3.5 3.4 3.5 3.6 3.7 3.8 4.0 3.9 4.3
3
产 4.5 儿 体 重 4.0
3.5
3.0
2.5
2.0 0
10
20
30
雌三醇
产妇尿雌三醇含量与产儿出生体重的散点图
4
5
利用SPSS统计软件实现线性相关:
AnalyzeCorrelationBivariateBivaria te correlation 在弹出的对话框中同时选中待分析的 两个变量,在Correlation Coefficients项 目下选中“Pearson”即可。
简单线性相关
北京大学公共卫生学院 妇女与儿童青少年卫生学系
周虹
1
例: 一个产科医师发现孕妇尿中雌三醇 含量与产儿的体重有关。因此收集了31例 待产妇24小时的尿,测量其中的雌三醇含 量,同时记录产儿的体重,结果见下表。 问尿中雌三醇含量与产儿体重之间相关系 数是多少?是正相关还是负相关?
2
编号 (1)
42
3. 利用散点图 对于性质不明确的两组数据,可先做散点
图,在图上看它们有无关系、关系的密切 程度、是正相关还是负相关,然后再进行 相关回归分析。
43
4. 变量范围 相关分析和回归方程仅适用于样本的原
始数据范围之内,出了这个范围,我们不 能得出两变量的相关关系和回归关系。
44
(二)相关与回归的区别
1 2 3 4
5 6 7 8 9 10 11 12 13 14 15 16
表.待产妇尿雌三醇含量与产儿体重
尿雌三醇 (mg/24h)
(2)
产儿体重 (kg) (3)
编号 (1)
尿雌三醇 (mg/24h)
(2)
7
2.5
17
17
9
2.5
18
25
9
2.5
19
27
12
2.7
20
15
14
2.7
21
15
16
2.7
2. 利用回归方程进行预测 把自变量代入回归方程,对应变量进行估 计,并可求出应变量的波动范围。
39
五、应用直线相关与回归的注意事项
40
(一)注意事项
1.考虑实际意义 进行相关回归分析要有实际意义,不可把 毫无关系的两个事物或现象用来做相关回 归分析。
41
2. 相关关系 相关关系不一定是因果关系,也可能是伴 随关系,并不能证明事物间有内在联系。
2.观察值中存在异常值时要慎重处理。 3.统计学上存在相关并不一定表示两个指标
在专业上有内在联系。
11
偏相关分析
概念: 偏相关系数是用来衡量任何两个变 量之间的关系,而使与这两个变量 有联系的其它变量都保持不变。即 控制了其它一个或多个变量的影响 下,计算两个变量的相关性。
12
例题:
某地29名13岁男童身高X1(cm)、 体重X2(kg)和肺活量Y(ml)的数 据(见数据data1), 请用该资料计算体 重与肺活量的偏相关系数。