直线相关和直线回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自变量
欲用容易测定的 体重来预测和估 计心脏横径
应变量
(independent variable) x (dependent variable) y
呈非 xx ,, yy 呈
两种关系
函数关系——函数方程:
确定性关系 确定性关系
y a bx
ˆ a bx 回归关系——回归方程: Y
直线相关与回归的区别与联系
直线相关与回归的应用
直线相关 (linear correlation)
一、直线相关的概念
又称简单相关或Pearson相关分析,用于 研究两个数值变量间是否存在线性相关关系 统计分析方法。
二、相关的类型
两种事物或现象之间的相关关系 基本上有下列四种情况:
正相关 负相关
ˆ a bX Y
点估计值)
Yˆ
a、b是 决定直 线的两 个系数
: 为Y 的估计值,读作‘Y hat’
ˆ 值 a : 为截距,即 x 0 时的 Y
b : 为样本回归系数 (直线的斜率);其
统计学意义是 X 每增加 ( 减 ) 一个
单位Y 平均改变 b 个单位
a 为截距,即 x=0 时的 y 值
9 8.5 8 7.5 7 15 20 体重(Kg) 25 30
13名8岁正常男童体重与心脏横径散点图
二、直线回归的应用条件
要求 Y 变量呈正态分布, X 变量可 以是精确测量和控制的变量。
三、直线回归方程式及回归系数
即X 取某一定数值 时相应Y 的样本均 直线回归方程的一般表达式为: 数(也是相应Y的
体重的增加,胸围也在增加,假如体重增加
2Kg,那么胸围增加多少cm?
直线回归 (linear regression)
一、直线回归的概念
直线回归是分析两变量间线性依存变化 的数量关系。 又称简单回归,用于研究两个数值变 量间的依存关系,从而预测或控制未知变 量的一种统计分析方法。
例子
两种变量
低度相关 中度相关 高度相关
r 0.4
0.4 r 0.7
r 0.7
例:
现有两个样本:r1 = 0.612 ,ν1 = 7 ;
r2 =0.435, ν2 = 50 。不能根据r1> r2 就说
r1比 r2相关更密切。因为查相关系数界值
表 ,样本1得 P > 0.05, 样本2得P < 0.01 按
l xx X
2
( X ) n
2
l yy Y
2
( Y ) n
n
2
l xy XY
( X )( Y )
r
l xy l xx l yy
( X )( Y ) XY n 2 2 ( X ) ( Y ) 2 2 X n Y n
366 926.6 21332.38 16 r 0.8343 366 2 926.6 2 8548.30 16 53813.56 16
r=0 非线性相关
r=0 非线性相关
反映两变量间的相关关系的统计方法可用
相关图和相关系数两种方法表示
三、直线相关的应用条件
要求两个变量均呈正态分布(双变量正态分布 )
四、相关系数(correlation coefficient)及其意义
又称积差相关系数或Pearson相关系数,说 明具有直线关系的两个变量间相关关系的密切 程度与相关方向的指标。
a y b x 8.95 0.2041 23.10 4.2121
l xy
ˆ 4.2121 0.2041x y
五、回归系数的统计推断
回归系数的假设检验
总体回归系数β 的估计
回归系数的假设检验
假设检验方法: t 检验 方差分析
r 检验代替
t 检验
= 0.05
b =0.2041, n =13, Sb =0.03098 代入公式:
b 0.2041 tb 6.59 sb 0.03098
13 2 11
查 t 值表, t 0.05/2(11)= 2.201, tb=6.59>2.201,则P<0.05, 按 =0.05水准拒绝 H0 ,接受H1 ,可认为该地8岁男孩体重 与心脏横径间直线关系存在,所求线性回归方程成立。
检验水准α = 0.05, 前者可认为无相关而后
者有相关,可见正确推断有无相关必须经过假
设检验。
六、相关分析中应用注意的问题
不能把毫无关联的两种现象作直线相关分析
资料要求两变量 x 、y 都应是来自正态分布总体 应绘制散点图,当观察点的分布有直线趋势 时,才适宜作直线相关分析。 不能只根据r 的绝对值的大小来判断相关的密切程度
25
27.5
30
体重(Kg)
2000年某地16名7岁男孩体重与胸围散点图
计算相关系数
公式
r
( X X )(Y Y ) ( X X ) (Y Y )
2
2
l XY l XX lYY
其中:
x, y
为x ,y 的均数
l xx 为X 的离均差平方和 l yy 为Y 的离均差平方和 l xy 为X和Y 的离均差积和
r 的计算结果说明了两个变量X与Y 之间关联的
密切程度(绝对值大小)与关联的性质(正负号)
问题?
从以上计算结果我们能否得出结论: 该地7岁男孩体重与胸围之间呈正相关 系,相关系数是0.8343。为什么?
本例中的相关系数r =0.8343,说明了16例7 岁男孩体重与胸围之间存在相关关系。但是,这 16例只是总体中的一个样本,由此得到的相关系 数会存在抽样误差。因为,当总体相关系数() 为零时,由于抽样误差,从总体抽出的16例,其 r 可能不等于零。
相关关系示意:
0 < r <1
-1 < r <0
0<r<1
-1 < r < 0
正相关
负相关
相关关系示意:
无关(零相关): 若变量
x 无论增加或减少,变量 y 不受
到影响;
r=0 零相关
r=0 零相关
r=0 零相关
相关关系示意:
非线性相关: 变量 x 与 y 的增减在坐标上排列不呈直线 性分布如弧形、抛物线形、S形等
双变量关联性分析
概述
变量间关系问题
年龄~身高、年龄~血压、体温~脉膊、 肺活量~体重、药物剂量~疗效等。
两个关系
依存关系:一变量随另一变量变化而变化 —— 回归分析 互依关系:两变量间的彼此关系
—— 相关分析
直线相关与回归
主要内容
直线相关与回归的概念 直线回归方程的建立 相关系数与回归系数的假设检验
无关(零相关)
非线性相关
相关性质可由散点图直观的说明 正相关:一种现象的数值伴随另一种现象的数值的 增加而递增,
若X 、Y呈正比,那么散点基本上在一直线
上,称为完全正相关; 负相关: 一种现象的数值伴随另一种现象的数值的增 加而递减,
若X、Y呈反比,那么散点基本上在一直线
上,称为完全负相关;
若 r 很小, 即使 t 检验有统计学意义 , 但专业上
意义不大。 相关关系可能是因果关系, 也可能是伴随关系 相关分析主要为进一步的研究提供线索。
问题?
在上例中我们讨论了7岁男孩体重与胸围 之间的关系,知道了二者之间成正相关。
如果我们知道了一位7岁男孩体重,能推断出
其胸围吗?或其胸围可能在什么范围内?
H0 : = 0 ,即7岁男孩体重和胸围间无直线相关关系 H1 : ≠0 ,即7岁男孩体重和胸围间有直线相关关系
= 0.05
r = 0.8343, n =16, 代入公式:
tr r 1 r 2 n2 0.8343 1 (0.8343) 2 16 2 5.6623
16 2 14
t b0 Sb
Sb
SY . X l XX
SY . X
2 ˆ SS残 (n 2
其中: Sb 为回归系数 b 的标准误 SY.X 为剩余标准差,反映扣除了X 的影响后Y 的变异
a、b 是根据最小二乘法原理(各实测点至
直线的纵向距离的平方和最小 )求得
两种关系
确定性关系(函数关系):两变量的取值完全一
一对应 如:y =2 r
非确定性的关系(回归关系):两变量的取值
并非完全一一对应,而是具有随机性的一种“趋 势” 如:年龄~身高、年龄~血压、体温~脉膊等
直线回归是分析两变量间线性依存变化 的数量的关系。
10 9.5
心脏横径(cm)
r=-1 完全负相关
r=0 零相关
r=0 零相关
r=0 零相关
五、直线相关分析的基本步骤
绘制散点图 计算相关系数
r
目的:① 初步了解两个变量 间有无直线关系 ② 有无可疑的异常点
( X X )(Y Y ) ( X X ) (Y Y )
2
2
l XY l XX lYY
查 t 值表, t 0.05/2(14)= 2.145, tr =5.6623>2.145,则P<0.05, 按 =0.05水准拒绝H0,接受H1,差异有统计学意义,可认为 体重和胸围之间有正相关关系。
查表法
r =0.8343, ν=16-2=14,查r 界值表r0.05(14)=0.497
总体相关系数的假设检验
目的:检验 r 是否来自总体相关系数为零 的总体 (即ρ=0)
r≠0的两种可能 ① X、Y 间确实有相关关系(ρ≠0)
② 抽样误差的影响 (ρ=0)
方法:
tr 检验
r 0 t Sr
r 的标准误
r 1 r n2
2
n2
r 检验:
r 界值表
例 tr 检验步骤
(a=0)
250 200
(a>0)
150 100 50 0 0 50 100 150
(a<0)
a
b为回归系数,即 直线的斜率
250 200 150 100 50 0 0 50 100
1个单位
( b> 0 ) ( b<0 )
b个单位
X每增加(减)一 个单位,Y平均
改变b个单位
( b=0 )
b=0时X与Y 无直线关系
相关系数的假设检验
t-test , r-test
例
表 编号 体重
(Kg) 1
2000年某地16名7岁男孩体重与胸围资料
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
24.5 27.0 23.5 28.5 23.0 26.7 26.8 24.6 24.8 19.7 19.5 17.2 20.0 19.0 20.2 21.0
r 表示样本相关系数,ρ表示总体相关系数。
相关系数 (r)
意义:描述两个变量直线相关的方向与密切
程度的指标。
表示方法: -1≤ r ≤ 1
(无单位)
r 值为正 —— 正相关 r 值为负 —— 负相关 | r |=1 —— 完全相关 | r |=0 —— 零相关
相关关系示意:
r=1 完全正相关
胸围
(cm)
61.0 62.0 60.0 64.0 59.3 58.4 58.6 58.7 58.5 56.0 55.6 54.5 53.0 52.0 58.0 57.0
绘制散点图:初步了解两个变量间的相关关系
65 62.5
胸围(cm)
60 57.5 55 52.5 50
15
17.5
20
22.5
r =0.8343>0.497, P<0.05,按 = 0.05水准
拒绝H0 ,接受H1 ,差异有统计学意义,可认为该 地男孩体重和胸围之间有正相关关系。
相关关系密切程度的判断
一般说来,当样本量较大(n>100),并对r 进行假设检验,有统计学意义时(即 P ) , r 绝对值越大,说明两个变量之间关联程度越强。
10 9.5
心脏横径(cm)
P1
●
ˆ 4.2121 0.204 x y
ˆ y y
● ●
9 8.5
●
ˆ (残差) y y
P2
8 7.5 7 15 20
●
25 体重(Kg)
30
13名8岁正常男童体重与心脏横径散点图
例 tb 检验步骤
H0 : β= 0 ,即体重和心脏横径间无直线回归关系 H1 : β≠0 ,即体重和心脏横径间有直线回归关系
150
回归系数 b 和截距 a 的计算
根据最小二乘法原理(该法原理可保证各实 测点至直线的纵向距离的平方和最小)可导出:
( X X )(Y Y ) l XY b 2 l XX ( X X )
其中: l XY 为X 和 Y 的离均差积和 l XX 为X 的离均差平方和
例
16.3846 b 0.2041 l xx 80.2692
欲用容易测定的 体重来预测和估 计心脏横径
应变量
(independent variable) x (dependent variable) y
呈非 xx ,, yy 呈
两种关系
函数关系——函数方程:
确定性关系 确定性关系
y a bx
ˆ a bx 回归关系——回归方程: Y
直线相关与回归的区别与联系
直线相关与回归的应用
直线相关 (linear correlation)
一、直线相关的概念
又称简单相关或Pearson相关分析,用于 研究两个数值变量间是否存在线性相关关系 统计分析方法。
二、相关的类型
两种事物或现象之间的相关关系 基本上有下列四种情况:
正相关 负相关
ˆ a bX Y
点估计值)
Yˆ
a、b是 决定直 线的两 个系数
: 为Y 的估计值,读作‘Y hat’
ˆ 值 a : 为截距,即 x 0 时的 Y
b : 为样本回归系数 (直线的斜率);其
统计学意义是 X 每增加 ( 减 ) 一个
单位Y 平均改变 b 个单位
a 为截距,即 x=0 时的 y 值
9 8.5 8 7.5 7 15 20 体重(Kg) 25 30
13名8岁正常男童体重与心脏横径散点图
二、直线回归的应用条件
要求 Y 变量呈正态分布, X 变量可 以是精确测量和控制的变量。
三、直线回归方程式及回归系数
即X 取某一定数值 时相应Y 的样本均 直线回归方程的一般表达式为: 数(也是相应Y的
体重的增加,胸围也在增加,假如体重增加
2Kg,那么胸围增加多少cm?
直线回归 (linear regression)
一、直线回归的概念
直线回归是分析两变量间线性依存变化 的数量关系。 又称简单回归,用于研究两个数值变 量间的依存关系,从而预测或控制未知变 量的一种统计分析方法。
例子
两种变量
低度相关 中度相关 高度相关
r 0.4
0.4 r 0.7
r 0.7
例:
现有两个样本:r1 = 0.612 ,ν1 = 7 ;
r2 =0.435, ν2 = 50 。不能根据r1> r2 就说
r1比 r2相关更密切。因为查相关系数界值
表 ,样本1得 P > 0.05, 样本2得P < 0.01 按
l xx X
2
( X ) n
2
l yy Y
2
( Y ) n
n
2
l xy XY
( X )( Y )
r
l xy l xx l yy
( X )( Y ) XY n 2 2 ( X ) ( Y ) 2 2 X n Y n
366 926.6 21332.38 16 r 0.8343 366 2 926.6 2 8548.30 16 53813.56 16
r=0 非线性相关
r=0 非线性相关
反映两变量间的相关关系的统计方法可用
相关图和相关系数两种方法表示
三、直线相关的应用条件
要求两个变量均呈正态分布(双变量正态分布 )
四、相关系数(correlation coefficient)及其意义
又称积差相关系数或Pearson相关系数,说 明具有直线关系的两个变量间相关关系的密切 程度与相关方向的指标。
a y b x 8.95 0.2041 23.10 4.2121
l xy
ˆ 4.2121 0.2041x y
五、回归系数的统计推断
回归系数的假设检验
总体回归系数β 的估计
回归系数的假设检验
假设检验方法: t 检验 方差分析
r 检验代替
t 检验
= 0.05
b =0.2041, n =13, Sb =0.03098 代入公式:
b 0.2041 tb 6.59 sb 0.03098
13 2 11
查 t 值表, t 0.05/2(11)= 2.201, tb=6.59>2.201,则P<0.05, 按 =0.05水准拒绝 H0 ,接受H1 ,可认为该地8岁男孩体重 与心脏横径间直线关系存在,所求线性回归方程成立。
检验水准α = 0.05, 前者可认为无相关而后
者有相关,可见正确推断有无相关必须经过假
设检验。
六、相关分析中应用注意的问题
不能把毫无关联的两种现象作直线相关分析
资料要求两变量 x 、y 都应是来自正态分布总体 应绘制散点图,当观察点的分布有直线趋势 时,才适宜作直线相关分析。 不能只根据r 的绝对值的大小来判断相关的密切程度
25
27.5
30
体重(Kg)
2000年某地16名7岁男孩体重与胸围散点图
计算相关系数
公式
r
( X X )(Y Y ) ( X X ) (Y Y )
2
2
l XY l XX lYY
其中:
x, y
为x ,y 的均数
l xx 为X 的离均差平方和 l yy 为Y 的离均差平方和 l xy 为X和Y 的离均差积和
r 的计算结果说明了两个变量X与Y 之间关联的
密切程度(绝对值大小)与关联的性质(正负号)
问题?
从以上计算结果我们能否得出结论: 该地7岁男孩体重与胸围之间呈正相关 系,相关系数是0.8343。为什么?
本例中的相关系数r =0.8343,说明了16例7 岁男孩体重与胸围之间存在相关关系。但是,这 16例只是总体中的一个样本,由此得到的相关系 数会存在抽样误差。因为,当总体相关系数() 为零时,由于抽样误差,从总体抽出的16例,其 r 可能不等于零。
相关关系示意:
0 < r <1
-1 < r <0
0<r<1
-1 < r < 0
正相关
负相关
相关关系示意:
无关(零相关): 若变量
x 无论增加或减少,变量 y 不受
到影响;
r=0 零相关
r=0 零相关
r=0 零相关
相关关系示意:
非线性相关: 变量 x 与 y 的增减在坐标上排列不呈直线 性分布如弧形、抛物线形、S形等
双变量关联性分析
概述
变量间关系问题
年龄~身高、年龄~血压、体温~脉膊、 肺活量~体重、药物剂量~疗效等。
两个关系
依存关系:一变量随另一变量变化而变化 —— 回归分析 互依关系:两变量间的彼此关系
—— 相关分析
直线相关与回归
主要内容
直线相关与回归的概念 直线回归方程的建立 相关系数与回归系数的假设检验
无关(零相关)
非线性相关
相关性质可由散点图直观的说明 正相关:一种现象的数值伴随另一种现象的数值的 增加而递增,
若X 、Y呈正比,那么散点基本上在一直线
上,称为完全正相关; 负相关: 一种现象的数值伴随另一种现象的数值的增 加而递减,
若X、Y呈反比,那么散点基本上在一直线
上,称为完全负相关;
若 r 很小, 即使 t 检验有统计学意义 , 但专业上
意义不大。 相关关系可能是因果关系, 也可能是伴随关系 相关分析主要为进一步的研究提供线索。
问题?
在上例中我们讨论了7岁男孩体重与胸围 之间的关系,知道了二者之间成正相关。
如果我们知道了一位7岁男孩体重,能推断出
其胸围吗?或其胸围可能在什么范围内?
H0 : = 0 ,即7岁男孩体重和胸围间无直线相关关系 H1 : ≠0 ,即7岁男孩体重和胸围间有直线相关关系
= 0.05
r = 0.8343, n =16, 代入公式:
tr r 1 r 2 n2 0.8343 1 (0.8343) 2 16 2 5.6623
16 2 14
t b0 Sb
Sb
SY . X l XX
SY . X
2 ˆ SS残 (n 2
其中: Sb 为回归系数 b 的标准误 SY.X 为剩余标准差,反映扣除了X 的影响后Y 的变异
a、b 是根据最小二乘法原理(各实测点至
直线的纵向距离的平方和最小 )求得
两种关系
确定性关系(函数关系):两变量的取值完全一
一对应 如:y =2 r
非确定性的关系(回归关系):两变量的取值
并非完全一一对应,而是具有随机性的一种“趋 势” 如:年龄~身高、年龄~血压、体温~脉膊等
直线回归是分析两变量间线性依存变化 的数量的关系。
10 9.5
心脏横径(cm)
r=-1 完全负相关
r=0 零相关
r=0 零相关
r=0 零相关
五、直线相关分析的基本步骤
绘制散点图 计算相关系数
r
目的:① 初步了解两个变量 间有无直线关系 ② 有无可疑的异常点
( X X )(Y Y ) ( X X ) (Y Y )
2
2
l XY l XX lYY
查 t 值表, t 0.05/2(14)= 2.145, tr =5.6623>2.145,则P<0.05, 按 =0.05水准拒绝H0,接受H1,差异有统计学意义,可认为 体重和胸围之间有正相关关系。
查表法
r =0.8343, ν=16-2=14,查r 界值表r0.05(14)=0.497
总体相关系数的假设检验
目的:检验 r 是否来自总体相关系数为零 的总体 (即ρ=0)
r≠0的两种可能 ① X、Y 间确实有相关关系(ρ≠0)
② 抽样误差的影响 (ρ=0)
方法:
tr 检验
r 0 t Sr
r 的标准误
r 1 r n2
2
n2
r 检验:
r 界值表
例 tr 检验步骤
(a=0)
250 200
(a>0)
150 100 50 0 0 50 100 150
(a<0)
a
b为回归系数,即 直线的斜率
250 200 150 100 50 0 0 50 100
1个单位
( b> 0 ) ( b<0 )
b个单位
X每增加(减)一 个单位,Y平均
改变b个单位
( b=0 )
b=0时X与Y 无直线关系
相关系数的假设检验
t-test , r-test
例
表 编号 体重
(Kg) 1
2000年某地16名7岁男孩体重与胸围资料
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
24.5 27.0 23.5 28.5 23.0 26.7 26.8 24.6 24.8 19.7 19.5 17.2 20.0 19.0 20.2 21.0
r 表示样本相关系数,ρ表示总体相关系数。
相关系数 (r)
意义:描述两个变量直线相关的方向与密切
程度的指标。
表示方法: -1≤ r ≤ 1
(无单位)
r 值为正 —— 正相关 r 值为负 —— 负相关 | r |=1 —— 完全相关 | r |=0 —— 零相关
相关关系示意:
r=1 完全正相关
胸围
(cm)
61.0 62.0 60.0 64.0 59.3 58.4 58.6 58.7 58.5 56.0 55.6 54.5 53.0 52.0 58.0 57.0
绘制散点图:初步了解两个变量间的相关关系
65 62.5
胸围(cm)
60 57.5 55 52.5 50
15
17.5
20
22.5
r =0.8343>0.497, P<0.05,按 = 0.05水准
拒绝H0 ,接受H1 ,差异有统计学意义,可认为该 地男孩体重和胸围之间有正相关关系。
相关关系密切程度的判断
一般说来,当样本量较大(n>100),并对r 进行假设检验,有统计学意义时(即 P ) , r 绝对值越大,说明两个变量之间关联程度越强。
10 9.5
心脏横径(cm)
P1
●
ˆ 4.2121 0.204 x y
ˆ y y
● ●
9 8.5
●
ˆ (残差) y y
P2
8 7.5 7 15 20
●
25 体重(Kg)
30
13名8岁正常男童体重与心脏横径散点图
例 tb 检验步骤
H0 : β= 0 ,即体重和心脏横径间无直线回归关系 H1 : β≠0 ,即体重和心脏横径间有直线回归关系
150
回归系数 b 和截距 a 的计算
根据最小二乘法原理(该法原理可保证各实 测点至直线的纵向距离的平方和最小)可导出:
( X X )(Y Y ) l XY b 2 l XX ( X X )
其中: l XY 为X 和 Y 的离均差积和 l XX 为X 的离均差平方和
例
16.3846 b 0.2041 l xx 80.2692