09 第九章 直线相关与回归分析20130204
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
样本的相关系数
5
ρ r
2、相关系数(correlation coefficient)
概念:描述两变量间相关关系的密切程度和相关方向。 用符号ρ(r)表示,其数值1≥ ρ(r) ≥-1。 相关方向: 当ρ(r)为正值时,表示一变量随另一变量的增加而 增加称为正相关; 当ρ(r)为负值时,表示一变量随另一变量的增加而 减少,称为负相关。
Sb为回归系数的标准误
29
Syx为各观察值 Y 距回归直线的标准差,即剩余标准差;
ˆ )2 为剩余平方和,它反映X对Y的线性影响之外的因素 (Y Y
对Y的变异作用。在散点图中,各实测点离回归直线越近,越 小,说明直线回归的估计误差越小。
Sb
S YX l XX
SYX
2 ˆ (Y Y ) n2
2
4.09
18
(3)确定P值,作出推断结论
按ν=n-2=8查t界值表,得 0.002<P<0.005,按α=0.05 水准,拒绝 Ho ,接受H1 ,故可认为 20 岁男青年身高与前臂 长呈正直线相关关系。
2、查表法
查附表 14, r 界值表列出了相关系数 r 与 0 差别有统计学意 义的判断界值,按自由度=n-2查r界值表, 当r≥rα(n-2)时,则P≤α ;反之,r< rα(n-2) 时,则P> α 。本例 r=0.8227 ,大于 r0.05(8) =0.632 ,故 P<0.05 。 r值有意义。检验结果与t检验相同。
22
二、直线回归方程的求法
求直线回归方程,关键在于计算a、b两个系数,根据数学 上的最小二乘法原理即保证各实测点至回归直线的纵向距 离的平方和最小。
( X X )(Y Y ) l XY b 2 l XX ( X X )
a Y bX
23
计算步骤:
(1)列回归系数计算表同表9-1,求出ΣX ,ΣY ,ΣXY , ΣX2 , ΣY2 。 本例ΣX=1725 ,ΣY=454 ,ΣXY=78541 ,ΣX2=298525 , ΣY2=20690 。前面已经计算出 lxx=962.5 ,lxy=226
一般认为,当样本含量较大的情况下(n>100),大致可 按下列标准估计两变量相关的程度 │r│≥0.7 高度相关 0.7>│r│≥0.4 中度相关 0.4>│r│≥0.2 低度相关
7
8
图9-1
相关系数示意图
a图
图9-2
9
b图 相关系数大小比较
二、相关系数的计算
相关系数r的计算公式:
r
表9-1 身高与前臂长测量结果
20岁男青年身高与
前臂长,见下表。 问身高与前臂长有 无直线相关关系?
编号 1 2 3 4 5 6 7 8 9 10
身高cm 170 173 160 155 173 188 178 183 180 165
前臂长cm 45 42 44 41 47 50 47 46 49 43
14
计算步骤:
(3)计算X、Y的离均差平方和与离均差积和
l XX
2 2 ( X ) 1725 X2 298525 962.5 n 10
lYY
l XY
15
( Y ) 454 Y 20690 78.4 n 10
2 2 2
( X )( Y ) 1725 454 XY 78541 226 n 10
(X X )(Y Y ) ( X X )
2
(Y Y )
2
l XY l XX lYY
• 式中lXX与lYY分别为变量X与Y的离均差平 方和,lXY为两变量X 、Y的离均差积和。
10
计算公式为:
( X ) l XX X n
2
Baidu Nhomakorabea
2
( Y ) lYY Y n
6
密切程度: 当│ρ(r)│愈接近1,表示两变量的相关愈密切; 当│ρ(r)│愈接近0时,表示两变量相关程度愈低; 当│ρ(r)│=0时,称为零相关,表示两变量无直线相 关关系, 当│ρ(r)│=1时,称为完全相关,表示两变量呈直线 关系(x y有直线函数关系),见示意图9-1。
4
第一节 直线相关(linear correlation)
一、基本概念
1、直线相关:
当两正态分布变量在数量上的变化呈直线趋势时,则称 为直线相关,又称简单相关(simple correlation),用于 分析双变量正态分布资料。 表示两变量相关关系的重要指标就是相关系数,
总体的相关系数
SS总 Σ(Y Y ) lYY 78.400
2
SS回 blxy 0.2348 226 53.065
SS残 SS总 - SS回 78.400- 53.065 25.335
35
表9-2 20岁男青年身高前臂长直线回归关系方差分析表 变异来源 总变异 回归 残差 自由度 9 1 8 SS 78.400 53.065 25.335 53.065 3.167 16.765 <0.01 MS F P
进行直线相关与回归分析时应注意的问题
1.作相关回归分析要有实际意义。不要把毫无联系的两种 现象作相关回归分析。
2.相关关系不一定是因果关系,也可能是伴随关系。
3.在进行直线相关与回归分析之前,应先绘制散点图,当 观察到点的分布呈直线趋势时,方可进行分析,如散点图 呈曲线趋势,应进行曲线回归分析。
X 1725 X 172 .5 n 10
Y 454 Y 45 .4 n 10
24
(3)求回归系数b和截距a
l XY 226 b 0.2348 l XX 962.5
a Y bX 45.4 0.2348 172.5 4.897
(4)列出回归方程 将求出的 a 和 b 代入公式(9.7)得
2
例9-1资料可验证
37
F 16.756 4.09 tb
五、直线回归方程的应用
(一)描述两变量间的依存关系 可用直线回归来描述 。 (二)利用回归方程进行预测 将X代入直线回归方程,可得到应变量Y的估计值。 (三)利用回归方程进行统计控制 通过X取值来控制Y的变化。
38
第三节
ˆ 4.897 0.2348X Y
25
三、回归直线的绘制
在自变量X的实测值范围,任意指定相距较远且易读的两
个数值,代入直线回归方程,求出相应的Y的估计值,确
定两点,用直线连接。 如本例取X1=155,则 ;X2=185,则。在图上确定(155, 41.291)和(185,48.335)两个点,直线连接,即得出 直线回归方程的图形。
计算步骤:
(4)求相关系数r
r
l XY l XX lYY
226 962.5 78.4
0.8227
16
三、相关系数的检验假设
检验r是否来自总体相关系数ρ为零的总体。
1、t 检验法
t检验的计算公式
|r 0| |r | t Sr Sr
Sr
17
1 r n2
2
相关系数的检验假设步骤
第九章
直线相关与回归分析
目录
1
2
3 4
2
直线相关 直线回归 应注意的问题 等级相关
教学目的及要求
掌握直线相关与回归的概念、意义及应用条件;
掌握直线相关与回归各指标的意义、应用及计算
方法;
熟悉直线相关与回归的联系及区别;
了解曲线回归的概念、意义及类型。
3
例9-1
某研究者测量10名
26
图9-2 20岁男青年身高与前臂长散点图
27
四、回归系数的假设检验
回归系数b为样本回归系数,假设在总体回 归系数β=0的总体中抽样,得出样本的b不
一定为0。
因此需作总体回归系数β是否为0的假设检
验,
常用t检验或方差分析。
28
四、回归系数的假设检验
1、t检验法
|b0| |b| tb Sb Sb
(1)建立检验假设 Ho:ρ=0 ,两变量间无直线相关关系 H1:ρ≠0 ,两变量间有直线相关关系 α=0.05
( 2 )计算t 值 本例n=10 , r=0.8227 ,按公式( 9.5 ) 和公式(9.6) 计算t值
tr
r 1 r n2
2
0.8227 1 0.8227 10 2
(3)确定P值,作出推断结论 本例υ=10-2=8,查附表2,t界值表得t0.005(8)=3.833, 现t>t0.005(8) ,故P<0.005。
按α=0.05的水准,拒绝Ho,接受H1,可认为20岁 男青年身高与前臂长有直线回归关系。
34
回归系数的假设检验步骤:方差分析法
(1)建立检验假设 H0:β=0, 即身高与前臂长无直线回归关系 H1:β≠0, 即身高与前臂长有直线回归关系 α=0.05 (2)计算F值 前 面 已 经 求 得 lXX=962.5 , lXY=226 , lYY=78.4,代入公式(9.13)有
2
2
l XY
( X )( Y ) XY n
11
例9-1
某研究者测量10名
表9-1 身高与前臂长测量结果
20岁男青年身高与
前臂长,见下表。 问身高与前臂长有 无直线相关关系?
编号 1 2 3 4 5 6 7 8 9 10
身高cm 170 173 160 155 173 188 178 183 180 165
(3)确定P值,作出推断结论 F0.01(1,8)=11.3,现F>F0.01(1,8) ,故P<0.01。 按α=0.05的水准,拒绝Ho,接受H1,可认为20岁男 青年身高与前臂长有直线回归关系。
36
注意:
对于同一资料作总体回归系数 β 是否为零 的假设检验,方差分析和t检验是等价的,
tb F 或 t b F
前臂长cm 45 42 44 41 47 50 47 46 49 43
12
计算步骤:
(1)由原始数据绘制散点图9-2,本资料呈直线相关趋势。
图9-1
13
20岁男青年身高与前臂长散点图
计算步骤:
(2)根据表9-1原始数据计算出: ∑X,∑Y,∑X2,∑Y2,∑XY 。 本例∑X=1725,∑Y=454, ∑X2=298525,∑Y2=20690,∑XY=78541。
一、直线回归的概念
1、回归:反映两变量数量依存的关系,即指由一个变量推 算另一个变量的数量关系。 直线回归是回归分析中最基本最简单的一种,故又称简单 回归(simple regression)。 2、反映回归关系的方程称为直线回归方程。
ˆ a bX Y
ˆ 为应变量Y 的估计值,a 为回归直线Y 轴上的 式中 Y 截距,b 为回归系数即回归方程的斜率,意义?。
19
四、相关分析应用中应注意的问题
1、进行相关分析前应先绘制散点图。
2、直线相关分析的统计推断要求两个随机变量均服从正 态分布。 3、出现离群点时慎用相关。
4、相关关系不一定是因果关系。
5、分层资料不可盲目合并。
20
21
第二节 直线回归(linear regression)
l 226 2 ˆ (Y Y ) lYY 78.4 25.33 l XX 962.5
SYX
33
2 XY
2
2 ˆ (Y Y ) n2
25.33 1.78 10 2
Sb
SYX l XX
1.78 962.5
0.0574
b0 b 0.2348 tb 4.09 Sb S b 0.0574
30
l 2 ˆ (Y Y ) lYY l XX
2 XY
2、方差分析法
残差(residual)
31
ˆ ˆ (Y - Y ) (Y - Y ) (Y - Y )
2 2
2
SS总 SS回 SS 残
32
回归系数的假设检验步骤:t检验法
(1)建立检验假设 H0:β=0, 即身高与前臂长无直线回归关系 H1:β≠0, 即身高与前臂长有直线回归关系 α=0.05 (2)计算t值 前 面 已 经 求 得 lXX=962.5 , lXY=226 , lYY=78.4,代入公式(9.13)有
39
4.直线相关与回归的区别
( 1 )在资料需求上,相关分析要求两变量 X 与 Y均为服从正 态分布的随机变量,即两者都不能预先指定;
回归分析要求 Y 是正态随机变量,而 X 可以不是正态随机变 量而是一确定值,此时回归分析称为Ⅰ型回归, X 也可以是 正态随机变量,此时回归分析称为Ⅱ型回归。 ( 2 )在意义上,相关反映两变量的相关关系;回归反映两 变量间的依存关系。
5
ρ r
2、相关系数(correlation coefficient)
概念:描述两变量间相关关系的密切程度和相关方向。 用符号ρ(r)表示,其数值1≥ ρ(r) ≥-1。 相关方向: 当ρ(r)为正值时,表示一变量随另一变量的增加而 增加称为正相关; 当ρ(r)为负值时,表示一变量随另一变量的增加而 减少,称为负相关。
Sb为回归系数的标准误
29
Syx为各观察值 Y 距回归直线的标准差,即剩余标准差;
ˆ )2 为剩余平方和,它反映X对Y的线性影响之外的因素 (Y Y
对Y的变异作用。在散点图中,各实测点离回归直线越近,越 小,说明直线回归的估计误差越小。
Sb
S YX l XX
SYX
2 ˆ (Y Y ) n2
2
4.09
18
(3)确定P值,作出推断结论
按ν=n-2=8查t界值表,得 0.002<P<0.005,按α=0.05 水准,拒绝 Ho ,接受H1 ,故可认为 20 岁男青年身高与前臂 长呈正直线相关关系。
2、查表法
查附表 14, r 界值表列出了相关系数 r 与 0 差别有统计学意 义的判断界值,按自由度=n-2查r界值表, 当r≥rα(n-2)时,则P≤α ;反之,r< rα(n-2) 时,则P> α 。本例 r=0.8227 ,大于 r0.05(8) =0.632 ,故 P<0.05 。 r值有意义。检验结果与t检验相同。
22
二、直线回归方程的求法
求直线回归方程,关键在于计算a、b两个系数,根据数学 上的最小二乘法原理即保证各实测点至回归直线的纵向距 离的平方和最小。
( X X )(Y Y ) l XY b 2 l XX ( X X )
a Y bX
23
计算步骤:
(1)列回归系数计算表同表9-1,求出ΣX ,ΣY ,ΣXY , ΣX2 , ΣY2 。 本例ΣX=1725 ,ΣY=454 ,ΣXY=78541 ,ΣX2=298525 , ΣY2=20690 。前面已经计算出 lxx=962.5 ,lxy=226
一般认为,当样本含量较大的情况下(n>100),大致可 按下列标准估计两变量相关的程度 │r│≥0.7 高度相关 0.7>│r│≥0.4 中度相关 0.4>│r│≥0.2 低度相关
7
8
图9-1
相关系数示意图
a图
图9-2
9
b图 相关系数大小比较
二、相关系数的计算
相关系数r的计算公式:
r
表9-1 身高与前臂长测量结果
20岁男青年身高与
前臂长,见下表。 问身高与前臂长有 无直线相关关系?
编号 1 2 3 4 5 6 7 8 9 10
身高cm 170 173 160 155 173 188 178 183 180 165
前臂长cm 45 42 44 41 47 50 47 46 49 43
14
计算步骤:
(3)计算X、Y的离均差平方和与离均差积和
l XX
2 2 ( X ) 1725 X2 298525 962.5 n 10
lYY
l XY
15
( Y ) 454 Y 20690 78.4 n 10
2 2 2
( X )( Y ) 1725 454 XY 78541 226 n 10
(X X )(Y Y ) ( X X )
2
(Y Y )
2
l XY l XX lYY
• 式中lXX与lYY分别为变量X与Y的离均差平 方和,lXY为两变量X 、Y的离均差积和。
10
计算公式为:
( X ) l XX X n
2
Baidu Nhomakorabea
2
( Y ) lYY Y n
6
密切程度: 当│ρ(r)│愈接近1,表示两变量的相关愈密切; 当│ρ(r)│愈接近0时,表示两变量相关程度愈低; 当│ρ(r)│=0时,称为零相关,表示两变量无直线相 关关系, 当│ρ(r)│=1时,称为完全相关,表示两变量呈直线 关系(x y有直线函数关系),见示意图9-1。
4
第一节 直线相关(linear correlation)
一、基本概念
1、直线相关:
当两正态分布变量在数量上的变化呈直线趋势时,则称 为直线相关,又称简单相关(simple correlation),用于 分析双变量正态分布资料。 表示两变量相关关系的重要指标就是相关系数,
总体的相关系数
SS总 Σ(Y Y ) lYY 78.400
2
SS回 blxy 0.2348 226 53.065
SS残 SS总 - SS回 78.400- 53.065 25.335
35
表9-2 20岁男青年身高前臂长直线回归关系方差分析表 变异来源 总变异 回归 残差 自由度 9 1 8 SS 78.400 53.065 25.335 53.065 3.167 16.765 <0.01 MS F P
进行直线相关与回归分析时应注意的问题
1.作相关回归分析要有实际意义。不要把毫无联系的两种 现象作相关回归分析。
2.相关关系不一定是因果关系,也可能是伴随关系。
3.在进行直线相关与回归分析之前,应先绘制散点图,当 观察到点的分布呈直线趋势时,方可进行分析,如散点图 呈曲线趋势,应进行曲线回归分析。
X 1725 X 172 .5 n 10
Y 454 Y 45 .4 n 10
24
(3)求回归系数b和截距a
l XY 226 b 0.2348 l XX 962.5
a Y bX 45.4 0.2348 172.5 4.897
(4)列出回归方程 将求出的 a 和 b 代入公式(9.7)得
2
例9-1资料可验证
37
F 16.756 4.09 tb
五、直线回归方程的应用
(一)描述两变量间的依存关系 可用直线回归来描述 。 (二)利用回归方程进行预测 将X代入直线回归方程,可得到应变量Y的估计值。 (三)利用回归方程进行统计控制 通过X取值来控制Y的变化。
38
第三节
ˆ 4.897 0.2348X Y
25
三、回归直线的绘制
在自变量X的实测值范围,任意指定相距较远且易读的两
个数值,代入直线回归方程,求出相应的Y的估计值,确
定两点,用直线连接。 如本例取X1=155,则 ;X2=185,则。在图上确定(155, 41.291)和(185,48.335)两个点,直线连接,即得出 直线回归方程的图形。
计算步骤:
(4)求相关系数r
r
l XY l XX lYY
226 962.5 78.4
0.8227
16
三、相关系数的检验假设
检验r是否来自总体相关系数ρ为零的总体。
1、t 检验法
t检验的计算公式
|r 0| |r | t Sr Sr
Sr
17
1 r n2
2
相关系数的检验假设步骤
第九章
直线相关与回归分析
目录
1
2
3 4
2
直线相关 直线回归 应注意的问题 等级相关
教学目的及要求
掌握直线相关与回归的概念、意义及应用条件;
掌握直线相关与回归各指标的意义、应用及计算
方法;
熟悉直线相关与回归的联系及区别;
了解曲线回归的概念、意义及类型。
3
例9-1
某研究者测量10名
26
图9-2 20岁男青年身高与前臂长散点图
27
四、回归系数的假设检验
回归系数b为样本回归系数,假设在总体回 归系数β=0的总体中抽样,得出样本的b不
一定为0。
因此需作总体回归系数β是否为0的假设检
验,
常用t检验或方差分析。
28
四、回归系数的假设检验
1、t检验法
|b0| |b| tb Sb Sb
(1)建立检验假设 Ho:ρ=0 ,两变量间无直线相关关系 H1:ρ≠0 ,两变量间有直线相关关系 α=0.05
( 2 )计算t 值 本例n=10 , r=0.8227 ,按公式( 9.5 ) 和公式(9.6) 计算t值
tr
r 1 r n2
2
0.8227 1 0.8227 10 2
(3)确定P值,作出推断结论 本例υ=10-2=8,查附表2,t界值表得t0.005(8)=3.833, 现t>t0.005(8) ,故P<0.005。
按α=0.05的水准,拒绝Ho,接受H1,可认为20岁 男青年身高与前臂长有直线回归关系。
34
回归系数的假设检验步骤:方差分析法
(1)建立检验假设 H0:β=0, 即身高与前臂长无直线回归关系 H1:β≠0, 即身高与前臂长有直线回归关系 α=0.05 (2)计算F值 前 面 已 经 求 得 lXX=962.5 , lXY=226 , lYY=78.4,代入公式(9.13)有
2
2
l XY
( X )( Y ) XY n
11
例9-1
某研究者测量10名
表9-1 身高与前臂长测量结果
20岁男青年身高与
前臂长,见下表。 问身高与前臂长有 无直线相关关系?
编号 1 2 3 4 5 6 7 8 9 10
身高cm 170 173 160 155 173 188 178 183 180 165
(3)确定P值,作出推断结论 F0.01(1,8)=11.3,现F>F0.01(1,8) ,故P<0.01。 按α=0.05的水准,拒绝Ho,接受H1,可认为20岁男 青年身高与前臂长有直线回归关系。
36
注意:
对于同一资料作总体回归系数 β 是否为零 的假设检验,方差分析和t检验是等价的,
tb F 或 t b F
前臂长cm 45 42 44 41 47 50 47 46 49 43
12
计算步骤:
(1)由原始数据绘制散点图9-2,本资料呈直线相关趋势。
图9-1
13
20岁男青年身高与前臂长散点图
计算步骤:
(2)根据表9-1原始数据计算出: ∑X,∑Y,∑X2,∑Y2,∑XY 。 本例∑X=1725,∑Y=454, ∑X2=298525,∑Y2=20690,∑XY=78541。
一、直线回归的概念
1、回归:反映两变量数量依存的关系,即指由一个变量推 算另一个变量的数量关系。 直线回归是回归分析中最基本最简单的一种,故又称简单 回归(simple regression)。 2、反映回归关系的方程称为直线回归方程。
ˆ a bX Y
ˆ 为应变量Y 的估计值,a 为回归直线Y 轴上的 式中 Y 截距,b 为回归系数即回归方程的斜率,意义?。
19
四、相关分析应用中应注意的问题
1、进行相关分析前应先绘制散点图。
2、直线相关分析的统计推断要求两个随机变量均服从正 态分布。 3、出现离群点时慎用相关。
4、相关关系不一定是因果关系。
5、分层资料不可盲目合并。
20
21
第二节 直线回归(linear regression)
l 226 2 ˆ (Y Y ) lYY 78.4 25.33 l XX 962.5
SYX
33
2 XY
2
2 ˆ (Y Y ) n2
25.33 1.78 10 2
Sb
SYX l XX
1.78 962.5
0.0574
b0 b 0.2348 tb 4.09 Sb S b 0.0574
30
l 2 ˆ (Y Y ) lYY l XX
2 XY
2、方差分析法
残差(residual)
31
ˆ ˆ (Y - Y ) (Y - Y ) (Y - Y )
2 2
2
SS总 SS回 SS 残
32
回归系数的假设检验步骤:t检验法
(1)建立检验假设 H0:β=0, 即身高与前臂长无直线回归关系 H1:β≠0, 即身高与前臂长有直线回归关系 α=0.05 (2)计算t值 前 面 已 经 求 得 lXX=962.5 , lXY=226 , lYY=78.4,代入公式(9.13)有
39
4.直线相关与回归的区别
( 1 )在资料需求上,相关分析要求两变量 X 与 Y均为服从正 态分布的随机变量,即两者都不能预先指定;
回归分析要求 Y 是正态随机变量,而 X 可以不是正态随机变 量而是一确定值,此时回归分析称为Ⅰ型回归, X 也可以是 正态随机变量,此时回归分析称为Ⅱ型回归。 ( 2 )在意义上,相关反映两变量的相关关系;回归反映两 变量间的依存关系。