第十章直线相关与回归
直线相关和直线回归
查 t 值表, t 0.05/2(14)= 2.145, tr =5.6623>2.145,则P<0.05, 按 =0.05水准拒绝H0,接受H1,差异有统计学意义,可认为 体重和胸围之间有正相关关系。
查表法
r =0.8343, ν=16-2=14,查r 界值表r0.05(14)=0.497
l xx X
2
( X ) n
2
l yy Y
2
( Y ) n
n
2
l xy XY
( X )( Y )
r
l xy l xx l yy
( X )( Y ) XY n 2 2 ( X ) ( Y ) 2 2 X n Y n
366 926.6 21332.38 16 r 0.8343 366 2 926.6 2 8548.30 16 53813.56 16
= 0.05
b =0.2041, n =13, Sb =0.03098 代入公式:
b 0.2041 tb 6.59 sb 0.03098
13 2 11
查 t 值表, t 0.05/2(11)= 2.201, tb=6.59>2.201,则P<0.05, 按 =0.05水准拒绝 H0 ,接受H1 ,可认为该地8岁男孩体重 与心脏横径间直线关系存在,所求线性回归方程成立。
H0 : = 0 ,即7岁男孩体重和胸围间无直线相关关系 H1 : ≠0 ,即7岁男孩体重和胸围间有直线相关关系
= 0.05
r = 0.8343, n =16, 代入公式:
tr r 1 r 2 n2 0.8343 1 (0.8343) 2 16 2 5.6623
10直线回归和相关
Momentous sprint at the 2156 Olympics?
2
NATURE|VOL431| 30 SEPTEMBER 2004
作统计分析。
直线回归的统计推断
Y−
−
+
Y
)ˆ
(
)Y
18
•对例的回归方程进行方差分析,结果如表10-2所示
0.05,(1,8)
F >
预测
32
33
均数的可信区间与个体容许区间的意义不同:均数的可信区
间表示基于X取某一定值时总体均数μY |X 的分布情况;个体容许区间体现了X一定时,总体中个体Y值的分布范围。
35
线性相关分析
•相关分析是用来研究两个或多个随机变量之间关联性或关联程度的一种统计分析方法。
•线性相关用于描述两个变量之间的线性关联程度,如体温与脉搏的关系等。
•例10-2 某发热门诊医生根据患者就诊顺序随机抽取12名20~40岁发热患者,试探讨体温与脉搏之间的伴随关系,数据见表10-4。
40
相关程度。
50
秩次,以q i 表示Y i 的秩次。
55。
第十章 直线回归与相关分析
115 125 128 143 132 121 129 112 120 130 125.5
135 137 128 127 155 132 148 117 134 132 134.5
图10-2 NaCl含量对单位叶面积干物重影响的散点图
Y . X X
含义是:对于变量X的每一个值,都有一个Y 的分布,这个分布的平均数就是该线性函数。
ˆ a bX Y
回归截距 与x值相对应的依变量y的点估计值
此方程称为Y对X的直线回归方程(linear regression equation),画出的直线称为回归线 ( regression line)。
ˆ Y a bx
ˆi ) 2 L ( yi y
i 1 n
Y
最小
编号 1 2 3 4 5 血球体积x /mm3 45 52 56 48 42 红血球数y /106 6.53 6.30 9.52 7.50 6.99 6 7 8 9 10 编号 血球体积x /mm3 35 58 40 39 50 红血球数y /106 5.90 9.49 6.20 6.55 8.72
n n
整理后得:
an b xi yi i1 i1 n n n a xi b xi2 xi yi i1 i1 i1
解正规方程得:
x y ( x )( y ) / n b x ( x ) / n ( x x)( y y) = S S ( x x)
第二节:一元线性回归 1 散点图的绘制
2 一元正态线性回归模型 3 直线回归方程的参数估计和回归方 程的建立 4 直线回归的假设检验
5 直线回归的方差分析
6 直线回归的意义( 自学)
医学统计学-直线相关和回归分析
2.相关的概念
➢当两个数值变量之间出现如下情况:当一个 变量增大,另一个也随之增大(或减少),我 们称这种现象为共变,也就是有相关关系。
➢若两个变量同时增加或减少,变化趋势是同 向的,则两变量之间的关系为正相关 (positive correlation);若一个变量增加时,另 一个变量减少,变化趋势是反向的,则称为 负相关(negative correlation)。
Page 17
➢H0:ρ=0,两变量间无直线相关的关系;
➢H1:ρ≠0,两变量间有直线相关的关系;
➢a =0.05
t 0.9456 7.1196 1 0.94562
82
➢ν=8-2=6
➢以自由度为6查附表2的t界值表,得P<0.01, 按α=0.05的水准拒绝H0,接受H1,认为2岁 时的身高和成年身高之间存在正相关。
)
XY X Y / X 2 X 2 / n
n
lXY lXX
a Y bX
Page 41
最小二乘法求解(了解)
Q (Y Yˆ )2 (Y a bX )2 最小
根据微积分学中的求极值的方法,令 Q对a、
b的一阶偏导数等于0,即:
Q
a
n
2
i 1
Yi
a
bX i
0
Q b
n
2
i 1
Yi
Page 7
直线相关的概念
➢直线相关(linear correlation),又称简单相 关,用以描述两个呈正态分布的变量之间的 线性共变关系,常简称为相关。
Page 8
➢用以说明具有直线关系的两个变量间相关关 系的密切程度和相关方向的指标,称为相关 系数(correlation coefficient),又称为积差 相关系数(coefficient of product-moment correlation),Pearson相关系数 。
直线相关与直线回归
案例二:医学研究
总结词
医学研究中,利用直线相关和回归分析探究疾病与危险因素之间的关系。
详细描述
在医学研究中,直线相关和回归分析常被用于研究疾病与危险因素之间的关系。 例如,通过分析吸烟、饮酒、饮食等危险因素与肺癌发病率之间的关系,可以 建立线性模型,从而为预防和治疗提供依据。
案例三:农业研究
总结词
通过假设检验的方法,检验两个变量之间是否存在显著的线性关系。常用的假设检验方法 包括t检验、F检验等。
直线相关系数
直线相关系数是用来量化两个变量之间线性关 系的强度和方向的一个数值,其取值范围为-1 到1。
相关系数的值为1表示完全正相关,值为-1表示 完全负相关,值为0表示无直线相关。
相关系数的绝对值越大,说明两个变量之间的 线性关系越强。
直线相关结果通常以相关系数和散点图等 形式呈现,而直线回归结果则以回归方程 、系数表和预测值等形式呈现。
联系
理论基础
直线相关和回归都基于线性关 系假设,即两个变量之间存在
一条直线的趋势。
应用场景
在某些情况下,直线相关和回 归可以相互转换,例如当一个 变量是另一个变量的函数时。
相互支持
在数据分析过程中,可以先进 行直线相关分析,再基于相关 系数进行直线回归分析,或者 反之。
结果解释
在某些情况下,直线相关和回 归的结果可能相似或一致,例 如当两个变量之间的线性关系
很强时。
04
直线相关与回归的应用
经济预测
预测市场趋势
通过分析历史数据,利用直线相关或回归分析来预测市场趋势, 如股票价格、商品需求等。
评估经济政策效果
通过分析政策实施前后的经济数据,利用直线相关或回归分析来评 估政策效果,为政策制定提供依据。
第10章直线相关与回归
( 结果一致)
h
16
四、线性相关分析时的注意事项
• 两个变量之间的关系是双向的,分析前 先绘制散点图;
• x、y 是双变量正态分布资料的随机变量; • 样本相关系数是总体相关系数的一个估
计值,与总体相关系数间存在抽样误差, 判断前必须作假设检验;
• 两个事物之间的关系可能是因果关系, 也可能是相互伴随的数量关系。
h
14
三、相关系数的假设检验
*目的:检验 r 是否来自总体相关系数 = 0 的 总体,从而推断两变量的相关关系是否 成立。常用t检验。
*公式:
tr
=
r-0 ———
Sr
=
——__—_r_—__—__—, —1n-—-r2—2
=
n
-
2
S r 为相关系数的标准误
h
15
相关系数的假设检验步骤:
1.建立检验假设: H0: 0 H1: 0
直线相关是研究两变量 x、y 之间协同变 化的数量关系的分析方法。
h
6
• 为了研究父亲与成年儿子 身高之间的关系,卡尔.皮 尔逊测量了1078对父子的 身高。把1078对数字表示 在坐标上,如图。用水平 轴X上的数代表父亲身高, 垂直轴Y上的数代表儿子 的身高,1078个点所形成 的图形是一个散点图。它
第10章
h
1
本章重点
掌握: • 直线相关、直线回归的基本概念 • 相关系数、回归系数的意义 • 相关、回归分析的注意事项
熟悉: • 相关、回归系数的假设检验 • 直线回归的应用 • 等级相关的计算
h
2
•客观世界中的种种现象可分为确定性现 象和非确定性现象两类。
•就两个变量而言,如果对一个变量的每 个可能取值,另一个变量都有完全确定的 值与之对应,则称这两个变量之间的关系
直线相关与回归
r>0,为正相关 ,一变量增加,另一变量随之增加;
r<0,为负相关,一变量增加,另一变量随之减少; r=0,零相关,两变量无直线关系; r=1,为完全正相关; r=-1,完全负相关; 后两种情况理论上存在,实际工作中少见。
本例r=0.7194, 正相关?
17:35:53
14
3、相关系数r的假设检验
11 12 13 14 15
65 60 70 75 69
2300 1900 2400 2500 2350
二、直线回归分析的步骤:
1、绘制散点图:实际工作中,通过散点
图发现两变量间存在直线趋势时,再作回 归分析。
2、建立回归方程(Regression equation)
⑴ 一般表达式: 式中,x为自变量(independent variable), y 是因 ˆ 变量y的估计值,a是常数或截距,b是回归系数 。
17:35:53
34
因此,实际工作中,可先进行相关分析,求出 r后,若用查表法代替回归系数b的假设检验。
4、直线回归方程的图示
为更直观地分析两变量的回归关系,需绘出 回归直线(regression line),步骤如下: (1)在x的实测值范围内任取两个相距较远的x 值, 代入方程求出两个y1,y2的估计值。
例:某校测得15名女中学生的胸围(cm) 和肺活量(ml),数据如下表,试做相 关分析。
15名女中学生的胸围(cm)和肺活量(ml)数据
编号 1 2 胸围(x) 72 68 肺活量(y) 2400 2200 编号 9 10 胸围(x) 肺活量(y) 69 71 2000 2600
3 4 5 6 7 8
直线相关(linear correlation)是相关 分析中最基本、最简单的一种,故又称 简单相关(simple 念
第十章直线相关与回归
第十章直线相关与回归一、教学大纲要求(一) 掌握内容⒈ 直线相关与回归的基本概念。
⒉ 相关系数与回归系数的意义及计算。
⒊ 相关系数与回归系数相互的区别与联系。
(二)熟悉内容⒈ 相关系数与回归系数的假设检验。
⒉ 直线回归方程的应用。
⒊ 秩相关与秩回归的意义。
(三)了解内容曲线直线化。
二、学内容精要(一) 直线回归1.基本概念直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。
直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression )。
直线回归方程中,a 、b 是决定直线的两个系数,见表10-1。
bX a Y+=ˆ表10-1 直线回归方程a 、b 两系数对比ab含义回归直线在Y 轴上的截距(intercept )。
表示X 为零时,Y 的平均水平的估计值。
回归系数(regression coefficient ),即直线的斜率。
表示X 每变化一个单位时,Y 的平均变化量的估计值。
系数>0a >0表示直线与纵轴的交点在原点的上方b >0,表示直线从左下方走向右上方,即Y 随X 增大而增大系数<0a <0表示直线与纵轴的交点在原点的下方b <0,表示直线从左上方走向右下方,即Y 随X 增大而减小系数=0a =0表示回归直线通过原点b =0,表示直线与X 轴平行,即Y 不随X 的变化而变化计算公式Xb Y a -=XX XY l l X X Y Y X X b =---=∑∑2)())((2. 样本回归系数b 的假设检验(1)方差分析;(2)t 检验。
3. 直线回归方程的应用(1)描述两变量的依存关系;(2)用回归方程进行预测;(3)用回归方程进行统计控制;(4)用直线回归应注意的问题。
(二) 直线相关1. 基本概念直线相关(linear correlation )又称简单相关(simple correlation ),用于双变量正态分布资料。
第十章 线性相关与回归
相关与回归
28
直线回归就是用来研究两个连续性变量x 直线回归就是用来研究两个连续性变量 之间的数量依存关系。 和y之间的数量依存关系。其中 为自变 之间的数量依存关系 其中x为自变 y为因变量 它依赖于x。 为因变量, 量,y为因变量,它依赖于x。 直线回归适用于单变量正态分布资料, 直线回归适用于单变量正态分布资料,即 y为随机正态变量,x为可以精确测量的 为随机正态变量, 为可以精确测量的 为随机正态变量 值。
31
根据上例的数据,求男青年身高与前臂长之间的回归 方程。 从相关系数的计算中,已经求得:
• • • • • • ∑X=1891 ∑Y=500 ∑ X2=89599 ∑ Y2=22810 ∑XY=86185 N=11
相关与回归 12
例 10.1
• 从男青年总体中随机抽取11名男青年的身 高和前臂长,身高和前臂长均以cm为单位, 测量结果如表10-1所示,试计算身高与前 臂长之间的相关系数?是正相关还是负相 关?
相关与回归
13
表10-1 11例男青年身高与前臂长的测量结果 例男青年身高与前臂长的测量结果
编号 1 2 3 4 5 6 7 8 9 10 11 身高(cm) 170 173 160 155 173 188 178 183 180 165 166 前臂长(cm) 47 42 44 41 47 50 47 46 46 43 44
X、Y 变化趋势相同---变化趋势相同---完全正相关; 完全正相关; 反向变化----完全负相关。 反向变化----完全负相关。 ----完全负相关
图12-3 12相关系数示意图
相关与回归
9
X、Y 变化互不影响----零 变化互不影响-------零
相关(zero 相关(zero correlation)
直线相关和回归
XY
(
X
)(Y
n
)
X
2
( X
n
)2
Y
2
(Y
n
)2
三、相关系数的假设检验
(一)t 检验法:
r≠0原因:① 由于抽样误差引起,ρ=0 ② 存在相关关系, ρ≠0
公式: t r 0 = Sr
r r
1 r2
n2 1 r2
n2
Sr---- 样本相关系数的标准误
,υ=n-2
(二)查表法:
根据自由度查相关系数r界值表(附表12)。
尿 3.4
肌
酐 3.2
含 量
3
2.8
2.6
Y 1.6617 0.1392X
2.4
4
6
8
10
12
14
年龄(岁)X
8名儿童的年龄与其尿肌酐含量
三、直线回归方程中的统计推断
(一)回归方程的假设检验
1.方差分析 (1)建立检验假设并确定检验水准
H0:β=0 H1: β≠0 α=0.05
(2)lYY的分解
y
Y X X
x
二、直线回归方程的求法
最小二乘法 (Y Yˆ)2最小
b lXY (X X )(Y Y )
lXX
(X X )2
XY X2
( X (
)( Y X )2 /
)/ n
n
5.8450 42
0.1392
a Y bX 2.9838 0.13929.5 1.6617
Y 3.6
平均将有100×(1-)个个体值在求出的范围内
对象 1 2 3 4 5 6 7 8 9
表2 温度与蛙的心率
温度(cm) (X) 2 4 6 8
直线相关与回归-PPT
相关得类型
相关与回归
25
相关系数概念
相关系数(correlation coefficient), 又称simple correlation coefficient, coefficient of product – moment correlation, 或 Pearson’s correlation coefficient 、
相关与回归
6
相关与回归
图 1078对父子身高间得关系
7
直线回归就就是用来描述一个变量 如何依赖于另一个变量得统计方法。
dependent variable(应变量) indepentent variable(自变量)
相关与回归
8
回归方程
❖ 直线回归得任务就就是要找出因变量随自变量变 化得直线方程,我们把这个直线方程叫做直线回归 方程。
14
(1)回归系数得方差分析
P(X ,Y)
Y
总情况(Y Y )
(Y Yˆ)剩余部分
(Yˆ Y )回归部分
y
X
Y Y Y Yˆ Yˆ Y
相关与回归
15
Y得离均差平方和得分解
由于:(Y Y ) (Y Yˆ) (Yˆ Y ) 可以证明:
(Y Y ) 2 (Y Yˆ)2 (Yˆ Y )2
5、相关、回归若无统计学意义,不等于无任何关系。
相关与回归
36
相关与回归得区别
❖ 1、应用 :研究两变量得相互关系,用相关分析,即在两个变量中,任何一个得变
化都会引起另一个得变化,就是一种双向变化得关系。回归就是反映两个变量得 依存关系,一个变量得改变会引起另一个变量得变化,就是一种单向得关系。
❖ 2、资料要求:回归分析要求Y呈正态分布;相关分析要求资料呈双变量正态分布
第10章 直线回归与相关分析
播种至齐穗天数(x)
70 67 55 52 51 52 51 60 64
总积温(日 度)(y)
1 616.3 1 610.9 1 440.0 1 400.7 1 423.3 1 471.3 1 421.8 1 547.1 1 533.0
(1) 由表9.5可算得:
SS x 444.0000 SS y 55273.4022
a y bx
简记为:
b xy ( x)( y) / n x2 ( x)2 / n
a y bx
x与y的离均差乘积和,简称为乘积和,记为 SPxy 。
spxy (x x)(y y) xy x y / n
记 ssx=∑x2-(∑x)2/n,则
b SPxy / SSx a y bx
?x和y相关的性质正或负和密切程度?x和y的关系是直线型的还是非直线型的和的关系是直线型的还是非直线型的?是否有一些特殊的点表示着其他因素的干扰92直线回归分析一直线回归方程的建立二直线回归的显著性检验华南热带农业大学农学院唐燕琼制2004年8月三直线回归的区间估计不要求一直线回归方程的建立设变量x与y间存在直线关系根据n对观察值所描出的散点图如下
yˆ 在应用 =48.5-1.1x于预测时,需限定x的
区间为[31.7,44.2];如要在x<31.7或>
44.2的区间外延,则必须有新的依据。
二、直线回归的显著性检验
➢ 回归关系的假设测验: 对于样本的回归方程,必须测定其来自无
直线回归关系总体的概率大小。只有当这种概 率小于0.05或0.01时,我们才能冒较小的危 险确认其所代表的总体存在着直线回归关系。 这就是回归关系的假设测验 。
例如:
根据散点图可初步判定双变数X和Y间的关系:
统计学直线相关与回归
• 相关系数是说明具有直线关系的两个变量间相关
关系的密切程度与相关方向的指标,符号为r。相 关系数没有测量单位,其数值为-1≤r ≤1。 r值 为正,表示正相关; r值为负,表示负相关; r
适用条件
线性(Linearity) 独立性(Independency) 正态性(Normal distribution) 等方差性(Equal variance)
计算公式
yˆ abX
b(xx)(yy) (xx)2
l xy l xx
aybx
分析步骤
绘制散点图 考察资料是否满足直线回归分析的条件
值为0,则称零相关。
图10-1 不同相关系数的散点图
计算公式
r r xy
(x x )y ( y ) lxy (x i x )2 (y i y )2 lxx lyy
l x y x x y y x y x y n
l x x x x 2 x 2 x 2n
导学
• 1.掌握直线相关与直线回归的概念、直线回归 方程的求法及检验。
• 2.熟悉相关系数的意义、计算及检验方法。 • 3.了解相关与回归的区别与联系;直线回归方
程的应用及其注意事项。
主要内容
内容
1 直线相关 2 直线回归
相关(correlation)指一个变量增大,另一个变量 也随之增大/减少的共变现象。两个变量有共变现 象时称为有相关关系。
第十章 直线相关与回归
• 河南中医学院公共卫生与预防医
闫国立(副教授) 学学科
直线相关回归
进行直线相关分析时的注意事项
1. 直线相关表示两个变量之间的关系 是双向的,当散点图出现直线趋势 时,再作分析。 2. 相关系数的计算只适用于两个变量 都服从正态分布的资料。
进行直线相关分析时的注意事项
3. 样本相关系数是总体相关系数的一 个估计值,与总体相关系数之间存 在着抽样误差,必须作假设检验。 4. 相关分析是用相关系数来描述两个 变量间相互关系的密切程度和方向, 相关关系不一定是因果关系。
根 据 数 学 上 的 最 小 二 乘 法 (least square method) 原理(即保证各实测点至直线的 纵向距离的平方和最小),可导出a、b的 算式如下: Y ( X X )(Y Y ) l XY Y n b
(X X )
2
l XX
X X n
a Y bX
应用直线回归应注意的问题
(3)应变量是随机变量。自变量也是随机 变量时,两者均应服从正态分布;自 变量为给定的量时,与每个 X 取值相 对应的变量Y必须服从正态分布。 (4)回归方程只有经过检验拒绝了无效假 设后才有意义。 (5)回归方程的适用范围有其限度,一般 仅适用于自变量X的原数据范围内, 而不能任意外推。
回归系数的假设检验
回归方程是否成立,即x、y是否 有直线关系,是回归分析要考虑的 首要问题。即使x、y的总体回归系 数β为零,由于抽样误差,其样本 回归系数b也不一定为零,因此需 作β是否为零的假设检验,可用方 差分析或t检验。
回归系数的假设检验
目的:检验b是否来自总体回归系数β为零的总体
步骤
1. 建立假设和确定检验水准:
b 为回归系数 (regression coefficient) ,即 直线的斜率(slope) b > 0 :表示直线从左下方走向右上方, 即Y随X增大而增大 b < 0 :表示直线从左上方走向右下方, 即y随X增大而减少 b = 0 :表示直线与 X 轴平行,即 X 与 Y 无 直线关系 b的统计学意义是X每增(减)一个单位,Y 平均改变b个单位
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章 直线相关与回归一、教学大纲要求(一) 掌握内容⒈ 直线相关与回归的基本概念。
⒉ 相关系数与回归系数的意义及计算。
⒊ 相关系数与回归系数相互的区别与联系。
(二)熟悉内容⒈ 相关系数与回归系数的假设检验。
⒉ 直线回归方程的应用。
⒊ 秩相关与秩回归的意义。
(三)了解内容 曲线直线化。
二、 学内容精要(一) 直线回归 1. 基本概念直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。
直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression )。
直线回归方程bX a Y +=ˆ中,a 、b 是决定直线的两个系数,见表10-1。
表10-1 直线回归方程a 、b 两系数对比ab含义回归直线在Y 轴上的截距(intercept )。
表示X 为零时,Y 的平均水平的估计值。
回归系数(regression coefficient ),即直线的斜率。
表示X 每变化一个单位时,Y 的平均变化量的估计值。
系数>0 a >0表示直线与纵轴的交点在原点的上方b >0,表示直线从左下方走向右上方,即Y 随X 增大而增大 系数<0 a <0表示直线与纵轴的交点在原点的下方b <0,表示直线从左上方走向右下方,即Y 随X 增大而减小系数=0 a =0表示回归直线通过原点 b =0,表示直线与X 轴平行,即Y 不随X 的变化而变化计算公式X b Y a -=XX XY l l X X Y Y X X b =---=∑∑2)())((2. 样本回归系数b 的假设检验 (1)方差分析; (2)t 检验。
3. 直线回归方程的应用 (1)描述两变量的依存关系; (2)用回归方程进行预测; (3)用回归方程进行统计控制; (4)用直线回归应注意的问题。
(二) 直线相关 1. 基本概念直线相关(linear correlation )又称简单相关(simple correlation ),用于双变量正态分布资料。
有正相关、负相关和零相关等关系。
直线相关的性质可由散点图直观的说明。
相关系数又称积差相关系数(coefficient of product-moment correlation ),以符号r 表示样 本相关系数,ρ表示总体相关系数。
它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。
2.计算公式YYXX XY l l l Y Y X X Y Y X X r =----=∑∑22)()())((相关系数r 没有单位,其值为-1≤r ≤1。
其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。
r 值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r 值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;r 的绝对值等于1为完全相关。
3. 样本相关系数r 的假设检验 (1)r 界值表法; (2)t 检验法。
(三)直线回归与相关的区别与联系 1. 区别(1) 资料要求:直线回归要求因变量Y 服从正态分布,X 是可以精确测量和严格控制的变量,一般称为Ⅰ型回归;直线相关要求两个变量X 、Y 服从双变量正态分布。
这种资料若进行回归分析称为Ⅱ型回归。
(2) 应用情况:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系。
(3) 意义:b 表示X 每增(减)一个单位时,Y 平均改变b 个单位;r 说明具有直线关系的两个变量间关系的密切程度与相关方向。
(4) 计算:b= l xy / l xx ;r = l xy /yy xx l l 。
(5) 取值范围:—∞<b <+∞ ;-1≤r ≤1 。
(6) 单位:b 有单位;r 没有单位。
2. 联系(1) 方向一致:对一组数据若能同时计算b 和r ,它们的符号一致。
(2) 假设检验等价:对同一样本,r 和b 的假设检验得到的t 值相等,即t b =t r 。
(3) 用回归解释相关:决定系数总回SS SS l l l r yyxx xy==22,回归平方和越接近总平方和,则r 2越接近1,说明引入相关的效果越好。
(四)秩相关秩相关,又称等级相关(rank correlation ),是用双变量等级数据作直线相关分析,适用于下列资料:⒈ 不服从双变量正态分布而不宜作积差相关分析; ⒉ 总体分布型未知; ⒊ 用等级表示的原始数据。
三、典型试题分析1.回归系数的假设检验( )A .只能用r 的检验代替B .只能用t 检验C .只能用F 检验D .三者均可 答案:D[评析] 本题考点:回归系数假设检验方法的理解。
回归系数的假设检验常用的方法有:①方差分析;②t 检验。
对同一样本,r 和b 的假设检验等价,r 和b 的假设检验得到的t 值相等,即t b =t r 。
故回归系数的假设检验用三者均可。
2.已知r 1=r 2,那么( )A .b 1=b 2B .t b 1=t b 2C .t r 1=t r 2D .两样本决定系数相等 答案: D[评析] 本题考点:直线相关系数与回归系数关系的理解。
因为相关系数r 和回归系数b 的计算公式不同,不能推导出b 1=b 2 ;r 和b 的假设检验等价,即t r 1= t b 1,t r 2=t b 2,而不是t b 1=t b 2,t r 1=t r 2 ;样本决定系数为r 2,已知r 1=r 2,则两样本决定系数相等,即r 12=r 22。
3.|r |>r 0.05( n-2)时,可认为两变量X 与Y 间( )A .有一定关系 B. 有正相关关系 C .一定有直线关系 D. 有直线关系 答案: D[评析] 本题考点:直线相关系数假设检验的理解。
因为直线相关系数r 是样本的相关系数,它是相应总体相关系数ρ的估计值。
由于抽样误差的影响,必须进行显著性检验。
r 的假设检验是检验两变量是否有直线相关关系。
|r |>r 0.05( n-2)时,P <0.05,拒绝H 0,接受H 1,认为总体相关系数ρ≠0,因此可认为两变量X 与Y 间有直线关系。
4.相关系数检验的无效假设H 0是( )A .ρ=0 B. ρ≠0 C .ρ>0 D. ρ<0 答案: A[评析] 本题考点:直线相关系数显著性检验中检验假设的理解。
因为r 是样本相关系数,它是总体相关系数ρ的估计值。
要判两变量间是否有相关关系,就要检验r 是否来自总体相关系数ρ为零的总体。
因为即使从ρ=0的总体作随机抽样,由于抽样误差的影响,所得r 值也常不等于零。
5.同一双变量资料,进行直线相关与回归分析,有( )。
A .r >0,b <0 B. r >0,b >0C .r <0,b >0 D. r 与b 的符号毫无关系 答案: B[评析] 本题考点:直线相关与回归的区别与联系的理解。
因为对同一资料而言直线相关系数与回归系数的方向一致,若能同时计算b 和r ,它们的符号一致。
因此,同一双变量资料,进行直线相关与回归分析,有r >0,b >0。
四、习 题(一) 单项选择题 1.下列( )式可出现负值。
A .∑(X —X )2B .∑Y 2—(∑Y )2/nC .∑(Y —Y ) 2D .∑(X —X )(Y —Y ) 2.Y =14+4X 是1~7岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位kg ,则此方程( )。
A .截距改变B .回归系数改变C .两者都改变D .两者都不改变3.已知r =1,则一定有( )。
A .b =1B .a =1C .S Y. X =0D .S Y. X = S Y4.用最小二乘法确定直线回归方程的原则是各观察点( )。
A .距直线的纵向距离相等 B .距直线的纵向距离的平方和最小 C .与直线的垂直距离相等 D .与直线的垂直距离的平方和最小5.直线回归分析中,X 的影响被扣除后,Y 方面的变异可用指标( )表示。
A .,x y S = B. r S =C. ,y xS = D. b S S =6.直线回归系数假设检验,其自由度为( )。
A .nB .n -1C .n -2D .2n -1 7.应变量Y 的离均差平方和划分,可出现( )。
A .SS 剩=SS 回B .SS 总=SS 剩C .SS 总=SS 回D .以上均可 8. 下列计算SS 剩的公式不正确的是( )。
A .YY XY l l b -B . YY XX l bl - C. 2YY XY XX l l l - D .2(1)YY r l - 9. 直线相关系数可用( )计算。
A .YY XX XY l l lB .YY XX YX l l bC .XY YX b bD . 以上均可10. 当r =0时,bX a Y+=ˆ回归方程中有( )。
A .a 必大于零 B. a 必等于X C .a 必等于零 D. a 必等于Y(二) 名词解释1. 直线回归2. 回归系数3. 剩余平方和4. 回归平方和5. 直线相关6. 零相关7. 相关系数8. 决定系数9. 曲线直线化 10.秩相关 (三) 是非题1. 剩余平方和SS 剩1=SS 剩2,则r 1必然等于r 2。
2. 直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系。
3. 两变量关系越密切r 值越大。
(四)简答题1. 用什么方法考察回归直线图示是否正确? 2. 剩余标准差的意义和用途?3. 某资料n =100,X 与Y 的相关系数为r =0.1,可否认为X 与Y 有较密切的相关关系? 4. r 与r s 的应用条件有何不同?5. 应用直线回归和相关分析时应注意哪些问题? 6. 举例说明如何用直线回归方程进行预测和控制? 7. 直线回归分析时怎样确定因变量与自变量? (五)计算题1.10名20岁男青年身高与前臂长的数据见表10-2。
⑴计算相关系数并对ρ=0进行假设检验; ⑵计算总体ρ的95%可信区间。
表10-2 10名20岁男青年身高与前臂长 身 高(cm )170 173 160 155 173 188 178183 180 165 前臂长(cm ) 45 42 44 41 47 50 47 46 49 432. 某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表10-3。
⑴此资料有无可疑的异常点?⑵求直线回归方程并对回归系数作假设检验。
⑶试估计进食量为900g 时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。
⑷求进食量为900g 时,个体Y 值的95%容许区间,并解释其意义。