第10章 线性相关与回归

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例9-2 某医院调查了12例病人的 血小板浓度和出血症状两方面的资料, 试以此样本资料计算秩相关系数。
1 2 例病人血小板浓度(1 0 9 / L )和出血症状 病例 号 (1) 1 2 3 4 5 6 7 8 9 10 11 12 血小板数(1 0 9 / L ) X (2) 120 130 160 310 420 540 740 1060 1260 1230 1440 2000 RX (3 ) 1 2 3 4 5 6 7 8 9 10 11 12 ΣR X = 7 8 Σ(RX) 2 =650 Y (4) Ⅳ Ⅴ Ⅱ Ⅰ Ⅲ Ⅲ Ⅰ Ⅰ Ⅰ Ⅰ Ⅳ Ⅰ 出血症状 RY (5 ) 10.5 12.0 7.0 3.5 8.5 8.5 3.5 3.5 3.5 3.5 10.5 3.5 ΣR Y = 7 8 Σ( R Y) 2 = 631.5
等级相关
等级相关 第一节介绍的积差相关系数适用于 双变量正态分布的资料,但有时其中一 个甚至两个变量都不服从正态分布,这 时需用非参数相关分析方法。
本节介绍由spearman提出的秩相 关分析方法。本方法适用于下列情况: ①不服从双变量正态分布而不宜 作积差相关分析的资料; ②总体分布类型未知的资料; ③原始数据是按等级分类的资料。
反双曲正切变换:
z tanh r

1
1 1 r z ln 2 1 r
z u
Z的1-α可信区间计算公式:
2
n 3 , z u 2
n3

缩写
z u
a2
n3

ρ的1-α可信区间计算公式:
tanh z u 2
缩写

n 3 , z u 2
XY (3) 58.113 62.5282 64.296 65.0916 73.3862 82.3918 83.952 90.9198 92.34 102.576 ∑XY=775.5946
X
2
Y
2
(4) 121.00 139.24 144.00 151.29 171.61 187.69 207.36 222.01 231.04 256.00 2 ∑X =1831.24
直线回归方程的用途 1.两变量间存在直线关系时,直 线方程可定量地描述两变量间的线性 依存关系。 2.根据直线回归方程由已知变量 值估计未知变量值:如统计预测。
应用直线回归方程时应注意的问题 1.求出样本资料的直线回归方程 后应进行假设检验。 2.应用直线回归方程时,要注意 方程只适用于自变量X的样本数据波动 范围,不能任意外延其应用范围。
b 0.2385, l XX 24.9040, l YY 1.5493, l XY 5.9396
1. 建立检验假设并确定检验水准 H0:β=0,即体重与体表面积间无直 线回归关系; H1:β≠0,即体重与体表面积间有直 线回归关系。 α=0.05。
2.计算检验统计量
S Y.X
建立直线回归方程的基本原理
在散点图中可以设想出无数条直线 代表这些点的直线趋势,但是在这些直 线中,我们希望找出一条最具代表性的 直线,如果有一条直线它满足散点图上 的每一点到该直线的纵向距离的平方和 最小即最小(此即数学上的最小二乘法 原理)这样一个条件,那么我们认为这 样一条直线是最有代表性的。该直线回 归方程的表达式为:
过点(12,5.3832)与(15,6.0990) 可在直角坐标系上作直线。若纵坐标、 横坐标无折断时,将此直线左端延长与 纵轴相交,交点的纵坐标必然等于截距 a,同时所绘直线必然通过 ( X, Y )。这 两点可以用来核对直线绘制是否正确。
回归系数的假设检验
样本回归系数b是总体回归系数β 的估计值。从β=0(无直线回归关系) 的总体中抽取样本,由于存在抽样误差, 其b不一定等于0。因此,得到b≠0后, 必须检验b是否来自β=0的总体,以判 定两变量间是否存在直线回归关系。
同样地,也可按=n-2直接查 (r界 值表)求P值。
因为 P<0.001 ,所以,结论同t检

总体相关系数ρ的区间估计 总体相关系数ρ≠0时,从这样的 总体中抽样计算出的样本相关系数r不 服从正态分布,此时,若对r按下式作Z 变换(反双曲正切变换),则Z近似服 从标准差为 1 n 3 的正态分布。故可 以按正态分布原理求出Z的1-α可信区 间,再对Z的可信区间作反变换(双曲 正切变换)得总体相关系数ρ的1-α可 信区间。
直线回归
直线回归 直线回归分析是研究两变量X、Y数量 上线性依存关系的一种统计分析方法。它 要求应变量Y服从正态分布;自变量X是一 个可以精确测量和严格控制的变量,也可 以是一个服从正态分布的变量。直线回归 分析的任务就是求解X、Y变量的回归方程, 并用此方程来反映X、Y两变量的线性依存 关系。
样本相关系数的计算 相关系数的计算公式为:
r
X X Y Y X X Y Y
2
2

l XY l XX l YY
l XX X X
l YY Y Y
2
2
l XY X XY Y
l XY
例9-1 测得某地4岁儿童10人的 体重(kg)与体表面积(103cm2)资料见下 表,试以此样本资料计算体重与体表面 积的相关系数。
1


应用相关系数时应注意的问题
1.样本相关系数与总体相关系数 间存在抽样误差,所以求得样本相关系 数后应进行假设检验。 2.有相关关系不等于因果关系。 有无因果关系还需结合专业知识进一步 研究。 3.在实际工作中要区别相关的统 计学意义与相关强度。相关有统计学意 义指该样本相关系数r来自ρ=0的总体 概率很小,而相关强度表示两变量间相 互关系的密切程度,用值的大小来反映。
回归系数的假设检验常用t检验, 检验统计量值的计算公式为:
b0 tb , v n 2 Sb Sb S Y.X S Y.X l XX ˆ YY


2
n2

l YY l 2 l XX XY n2
仍以例9-1资料说明建立直线回归 方程后对回归系数的假设检验步骤: 根据对例9-1资料进行回归分析的 结果可得到如下数据:
i 1
l XY b l XX a Y bX
建立直线回归方程的步骤
1.用实测数据绘制散点图 2.计算回归系数b与截距a,
下面以例9-1资料说明建立直线回 归方程的具体步骤:
l xx 24.9040, l XY 5.9396, X 13.44, Y 5.7266 l XY 5.9396 b 0.2385 l XX 24.9040 a Y bX 5.7266 0.2385 13.44 2.5212 ˆ Y 2.5212 0.2385X ˆ 取X 12, Y 2.5121 0.2385 12 5.3832 ˆ 取X 15, Y 2.5212 0.2385 15 6.0990
在进行假设检验时,无效假设H0 为:ρ=0,即两变量间无直线相关关系; 备择假设H1为:ρ≠0,两变量间有直 线相关关系。常用的假设检验方法是t 检验,检验统计量t值的计算公式如下:
r0 tr Sr
r 1 r n2
2
,v n2
例9-2 就例9-1资料,问某地4岁 儿童体重与体表面积间是否有直线关系?
2
2
l XY l XX l YY
5.9396 24.9040 1.5439 0.9579
相关系数的假设检验
根据样本计算出的相关系数r,是 总体相关系数ρ的估计值。从ρ=0(无 直线相关)的总体中抽取样本,其r不 一定为0。因此,得到r≠0后,由于存 在抽样误差,则有必要检验r是否来自 ρ=0的总体,以判定两变量间是否有直 线相关关系。
(5) 27.9101 28.0794 28.7082 28.0053 31.3824 36.1682 33.9889 37.2344 36.9056 41.1009 2 ∑y =329.4834
6.6 6.4
6.2
å íæ ý ̱à »
10 11 12 13 14 15 16 17
6.0
5.8 5.6
ˆ a bX Y
ˆ 式中X为自变量,(读hat)为应变 Y 量Y的估计值。a为直线在Y轴上的截距, 即X=0时的值。b为直线的斜率,称为回 ˆ 归系数,表示X变动一个单位时, 平均 Y 变动的单位数。
ˆ Y Y 在满足最小二乘法原理,即
n
2
最小的前提下,用微积分学知识可推 出a、b的计算公式为:
5.4 5.2
Ì Ö å Ø
l xx 1831.24 - 134.40 2 /10 24.9040 l yy 329.4834 - 57.266 2 /10 1.5439 l xy 775.5946 - 134.40 57.266/10 5.9396 r
X X Y Y X X Y Y
某地 4 岁儿童 1 0 人的体重( k g ) 与体表面积(1 0 3 c m 2 )
体重(X) 编号 (kg) (1) 1 11.0 2 11.8 3 12.0 4 12.3 5 13.1 6 13.7 7 14.4 8 14.9 9 15.2 10 16.0 ∑X=134.40
体表面积(Y) 3 2 (10 cm ) (2) 5.283 5.299 5.358 5.292 5.602 6.014 5.830 6.102 6.075 6.411 ∑Y=57.266
直线相关
直线相关
称简单相关。用于研究两个随机变 量X与Y之间相关关系及密切程度。适 用于双变量正态分布(bivariate normal distribution)资料。两变量X、 Y间的相关关系可用散点图直观说明, 而相关分析就是用相关系数对这种关系 给以定量的描述。
相关系数 直线相关系数又称积差相关系数 (coefficient of product-moment correlation),简称相关系数。创用于 F.Y.Edgeworth(1892),样本相关系数 用r表示,总体相关系数用ρ表示。
第十章 线性相关与回归
ቤተ መጻሕፍቲ ባይዱ
直线相关

直线回归
建立直线回归方程的基本原 相关系数 理 样本相关系数的计算 建立直线回归方程的步骤 相关系数的假设检验 回归系数的假设检验 总体相关系数ρ的区间 直线回归方程的用途 估计 应用相关系数时应注意 等级相关 的问题 曲线回归
H0:ρ=0,两变量间无直线相关关系;
H1:ρ≠0,两变量间有直线相关关系。 α=0.05。
本例n=10,r=0.9579,按下式计算t值:
t
0.9579 1 0.9579 10 2
2
9.437, v 10 2 8
查附表(t界值表),得P<0.001,按 α=0.05水准拒绝H0,接受H1,故可以认 为某地4岁儿童体重与体表面积呈正直线 相关关系。

ˆ YY

2
n2

l YY l 2 l XX XY n2
15439 5.9396 2 24.9040 0.126145 10 2 Sb S Y.X l XX 0. 126145 24.9040 0.025278 b 0 0.2385 tb 9.435, v 10 2 8 Sb 0.02578
3. 确定P值,作出推断结论
查附表 (t界值表): 因为, 9.435 t 0.001 2,8 5.041,故P< t 0.001,所以按α=0.05水准拒绝H0,接 受H1。说明体重与体表面积间存在直线 回归关系。这里值得注意的是:对同一 资料,相关系数与回归系数的假设检验 是等价的,即 t r t b。
n3

tanh z u 2

n3

例9-3 已求得某地4岁儿童10人 的体重与体表面积的相关系数(即样 本相关系数),r=0.9579,求总体相 关系数(即某地4岁儿童的体重与体表 面积的相关系数)的95%的可信区间。
z tanh 0.9579 1.9198
Z的95%可信区间为: 1.9198 1.96 10 3 1.1790,2.6606 ρ的1-α可信区间为: tanh 1.1790,2.6606 0.8271,0.9903 所以求得ρ的95%可信区间为 (0.8271,0.9903),其统计学意义为 按95%的可信程度得到的总体相关系数 可能存在的一个范围。
相关文档
最新文档