医学统计学PPT:直线相关和回归
合集下载
相关与回归PPT课件PPT课件
(2)求Spearman等级相关系数。
rs
l X ’Y ’
l l X ’X ‘Y ’Y ‘
59.5 0.7539 82.5 75.5
第19页/共40页
2. Spearman等级相关系数的假设检验:
H0:ρS=0
H1: ρS ≠0
=0.05
本例n=10, rs=-0.7539,查rs界值表得:
Y
Y
2
lYY
l XY
2 / l XX lYY bl XY
sy为x 各观察值y 距回归线( )ˆy 的标准差,反映x
的影响被扣除后y 的变异,故称为剩余标准差。
第32页/共40页
Y
Y
2
36.7324 (74.308)2
/ 228.2 12.541
12.541
SY .X
1.1199 12 2
1.1199
sb
0.0741 228.25
0.3256
tb
4.392
0.0741
3.确定P值,判断结果: 按 12 2 10 ,
查t 值表,t0.01(10)=3.169,tb> t0.01(13) ,P<0.01, 按α=0.05水准,拒绝H0 ,接受H1,认为糖尿病患 者血糖和胰岛素之间存在负的直线回归关系。
rs(10,0.02)=0.745,rs> rs(10,0.02) ,则P<0.02,按
α=0.05水准,拒绝H0,接受H1,认为rs有统计
学意义,说明患者血小板数与出血程度呈负
的等级相关关系。
第20页/共40页
第三节 直线回归
随着所探索问题的深入,研究者通常更感兴趣于 其中的一个变量如何定量地影响另一变量的取值, 如医学研究中常需要从某项指标估算另一项指标, 如果这指标分别是测量变量X 和Y,我们希望由X 推算Y的值。
回归与相关(卫生统计学课件)
• a - 截距(intercept)或常数项(constant term);
• b - 回归系数(regression coefficient)。
Francis Galton
实例
➢ 例1 研究成人BMI(kg/m2)与肝脏硬度指数LSM间的关系,得到了表中所示的资料,试 进行线性回归分析。
表1 成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据
直线回归系数的假设检验
线性回归的假设检验
一、方差分析
➢ 回归方程检验的基本思想:
(Y -Y )2 = (Yˆ -Y )2 +(Y -Yˆ)2
SS总 SS回归 SS残差
图4 变异划分示意图
➢ 如果 X 与Y 之间无线性回归关系,则 SS回归 与 SS残差 都只包含随机因素对Y 的影响,因 此其均方 MS回归 与 MS残差 应近似相等,如果两者差别较大,并超出能够用随机波动解 释的程度,则认为回归方程具有统计学意义。
Sb
SY |X lXX
SY |X
SS残差
残差
MS残差
➢ Sb 为样本回归系数的标准误,反映样本回归系数的抽样误差; SY|X 为剩余标准差,表 示因变量 Y 值对于回归直线的离散程度。
实例 对例1数据建立的回归方程后,进行 t 检验,过程如下:
1. 建立检验假设,确定检验水准 H0 :回归系数 0,即BMI和LSM间无线性回归关系
图3 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
小结
1. 线性回归分析常用于分析两个变量之间是否存在线性依存关系,通过散点图可以直观描述两个变量的数量变化关系, 参数估计可以使用最小二乘法。 2. 在回归分析中,因变量是随机变量,自变量既可以是随机变量,也可以是给定的量,在两个变量都是随机变量的情 况,应以变异小的变量作为自变量 3.线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。 4. 对同一资料进行相关与回归分析,r 与 b 正负号相同,r 和b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增 大,Y 也增大;反之亦然。 5. 如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直线相关关系,则可以对变换后的数据采 用上述公式建立模型。
• b - 回归系数(regression coefficient)。
Francis Galton
实例
➢ 例1 研究成人BMI(kg/m2)与肝脏硬度指数LSM间的关系,得到了表中所示的资料,试 进行线性回归分析。
表1 成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据
直线回归系数的假设检验
线性回归的假设检验
一、方差分析
➢ 回归方程检验的基本思想:
(Y -Y )2 = (Yˆ -Y )2 +(Y -Yˆ)2
SS总 SS回归 SS残差
图4 变异划分示意图
➢ 如果 X 与Y 之间无线性回归关系,则 SS回归 与 SS残差 都只包含随机因素对Y 的影响,因 此其均方 MS回归 与 MS残差 应近似相等,如果两者差别较大,并超出能够用随机波动解 释的程度,则认为回归方程具有统计学意义。
Sb
SY |X lXX
SY |X
SS残差
残差
MS残差
➢ Sb 为样本回归系数的标准误,反映样本回归系数的抽样误差; SY|X 为剩余标准差,表 示因变量 Y 值对于回归直线的离散程度。
实例 对例1数据建立的回归方程后,进行 t 检验,过程如下:
1. 建立检验假设,确定检验水准 H0 :回归系数 0,即BMI和LSM间无线性回归关系
图3 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
小结
1. 线性回归分析常用于分析两个变量之间是否存在线性依存关系,通过散点图可以直观描述两个变量的数量变化关系, 参数估计可以使用最小二乘法。 2. 在回归分析中,因变量是随机变量,自变量既可以是随机变量,也可以是给定的量,在两个变量都是随机变量的情 况,应以变异小的变量作为自变量 3.线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。 4. 对同一资料进行相关与回归分析,r 与 b 正负号相同,r 和b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增 大,Y 也增大;反之亦然。 5. 如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直线相关关系,则可以对变换后的数据采 用上述公式建立模型。
第十二章直线回归与相关_PPT幻灯片
相同秩次较多时需校正:
rs =
[(n3-n)/6]-(TX+TY)-d2
[(n3-n)/6]-2TX [(n3-n)/6]-2TY
(T = (tj3 - tj)/12)
二. 等级相关系数的显著性检验
n50时: 查rs界值表; n >50时: u = rs n - 1
例 就下表资料分析血小板浓度和出血症的关系。
2.t检验 H0: =0;
H1: 0
t = b- = b
Sb
Sb
Sb =
MS误 (X - X)2
五. 直线回归的区间估计
1.总体回归系数的区间估计
b t/2,n-2Sb ,
Sb=
MS误 lXX
2. Y的估计
Y t/2,n-2SY ,
SY = SY.X
1
+ (X0 - X)2
n (X - X)2
相关程度。
第三节 直线回归与相ຫໍສະໝຸດ 的区别 和联系一.区别1.资料要求不同; 2.应用情况不同; 3.量纲不同。
二.联系
1.方向一致; 2.假设检验等价; 3.换算:
r = lxy / lXXlYY
所以 b = r lYY / lXX
另有:r = bb
b = lxy / lXX r = b lXX / lYY
12例病人的血小板浓度和出血症的关系
病例号 血小板数(109/L) 编秩 出血症状 编秩
d
1
120
1
++
10.5
9.5
2
130
3
160
2
+++
3
±
12
10
《直线相关与回归》课件
通过引入多个自变量,建立多元线性回归模 型,更准确地预测因变量的值。
模型评估
通过检验回归方程的显著性和模型的拟合优 度,评估多元线性回归模型的有效性。
案例分析与应用
市场营销
通过回归分析客户消费行为,制定有效的市场推广策略。
金融风险管理
通过建立回归模型,评估风险因素对金融资产的影响程度。
医学研究
回归分析可以帮助研究人员预测疾病发生的概率,优化治疗方案。
皮尔逊相关系数
常用的相关系数,取值范围为-1到1,表示两个变量之间的线性关系的强弱。
斯皮尔曼相关系数
用于非线性关系的测量,通过变量的排序关系来判断相关性的程度。
判定系数
判断回归方程对样本数据的拟合程度,解释自变量对因变量变化的百分比。
回归分析的基本原理
回归分析用于建立因变量与一个或多个自变量之间的数学关系。通过回归方 程的拟合和预测,揭示变量之间的内在规律。
《直线相关与回归》PPT 课件
本课件将介绍直线相关与回归的概念、测量方法以及基本原理。我们还将探 讨简单线性回归模型、多元线性回归模型,以及案例分析与应用。让我们开 始吧!
直线相关的概念
直线相关研究两个变量之间的关系,通过相关系数判断其相关性的强弱。相关性的理解对于回归分析非常重要。直Βιβλιοθήκη 相关的测量方法简单线性回归模型
模型公式
利用一条直线描述因变量与单个自变量之间的线性关 系。
散点图
通过散点图观察数据点的分布和趋势,评估线性模型 的适应度。
回归分析
通过回归分析,我们可以得到回归系数和截距,进而
多元线性回归模型
1
多重共线性
2
当两个或多个自变量之间存在高度相关性时,
会导致多重共线性问题。
模型评估
通过检验回归方程的显著性和模型的拟合优 度,评估多元线性回归模型的有效性。
案例分析与应用
市场营销
通过回归分析客户消费行为,制定有效的市场推广策略。
金融风险管理
通过建立回归模型,评估风险因素对金融资产的影响程度。
医学研究
回归分析可以帮助研究人员预测疾病发生的概率,优化治疗方案。
皮尔逊相关系数
常用的相关系数,取值范围为-1到1,表示两个变量之间的线性关系的强弱。
斯皮尔曼相关系数
用于非线性关系的测量,通过变量的排序关系来判断相关性的程度。
判定系数
判断回归方程对样本数据的拟合程度,解释自变量对因变量变化的百分比。
回归分析的基本原理
回归分析用于建立因变量与一个或多个自变量之间的数学关系。通过回归方 程的拟合和预测,揭示变量之间的内在规律。
《直线相关与回归》PPT 课件
本课件将介绍直线相关与回归的概念、测量方法以及基本原理。我们还将探 讨简单线性回归模型、多元线性回归模型,以及案例分析与应用。让我们开 始吧!
直线相关的概念
直线相关研究两个变量之间的关系,通过相关系数判断其相关性的强弱。相关性的理解对于回归分析非常重要。直Βιβλιοθήκη 相关的测量方法简单线性回归模型
模型公式
利用一条直线描述因变量与单个自变量之间的线性关 系。
散点图
通过散点图观察数据点的分布和趋势,评估线性模型 的适应度。
回归分析
通过回归分析,我们可以得到回归系数和截距,进而
多元线性回归模型
1
多重共线性
2
当两个或多个自变量之间存在高度相关性时,
会导致多重共线性问题。
《直线回归和相关》课件
离群值检测
识别可能对模型产生重大影响的异常观测值。
多重共线性和VIF检验
多重共线性指自变量之间存在高度相关性,VIF检验帮助我们发现和解决这个问题。
残差的正态性检验
根据残差的正态性检验结果,判断回归模型是否符合正态分布假设。
残差的同方差性检验
同方差性检验帮助我们检查回归模型的残差是否具有同一方差。
2 负相关
相关系数接近-1,变量反向变化。
3 无相关
相关系数接近0,变量之间无线性关系。
相关系数的显著性检验
通过假设检验和计算p值来判断相关系数是否显著不等于零。
相关系数的局限性
相关系数只能衡量线性关系,无法捕捉非线性关系和其他可能的因果关系。
回归模型的诊断
残差图
用于检查回归模型中残差的分布是否符合假设。
p值
2
衡量统计结果的显著性,p值越小,结果
越显著。
3
显著性水平
通常使用alpha=0.05作为显著性水平。
偏回归系数的含义及其计算方 法
偏回归系数表示自变量对因变量的影响程度。计算方法包括标准化回归系数 和边际效应。
相关系数和相关性分析
相关系数衡量两个变量之间的线性关系强度,相关性分析帮助我们理解变量 之间的相互依赖关系。
1 线性关系
自变量与因变量之间的关系是线性的。
3 同方差性
观测值的方差相等。
2 独立性
观测值之间相互独立。
4 正态分布
因变量的误差项服从正态分布。
最小二乘法和线性回归
最小二乘法是一种常用的直线回归拟合方法,通过最小化观测值与回归线之 间的误差平方和,找到最佳拟合直线。
假设检验和p值
1
假设检验
医学统计学(课件)线性相关与回归
• X-自变量(independent variable);
• Y-应变量(dependent variable);
•
Y
-
给定cept)或常数项(constant term);
• b - 回归系数(regression coefficient)。
回归方程参数的计算
表11-2 方差分析表
变异来源 SS
MS
F
总变异 14563.13
8
回归
12538.06
1
12538.06 43.34
残差
2025.07
7
289.30
P
<0.01
Hypothesis test
(二) t 检验
b0 t
Sb
Sb
SY X l XX
n2
SY X
SS残差
残差
lYY
(Y Y )2
Y 2 ( Y )2 n
• 例11-2 从男青年总体中随机抽取11名男青年组成 样本,分别测量每个男青年的身高和前臂长,测
量结果如表11-3所示,试计算身高与前臂长之间
的相关系数。
52
50
48
前臂长(cm)
46
44
42
40
150
160
170
180
190
则回归方程为:
Yˆ 13.049 9.94X
simple regression
(3)作回归直线
• 按上述回归方程,在 X 实测值的范围内,任取两个 相距较远的点 A( X1 ,Yˆ1 ) 和 B( X2 ,Yˆ2 ),连接A、B两点 即得到回归直线。
直线相关与回归-PPT
相关得类型
相关与回归
25
相关系数概念
相关系数(correlation coefficient), 又称simple correlation coefficient, coefficient of product – moment correlation, 或 Pearson’s correlation coefficient 、
相关与回归
6
相关与回归
图 1078对父子身高间得关系
7
直线回归就就是用来描述一个变量 如何依赖于另一个变量得统计方法。
dependent variable(应变量) indepentent variable(自变量)
相关与回归
8
回归方程
❖ 直线回归得任务就就是要找出因变量随自变量变 化得直线方程,我们把这个直线方程叫做直线回归 方程。
14
(1)回归系数得方差分析
P(X ,Y)
Y
总情况(Y Y )
(Y Yˆ)剩余部分
(Yˆ Y )回归部分
y
X
Y Y Y Yˆ Yˆ Y
相关与回归
15
Y得离均差平方和得分解
由于:(Y Y ) (Y Yˆ) (Yˆ Y ) 可以证明:
(Y Y ) 2 (Y Yˆ)2 (Yˆ Y )2
5、相关、回归若无统计学意义,不等于无任何关系。
相关与回归
36
相关与回归得区别
❖ 1、应用 :研究两变量得相互关系,用相关分析,即在两个变量中,任何一个得变
化都会引起另一个得变化,就是一种双向变化得关系。回归就是反映两个变量得 依存关系,一个变量得改变会引起另一个变量得变化,就是一种单向得关系。
❖ 2、资料要求:回归分析要求Y呈正态分布;相关分析要求资料呈双变量正态分布
卫生统计学课件---直线相关与回归
3、相关的显著性程度与相关的密切程度不同
相关的显著程度(即统计意义的程度)和相 关的密切程度是两个不同的概念。变量间 相关的显著性越高,概率越小,在判断变 量间具有相关关系时,犯第一类错误的可 能性越小。而相关的密切程度高低,是相 关系数具有统计意义的前提下,根据相关 系数绝对值的大小来判断的。
4、作回归分析时要恰当确定自变量与因变量
2、求у和 χ
∑X 47.28χ= ==4.7Fra bibliotek8n 10
∑Y 1392.2
у= =
=139.22
n 10
3、计算离均差平方和∑(X-χ)2及离均差积和 ∑(X-χ)(Y-у)
∑(X-χ)2= ∑X2-(∑X)2/n=224.31- (47.28)2/10=0.77
∑(X-χ)(Y-у)= ∑XY-∑X∑Y/n =6594.26-47.28×1392.2/10=11.94 4、计算回归系数b和截距a
二、直线回归
(一)直线回归的概念 直线回归又称简单回归,是描述和分析两变量间线
性依存关系的一种统计方法。两个变量之间有一 定的数量关系,但又非函数关系,称作回归关系。 如前所述,20岁男青年红细胞数与血红蛋白含量 的关系,只知道两者存在正相关关系,但不能说, 红细胞数是多时,血红蛋白一定是多少。如果想 要进一步由红细胞数估计血红蛋白含量,需要再 作回归分析。直线回归分析的主要任务就是找出 最合适的直线回归方程,以确定一条最接近于各 实测点的直线,来描述两个变量之间的回归关系。 直线回归的表达式为
计算步骤如下:
(1)作散点图:见下图。由散点图可见,10 名男青年的红细胞数与血红蛋白含量有直 线趋势。
10名男青年红细胞数与血红蛋白含量的关系
148 146 144 142 140 138 136 134 132 130
医学统计学课件-直线回归
03
医学统计学在直线回归分析中具有重要作用,提供了多种统计方法和指标,如简单相关系数、标准误、置信区间等,用于评估回归关系的强度、预测精度和可靠性。
优点
直线回归模型简单易懂,易于解释和实施。同时,该模型能够准确地描述两个变量之间的线性关系,并可以用于预测因变量的趋势。此外,直线回归分析还具有较高的灵敏度和特异性。
模型检验
模型假设与检验
选择合适的估计方法
直线回归模型的参数估计方法有多种,例如最小二乘法、加权最小二乘法等。选择合适的估计方法需要考虑数据的性质和研究目的。例如,如果数据的误差项具有异方差性,则应该使用加权最小二乘法等方法进行估计。
软件实现
可以使用多种统计软件来实现直线回归模型的参数估计,例如SPSS、R、Stata等。通过软件操作可以方便快捷地得到模型的估计结果。
散点图
直线回归模型有一些假设条件,例如误差项的独立性、同方差性和无序列相关性等。这些假设条件必须满足,否则模型的估计结果会受到影响。
模型假设
在进行直线回归分析之前,需要对数据进行检验,以确保数据满足模型假设条件。例如,可以通过相关性检验、残差分析等方法来检验数据是否满足同方差性和无序列相关性等假设条件。
样本量和数据质量
03
样本量的大小会影响结果的稳定性和可靠性。样本量越大,结果越可靠。同时,数据质量也很重要,例如数据的完整性、准确性和真实性等。
绘制散点图
将研究因素和结果的数据点在二维平面上表示出来,形成散点图。通过散点图可以大致观察到因素和结果之间的关系趋势。
判断线性关系
在散点图中,如果因素和结果之间的关系大致呈线性趋势,则可以考虑使用直线回归模型来描述它们之间的关系。如果关系呈非线性趋势,则需要选择其他的回归模型。
直线相关与回归分析42页PPT
显著性检验可有两种方法:t 检验法和方差 分析法。
t 检验法:
tb b/sb dfn2
sbsy.x/ (xx)2
样本回归系 数的标准误
sx .y (y y ˆ)2/n ( 2 ) 剩余标准差
(yy ˆ)2
估计误差平方和
( y y ˆ ) 2 ( y y ) 2 [ ( x x ) y y ) ( 2 / ( ] x x ) 2
2.5
40
45
50
55
60
3.2
回
3.1
r=-0.83597
3
2.9
2.8
2.7
2.6
2.5
40 45 50 55 60 65
相关系数的计算:
r xxyy xx2yy2
x x y y xx xx x y y n
X和Y的离均差积和
x x 2 x 2 x 2 n
F 2.2 92 ,P 3 0 .2 01
直线回归相关分析的注意事项:
1. 相关分析只是以相关系数来描述两个变量 间线性相关的程度和方向,并不阐明事物间存在 联系的本质,也不是两事物间存在联系的证据。 要阐明两事物间的本质联系,必须凭专业知识从 理论上加以论证。因此,把两个毫无关系的事物 放在一起作相关分析是毫无意义的。同样,作回 归分析也要有实际意义。
r0.9975
tr 46.82 df11
P0.01 两法的测得值有相关(P<0.01)
第三节 直线回归方程
目的:找出描述x与y依存关系的直线方程。
yˆabx
Y为应变量(dependent variable) X为自变量(independent variable) A为截距(intercept) b为回归系数(regression coefficient)
t 检验法:
tb b/sb dfn2
sbsy.x/ (xx)2
样本回归系 数的标准误
sx .y (y y ˆ)2/n ( 2 ) 剩余标准差
(yy ˆ)2
估计误差平方和
( y y ˆ ) 2 ( y y ) 2 [ ( x x ) y y ) ( 2 / ( ] x x ) 2
2.5
40
45
50
55
60
3.2
回
3.1
r=-0.83597
3
2.9
2.8
2.7
2.6
2.5
40 45 50 55 60 65
相关系数的计算:
r xxyy xx2yy2
x x y y xx xx x y y n
X和Y的离均差积和
x x 2 x 2 x 2 n
F 2.2 92 ,P 3 0 .2 01
直线回归相关分析的注意事项:
1. 相关分析只是以相关系数来描述两个变量 间线性相关的程度和方向,并不阐明事物间存在 联系的本质,也不是两事物间存在联系的证据。 要阐明两事物间的本质联系,必须凭专业知识从 理论上加以论证。因此,把两个毫无关系的事物 放在一起作相关分析是毫无意义的。同样,作回 归分析也要有实际意义。
r0.9975
tr 46.82 df11
P0.01 两法的测得值有相关(P<0.01)
第三节 直线回归方程
目的:找出描述x与y依存关系的直线方程。
yˆabx
Y为应变量(dependent variable) X为自变量(independent variable) A为截距(intercept) b为回归系数(regression coefficient)
医学统计学相关线性回归PPT.
输出系列相关残差的Durbin-Watson检验和残差与预测值
个案残差诊断
返回主对话框
弹出对话框
标准化预测值 标准化残差
学生化残差
返回主对话框
选“*SRESID”作为y轴, “DEPENDNT” 为x轴,并选取 “Normal probability plo
返回主对话框
弹出对话框
对回归分析的结果保存,如残差、预测值
20
20
有多上效述 蒸(发1和)单-(效5蒸)发条*的*情.比形C较之o:一r的r e供la应t商io,n成i交s无s效ig;n有if上ic述a(n6)t -a(t11th)e条情0形.0之1一l的e供v应el商(,2按-t规a定ile追d究)法. 律责任。
3.医务室进药渠道要规范,不得将过期、变质的药物用于师生,预防发生药物事故。
(教材:P121, 例 9-1)
1.数据录入
定义变 量
变量值录入
2.绘制散点图
Graphs Scatter/Dot…
点击
弹出对话框
文件中变量列表
结果输出窗口
数据基本呈直线趋势,可用直线相关分析。
3.相关分析
Analyze Correlate Bivariate
弹出主对话框
相关系数
点击
弹出对话框
1在.收小到组书交面流确:认书之前,被聘用的新U 雇员n总s不t愿a意n掉d目a前的rd工作iz。S e所td 以a书n面d确认a要r尽d快iz发e 出,d以便让新雇员在规定的时间之前提出辞
职申请,尽快到你处工作。
CoefficientsCoefficients
Model
B Std. Error Beta
t
Sig.
个案残差诊断
返回主对话框
弹出对话框
标准化预测值 标准化残差
学生化残差
返回主对话框
选“*SRESID”作为y轴, “DEPENDNT” 为x轴,并选取 “Normal probability plo
返回主对话框
弹出对话框
对回归分析的结果保存,如残差、预测值
20
20
有多上效述 蒸(发1和)单-(效5蒸)发条*的*情.比形C较之o:一r的r e供la应t商io,n成i交s无s效ig;n有if上ic述a(n6)t -a(t11th)e条情0形.0之1一l的e供v应el商(,2按-t规a定ile追d究)法. 律责任。
3.医务室进药渠道要规范,不得将过期、变质的药物用于师生,预防发生药物事故。
(教材:P121, 例 9-1)
1.数据录入
定义变 量
变量值录入
2.绘制散点图
Graphs Scatter/Dot…
点击
弹出对话框
文件中变量列表
结果输出窗口
数据基本呈直线趋势,可用直线相关分析。
3.相关分析
Analyze Correlate Bivariate
弹出主对话框
相关系数
点击
弹出对话框
1在.收小到组书交面流确:认书之前,被聘用的新U 雇员n总s不t愿a意n掉d目a前的rd工作iz。S e所td 以a书n面d确认a要r尽d快iz发e 出,d以便让新雇员在规定的时间之前提出辞
职申请,尽快到你处工作。
CoefficientsCoefficients
Model
B Std. Error Beta
t
Sig.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
r X X Y Y
l XY
X X 2 Y Y 2
l XX lYY
X 的离均差平方和:
2
lXX X X
Y 的离均差平方和:
2
lYY Y Y
X与Y 间的离均差积和: lXY X X Y Y
离均差平方和、离均差积和的展开:
lXX
2
XX
X2
相关系数的抽样分布( = 0)
300 200 100
0 -1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
相关系数的抽样分布( =0.8)
300 200 100
0 0 0.2 0.4 0.6 0.8 1.0
R.A. Fisher(1921) 的 z 变换
150
100
50
0
-2
-1
0
1
2
相关系数的z 值的抽样分布( = 0.8)
200
150
100
50
0
0
1
2
3
4
相关系数的可信区间估计
➢ (1) 将 r 变换为 z ; ➢ (2) 根据 z 服从正态分布,估计 z 的可信区间;
1 z u sz z u n 3
➢ (3) 再将 z 变换回 r 。
1 1
0.7221
lup
e2z 1 e2z +1
e22.6650 e22.6650
1该可0信.99区0间4 有1 什么含义?
7.3 直线回归
直线回归是把两个变量之间的关系用适当的方 程式表达出来,可以从一个自变量推算另一个 应变量。
直线回归的定义
➢ Y 因变量,响应变量 (dependent variable, response variable)
z 1 ln 1 r 2 1r
r e2z 1 e2z 1
z
近似服从均数为
1 2
ln(1
r)
/(1
r )
,
标准差为 1/ n 3 的正态分布。
相关系数的z 值的抽样分布( = - 0.8)
200
150
100
50
0
0
0.5
1.0 1.5
2.0
相关系数的z 值的抽样分布( = 0)
200
相关关系示意图
正相关
负相关
零相关
零相关
0<r<1 (a)
完全正相关
-1<r<0 (c)
完全负相关
r0 (e)
零相关
r0 (g)
零相关
r=1
r=-1
r=0
r=0
(b)
(d)
(f)
(h)
相关系数的性质
➢ -1 ≤ r ≤ 1 ➢ r>0为正相关 ➢ r<0为负相关 ➢ r=0为零相关或无相关
Pearson相关系数的计算
X2
n
lYY
2
Y Y
Y2
Y2
n
l XY
X
X Y
Y
XY
X Y
n
➢ 以下资料选自Galton的一项研究,目的是探讨成年时 身高是否与两岁时的身高(单位:英寸)有关。
两岁时的 身高(英寸)
39 30 32 34 35 36 36 30
成年 身高(英寸)
71 63 63 67 68 68 70 64
年龄与血压的关系;
身高与体重的关系;
体重与体表面积的关系;
药物浓度与反应率的关系;
相关关系
➢ 当一个变量增大,另一个也随之增大(或 减少),我们称这种现象为共变,或相关 (correlation)。两个变量有共变现象,称 为有相关关系。
➢ 相关关系不一定是因果关系。
7.2 直线相关
➢ 直线相关(linear correlation),又称简单相 关,用以描述两个呈正态分布的变量之间的线 性共变关系,常简称为相关。
➢ 7.1 确定性关系和相关关系 ➢ 7.2 直线相关 ➢ 7.3 直线回归 ➢ 7.4 直线相关和回归应用注意事项
7.1 相关关系与确定性关系
➢ 确定性关系:两变量间是函数关系
圆的周长与半径的关系: C=2R
X与Y的函数关系:
Y=a+bX
➢ 非确定性关系:两变量在宏观上存在关系,但 并未精确到可以用函数关系来表达。
65.00
r lXY
65.00
0.9456
lXX lYY 70.00 67.50
相关系数的假设检验
➢ H0:ρ=0,两变量间无直线相关的关系;
➢ H1:ρ≠0。
t r 0 r , n 2
sr
1 r2
n2
➢ H0:ρ=0,两变量间无直线相关的关系; ➢ H1:ρ≠0,两变量间有直线相关的关系;
➢ 用以说明具有直线关系的两个变量间相关关系
的密切程度和相关方向的指标,称为相关系数 (correlation coefficient),又称为积差相 关系数(coefficient of product-moment correlation),Pearson相关系数 。
➢ 总体相关系数用希腊字母ρ表示,而样本相关 系数用r表示,取值范围均为[-1,1]。
➢ α =0.05 t 0.9456 7.1196 1 0.94562
82
➢ ν=8-2=6 ➢ 以自由度为6查附表2的t界值表,得P<0.01,
按α=0.05的水准拒绝H0,接受H1,认为2岁时
的身高和成年身高之间存在正相关。
相关系数的抽样分布( = - 0.8)
300 200 100
0 -1.0 -0.8 -0.6 -0.4 -0.2 0.0
两指标间的关系分析
Linear correlation and regression
直线相关和回归
➢ 以往方法的局限
仅限于考察一个观察指标
医学研究中常要分析变量间的关系,如: ➢ 身高和体重 ➢ 年龄和血压 ➢ 人的肺活量与胸围 ➢ 药物剂量与动物死亡率 ➢ 环境介质中污染物浓度与污染源距离
内容提要:
相关系数的可信区间估计
Fisher’s 变换
r
z
正态近似
的95%CI Fisher’s 反变换 Z的95%CI
z 1 ln(1 0.9456) 1.7885 2 1 0.9456
1.7885 1.96 / 8 3 = (0.9120,2.6650)
llow
e2z 1 e2z +1
e20.9120 e20.9120
➢ X 自变量,解释变量 (independent variable, explanatory variable)
绘制散点图
71
Y 成年后身高(单位:英寸)
69
67
65
63 30
32
34
36
38
40
X 2岁时的身高(单位:英寸)
lXX
X2
2
X
272 2
9318
70.00
n
8
lYY
Y2
2
Y
5342
35712
67.50
n
8
lБайду номын сангаасY
XY
X Y
n
18221
272 534 8