三种简单相关分析与SAS实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
饮用水中氟含量(X )与氟骨症患病率(Y )
村编号 I (1) 1 2 3 4 5 6 7 8 9 10 合计 饮用水氟含量(mg/L) 测定值 Xi (2) 0.5 1.2 5.75 1.62 0.65 2.61 1.53 2.39 3.72 3.22 秩次 RXi (3) 1 3 10 5 2 7 4 6 9 8 患病率(%) 测定值 Yi (4) 20.13 22.64 39.18 22.64 18.97 24.86 23.01 26.71 38.9 46.75 秩次 RYi (5) 2 3.5 9 3.5 1 6 5 7 8 10 秩次差值 di=RXi-RYi (6) -1 -0.5 1 1.5 1 1 -1 -1 1 -2 0 秩次差值 的平方 d i2 (7) 1 0.25 1 2.25 1 1 1 1 1 4 13.5
间一定存在内在联系,相关关系不一定是因果关系。 有时两个变量虽然存在直线关系,但可能是同时受 另外一个因素的影响,二者均随另一个因素的变化 而变化,它们本身却不一定存在因果关系。
年龄
工龄越长
?
血压越高
PearsonΒιβλιοθήκη Baidu线相关
6. 分层资料不宜盲目合并进行相关分析。只有确定各 层研究对象具有同质基础才能合并。 7. 不要把假设检验中相关显著性大小理解为相关程度的
按 = 11查t界值表,得P<0.01 ,说明总体相关系 数与0之间的差别有统计学意义
Pearson直线相关
相关系数的区间估计
从相关系数 不等于0的总体中抽样,样本
相关系数的分布是偏态的。
Pearson直线相关
Z 变换
1 1 r z ln 2 1 r e 1 r 2z e 1
RX RY (n 1) / 2
2 2
( RX i RX ) ( RYi RY ) (n3 n) /12,
但Xi的秩顺序不一定与Yi的秩顺序相同,故所对应的 RXi与RYi不一定相等。
Spearman秩相关
只要求出 ( RX i RX )( RYi RY ) 计算秩相关系数rs
Pearson直线相关
直线相关分析的一般步骤
1. 绘制散点图,观察两变量的变化趋势;
2. 若散点图呈直线趋势,计算相关系数;
3. 对相关系数进行假设检验;
4. 必要时对总体相关系数进行区间估计。
Pearson直线相关
直线相关分析的注意事项
1. 直线相关分析要求两个变量均为服从正态分布的随机变量, 实际数据要满足这一前提。
相关系数的符号反映两变量间的相关方向: r>0为
正相关,r<0为负相关 相关系数的绝对值反映两变量相关的密切程度: |r| 越大,相关越密切。 r=1 完全正相关
r = -1 完全负相关 r=0 零相关
应该注意的是,r所表示的只是X与Y间的直线关系, 若两变量间为曲线关系时,即使所有的点都在曲 线上,其r值也并不等于1。例如下图所示Y=x2的 曲线,将各X值代入,得: X 0 1 2 3 4 Y 1 2 4 5 16
Spearman秩相关
Spearman秩相关分析步骤:
1.编秩 将各Xi由小到大编秩得RXi,列于表中第(3) 列。采用相同的排秩规则将Yi的记分列于表中第(5)列 RYi。当遇到相等的测定值时则用平均秩。如Y2=Y4=22.64, 按编秩为3和4,这两个测定值的平均秩为(3+4)/2=3.5, 故有RY2= RY4=3.5。 2.秩次差 求每例观察对象的秩次差 di RX i RYi 列于表中第(6)列,应有 di 0。本例的合计为 di 0 表示排秩无误,可作核对之用。
Pearson直线相关
直线相关的概念 直线相关的定量描述 相关系数的假设检验 相关系数的区间估计 直线相关分析的一般步骤 直线相关分析的注意事项
Pearson直线相关
1. 定义
如果两个随机变量中,当其中一个变量由小到大变 化时,另一个变量也相应地由小到大(或由大到小) 变化,并且其相应变化的散点图在直角坐标系中呈现 直线趋势,则称这两个随机变量存在直线相关。
零相关
零相关
零相关
Pearson直线相关
直线相关分析的适用条件
(1) 两个变量均为服从正态分布的随机变量,
即要求他们服从双变量正态分布;
(2) 每对数据对应的点在直角坐标系中呈现
直线趋势。
Pearson直线相关
2.直线相关的定量描述
相关系数的意义 在分析两个事物间的关系时,常常要了解两 者间的数量关系是否密切。说明两个变量 ( x, y ) 间关系密切程度和方向的统计指标称相关系数, 又称pearson相关系数,或积差相关系数。
1 Pearson直线相关
2. t 检验
若H0成立,从 =0的总体中抽样,所得到的样
本相关系数 r 呈对称分布(近似正态分布),此
时可用 t 检验。
r 0 r t , sr 1 r2 n2
本例, t
n2
1 0.8932 /(13 2)
2
0.8932
6.59 = n-2 =11
Spearman秩相关
相同秩次较多时
rs' [( n 3 n) / 6] (TX TY ) d 2 [( n 3 n) / 6] 2TX [( n 3 n) / 6] 2TY
TX(或TY)=(t3-t)/12,t为X(或Y)中相同
秩次的个数。
例 某地方病防治所随机抽样调查了某县10个村 饮水中氟含量与氟骨症患病率间的关系
r
l XY l XX lYY
16.3846 80.2692 4.1923
0.8932
Pearson直线相关
相关系数的统计学意义检验 检验假设如下:
H0:总体相关系数 =0 H1: 0 = 0.05
1. 直接查表法:求得 r 后,按 = n-2查r界 值表。 本例,r=0.8932, P<0.01,说明总体相 关系数与0之间的差别有统计学意义
2z
z 近似服从均数为
1 2
ln(1 r ) /(1 r ),
标准误为 1 / n 3 的正态分布。
Pearson直线相关
将 r 变换为 z ; 根据 z 服从正态分布,估计 z 的可信区 间;
z u / 2 s z z u / 2
再将 z 变换回 r 。
1 n 3
三种简单相关分析与SAS实现
医学统计学教研室 柳伟伟
相关
在生物医学科研与实践中,经常涉及两个变量之 间的关系研究,以说明事物发生、发展及变化的 原因或变量间依存变化的数量关系。
例如:
医学上人的身高与体重的关系、年龄与血压的关系 等; 药物剂量与反应的关系等; 病程与疗效的关系。
相关与回归分析是研究这种关系的统计方法,属 双变量分析(bivariate analysis)范畴。
样本相关系数用r表示,总体相关系数用ρ 表示。
Pearson直线相关
计算相关系数的基本公式是: ( X i X )(Yi Y ) lxy r 2 2 lxx l yy ( X i X ) (Yi Y )
式中,lXX 、 lYY 分别表示X、Y 的离均差平方和, lXY 表示X与Y的离均差乘积和。
推断两个随机变量是否存在直线相关关系以及描述 这种相关关系大小的分析方法就是直线相关分析 (linear correlation analysis),也称简单相关分析 (simple correlation analysis)。
Pearson直线相关
直线相关图示
正相关
负相关
完全正相关
完全负相关
零相关
相关分析的任务
说明客观事物或现象相互间数量关系的密切 程度和方向,并用适当的统计指标表示出来。 而把客观事物或现象间的数量依存关系表示 出来,则是回归分析所要解决的问题。
三种简单相关
1. Pearson直线相关 2. Spearman秩相关
3. Kendall等级相关
Pearson直线相关
了解两个随机变量X与Y之间相关关系及其 密切程度,可用直线相关分析方法。 直线相关(linear regression)又称简单 相关,此方法适用于X和Y都服从正态分布 的资料。
(3)原始数据用等级表示
等级相关
Spearman秩相关 Kendall等级相关
Spearman秩相关
Spearman秩相关 对于不符合正态分布的资料,不用原始数 据计算相关系数,而是将原始观察值由小到大 编秩,然后根据秩次来计算秩相关系数。 通过秩相关系数rs来说明两个变量间相关 关系的密切程度
两变量的相关系数为0.933
Pearson直线相关
例 随机测量了13名8岁健康男童的体重与心脏
横径,结果见下表。试进行直线相关分析。
13 名 8 岁健康男童体重(X)与心脏横径(Y)的测量值 编号 1 2 3 4 5 6 7 8 9 10 11 12 13
X(kg) 25.5 19.5 24.0 20.5 25.0 22.0 21.5 23.5 26.5 23.5 22.0 20.0 28.0 Y(cm) 9.2 7.8 9.4 8.6 9.0 8.8 9.0 9.4 9.7 8.8 8.5 8.2 9.9
Spearman秩相关
设有n例观察对象同时取得两个测定值(Xi,Yi),
分别按Xi、 Yi(i=1,2,3…,n)的值由小到大编秩为 1,2,3 … ,n。用RXi表示Xi的秩次, RYi表示Yi的秩 次。因为n是固定的,所以总秩相等即
RX RY n(n 1) / 2,
i i
平均秩
rs
i i 2
就可按以下公式
( RX RX )( RY RY ) ( RX RX ) ( RY RY )
i i
2
令同一观察对象的两个秩次差为:
di RX i RYi (i 1, 2,3,, n)
得到秩相关系数的简化公式为: 6di 2 rs 1 n n 2 1 式中n为 观察例数。rs的取值为| rs |≤1。
2. 分析前必须先作散点图,变化不呈直线趋势时不宜作直线
相关。
3. 要注意相关的有效范围。相关系数的意义仅限于原资料中 两个变量值的实测范围,超出这一范围就不一定保持现有 的直线关系了。
Pearson直线相关
4. 作相关分析时,必须考虑异常点的影响。
5. 相关分析要有实际意义,两变量相关并不代表两变量
大小。若经假设检验推断 0,说明两变量间存在
一定的直线关系。相关的密切程度可参照下面标准
判断:|r|<0.4为低度相关,0.4≤|r|≤0.7为中度相关,
|r|>0.7为高度相关。
等级相关
1. 定义:
用双变量等级数据作直线相关分析
2. 适用范围:
(1)不服从双变量正态分布
(2)总体分布类型未知
l XX ( X X ) 2 X 2 ( X ) 2 / n
lYY (Y Y ) 2 Y 2 ( Y ) 2 / n
l XY ( X X )(Y Y ) XY ( X )( Y ) / n
Pearson直线相关
相关系数的意义
Spearman秩相关
3.计算秩次之差的平方并求和 列于表中第(7)列。本例有 计算出的 d i2
di2 13.5
4.计算秩相关系数rs 本例 n 10, di2 13.5, 代入简化公式中得到:
6 13.5 rs 1 3 0.918 10 10
Pearson直线相关
心脏横径 10 (cm)
9
8
7 18 20 22 24 26 28 30
体重(kg)
13名8岁健康男童体重与心脏横径的散点图
Pearson直线相关
相关系数的计算
X=301.5 X 2 =7072.75
Y=116.3
Y 2 =1044.63
XY = 2713.65
lXX = X 2 – (X)2/n =7.72.75-301.52/13 = 80.2692 lYY = Y 2 – (Y)2/n =1044.63-116.32/13 = 4.1923 lXY = XY – (X)(Y)/n =2713.65-301.5116.3/13=16.3846
村编号 I (1) 1 2 3 4 5 6 7 8 9 10 合计 饮用水氟含量(mg/L) 测定值 Xi (2) 0.5 1.2 5.75 1.62 0.65 2.61 1.53 2.39 3.72 3.22 秩次 RXi (3) 1 3 10 5 2 7 4 6 9 8 患病率(%) 测定值 Yi (4) 20.13 22.64 39.18 22.64 18.97 24.86 23.01 26.71 38.9 46.75 秩次 RYi (5) 2 3.5 9 3.5 1 6 5 7 8 10 秩次差值 di=RXi-RYi (6) -1 -0.5 1 1.5 1 1 -1 -1 1 -2 0 秩次差值 的平方 d i2 (7) 1 0.25 1 2.25 1 1 1 1 1 4 13.5
间一定存在内在联系,相关关系不一定是因果关系。 有时两个变量虽然存在直线关系,但可能是同时受 另外一个因素的影响,二者均随另一个因素的变化 而变化,它们本身却不一定存在因果关系。
年龄
工龄越长
?
血压越高
PearsonΒιβλιοθήκη Baidu线相关
6. 分层资料不宜盲目合并进行相关分析。只有确定各 层研究对象具有同质基础才能合并。 7. 不要把假设检验中相关显著性大小理解为相关程度的
按 = 11查t界值表,得P<0.01 ,说明总体相关系 数与0之间的差别有统计学意义
Pearson直线相关
相关系数的区间估计
从相关系数 不等于0的总体中抽样,样本
相关系数的分布是偏态的。
Pearson直线相关
Z 变换
1 1 r z ln 2 1 r e 1 r 2z e 1
RX RY (n 1) / 2
2 2
( RX i RX ) ( RYi RY ) (n3 n) /12,
但Xi的秩顺序不一定与Yi的秩顺序相同,故所对应的 RXi与RYi不一定相等。
Spearman秩相关
只要求出 ( RX i RX )( RYi RY ) 计算秩相关系数rs
Pearson直线相关
直线相关分析的一般步骤
1. 绘制散点图,观察两变量的变化趋势;
2. 若散点图呈直线趋势,计算相关系数;
3. 对相关系数进行假设检验;
4. 必要时对总体相关系数进行区间估计。
Pearson直线相关
直线相关分析的注意事项
1. 直线相关分析要求两个变量均为服从正态分布的随机变量, 实际数据要满足这一前提。
相关系数的符号反映两变量间的相关方向: r>0为
正相关,r<0为负相关 相关系数的绝对值反映两变量相关的密切程度: |r| 越大,相关越密切。 r=1 完全正相关
r = -1 完全负相关 r=0 零相关
应该注意的是,r所表示的只是X与Y间的直线关系, 若两变量间为曲线关系时,即使所有的点都在曲 线上,其r值也并不等于1。例如下图所示Y=x2的 曲线,将各X值代入,得: X 0 1 2 3 4 Y 1 2 4 5 16
Spearman秩相关
Spearman秩相关分析步骤:
1.编秩 将各Xi由小到大编秩得RXi,列于表中第(3) 列。采用相同的排秩规则将Yi的记分列于表中第(5)列 RYi。当遇到相等的测定值时则用平均秩。如Y2=Y4=22.64, 按编秩为3和4,这两个测定值的平均秩为(3+4)/2=3.5, 故有RY2= RY4=3.5。 2.秩次差 求每例观察对象的秩次差 di RX i RYi 列于表中第(6)列,应有 di 0。本例的合计为 di 0 表示排秩无误,可作核对之用。
Pearson直线相关
直线相关的概念 直线相关的定量描述 相关系数的假设检验 相关系数的区间估计 直线相关分析的一般步骤 直线相关分析的注意事项
Pearson直线相关
1. 定义
如果两个随机变量中,当其中一个变量由小到大变 化时,另一个变量也相应地由小到大(或由大到小) 变化,并且其相应变化的散点图在直角坐标系中呈现 直线趋势,则称这两个随机变量存在直线相关。
零相关
零相关
零相关
Pearson直线相关
直线相关分析的适用条件
(1) 两个变量均为服从正态分布的随机变量,
即要求他们服从双变量正态分布;
(2) 每对数据对应的点在直角坐标系中呈现
直线趋势。
Pearson直线相关
2.直线相关的定量描述
相关系数的意义 在分析两个事物间的关系时,常常要了解两 者间的数量关系是否密切。说明两个变量 ( x, y ) 间关系密切程度和方向的统计指标称相关系数, 又称pearson相关系数,或积差相关系数。
1 Pearson直线相关
2. t 检验
若H0成立,从 =0的总体中抽样,所得到的样
本相关系数 r 呈对称分布(近似正态分布),此
时可用 t 检验。
r 0 r t , sr 1 r2 n2
本例, t
n2
1 0.8932 /(13 2)
2
0.8932
6.59 = n-2 =11
Spearman秩相关
相同秩次较多时
rs' [( n 3 n) / 6] (TX TY ) d 2 [( n 3 n) / 6] 2TX [( n 3 n) / 6] 2TY
TX(或TY)=(t3-t)/12,t为X(或Y)中相同
秩次的个数。
例 某地方病防治所随机抽样调查了某县10个村 饮水中氟含量与氟骨症患病率间的关系
r
l XY l XX lYY
16.3846 80.2692 4.1923
0.8932
Pearson直线相关
相关系数的统计学意义检验 检验假设如下:
H0:总体相关系数 =0 H1: 0 = 0.05
1. 直接查表法:求得 r 后,按 = n-2查r界 值表。 本例,r=0.8932, P<0.01,说明总体相 关系数与0之间的差别有统计学意义
2z
z 近似服从均数为
1 2
ln(1 r ) /(1 r ),
标准误为 1 / n 3 的正态分布。
Pearson直线相关
将 r 变换为 z ; 根据 z 服从正态分布,估计 z 的可信区 间;
z u / 2 s z z u / 2
再将 z 变换回 r 。
1 n 3
三种简单相关分析与SAS实现
医学统计学教研室 柳伟伟
相关
在生物医学科研与实践中,经常涉及两个变量之 间的关系研究,以说明事物发生、发展及变化的 原因或变量间依存变化的数量关系。
例如:
医学上人的身高与体重的关系、年龄与血压的关系 等; 药物剂量与反应的关系等; 病程与疗效的关系。
相关与回归分析是研究这种关系的统计方法,属 双变量分析(bivariate analysis)范畴。
样本相关系数用r表示,总体相关系数用ρ 表示。
Pearson直线相关
计算相关系数的基本公式是: ( X i X )(Yi Y ) lxy r 2 2 lxx l yy ( X i X ) (Yi Y )
式中,lXX 、 lYY 分别表示X、Y 的离均差平方和, lXY 表示X与Y的离均差乘积和。
推断两个随机变量是否存在直线相关关系以及描述 这种相关关系大小的分析方法就是直线相关分析 (linear correlation analysis),也称简单相关分析 (simple correlation analysis)。
Pearson直线相关
直线相关图示
正相关
负相关
完全正相关
完全负相关
零相关
相关分析的任务
说明客观事物或现象相互间数量关系的密切 程度和方向,并用适当的统计指标表示出来。 而把客观事物或现象间的数量依存关系表示 出来,则是回归分析所要解决的问题。
三种简单相关
1. Pearson直线相关 2. Spearman秩相关
3. Kendall等级相关
Pearson直线相关
了解两个随机变量X与Y之间相关关系及其 密切程度,可用直线相关分析方法。 直线相关(linear regression)又称简单 相关,此方法适用于X和Y都服从正态分布 的资料。
(3)原始数据用等级表示
等级相关
Spearman秩相关 Kendall等级相关
Spearman秩相关
Spearman秩相关 对于不符合正态分布的资料,不用原始数 据计算相关系数,而是将原始观察值由小到大 编秩,然后根据秩次来计算秩相关系数。 通过秩相关系数rs来说明两个变量间相关 关系的密切程度
两变量的相关系数为0.933
Pearson直线相关
例 随机测量了13名8岁健康男童的体重与心脏
横径,结果见下表。试进行直线相关分析。
13 名 8 岁健康男童体重(X)与心脏横径(Y)的测量值 编号 1 2 3 4 5 6 7 8 9 10 11 12 13
X(kg) 25.5 19.5 24.0 20.5 25.0 22.0 21.5 23.5 26.5 23.5 22.0 20.0 28.0 Y(cm) 9.2 7.8 9.4 8.6 9.0 8.8 9.0 9.4 9.7 8.8 8.5 8.2 9.9
Spearman秩相关
设有n例观察对象同时取得两个测定值(Xi,Yi),
分别按Xi、 Yi(i=1,2,3…,n)的值由小到大编秩为 1,2,3 … ,n。用RXi表示Xi的秩次, RYi表示Yi的秩 次。因为n是固定的,所以总秩相等即
RX RY n(n 1) / 2,
i i
平均秩
rs
i i 2
就可按以下公式
( RX RX )( RY RY ) ( RX RX ) ( RY RY )
i i
2
令同一观察对象的两个秩次差为:
di RX i RYi (i 1, 2,3,, n)
得到秩相关系数的简化公式为: 6di 2 rs 1 n n 2 1 式中n为 观察例数。rs的取值为| rs |≤1。
2. 分析前必须先作散点图,变化不呈直线趋势时不宜作直线
相关。
3. 要注意相关的有效范围。相关系数的意义仅限于原资料中 两个变量值的实测范围,超出这一范围就不一定保持现有 的直线关系了。
Pearson直线相关
4. 作相关分析时,必须考虑异常点的影响。
5. 相关分析要有实际意义,两变量相关并不代表两变量
大小。若经假设检验推断 0,说明两变量间存在
一定的直线关系。相关的密切程度可参照下面标准
判断:|r|<0.4为低度相关,0.4≤|r|≤0.7为中度相关,
|r|>0.7为高度相关。
等级相关
1. 定义:
用双变量等级数据作直线相关分析
2. 适用范围:
(1)不服从双变量正态分布
(2)总体分布类型未知
l XX ( X X ) 2 X 2 ( X ) 2 / n
lYY (Y Y ) 2 Y 2 ( Y ) 2 / n
l XY ( X X )(Y Y ) XY ( X )( Y ) / n
Pearson直线相关
相关系数的意义
Spearman秩相关
3.计算秩次之差的平方并求和 列于表中第(7)列。本例有 计算出的 d i2
di2 13.5
4.计算秩相关系数rs 本例 n 10, di2 13.5, 代入简化公式中得到:
6 13.5 rs 1 3 0.918 10 10
Pearson直线相关
心脏横径 10 (cm)
9
8
7 18 20 22 24 26 28 30
体重(kg)
13名8岁健康男童体重与心脏横径的散点图
Pearson直线相关
相关系数的计算
X=301.5 X 2 =7072.75
Y=116.3
Y 2 =1044.63
XY = 2713.65
lXX = X 2 – (X)2/n =7.72.75-301.52/13 = 80.2692 lYY = Y 2 – (Y)2/n =1044.63-116.32/13 = 4.1923 lXY = XY – (X)(Y)/n =2713.65-301.5116.3/13=16.3846