1第7章相关性分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
2
第 7 章 相关性分析
可以证明: (1)当两个随机变量不线性相关时,它们并不一定相互独立,它们之间还可能存在其他 的函数关系. (2)若 ( X , Y ) 服从二维正态分布, X 与 Y 不相关和 X 与 Y 相互独立是等价的,且概率密 度中的参数 ρ 就是 X 和 Y 的相关系数. 即, X 和 Y 相互独立的充要条件是 ρ = 0 . 定义 7-3 若对随机变量 X 和 Y 进行了 n 次随机试验, 得到样本 ( X i , Yi ) (i = 1, 2," , n ) , 且
2250 解 (1)数据探索 先做散点图和 Q-Q 图, 看到变量间基本符合线性相关关系, 变量的分布符合正态分布. 这 里只给出肺活量和身高的散点图、身高的标准 Q-Q 图,其余略.
数学建模与软件实现
图 7-1 (a)肺活量和身高的散点图 图 7-1 (b)身高的标准 Q-Q 图 下面作相关性分析. (2)建立 SPSS 数据文件. 在数据文件中定义变量名:身高为 height,体重为 weight,肺活量为 vc,按顺序输入相应 数值,建立数据文件, 如图 7-2 所示.
身高和肺活量的相关系数为 r = 0.096 < 0.3 , p = 0.627 ,所以接收不相关的假设,认为身 高和肺活量无显著的线性关系. 此例说明体重因子影响了身高和肺活量之间相关性的分析.
7.2 Spearman(斯皮尔曼)秩相关系数—单调性相关分析
为了使用 Pearson 线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至 少在逻辑范畴内是等间距的. 如果这两个条件不符合,一种方法就是采用 Spearman 秩相关系 数来代替 Pearson 线性相关系数进行相关性分析. 7.2.1 秩 “秩”即按数据大小排定的次序号,又称秩次号. 编秩就是将观察值按顺序由小到大排列, 并用序号代替原始变量值本身. 用秩次号代替原始数据后,所得某些秩次号之和,即按某种顺 序排列的序号之和,称为秩和. 设有以下两组数据: A 组 4.7 6.4 2.6 3.2 5.2 B 组 1.7 2.6 3.6 2.3 3.7 两组各有 5 个变量值. 现在依从小到大的顺序将它们排列起来,并标明秩次,结果如下: A组 2.6 3 2 4.7 5.2 6.4 B 组 1.7 2.3 2 6 3.6 3.7 秩次 1 2 3 4 5 6 7 8 9 10 原始值中有两个“2.6”,分属 A、B 组,它们的秩次应是 3 和 4,然而它们的数值本来是同样大 小的,哪组取“3” ,哪组取“4”呢?我们将它们的平均数(3+4)/2=3.5,作为“2.6”的秩次,称 为“平均秩次”. 这样两组所得的秩次及秩和如下: A 组 3. 5 5 8 9 10 秩和为 35. 5 B组 1 2 3. 5 6 7 秩和为 19. 5 上面 A 组和 B 组中各有五个原始值,按顺序排列:最小值设为 1,再按绝对值大小对余下的 变量逐个排序,最大值为两组变量个数之和 10. 依次可得 1,2,3.5,3.5,5,6,7,8,9, 10. 这 10 个序号即是秩次. A 组秩和等于 3.5+5+8+9+10=35.5, B 组秩和等于 1+2+3. 5+6+7=19.5. 从两组的原始变量值也可以初步看出:A 组偏大,B 组偏小. 现在得出的秩和也是 A 组大于 B 组,与由变量值所观察到的结果一致. 7.2.2 秩相关系数 Spearman 秩相关系数通常被认为是排列后的变量秩次之间的 Pearson 线性相关系数. 定义 7-4 若对随机变量 X 和 Y 进行了 n 次随机试验, 得到样本 ( X i , Yi ) (i = 1, 2," , n ) , 设 Xi 、
**. 在 . 01 水平(双侧)上显著相关. SPSS 软件中,相关性检验的零假设为“ H 0 : γ = 0 ”. 身高和体重的相关系数为 r = 0.719 , p = 0.00 ,所以身高和体重中度相关,结果有统计学 意义;身高和肺活量的相关系数为 r = 0.507 , p = 0.005 ,所以身高和体重中度相关,结果有统 计学意义;体重和肺活量的相关系数为 r = 0.634 , p = 0.00 ,所以身高和体重中度相关,结果 有统计学意义; 相关系数计算两个变量之间的关系,分析两个变量之间线性相关的程度. 但是,有时因为 第三个变量的作用,使得相关系数不能反映两个变量间真正的线性程度. 例如,上例中,我们 得出肺活量和身高与体重均存在中度的线性关系,但实际上,对相同体重的人分析身高和肺 活量,却没有线性关系. 这种情况下,我们可以对变量进行偏相关分析. 在偏相关分析中,系 统可按用户的要求对两相关变量之外的某一或某些影响相关的其他变量进行控制,输出控制 其他变量影响后的相关系数. 例 7-2 对例 7-1 中的数据作偏相关性分析 解 使用 SPSS 操作过程如下: (1)点击主菜单“分析”项,在下拉菜单中点击“相关”项,在右拉式菜单中点击“偏 相关...”项,打开偏相关分析主对话框. ;在“显著 (2)选“身高”和“肺活量”入“变量”框;选"“体重”作为"控制变量", 性检验”框中选双侧检验.
图 7-3 相关分析主对话框 (5)输出结果及分析 输出结果如表 7-2 所示. 表 7-2 相关性分析结果 相关性 身高(cm) 体重(kg) 肺活量(ml) 3
4
第 7 章 相关性分析 Pearson 相关性 1 身高(cm) 显著性(双侧) N 体重(kg) 29 Pearson 相关性 . 719** 显著性(双侧) . 000 N 29 29 . 634** . 000 29 29 Pearson 相关性 . 507** 肺活量(ml) 显著性(双侧) . 005 N 29 . 719** . 000 29 1 . 507** . 005 29 . 634** . 000 29 1
数学建模与软件实现
第 7 章 相关性分析
相关性分析是指分析两个随机变量之间是否存在一定的关系. 相关分析可以发现变量间 的共变关系(包括正向的和负向的共变关系) ,一旦发现了共变关系就意味着变量间可能存在 两种关系中的一种: (1) 因果关系(两个变量中一个为因、 另一个为果); (2) 存在公共因子 (两 变量均为果,有潜在的共因). 很多时候, 我们需要寻找这些因果关系, 或者是寻找公共因子. 相关性研究是非常有用的, 它是许多深入研究必备的初始阶段工作. 衡量随机变量相关性的度量主要有三种:pearson 相关系数、spearman 相关系数、kendall 相关系数.
故方差 DX , DY 是协方差的特例. 从定义中看到,协方差和变量的量纲有关. 我们将随机变量标准化,得 X − EX Y − EY X* = ,Y * = DX DY C ov( X , Y ) ( X * , Y * ) 的协方差为 . D( X ) D(Y ) C ov( X , Y ) 为随机变量 X , Y 的 Pearson 相关系 定义 7-2 设 ( X , Y ) 为二维随机变量,称 D( X ) D(Y ) 数(Pearson correlation coefficient)或标准协方差(Standard covariance) ,记为 ρ XY ,即 C ov( X , Y ) ρ XY = D( X ) D (Y ) 定理 7-1 设 D ( X ) > 0 , D (Y ) > 0 , ρ XY 为 ( X , Y ) 的相关系数,则 (1)如果 X , Y 相互独立,则 ρ XY = 0 ; (2) ρ XY ≤ 1 ; (3) ρ XY = 1 的充要条件是存在常数 a, b 使 P{Y = aX + b} = 1 ( a ≠ 0) . 相关系数 ρ XY 描述了随机变量 X ,Y 的线性相关程度, ρ XY 愈接近 1,则 X 与 Y 之间愈接 近线性关系. ρ XY > 0 为正相关, ρ XY < 0 为负相关. 一般用下列标准对相互关系进行判定: (1) ρ XY > 0.95 , X 与 Y 存在显著性相关; (2) ρ XY ≥ 0.8 , X 与 Y 高度相关; (3) 0.5 ≤ ρ XY < 0.8 , X 与 Y 中度相关; (4) 0.3 ≤ ρ XY < 0.5 , X 与 Y 低度相关; (5) ρ XY ≤ 0.3 , X 与 Y 关系极弱,认为不相关; (6) ρ XY = 0 , X 与 Y 无显性相关.
7.1 Pearson(皮尔逊)相关系数—线形相关分析
对于二维随机变量 ( X , Y ) ,根据数学期望性质,若 X 和 Y 相互独立,且 EX 和 EY 存在, 则有
E [( X − EX )(Y − EYቤተ መጻሕፍቲ ባይዱ)] = E ( XY ) − EX ⋅ EY = 0
所以当 E [( X − EX )(Y − EY )] ≠ 0 时,必有 X 和 Y 不相互独立. 定义 7-1 设 ( X , Y ) 为二维随机变量,称
图 7-2 数据文件的变量试图 (3)点击主菜单“分析”项,在下拉菜单中点击“相关”项,在右拉式菜单中点击“双 变量...”项,系统打开相关分析主对话框. 、 “体重”和“肺活量”点击向右按钮使之进 (4)在对话框左侧的变量列表中选“身高” 入“变量”框;在“相关系数”框中选择相关系数的类型,共有三种:Pearson 为通常所指的 相关系数,Kendell’s tau-b 为非参数资料的相关系数,Spearman 为非正态分布资料的 Pearson 相关系数替代值, 本例选用 Pearson 项; 在 “显著性检验” 框中可选相关系数的单侧 (One-tailed) 或双侧(Two-tailed)检验,本例选双侧检验. 如图 7-3.
E [( X − EX )(Y − EY )]
为随机变量 X , Y 的协方差(Covariance) ,记为 Cov ( X , Y ) ,即
Cov ( X , Y ) = E [( X − EX )(Y − EY )]
特别地
Cov ( X , X ) = E [( X − EX )( X − EX )] = DX Cov (Y , Y ) = E [(Y − EY )(Y − EY )] = DY
图 7-4 偏相关分析主对话框 (3)输出结果及分析 输出结果如表 7-4 所示. 表 7-4 偏相关分析结果 相关性 控制变量 体重(kg) 肺活量(ml) 相关性 显著性(双侧) 肺活量(ml) 身高(cm) 1. 000 . . 096 . 627
数学建模与软件实现 df 相关性 身高(cm) 显著性(双侧) df 0 . 096 . 627 26 26 1. 000 . 0
X = 1 n 1 n X i , Y = ∑ Yi ,则随机变量 X 和 Y 对于这组样本的相关系数 r 为 ∑ n i =1 n i =1
r=
∑( X
i =1
n
i
− X )(Yi − Y )
∑( X
i =1
n
i
− X )2
∑ (Y − Y )
i =1 i
n
2
、体重(kg)和肺活量(ml)的数据如下表,试对 例 7-1 某地 29 名 13 岁男童身高(cm) 该资料中各因素做相关分析. 表 7-1 测试数据 编号 身高(cm) 体重(kg) 肺活量(ml) 编号 身高(cm) 体重(kg) 肺活量(ml) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 135. 1 139. 9 163. 6 146. 5 156. 2 156. 4 167. 8 149. 7 145. 0 148. 5 165. 5 135. 0 153. 3 152. 0 160. 5 32. 0 30. 4 46. 2 33. 5 37. 1 35. 5 41. 5 31. 0 33. 0 37. 2 49. 5 27. 6 41. 0 32. 0 47. 2 1750 2000 2150 2500 2750 2000 2150 1500 2500 2250 3000 1250 2750 1750 16 17 18 19 20 21 22 23 24 25 26 27 28 29 153. 0 147. 6 157. 5 155. 1 160. 5 143. 0 149. 4 160. 8 159. 0 158. 2 150. 0 144. 5 154. 6 156. 5 47. 2 40. 5 43. 3 44. 7 37. 5 31. 5 33. 9 40. 4 38. 5 37. 5 36. 0 34. 7 39. 5 32. 0 2350 2000 2250 2750 2400 1750 2250 2750 2500 2000 1750 2250 2500 1750