SPSS统计分析 第七章 相关分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Yn,我们就可以用秩相关度量来决定X和Y之间的相
关性。

( R R)( S
i 1 i n 2 n i 1 i 1
n
i
S)
2
( R i R) ( S i S )
Ri为第i个X值的秩, Si为第i个Y值的秩。
Kendall‘s tau-b也是一种对两个有序变量或两
个秩变量间的关系程度的测度,因此也属于 一种非参测度 。
第七章 相关分析
一、相关分析的概念
相关分析是研究变量间密切程度的一种常用统计方法。
线性相关分析研究两个变量间线性关系的程度。
相关系数是描述这种线性关系程度和方向的统计量, 通常用r表示。相关系数r没有单位;其值在-l~+1之
间。当数值愈接近-l或+1之间时,关系愈紧密,接近
于0时,关系愈不紧密。 对其数值可以从小到大排列的数据才能计算其相关系 数。例如不能计算宗教信仰与颜色喜好之间的关系。
过选择不同的分析方法调用不同的分析过程。
选择哪一种分析方法要看具体的数据类型。
对于连续变量和等级变量选择不同的分析方
法。
Pearson调用correlation过程计算连续变量或等间隔 测量的变量间的相关系数。 Kendall's tau-b调用Nonpar corr过程计算分类变量 间的秩相关。 Spearman调用Nonpar corr过程计算斯皮尔曼秩相 关。
体重
肺活量
**. Correlation is significant at the 0.01 level (2-tailed).
例二
四川绵阳地区3年生中山柏的数据。分析月生长量与 月平均气温、月降雨量、月平均日照时数、月平均湿 度四个气候因素哪个因素有关。Month:月份,hgrow: 生长量,temp:月平均气温,rain: 月降雨量,hsun: 月平均日照时数,humi: 月平均湿度。 数据编号data10-05 分析变量:hgrow(生长量)与hsun(月平均日照时 数) 控制变量:humi(月平均湿度)、rain(月降雨量)、 temp(月平均气温)
3、偏相关系数
偏相关系数描述的是当控制了一个或几个另 外的变量的影响条件下两个变量间的相关性。
例如:可以控制年龄和工作经验两个变量的 影响,估计工资收入与受教育程度之间的相 关关系。 控制了变量Z,变量X与 Y之间的偏相关,和 控制了两个变量 Z1、Z2,变量 X与Y之间的 偏相关系数计算公式不同。
等。
有关统计量
不相似性测度 等间隔数据的不相似性(距离)测度可以使用的统 计量:欧几米德(欧氏)距离、欧氏距离平方等。 计数数据,使用卡方。 二值(只有两种取值)数据,使用欧氏距离、欧氏 距离平方等。
相似性测度
等间隔数据使用统计量皮尔逊相关或余弦。 测度二元数据的相似性使用的统计量有二十余种。
仍以四川绵羊地区中山柏生长的数据为例
例二
10名运动员长拳和长兵器两项得分,分析两
项得分是否存在相关关系。 Data10-02
例三
10名学生两科课程的名次排列,要求求出其
等级相关系数,检验其显著性。 Data10-03
练习题
某妇幼保健医院对33名产妇进行产前检查并
得到婴儿体重的原始观测值包括髂前上棘间 径(x1),髂脊间径(x2),耻骶外径
两个或若干变量之间或两组观测量之间的关
系有时也可以用相似性或不相似性来描述。 相似性测度用大数值表示很相似,较小的数
值表明相似性小。不相似性使用距离或不相
似性来描述。大值表示相差甚远。
三、相关系数统计意义的检验
由于我们通常是通过抽样方法;利用样本研
究总体的特性。由于抽样误差的存在,样本 中两个变量间相关系数不为0,不能说明总体
如果参与分析的变量是连续变量,选择Kendall's tau-b或Spearman相关,则系统自动对连续变量的 值先求秩,再计算其秩分数间的相关系数。
使用系统默认值进行相关分析
l962~1988年安徽省国民收入与城乡居民储 蓄存款余额两个变量间的相关分析为例,说 明使用系统默认值进行连续变量相关分析的 方法。
Partial(偏相关分析)命令 项调用Partial Corr过程,计 算两个变量间在控制了其他 变量的影响下的相关系数。 可以选择单尾或双尾显著性 检验。检验的零假设是:偏 相关系数为零。还可以要求 计算其他描述统计量。
Distance(距离分析)命令 项调用Proximities 过程,对 变量或观测量进行相似性或 不相似性测度。因此分析的 变量可以是连续变量、表示 频数分布的变量,某些测度 还可以适用于二值变量。可 以对原始数据和计算出的距
( xi x) ( yi y)
i 1 i 1
n
2 n
2
2、Spearman和Kendall秩相关系数
Spearman和Kendall秩相关系数是一种非参测度,是 根据秩而不是根据实际值计算的 秩相关适用于下列资料
不服从双变量正态分布;
总体分布型未知; 用等级表示的资料。
Spearman相关系数是Pearson相关系数的非参形式。 是根据数据的秩而不是根据实际值计算的。也就是说, 先对原始变量的数据排秩,根据各秩使用相关系数公
关系数,可以得出肺活量与身高和体重均存
在较强的线形关系。
但实际上,如果对体重相同的人,分析身高 和肺活量。是否身高值越大,肺活量越大呢? 结论是否定的。正是因为身高与体重有着线 形关系,体重与肺活量才存在线形关系,因 此,得出身高与肺活量之间存在较强的线形 关系的错误结论。偏相关分析的任务就是在 研究两个变量之间的线形相关关系时控制可 能对其产生影响的变量。
综合分析结果
中山柏生长量与气温关系最密切,其次湿度;日照时 间,相关系数0.6318,不相关概率p=.068,没有显 著意义;与降雨量没有线形关系,降雨量过大,还会
影响其生长。
练习题
从下表所给资料分析血小板和出血症的关系。试分析 上述资料有无相关关系。
病例号 1
120
2
130
3
160
4
310
5
420
数据编号data10-01。 变量包括:income国民收入(亿元), deposit城乡居民储蓄存款余额, number序 号,year年份。


Data09-03是银行雇员数据,要求分析起始
工资、当前工资、与雇员年龄、受教育水平、 工作经验职务等之间是否存在线性关系。
生成新变量:age=1999-Xdate.year(bdate)
(x3),坐骨间径(x4),血红蛋白(x5),
婴儿体重(X6)等6个指标。试分析各指标
的相关系数。
Hong1.sav
(二)偏相关分析
相关分析计算两个变量间的相关系数,分析
两个变量间线形关系的程度。往往因为第三 个变量的作用,使相关系数不能真正反映两
个变量间线形程度。例如身高、体重与肺活
量之间的关系。使用Pearson相关计算其相
中这两个变量间的相关系数不是0,因此必须
经过检验。检验的零假设是:总体中两个变
量间的相关系数为0。SPSS的相关分析过程
给出这假设成立的概率。
四、相关分析的 SPSS过程
Bivarate(相关分析)命令 项调用Correlations过程和 Nonpar Corr 过程,按指定 项显示变量的描述统计量。 计算指定的两个变量间的相 关系数,可以选择Pearson 相关、Spearman和Kendall's tau-b 相关;同时对相关系数 进行检验。检验的零假设是: 相关系数为0。可以对检验进 行单尾或双尾的选择。给出 相关系数为0的概率。
二、相关系数
积矩相关系数(Pearson相关系数)
Spearman和Kendall秩相关系数 偏相关系数
1、积矩相关系数(Pearson相关系数)
积矩相关系数(又称积差相关系数)适用于等间隔测度, 相关系数采用Pearson积矩相关。
R
xy

( x x)( y y)
i 1 i i
n
6
540
7
740
8
1060
9
1260
10
1230
11
1440
12
2000
血小板数
出血症状 + +
+ + +
+ -

+wk.baidu.com





+ +

Spearman.sav
(三)距离分析
距离分析是对观测量之间或变量之间相似性
或不相似程度的一种测度。是计算一对变量 之间或一对观测量之间的广义距离。这些相
似性或距离测度可用于因子分析和聚类分析
式进行计算。它适合有序数据或不满足正态分布假
设的等间隔数据。相关系数的值范围也是在-l~+1之 间。绝对值越大表明相关越强。相关系数的符号也表
示相关的方向。这两种相关系数的计算必须对连续变
量值排秩,对离散变量排序。
例如,我们可以将一组学生按入学考试成绩和第一学 年结业成绩的顺序排队。如果将入学考试成绩的评秩 记为X1,X2,Xn,而学年结业成绩的评秩记为Y1,Y2,
例一
分析身高、体重、肺活量间的关系
数据编号data10-04 分别调用bivariate和partial过程,比较其结
Correlations 身高 身高 Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 1 . 29 .741** .000 29 .600** .001 29 体重 肺活量 .741** .600** .000 .001 29 29 1 .751** . .000 29 29 .751** 1 .000 . 29 29
(data10-05)。对观测量距离的分析要求 使用字符型变量标识观测量。
离数据进行标准化。
如果需要确定两个变量或若干自变量与因变
量具体的函数关系,使用相关分析不能达到 目的,必须使用回归分析。如果要将观测量
或变量归到确定的类中,必须使用聚类分析
中的观测量聚类或变量聚类的相应过程。
(一)两个变量间的相关分析
本节介绍两变量间的相关。包括两个连续变
量间的相关和两个等级变量间的秩相关。这 两种相关使用同一个命令项Bivarate调用,通
以一个例子来进行Kendall秩相关系数的计算。
如果两位鉴定家各自以吸引力的大小将7幅抽
象派画评定了秩,那么可能知道这些秩评定
之间的相符的程度。
画 号
2
6
5
1
4
3
7
鉴别家1
鉴别家2
1
2
2
3
3
1
4
4
5
6
6
5
7
7
依次取观测2(鉴别家2)给出的秩,数出每一个右面在 秩次上比自己小的个数,并将这些个数加起来。例如抽 象画2的秩为2,其个数是1,因为其右边的只有抽象画5 的秩比它小。6个数依次为1,1,0,0,1和0,所以总 和为Q=3,Kendall秩相关系数则为: R=1-4Q/n(n-1)=1-12/42=0.714
相关文档
最新文档