SPSS双变量相关性分析

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数学建模SPSS 双变量相关性分析

关键词:数学建模相关性分析SPSS 摘要:在数学建模中,相关性分析是很重要的一部分,尤其是在双变量分析时, 要根据变量之间的联系建立评价指标,并且通过这些指标来进行比对赋值而做出 评价结果。本文由数学建模中的双变量分析出发, 首先阐述最主要的三种数据分 析:Pearson 系数,Spearman 系数和Kendall 系数的原理与应用,再由实际建模 问题出发,阐述整个建模过程和结果。

相关性分析是指对两个或多个具备相关性的变量元素进行分析, 从而衡量两 个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才 可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵 盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的 定义也有很大的差异。

双变量相关分析中有三种数据分析:Pearson 系数,Spearman 系数和Kendall 系数。

Pearson 相关系数用来衡量两个数据集合是否在一条线上面,它用来衡量定 距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩 和高考成绩等变量间的线性相关关系。 当两个变量都是正态连续变量,而且两者 之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有 Pearson 简单相关系数r 。

X X Y Y

r -------------------------------------

2 — 2

\ X X Y Y

Spearman 相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关 分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对 于服从Pearson 相关系数的数据亦可计算 Spearman 相关系数,但统计效能要低 一些。Spearman 相关系数的计算公式可以完全套用 Spearman 相关系数计算公式, 但公式中的x 和y 用相应的秩次代替即可。

设有n 组观察对象,将Xi 、Yi (i=1,2,…,n )分别由小到大编秩。并用 Pi 表示Xi 的秩,Qi 表示Yi 的秩

两者秩和为:

两者平均秩为:

秩相关系数r s 计算公式为:

l XY l XX I YY

n(n + 1) 2

=(n + 1) =2

Pave

H P i -F ave )(Q i -Q ave)

r s =

vS(P j -~F ave )2 (Q i -~Q ave )2

下面以2013年“五一”大学生数学建模大赛为例:

要检验变量之间的相关性,利用SPSS进行双变量相关分析即可。因附录给出的数据存在许多错误,因此在进行分析前需要进行简单筛选。由于测量人数较多,直接在EXCEL中将测量数据为0或者过大的行全部删除即可。

双变量相关分析中有三种数据分析:Pearson系数,Spearman系数和Kendall

系数。为了确定合适的分析类型,我们需要利用SPSS对数据进行正态检验。

通过观察发现,附录中给出的男女体质指标是不一样的,并且通过我们调查,男女体质数据的分布会有很大不同,因此在本问接下来的讨论中,我们把男女分开讨论。

正太检验结果如下表5.1.1.1, Sig>0.05为符合正态分布:

a. Lilliefors

a. Lilliefors

*.这是真实显著水平的下限。

表 5.1.1.1

经过检验发现,部分数据符合正态分布,部分不符合。但是作为分析成分的

“体重”不满足正态分布,因此我们舍弃了Pearson相关系数分析而选择Spearman 秩相关系数分析最为合适。其模型原理如下:

进行Spearman相关系数p的假设检验,HO:Rho=0时,Prob>|r|。以r的绝对值值

表 5.1.1.2

在SPSS中打开数据,点击:分析一>相关一>双变量,打开对话窗口,选择需要分析的两个变量、Spearma n秩相关系数分析以及双侧检验。

需要说明两点:

(1)因各体重与各体质数据之间的相关性正负未知,需选用双侧检验;

(2)除了数据满足非正态分布以外,Spearman秩相关系数分析还需要数据分级,以计算秩。但在SPSS中程序会自动生成秩,无需再手动分级。

注意要保证总体相关系数p与样本相关系数r保持一致,还须考虑Sig值

由数据,Sig<0.5表示接受原假设,即Rho>|r|。Sig<0.5则拒绝原假设,两者不相关。而r值则代表了正负相关性,以及相关性大小。结果见表

相关文档
最新文档