SPSS中的相关分析及假设检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关分析及假设检验 spss
1.概念
变量之间相关,但是又不能由一个或几个变量值去完全和唯一确定另一个变量值的这种关系称为相关关系。相关关系是普遍存在的,函数关系仅仅是相关关系的特例。事物之间有相关关系,不一定是因果关系,也可能仅是伴随关系,但是事物之间有因果关系,则两者必然相关。
相关分析用于分析两个随机变量的关系,可以检验两个变量之间的相关度或多个变量两两之间的相关程度,也可以检验
两组变量之间的相关程度
偏相关分析是指在控制了其他变量的效应以后,对两个变量相关程度的分析。、
2.皮尔逊积差相关系数 pearson product-moment correlation coefficient
变量之间的相关程度由相关系数来度量,pearson相关系数是应用最广的一种。它用于检验连续型变量之间的线性相关程度
前提假设
1)正态分布皮尔逊积差相关只适用于双元正态分布的变量,即两个变量都是正态分布,注意只有pearson要求正态分布
如果正态分布的前提不满足,两变量间的关系可能属于非线性相关
2)样本独立样本必须来自总体的随机样本,而且样本必须相互独立
3)替换极值变量中的极端值如极值、离群值对相关系数的影响较大,最好加以删除或代之以均值或中数
相关分析的前提假设检验
一般情况下是对是否满足正态分布进行检验,对于正态分布的检验有好几种方法,总的可分为非参数检验和图形检验法
1)非参数检验法
spss中的1-sample K-S检验,检验样本数据是否服从某种特定的分布,方法有三种
a. Asymptotic only 是一种基于渐进分布的显著性水平的检验指标,通常显著性水平小于则认为显著,适用于大样本。如果
样本过小或分布不好,该指标的适用性会降低
Carlo 精确显著性水平的无偏估计,适用于样本过大无法使用渐进方法估计显著性水平的情况,可以不必依赖渐近方法的假设前提
精确计算观测结果的概率值,通常小于即被认为显著,表明横变量和列变量之间存在相关,同时允许用户键入每次检验的最长
时间显著,可以键入1到99之间的数字,但只要一次检验超过指定时间的30分钟,就应该用monte carlo
假设是服从某种分布
所以如果计算出的值比如Asymp. Sig 小于,那么拒绝原假设,说明样本为非正态分布,否则值越大越服从某种分布
单样本K-S首先计算每一阶段实际值与观察值的差异值,再计算每一阶段差异值的绝对值Z,即K-S的Z值,Z值越大,样本服从理论分布的可能性越小
还有一个是2 -sample Kolmogorov—Smirnov用于检验2个样本的分布是相同的假设2)图形法
spss中graph
-Q正态检验图
图中横坐标为实际观测值,纵坐标为正态分布下的期望值,如果实际观测值取自正态分布的整体,那么图中所示的落点应该分布在趋势线的附近,
并且应该表现出一定的集中趋势,即平均数附近应该聚集较多的落点,越靠近两个极端落点越少。
此外还输出一种无趋势正态检验图,横坐标为观测值,纵坐标为观测值于期望值的差值。在符合正态分布的情况下,图中的落点应该分布在
中央横线的附近,甚至完全落到这条横线上,而且也应表现出集中在平均数周围的趋势。
如果需要正态分布,应该考虑对数据进行必要的变换
-P图
判断方式和qq图相同
c.直方图
根据直方图的形状来判断是否为正态分布
d.箱式图boxplot
箱式图可用于表现观测数据的中位数、四分位数和两头极端值
方框中的粗黑横线为中位数,方框之外的上下两条细横线成为须线,是除了离群值和极值之外的最大值和最小值。
符合正态分布的情况下,箱式图应该是以中位线为轴上下对称的,并且上下须线之间的距离应该是盒距(方框上下边缘)
的三倍左右,
Binomial test 二项分布检验
该过程用于检验的假设是一个来自二项分布的总体的变量具有指定事件发生的概率,该变量只能有两个值例如检验组装生产线上一种工件的废品率为1/10 即P=
可以抽取300 个工件,查看并记录每个工件是否是废品,使用本过程检验这个概率中相关分析过程
analyze-correlate-bivariate
相关分析的检验:检验的假设是总体中两个变量之间的相关系数为0.一般情况下我们给出假设成立概率p的阈值为,当概率p小于时,
认为原假设不成立,否则接受原假设,认为两个变量之间的相关系数为0
spss中进行相关分析有三种方法
积差相关计算相关系数并作显著性检验,适用于两列变量都为正态分布的连续变量或等间距测度的变量
tau-b等级相关计算相关系数并作显著性检验,对数据分布没有严格要求,适用于检验等级变量之间的关联程度(秩相关)
等级相关计算相关系数并做显著性检验,对数据分布没有严格要求,适用于等级变量或者等级变量不满足正态分布的情况。
对于非等间距测度的连续变量,因为分布不明可以使用等级相关分析,也可以使用Pearson 相关分析,
对于完全等级的离散变量,必须使用等级相关分析相关性
当资料不服从双变量正态分布或总体分布型未知,或原始数据是用等级表示时,宜用Spearman 或Kendall相关
一般情况下我们都某人数据服从正态分布,采用pearson相关系数
等级相关系数
等级相关系数,又称顺序相关系数,它也是描述两要素之间相关程度的一种统计指标。
等级相关系数是将两要素的样本值按照数值的大小顺序排列为此,以各要素样本值的位次代替实际数据而求得的一种统计量。
例如
x y有n对样本值,记R1代表x的位次(序号),R2代表y的序号(位次)
代表x y同一组样本的位次差的平方和,他们的等级相关系数为