SPSS相关性分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归方程统计检验
回归方程的拟合优度:回归直线与各观测点的接近程度称 为回归方程的拟合优度,也就是样本观测值聚集在回归线 周围的紧密程度 。
当自变量是分类变量时,需要将原变量转换成虚拟变量,
所有虚拟变量都是 “1”和“0”取值的二分变量。(例
如性别变量)
回归方程的统计检验
y y
2 Cn
2 (U V ) n(n 1)
偏相关分析
概念:当有多个变量存在时,为了研究任何两 个变量之间的关系,而使与这两个变量有联系 的其它变量都保持不变。即控制了其它一个或 多个变量的影响下,计算两个变量的相关性。 偏相关系数:偏相关系数是用来衡量任何两个 变量之间的关系的大小。 自由度:在统计学中,自由度指的是计算某一 统计量时,取值不受限制的变量个数。通常 df=n-k。其中n为样本含量,k为被限制的条 件数或变量个数,或计算某一统计量时用到其 它独立统计量的个数。
残差是指由回归方程计算得到的预测值与实际 样本值之间的差距,定义为:
ˆi yi (0 1x1 2 x2 ... p x p ) ei yi y
对于线性回归分析来讲,如果方程能够较好的 反映被解释变量的特征和规律性,那么残差序 列中应不包含明显的规律性。残差分析包括以 下内容:残差服从正态分布,其平均值等于0 ;残差取值与X的取值无关;残差不存在自相 关;残差方差相等。
DW
et
t 2
n
2(1 )
2
DW=2表示无自相关,在0-2之间说明存在正自相关,在2-4之间说明存在负 的自相关。一般情况下,DW值在1.5-2.5之间即可说明无自相关现象。
曲线估计
变量之间的关系分为本质线性关系和本质非线 性关系。本质线性关系是通过变量变换可以转 化为线性相关的。 SPSS曲线估计还可以以时间为解析变量。
对于残差均值和方差齐性检验可以利用残差图进行分析。如果残差均值为零 ,残差图的点应该在纵坐标为0的中心的带状区域中随机散落。如果残差的 方差随着解释变量值(或被解释变量值)的增加呈有规律的变化趋势,则出 现了异方差现象。 DW检验: DW检验用来检验残差的自相关。检验统计量为
2 ( e e ) t t 1 t 2 n
ቤተ መጻሕፍቲ ባይዱ
线性相关和非线性相关
统计关系还可以分为: (1)线性相关:当一个变量的值发生变化时, 另外的一个变量也发生大致相同的变化。在直 角坐标系中,如现象观察值的分布大致在一条 直线上,则现象之间的相关关系为线性相关或 直线相关(Linear correlation)。 (2)非线性相关:如果一个变量发生变动,另 外的变量也随之变动,但是,其观察值分布近 似的在一条曲线上,则变量之间的相关关系为 非线性相关或曲线相关(Curvilinear correlation)
相关关系的种类:据变量的度量类型
定类变量 定序变量 定距变量
定类变量 变量的一种,根据定性的原则区分总体各个案类别的变量 。定类变量的值只能把研究对象分类,也即只能决定研究对象是同类 抑或不同类,具有=与≠的数学性质。例如性别区分为男性和女性两 类 定序变量 变量的一种,区别同一类别个案中等级次序的变量。定序 变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有 >与<的数学特质。它是比定类变量层次更高的变量,因此也具有定 类变量的特质,即区分类别(=,≠)。例如文化程度可以分为大学 、高中、初中、小学、文盲。 定距变量 也是变量的一种,区别同一类别个案中等级次序及其距离 的变量。它除了包括定序变量的特性外,还能确切测量同一类别各个 案高低、大小次序之间的距离,因而具有加与减的数学特质。但是, 定距变量没有一个真正的零点。
回归分析
一元线性回归模型:
y 0 1 x
为截距,即常 其中x为自变量;y为因变量; 0 1 量; 为回归系数,表明自变量对因变量的影 响程度。
用最小二乘法求解方程中的两个参数,得到
1
( x x )( y y ) (x x)
i i 2 i
0 y bx
等级相关分析
等级相关分析 等级相关是指以等级次序排列 或以等级次序表示的变量之间的相关。主要包 括斯皮尔曼二列等级相关和肯德尔和谐系数多 列等级相关。
Spearman等级相关系数—定序变量之 间的相关性的度量
斯皮尔曼等级相关系数:
两个变量为定序变量。 一个变量为定序变量,另一个变量为尺度数据,且 两总体不是正态分布,样本容量n不一定大于30。 数据的秩:秩rank,是一种数据排序的方式,可以 知道某变量值在该列所有值中的名次。秩是对应数 值由大到小的,例如有100个数据都不一样的话, 最大的数值对应的秩就是100,最小的就是1。有重 复数据时候,会按同名称排列。
相关关系的种类
相关关系的种类:是否线性
线性相关
正相关 负相关
曲线相关
定类变量和定类变量之间的相关 定序变量和定序变量之间的相关 定距变量和定距变量之间的相关
相关关系的种类:据变量的度量类型
相关关系的种类
相关关系的种类:是否线性
线性相关
正相关 负相关
曲线相关
定类变量和定类变量之间的相关 定序变量和定序变量之间的相关 定距变量和定距变量之间的相关
矩阵散点图:以矩阵的形式在多个坐标轴上分 别显示多对变量间的统计关系。变量在那一行, 那一行横坐标就是它。
线性相关的度量—尺度数据间的相关 性的度量
Pearson相关系数
r
n i 0
(x
i 0
n
i
x)( yi y )
2 n 2
(x
i
x) ( yi y )
SPSS数据分析-第8章 --SPSS的相关分析和线性回归分析
—《SPSS统计分析方法及应用》
什么是相关分析
相关分析是分析客观事物之间相关性的数量分 析方法。许多事物或现象之间总是相互联系的, 并且可以通过一定的数量关系反映出来。 函数关系:两事物之间一对一的关系。 统计关系:两事物之间的多对一和一对多。
2
2 y y y y
2
即:总离差平方和(SST)=剩余离差平方和(SST) +回归离差
平方和(SSR)其中;SSR是由x和y的直线回归关系引起的,可
以由回归直线做出解释;SSE是除了x对y的线性影响之外的随 机因素所引起的Y的变动,是回归直线所不能解释的。
残差分析
设D是两个变量每对数据的等级差,n是样本量。 则Spearman相关系数为:
r 1
2 D i i 1 n
6 D
i 1 2
n
2 i
n( n 1)
(U
i 0
n
2 i
Vi )
Kendall的tau-b(K)
Kendall的 系数是另一种计算定序变量之间或 者定序和尺度变量之间相关系数的方法。 Spearman的等级相关系数可以方便检验两个定 序变量是否相关,但是很难具体解释两个变量 如何相关及相关程度。Kendall的等级相关系 数可以同时反映两个变量的相关程度。
散点图
通过观察散点图能够直观的发现变量之间的统 计关系 以及它们的强弱程度和数据对的可能 走向。散点图以横轴表示两个变量中的一个变 量,以纵轴表示另一个变量,将两个变量之间 相对应的变量值以坐标点的形式逐一标在直角 坐标系中,通过点的分布形状、分布模式和疏 密程度来形象描述两个变量之间的相关关系。
相关分析的作用
判断变量之间有无联系 确定相关关系的表现形式及相关分析方法 把握相关关系的方向与密切程度 为进一步采取其他统计方法进行分析提供依据 用来进行预测
相关分析和回归分析区别
相关分析:如果仅仅研究变量之间的相互关系 的密切程度和变化趋势,并用适当的统计指标 描述。 回归分析:如果要把变量间相互关系用函数表 达出来,用一个或多个变量的取值来估计另一 个变量的取值。
设样本量为n,考察两个变量X和Y之间的相关 关系,X和Y的取值记为xi,yi。所有像(xi,yi) 2 对的个数为n(n-1)/2(也就是 Cn)。和分别 表示和的秩次,如果对于任意k,有我们称 (xk,yk)为同序对;否则,称为逆序对。 总的同序对的个数记为U,逆序对的个数记为V, 则Kendall的Tau系数的定义为:
i 1
相关系数的数值范围是介于–1与 +1之间:
如果|r| ' 0,表明两个变量没有线性相关关系。 如果|r| ' 1 ,则表示两个变量完全直线相关。线性相关的 方向通过相关系数的符号来表示,“+”号表示正相关,“﹣” 表示负相关。
相关系数为0或接近于0不能说明两个变量之间 没有相关性,它只说明没有线性相关性。不能 排除具有其它非线性关系。 Pearson 相关系数是一种线性关联度量。如果 两个变量关系密切,但其关系不是线性的,则 Pearson 相关系数就不是适合度量其相关性的 统计量。