第五讲双变量相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Correlate:定距-定距,定序-定序
Eta系数
Pearson卡方值 最常用的卡方检验
当n≥40,且所有单元格的期望频数都 大于等于5时,选择这一检验值。
连续性校正卡方值
只适用于2×2的列联表
当n≥40,所有单元格的期望频数都大 于1,且只有1/5以下单元格的期望频 数小于5大于1时,选择连续性校正卡 方值。
90.0%
75.0%
10.0%
25.0%
100.0% 100.0%
T o ta l 84.6% 15.4%
100.0% 82.7% 17.3%
100.0%
两个注意点
变量的位置
– 一般情况下,列联表中变量的位置是任意的 – 但如果变量之间存在因果关系,则通常将原因
变量放在列的位置,将结果变量放在行的位置
似然比卡方值
与Pearson卡方值相比,在处理多维表 时有更大的优势;大多数情况下,两 者的结论是基本一致的。
Fisher精确概率法
对于2×2列联表,SPSS会自动给出精确概 率值,但通常只有当n<40,或某个单元格 的期望频数小于1时,才选择此卡方值。
对于其他列联表,则需要在Exact模块中选 定Exact检验,但只有当某个单元格的期望 频数小于1,或大于1小于5的期望频数较多 时,才选择此卡方值。
第五讲、相关分析
相关的三种表现方式
– 统计值
• 相关系数:表示变量间相关性的强度 • 显著度:表示样本中的相关是否可以推论总体
– 统计表
• 列联表:主要针对定类和定序变量,如果是定距变量, 可以将其转化为定序变量,然后再做列联表。
– 统计图
• 条图、线图、面积图、箱式图、散点图
spss的两个相关分析菜单
取值介于-1~1之间,绝对值大小表示关联程度, 符号表示关联方向
期望频数
– 如果总体中两个变量没有关系,则列联表的每个单 元格中所应有的频数
行频率
列频率
合计频率
残差:观测频数与期望频数之差,残差越大, 就表示总体中变量相关的可能性就越高
二、Correlate
百度文库
Bivariate
– Correlate菜单中最常用的一个功能 项
百分比的方向
– 将原因变量作为条件百分比的计算方向
Crosstabs的2个主要命令模块
Statistics,Cells
“Statistics” 对话框
“Cells” 弹出对话框
卡方检验:主要适用于定类变量
注意:当遇到定序变量时,可以将其视为定类变量,进行卡方
检验,但缺点是会忽视变量的“定序”信息,从而夸大相关性。
克拉默的V相关系数 属于对称测量法
对Phi系数的一个调整,对关联程度的测 量相对保守,公式为:
V
2
min[(r 1), (c 1)]
取值介于0~1之间,越大表明相关性越强。
Lambda系数
具有对称和不对称两种形式
公式为:
fim Fym
n Fym 具有消减误差比例的性质,即“根据x去 估计y可以减少百分之λ的误差”
线性相关卡方值
通常用于连续变量,在分类变量的列 联表中很少用到,可以视而不见。
列联系数
属于对称相关测量法 基于χ2值得出,公式为:
c
x2 x2 n
其值介于0~1之间,越大越表明两变量 相关性越强。
Phi相关系数
属于对称相关测量法
基于χ2值得出,公式为:
x2 n
在2×2列联表中,取值介于0~1之间,在 其它列联表中,则没有上限,越大表明关 联程度越强。
取值介于0~1之间,越大表明关联性越强
古德曼和古鲁斯卡的tau-y系数 弥补Lambda系数的不足 属于不对称相关测量法 具有消减误差比例的性质 取值介于0~1之间,越大表明关联性越强
不确定系数 具有对称和非对称两种形式 取值介于0~1之间,越大表明关联性越强
Gamma系数 属于对称相关测量法
增加的例子:SPSS中的help-topics-目 录-partial correlation中的医疗资金和疾病 发生率之间的偏相关关系。
Partial
– 专门用于偏相关分析 – 如果需要进行相关分析的两个变量的取
值均受到其他变量的影响,就可以利用 偏相关分析对其他变量进行控制,然后 再输出控制后的相关系数。
– 适合于定距变量
Partial对话框
注意:还可以通过“options”选项给出每个变量的平均值和 标准差,以及变量之间的两两相关。
– Crosstabs
• 定类-定类,定序-定序变量间的简单相关分 析
– Correlate
• Bivariate:定序-定序,定距-定距变量间 的简单相关分析
• Partial:定距-定距变量间的偏相关分析
一、Crosstabs
Crosstabs的基本功能 --制作列联表
步骤1:打开“Crosstabs”对话框
步骤2:选择行变量和列变量
步骤3:点击“OK”
上 学 否 * 性 别 * 居 委 会 Cross tabulation
% within 性 别
居委 会 村委 会
居委 会
上学 否
T o ta l 上学 否
T o ta l
上过 没上 过
上过 没上 过
性别
男
女
92.2%
76.9%
7.8%
23.1%
100.0% 100.0%
取值介于-1~1之间,绝对值越大表明关联性越强, 正负号则表示关联方向
Somer’D系数
具有对称和非对称两种形式
取值介于-1~1之间,绝对值大小表示关联程度, 符号表示关联方向
肯德尔tau-b系数
属于对称相关测量法
取值介于-1~1之间,绝对值大小表示关联程度, 符号表示关联方向
肯德尔tau-c系数 属于对称相关测量法
– 如果是多个变量,则给出两两相关 的分析结果
–适合于分析定序-定序,定距-定 距变量之间的关系
Bivariate对话框
Pearson积矩相关系数 最常用的参数相关分析指标 用于测量两个连续变量间的直线相关程度
肯德尔等级相关系数 用于测量两个定序变量间的相关程度
斯皮尔曼的rho相关系数 最常用的非参数相关分析指标 用于测量两个定序变量间的相关程度