第十章相关性测量(上)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学生 A B C D 数学成绩 (x) 4 3 2 1 英语成绩(y) 2 3 1 4
例2:A、B、C、D、E五位同学学习积极性等级 与考试成绩等级情况如下表,求同学学习积极 性等级与考试成绩等级的相关性
同学
A B C D E
积极性等级(x)
5 3 4 1.5 1.5
成绩等级(y)
5 3 1 3 3
(一)两个定类变量的相关测量
1、Lambda相关测量法(对称与不对称)
基本逻辑:以一个定类变量值来预测另
一个变量值时,若以众数作为预测的准则,
则可减少的误差是多少。
2、tau-y相关测量法:(不对称)
其特点是在计算系数值时会包括所有的
边缘次数和条件次数。
My=Y变量边缘次数的 众数; Mx=X变量边缘次数的 Σ mx Σ my ( Mx My ) 众数 λ my=X变量的每个值之 2n ( Mx My ) 下的Y变量的众数 不对称相关测量法: mx=Y 变量的每个值之 下的X变量的众数 n=全部个案数目 y y
户口 * 未来收入情况 Crosstabulation 未来收入情况
增加 户口 城镇户口
农村户口 Total
基本不变 65
12 77
减少 18
19 37
Total 223
90 313
140
59 199
Symmetric Measures Value Approx. Sig. .225 .000
Phi Nominal by Nominal Cramer's V N of Valid Cases

1、Lambda相关测量法 对称相关测量法

Σm M λ y n My
Lambda相关测量法(对称)

职工的行业与性别(0.32)
行业 性别 女 男 轻工 150 60 重工 70 120 合计 220 180
合计
210
190
400
∑mx=150+120=270 ∑my=150+120=270 My=210 Mx=220 n=400
对称关系: 两变量的关系仅是共变的,不能确定是X影响Y, 还是Y影响X,即X——Y; 不能区分自变量与因变量; 不对称关系: 两变量的关系具有因果性,X影响Y,而Y不会影 响X,即X是因,Y是果,即X Y; 可以区分自变量与因变量;

相关关系与函数关系;
函数关系是一种确定的一一对应的关系;可以用
Lambda相关测量法(缺点)

缺点:比较粗略,不够灵敏。它以众数为预测的准 则,不理会众数以外的次数分布。若众数集中在条 件次数表上的同一行或同一列,则Lambda相关系 数为0。 职业与工作价值取向的关系 价值取向 物质报酬 人情关系 合计 职业 105 40 145 制造业 服务业 合计 45 150 25 65 70 215
交互表与相关分析
表1不同年级大学生志愿活动参与情况统计
年级 志愿者活动参与情况 经常参加 大一 大二 13 23 偶尔参加 86 74 从未参加 37 19 合计 136 116

大三
合计
14
50
74
234
17
73
105
357
户口 * 未来收入情况
表2 不同户籍居民对“未来收入情况”的判断
未来收入情况 增加 城镇户口 户口 农村户口 合计 29.1 13.3 24.6 基本不变 62.8 65.6 63.6 减少 8.1 21.1 11.8 合计 100.0 100.0 100.0
第四部分 从决策到相关
第十章
第一节 第二节 第三节
相关分析(上)
统计相关的性质 简化相关与消减误差 相关测量与测量层次
学习目标
1. 2.
3.
统计相关具有的性质和应注意的方面; 选择相关测度法应注意的事项; 掌握不同相关系数的应用场合。
Baidu Nhomakorabea
第一节 统计相关的性质
相关关系:
一个变量值与另一个变量值有连带性; 一个变量值发生变化,另一个变量值也发生变化; 指变量间具有密切关联而又不能用函数关系精确
第二节 相关测量与测量层次
一、选择相关测量法的注意事项: (一)两个变量的测量层次:
两个定类变量;
两个定序变量; 两个定距变量; 一个定类变量和一个定距变量; 一个定类变量和一个定序变量;
一个定序变量和一个定距变量;
(二)两个变量是否对称
(三)统计值的意义
相关系数具有“消减误差比例”意义。
表示的关系。
正相关与负相关:
正相关:一个变量值增加时,另一个变量值
也增加; 负相关:一个变量值增加时,另一个变量值 却减少; 相关方向的分析只适用于定序或定距变量。
性别与职业偏好
职业与价值观 奢侈消费与幸福感 工作态度与职位升迁 夫妻收入差别与离婚率 综合国力与霸权意识
总对数T=n(n-1)/2, n为个案数目。 当只有两个定序变量时,可能出现的对的种类 有以下五种(设:个案A在X上的等级为Xa,在 Y上的等级为Ya,个案B在X上的等级为Xb,在Y 上的等级为Yb): 1. 同序对Ns:Xa大于Xb;Ya大于Yb; 2. 异序对Nd: Xa大于Xb;Ya小于Yb; 3. X同分对Tx: Xa=Xb;Ya不等于Yb; 4. Y同分对Ty: Xa不等于Xb;Ya=Yb; 5. X与Y同分对Txy: Xa=Xb;Ya=Yb;
2 越大,就是H0的正确性越小。也就是说在
总体中X与Y越可能是相关的。
那么,
2要多大才能否定H0呢?由于2的抽
样分布取决于自由度,在决定显著度以后是 否能够否定H0 ,就要视乎自由度的大小。
例题
从一个随机样本中得到下表的次数分布,可见男学生 较多敬佩父亲,而女学生则较多敬佩母亲。如以不对 称的λ系数简化这两个变量的相关情况,可得: λy= 0.244.问总体中性别与敬佩父母情况是否也存 在差异?
.225
313
.000
二、两个定序变量相关关系测量与鉴定
Gamma系数:分析对称关系
dy系数:分析不对称关系 系数值在-1至+1之间,比相关程度,也表示相
关方向 而且都具有消减误差的含义
例1:假定四名学生(A、B、C、D),他们的数学 成绩与英语成绩分别如下表。数学成绩与英语 成绩都是定序变量,各分(1、2、3、4)四个 等级,如何判断这数学成绩与英语成绩的相关 程度呢?
(n Fy)Fy E1 Σ n ( Fx f ) f E 2 Σ Fx
n=全部个案数目
f=某条件次数 Fy=Y变量的某个边缘次数
E1 E 2 tau y E1
Fx=X变量的某个边缘次数
性别与志愿
志愿
性别
男 女 总数
快乐家庭
理想工作
增广见闻
总数
60 40 100
10 30 40
最敬佩
父亲
母亲 总数
研究不同性别(X)的学生对父母的敬重情况(Y)。
性 男 126 71 197
别 女 99 162 261 总数 225 233 458
计算2值
F11=126; F21=71; e11=96.8; e21=100.2;
2
f12=99 f22=162 e12=128.2 e22=132.8
10 0 10
( Fx f ) f E 2 Σ Fx 10(60 10) 40(60 40) 10(60 10) 60 30(40 30) 10(40 10) 0(40 0) 45 40
tau
E1 E 2 58 45 y 0.224 E1 58
精确的函数表达式来描述;有自变量x与因变量y 之分; 相关关系则不具备上述特征,是一种松散的对应 关系。
曲线相关。家庭收入与购买汽车的愿望
线性相关系数:
-1-------完全负相关 -0.6-----强负相关 -0.3-----中度负相关 -0.1-----弱负相关 0-------不相关 0.1-------弱正相关 0.3-----中度正相关 0.6-----强正相关 1------完全正相关
除Lambda与tau-y系数外,SPSS还提供 如下两定类变量的相关系数:
Phi相关系数:适用于2×2的列联表 列联相关系数(contingency coefficient):检 验样本数对相关性的影响。
c
2 n

2
Gramer’s V系数: V系数在考虑了样本数影响 的同时,还考虑了列联表的单元格数,最适用 于社会学研究。
(二)两个定类变量相关性的检验 2 检验
(二)两个定类变量相关性的检验
H1:X与Y相关 H0:X与Y不相关

f是根据所抽取的样
( f e) e
2
2
自由度df=(r-1)(c-1)。
本而计算出来的每 个单元格中的观察 频次。e是与每个实 际次数相应的期望 频次。n是样本大小, r与c则分别是交互 表的行数与列数。
40 10 50
10 0 10
(n Fy)Fy E1 Σ n 40(100 40) 50(100 50) 10(100 10) 58 100 100 100
性别与志愿
志愿 性别 男 女 总数
快乐家庭 理想工作 增广见闻
总数 60 40 100
10 30 40
40 10 50
消减误差比例:用一个现象来解释另一个现象时能够减少的
错误的比例。
基本公式:PRE=(E1-E2)/E1; E1:当不知X值的分布时,仅以Y的集中趋势去预测Y的每个
值会产生的误差;
E2:用X预测Y,其误差E2会比E1小; 以X值预测Y值所减少的误差E1-E2与原误差E1之比,就是PRE。

Gamma级序相关法(对称关系)

基本逻辑:根据任何两个个案在某变量上的等级来 预测他们在另一个变量上的等级时,可以减少的误 差是多少;
公式推导:G=(Ns-Nd)

/ (Ns+Nd).
当不知 X 与 Y 之间的等级关系时,预测 Y 的等级是个 随机过程,对错各占一半; 当知道X与Y之间的等级关系后,再知道Xa大于Xb, 猜Ya与Yb的关系;或Xa小于Xb时,猜Ya与Yb的关系。

Σ mx Σ my ( Mx My ) λ 2n ( Mx My )
练习(不对称)
专业类型 生物 IT 行政管理
合计
经济型 180 40 20
240
工作价值 成就型 人际关系型 合计 20 20 220
80 —
100
- 40
60
120 60
400
λ
y
Σ my My n My
婚姻状况与社会流动(0.53)
社会流动 向上 向下
不变 合计 是否离婚 离婚 没离婚 20 10 8 2 2 30 58 70
合计 30 10
60 100
二、相关测量与相关性的检验
(一)两个定类变量; (二)两个定序变量; (三)两个定距变量; (四)一个定类变量和一个定距变量; (五)一个定类变量和一个定序变量; (六)一个定序变量和一个定距变量
%
教育水平 高 中
志愿
快乐家庭 5 0 0 理想工作 0 30 0 增广见闻 0 0 5

教育水平
志愿
快乐家庭 理想工作 增广见闻
高 中 低
0 0 5
0 30 0
5 0 0
在绝大多数情况下,观测频数是分散在列联
表的各个单元格中,此时就不太容易直接发 现行列变量之间的关系和它们关系的强弱程 度。为此,需要根据样本数据计算变量间的 关系,并借助非参数检验方法检定总体中变 量之间的关系。通常采用的方法是卡方检验 和相关性检验等。

练习六
学生
A B C D
数学 ( x)
4 3 2 1
英语 (y)
2 3 1 4
Ns= Nd= Tx= Ty= Txy=
练习七
工厂 积极性等级(x) 成绩等级(y) A B C D E F 5 3 4 1.5 1.5 3 5 3 1 3 3 4
2
在0.05显著度水平下 ,自由度为1的卡方 临界值为3.841.
( f e) e =30.389
Df=(2-1)(2-1)=1
因为2 ≥3.841,所 以否定虚无假设, 即两个变量在总体 中相关。
检定所要求的是两个变量都是定类变量。倘
若一个是定类变量,另一个是定序变量,通 常也是用2检定。
2、tau-y相关测量法
tau-y系数是属于不对称相关测量法。 其系数值介于0到1之间,具有消减误差比例的
意义。 由于tau-y在计算系数值时,会包括所有的边缘次数
和条件次数,所以敏感度较高。
计算步骤:先求出E1(不知X而预测Y时的全部误 差)和E2(知道X而预测Y时所犯的错误),然 后计算消减误差的比例。
相关文档
最新文档