第九讲 双变量的统计分析(相关分析)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Y
E1
右图红色表示E1-E2,
PRE值的意义
1、PRE的值在[0,1] 2、E2=0,则PRE=1,x与y是全相关,用x解 释y时不会产生误差 3、E1=E2,则PRE=0,x与y是无相关,用x来 预测y时产生的误差等于不用x来预测y时的 误差 4、如PRE=0.8,表示用x预测y可以减少80% 的误差,也反映了两者的相关程度颇高;如 果PRE=0.08,则表示只能减少8%的误差, 即x对y的影响甚小,需要寻找其他的变量解 释或预测y
y
m
y
My
nMy
(105 45) 150 0 215 120
2、tau-y



不对称测量法 系数值介于0-1之间 计算系数时包括了所有的边缘次数和条件次数 如果是不对称关系最好选用tau-y计算
计算过程:先求出E1和E2,计算消减误差的比例
E1 E2 tau y E1
注意:

社会调查中各相关系数的值不可能达到1 相关系数只表示各变量间相关程度的指标,没 有数量的关系。
如0.5和0.25,并不表示0.5比0.25的相关大0.25, 或者是0.25相关的两倍

如果a=d=0或b=c=0, 则表示X和Y全相关; 如果a×d=b×c,即, 则表示X和Y无关; 如果a×d>b×c或 a×d<b×c,则表示X和 Y有相关关系。
5、削减误差比例
1、两个变量间关系的强弱
2、消减误差比例(PRE测量,Proportionate reduction in error):我们在预测或解释社会现象 y时,难免会有误差(错误),假定另一种社会现 象x与y是有关系的,我们可以根据x的值来预测y的 值,理应可以减少若干误差,其值表示的就是x对y 的误差的消减程度.而且X与y的关系越强,所能减少 的误差就会越多.换言之,减少误差的多少,可以反映 X与Y之间关系的强弱程度.
(2)相关关系的方向(+、-)

正相关关系和负相关关系 正相关关系:一个变量的取值增加时,另一个变 量的取值也增加,反之亦然;

人们的文化程度越高,他们的收入水平也越 高;文化程度较低的人,他们的收入水平也 普遍较低。反之,那些收入水平较低的人, 他们的文化程度一般来说也较低。

负相关关系:一个变量的取值增加时,另一个变 量的取值减少;而一个变量的值减少时,另一个 变量值的增加。
不对称关系:自变量X影响因变量Y,但是 因变量Y不会影响X---因果关系, 如施肥量和小麦产量之间的关系 对称关系:不能确定或区分两个变量的方向。 如交往的多少与他们的互爱程度

因果关系

大多数的社会研究,都涉及因果关系的概念,社 会研究的最终目的,往往在与希望获得某些社会 现象间因果关系的知识。 如“受教育程度与人们的职业获得的研究”、 “不同职业的被调查者收入的差异”---首先认为 这些变量之间存在因果关系。
(4)相关的类型




相关关系是一种数量关系上不很严格的相互依 存关系。 如果这种关系近似地表现为一条直线,就称为 直线相关,又称线性相关; 如果这个关系近似地表现为一条曲线,则称为 曲线相关,又称非线性相关。 虽然在自然界和社会生活中,曲线相关现象远 比直线相关更多,但由于数学手段上的局限性, 社会统计研究中多以阐述线性(直线)相关为 主。



单变量的分析和统计描述,是我们了解和认识 社会现象的基础。 但社会生活中的现象并不是孤立存在的,现象 之间往往存在或多或少的关系,或者说,社会 现象之间往往是相互联系、相互影响、相互依 存的。 进一步了解社会现象发生和变化的原因,揭示 社会现象的发展规律,探索和发现现象之间的 关系,才是大多数社会研究的主要目的,而这 则需要对两个变量或多个变量之间的关系进行 分析。



图9-1 X与Y的相关关系 X和Y分别代表两个变量,各有二 个取值(1,2),表中的a、b、c、 d分别表示不同情况下个案的数目

例1:a=d=0或b=c=0,两个变量全相关
例2:a×d=b×c,对角线相等,则表 示无相关
例3:如果a×d>b×c或a×d<b×c, 则表示X和Y有相关关系。
研究的目的在于辨明这些研究的因果关系状态


因果关系必须满足三个条件:



第一.变量X与变量Y存在着不对称的相关关系, 这是因果关系成立的必要条件; 第二.变量X与变量Y在发生顺序上有先后之别, 即先有原因(自变量)的变化,后有结果(因变量) 的变化. 第三.变量x与变量Y的变化不会受第三个变量 的影响,也就是说两个变量的关系不是某种虚 假的或表面的关系,而是实际存在的关系.




那么中国的情况如何? 白威廉(William Parish)的研究最具影响力,白氏通过 对中国大陆1972-1978年间迁居香港的132位移民的访 谈,得到了他们2865位邻居的数据,发现:对于那些 在“文革”前(1966年前)就年满20岁的同期群案例来说, 父亲的“受教育水平”与“职业地位”对子女的受教育 水平,父亲的“职业地位”与“阶级出身”对子女的 “职业地位”获得等具有显著影响作用。但对于那些在 “文革”时期才年满20岁的同期群案例来说,作用却并 不显著。 谢文和林南于1983年在北京的调查(N=1774)、林南和 边燕杰于1985在天津的调查(N=1000)等进一步证实: 父亲的职业地位既对人们的初职地位获得毫无影响,也 对人们目前职业地位的获得缺少明显作用。 林南与边燕杰将“工作单位部门”这一具有国家社会 主义特色的指标作为中介变量,置于职业地位之前进行 检验。研究发现,虽然父亲的职业地位对子女的教育和 职业地位获得缺少统计意义的影响,但父亲的“工作单 位部门”却通过对儿子“工作单位部门”的作用而影响 了儿子的初职地位获得,但女儿却无此殊荣。
例:青年的教育期望与父母的教育期望
m

x
2n ( M x M y )
my (M x M y )
(28 41 4) (28 41 7) (54 50) 2 *100 (54 50) 0.47
特例:如下表,72.4%的制造业工人和64.3%的服务 业人员注重物质报酬,职业类型与价值取向是略 有影响的,但是
y
My
nMy
40 30 50 0.40 100 50
(2)对称形式:不确定两个变量的影响方向
m m
x
y
(M x M y )
2n ( M x M y )
My=Y变项的众数次数 Mx=X变项的众数次数 mx=Y变项的每个值(类别)之下X变项的众数次数 my=X变项的每个值(类别)之下Y变项的众数次数 n=全部个案数
强调:相关值的两个意义

两个变量之间关系的大小
用一个变量预测另一个变量能消减的误 差比例

二、交互分类表与列联表

Biblioteka Baidu
交互分类就是将调查所得的一组数据按照两 个不同的变量进行综合分类。通常以交互分 类表(列联表)的形式出现,如表1:
交互分析的作用
如表3,我们只能得出赞成和反对的人大致相等 的结论
E1
(n Fy ) Fy n
( Fx f ) f E2 Fx
n=全部个案数目 f=某条件次数 Fy=Y变项的某个边缘次数 Fx=X变项的某个边缘次数

E1:如果不知道x,则每次预测y变量时的错误 机率是(n-Fy)/n,乘以Fy表示y值时的错误总
数,y变量有多个值,将各值的错误总数相加
公式:
(1)不对称形式:
y
m
y
My
My=Y变项的众数次数 my=X变项的每个值(类别)之下Y变项的众数的次数 n=全部个案数 n-My=不知道x值的情况下预测Y值产生的误差 分子E1-E2=(n-My)-(n-∑my)= ∑my-My
nMy
例1:分析性别与理想志愿之间的关系
y
m
三、变量的测量层次与相关测量法
变量之间的关系 定类变量—定类变量 定序变量—定序变量 定距变量—定距变量 定类变量—定序变量 定类变量—定距变量 定序变量—定距变量
测量法是什么?
(一)两个定类变量:Lambda,tau-y
1、Lambda(又叫葛特曼预测系数) 基本逻辑:用一个定类变量的值来预测另一个 定类变量的值时,如果以众数作为测量的准 则,可以减少多少误差。 消减的误差在全部误差中所占的比例越大,就 表示两个变量的相关越强. 其值在0到1之间,0表示两个变量不相关,1表示 两个变量全相关,数值越大,相关程度越强. 有两种测量形式:一种是对称形式;一种是非对 称形式
•理解:x对y的可认知程度

如假定不知道x的值,我们在认识y时的全部 误差是E1。我们知道x的值,可以根据x的值 来认识y的值时的误差的总数(不可认知的部 分)为E2,那么用x的值来预测y的值时减少 的误差就是E1-E2,这个值( E1-E2 )与y全 部误差的比例,则称谓消减了的误差比例
E1 E2 PRE E1
在调查中发现,文化程度越高的被调查者,在回答问 卷时,花费的时间越少,而文化程度较低的被调查者, 填答问卷时花费的时间较长。在此,我们可以说文化 程度和问卷填答时间之间存在着负相关关系。

注意:方向的分析只适用于定序以上层次的变量
(3)相关关系的对称性与非对称性
相关的两个变量,不一定有因果关系, 可能是共同变化。
变量之间的关系

两个变量之间的关系 多个变量之间的关系。 在多数情况下,多个变量之间的关系又可以分 解为若干个两个变量之间的关系,也就是说多 个变量之间的关系可以通过若干个两个变量间 的关系来描述。
知识点
双变量间关系的种类 主要的双变量的测量方法 (1)交互分析—列联表分析 (2)不同层次变量的测量法 (3)自变量和因变量的关系 相关分析和因果分析
第九讲 双变量的统计分析



“学好数理化,走遍天下都不怕” “学好数理化,不如有个好爸爸” 布劳与邓肯在1967年出版的《美国的职业结构》中研究 了父亲职业与子女职业的关系,先赋地位和自致地位哪一 个在个人生活中具有更重要的作用。 尽管家庭背景(父亲的职业与受教育水平)给美国男性的职 业地位获得以显著作用,在决定美国在职男性社会地位获 得的因素中,由个人努力所达到的“受教育水平”要比来 自于“父亲职业地位”的作用更强。 他们解释说,美国是一个相当开放的社会越是工业化社会, 先赋性因素对个人社会地位获得的影响就越弱;越是传统 型社会,先赋性因素对个人社会地位获得的影响就越强。 但是,即使如此,在美国这样城市化和工业化水平较高的 西方市场化国家,来自于父亲的先赋性因素,对子女职业 地位的获得仍然具有虽然微弱但却显著而直接的影响。

实际从不同性别来看,男性和女性之间存在很 大的差异
思考: 两个表格所显 示信息的差 异

交互分析的作用
较为深入的描述样本资料的分布状况 和内在结构。 对变量之间的关系进行分析和解释

交互分类表的形式要求




每个表的顶端要有表号和标题 线条规范、简洁,最好不用竖线 百分比符号的处理:一种在表顶端的右角;另一种在表中 每一列数字的上方 表的下端用括号标出每一列的频数 两个变量的安排:通常是将自变量、或被看作自变量或用 来做解释的变量放在上面(列),将因变量、或被看作因 变量、或被解释的那个变量放在表的左侧(行)。 变量取值不宜太多。如4个自变量,5个因变量就是20个 百分比 少数点的位数要一致。如67.3和50.0 必须要进行假设检验(多选变量的分析可以没有)

一、相关关系(correlation)

两变量间的相关关系指的是一个变量的值与另一 个变量有连带关系。也就是,当一个变量发生变 化时(或取值不同时),另一个变量也随之发生 变化。
收入期望
生育期望
如:
文化程度
女性的文化程度
1、相关的性质
(1)相关关系的强度
相关程度,指的是相关关系的强弱或大小。相关关系的 强弱或大小可以用统计法进行测量。变量间相关关系 的统计结果称为相关系数。 相关关系的程度介于[-1,1]之间,数值绝对值越大,表 示相关的程度越强.正\负号表示的是相关关系的方 向.0代表无相关,1 代表全相关.见图9-1来说明.
相关文档
最新文档