第六讲---双变量的统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关程度,指的是相关关系的强弱或大小。相关关系的 强弱或大小可以用统计法进行测量。变量间相关关系 的统计结果称为相关系数。 相关关系的程度介于[0,1]之间,0代表无相关,1 代表 全相关,数值越大,表示相关的程度愈强。
厦门大学社会学系
9
注意:
社会调查中各相关系数的值不可能达到1 相关系数只表示各变量间相关程度的指标,没 有数量的关系。
厦门大学社会学系 4
变量之间的关系
两个变量之间的关系 多个变量之间的关系。 在多数情况下,多个变量之间的关系又可以分 解为若干个两个变量之间的关系,也就是说多 个变量之间的关系可以通过若干个两个变量间 的关系来描述。
厦门大学社会学系
5
厦门大学社会学系
6
知识点
双变量间关系的种类 主要的双变量的测量方法 (1)交互分析—列联表分析 (2)不同层次变量的测量法 (3)自变量和因变量的关系 相关分析和因果分析
厦门大学社会学系
11
例1:a=d=0或b=c=0,两个变量全相关
厦门大学社会学系
12
例2:a×d=b×c,对角线相等,则表 示无相关
厦门大学社会学系
13
例3:如果a×d>b×c或a×d<b×c, 则表示X和Y有相关关系。
厦门大学社会学系
14
(2)相关关系的方向(+、-)
正相关关系和负相关关系 正相关关系:一个变量的取值增加时,另一个变 量的取值也增加,反之亦然;
厦门大学社会学系
21
•理解:x对y的可认知程度
如假定不知道x的值,我们在认识y时的全部 误差是E1。我们知道x的值,可以根据x的值 来认识y的值时的误差的总数(不可认知的部 分)为E2,那么用x的值来预测y的值时减少 的误差就是E1-E2,这个值( E1-E2 )与y全 部误差的比例,则称谓消减了的误差比例
y
m
y
My
nMy
40 30 50 0.40 100 50
厦门大学社会学系 37
(2)对称形式:不确定两个变量的影响方向
m m
x
y
(M x M y )
2n ( M x M y )
My=Y变项的众数次数 Mx=X变项的众数次数 mx=Y变项的每个值(类别)之下X变项的众数次数 my=X变项的每个值(类别)之下Y变项的众数次数 n=全部个案数
厦门大学社会学系
35
公式:
(1)、不对称形式:
y
m
y
My
nMy
My=Y变项的众数次数 my=X变项的每个值(类别)之下Y变项的众数的次数 n=全部个案数 n-My=不知道x值的情况下预测Y值产生的误差 分子E1-E2=(n-My)-(n-∑my)= ∑my-My
厦门大学社会学系
36
例1:分析性别与理想志愿之间的关系
厦门大学社会学系
32
交互分类表的形式要求
每个表的顶端要有表号和标题 线条规范、简洁,最好不用竖线 百分比符号的处理:一种在表顶端的右角;另一种在表中 每一列数字的上方 表的下端用括号标出每一列的频数 两个变量的安排:通常是将自变量、或被看作自变量或用 来做解释的变量放在上面(列),将因变量、或被看作因 变量、或被解释的那个变量放在表的左侧(行)。 变量取值不宜太多。如4个自变量,5个因变量就是20个 百分比 少数点的位数要一致。如67.3和50.0 必须要进行假设检验(多选变量的分析可以没有)
计算过程:先求出E1和E2,计算消减误差的比例
E1 E2 tau y E1
厦门大学社会学系 41
E1
(n Fy ) Fy n
( Fx f ) f E2 Fx
n=全部个案数目 f=某条件次数 Fy=Y变项的某个边缘次数 Fx=X变项的某个边缘次数
特例:如下表,72.4%的制造业工人和64.3%的服务 业人员注重物质报酬,职业类型与价值取向是略 有影响的,但是
y
m
y
My
nMy
(105 45) 150 0 215 120
40
厦门大学社会学系
2、tau-y
不对称测量法 系数值介于0-1之间 计算系数时包括了所有的边缘次数和条件次 数 如果是不对称关系最好选用tau-y计算
厦门大学社会学系
17
因果关系
大多数的社会研究,都涉及因果关系的概念,社 会研究的最终目的,往往在与希望获得某些社会 现象间因果关系的知识。 如“受教育程度与人们的职业获得的研究”、 “不同职业的被调查者收入的差异”---首先认为 这些变量之间存在因果关系。
研究的目的在于辨明这些研究的因果关系状态
厦门大学社会学系 25
强调:相关值的两个意义
两个变量之间关系的大小
用一个变量预测另一个变量能消减的误 差比例
厦门大学社会学系
26
二、交互分类表与列联表
交互分类就是将调查所得的一组数据按照两 个不同的变量进行综合分类。通常以交互分 类表(列联表)的形式出现,如表1:
厦门大学社会学系
27
厦门大学社会学系
厦门大学社会学系
18
(4)相关的类型
相关关系是一种数量关系上不很严格的相互依 存关系。 如果这种关系近似地表现为一条直线,就称为 直线相关,又称线性相关; 如果这个关系近似地表现为一条曲线,则称为 曲线相关,又称非线性相关。 虽然在自然界和社会生活中,曲线相关现象远 比直线相关更多,但由于数学手段上的局限性, 社会统计研究中多以阐述线性(直线)相关为 主。
厦门大学社会学系
22
E1 E2 PRE E1
厦门大学社会学系
23
Y
E1
右图红色表示E1-E2,
厦门大学社会学系
24
PRE值的意义
1、PRE的值在[0,1] 2、E2=0,则PRE=1,x与y是全相关,用x解 释y时不会产生误差 3、E1=E2,则PRE=0,x与y是无相关,用x来 预测y时产生的误差等于不用x来预测y时的 误差 4、如PRE=0.8,表示用x预测y可以减少80% 的误差,也反映了两者的相关程度颇高;如 果PRE=0.08,则表示只能减少8%的误差, 即x对y的影响甚小,需要寻找其他的变量解 释或预测y
厦门大学社会学系
33
三、变量的测量层次与相关测量法
变量之间的关系 定类变量—定类变量 定序变量—定序变量 定距变量—定距变量 定类变量—定序变量 定类变量—定距变量 定序变量—定距变量
厦门大学社会学系
测量法是什么?
34
(一)两个定类变量:Lambda,tau-y
1、Lambda 基本逻辑:用一个定类变量的值来预测另 一个定类变量的值时,如果以众数作为 测量的准则,可以减少多少误差。 消减的误差在全部误差中所占的比例越大, 就表示两个变量的相关越强
厦门大学社会学系 19
厦门大学社会学系
20
5、削减误差比例
1、两个变量间关系的强弱
2、消减误差比例(PRE测量,Proportionate reduction in error):我们在预测或解释社会现象 y时,难免会有误差(错误),假定另一种社会现 象x与y是有关系的,我们可以根据x的值来预测y的 值,理应可以减少若干误差,其值表示的就是x对y 的误差的消减程度
厦门大学社会学系
7
一、相关关系(correlation)
两变量间的相关关系指的是一个变量的值与另一 个变量有连带关系。也就是,当一个变量发生变 化时(或取值不同时),另一个变量也随之发生 变化。(P68)
收入期望
生育期望
如:
文化程度
女性的文化程度
厦门大学社会学系
8
Hale Waihona Puke Baidu 1、相关的性质
(1)相关关系的强度
第六讲 双变量的统计分析
厦门大学社会学系
1
“学好数理化,走遍天下都不怕” “学好数理化,不如有个好爸爸” 布劳与邓肯在1967年出版的《美国的职业结构》中 研究了父亲职业与子女职业的关系,先赋地位和自致 地位哪一个在个人生活中具有更重要的作用。 尽管家庭背景(父亲的职业与受教育水平)给美国男性 的职业地位获得以显著作用,在决定美国在职男性社 会地位获得的因素中,由个人努力所达到的“受教育 水平”要比来自于“父亲职业地位”的作用更强。 他们解释说,美国是一个相当开放的社会越是工业化 社会,先赋性因素对个人社会地位获得的影响就越弱; 越是传统型社会,先赋性因素对个人社会地位获得的 影响就越强。但是,即使如此,在美国这样城市化和 工业化水平较高的西方市场化国家,来自于父亲的先 赋性因素,对子女职业地位的获得仍然具有虽然微弱 但却显著而直接的影响。
厦门大学社会学系 2
那么中国的情况如何? 白威廉(William Parish)的研究最具影响力,白氏通过对中国大陆 1972-1978年间迁居香港的132位移民的访谈,得到了他们2865位 邻居的数据,发现:对于那些在“文革”前(1966年前)就年满20 岁的同期群案例来说,父亲的“受教育水平”与“职业地位”对 子女的受教育水平,父亲的“职业地位”与“阶级出身”对子女 的“职业地位”获得等具有显著影响作用。但对于那些在“文革” 时期才年满20岁的同期群案例来说,作用却并不显著。 谢文和林南于1983年在北京的调查(N=1774)、林南和边燕杰于 1985在天津的调查(N=1000)等进一步证实:父亲的职业地位既对 人们的初职地位获得毫无影响,也对人们目前职业地位的获得缺 少明显作用。 林南与边燕杰将“工作单位部门”这一具有国家社会主义特色的 指标作为中介变量,置于职业地位之前进行检验。研究发现,虽 然父亲的职业地位对子女的教育和职业地位获得缺少统计意义的 影响,但父亲的“工作单位部门”却通过对儿子“工作单位部门” 的作用而影响了儿子的初职地位获得,但女儿却无此殊荣。
28
交互分析的作用
如表3,我们只能得出赞成和反对的人大致相等 的结论
厦门大学社会学系
29
实际从不同性别来看,男性和女性之间存在很 大的差异
厦门大学社会学系
30
思考: 两个表格所显 示信息的差 异
厦门大学社会学系
31
交互分析的作用
较为深入的描述样本资料的分布状况 和内在结构。 对变量之间的关系进行分析和解释
厦门大学社会学系
38
例:青年的教育期望与父母的教育期望
m
x
2n ( M x M y )
my (M x M y )
(28 41 4) (28 41 7) (54 50) 2 *100 (54 50) 0.47
厦门大学社会学系 39
注意:方向的分析只适用于定序以上层次的变量
厦门大学社会学系
16
(3)相关关系的对称性与非对称性
相关的两个变量,不一定有因果关系, 可能是共同变化。
不对称关系:自变量X影响因变量Y,但是 因变量Y不会影响X---因果关系, 如施肥量和小麦产量之间的关系 对称关系:不能确定或区分两个变量的方向。 如交往的多少与他们的互爱程度
人们的文化程度越高,他们的收入水平也越 高;文化程度较低的人,他们的收入水平也 普遍较低。反之,那些收入水平较低的人, 他们的文化程度一般来说也较低。
厦门大学社会学系
15
负相关关系:一个变量的取值增加时,另一个变 量的取值减少;而一个变量的值减少时,另一个 变量值的增加。
在调查中发现,文化程度越高的被调查者,在回答问 卷时,花费的时间越少,而文化程度较低的被调查者, 填答问卷时花费的时间较长。在此,我们可以说文化 程度和问卷填答时间之间存在着负相关关系。
如0.5和0.25,并不表示0.5比0.25的相关大0.25, 或者是0.25相关的两倍
厦门大学社会学系
10
如果a=d=0或b=c=0, 则表示X和Y全相关; 如果a×d=b×c,即, 则表示X和Y无关; 如果a×d>b×c或 a×d<b×c,则表示X和 Y有相关关系。
X和Y分别代表两个变量,各 有二个取值(1,2),表中 的a、b、c、d分别表示不同 情况下个案的数目
厦门大学社会学系
3
单变量的分析和统计描述,是我们了解和认识 社会现象的基础。 但社会生活中的现象并不是孤立存在的,现象 之间往往存在或多或少的关系,或者说,社会 现象之间往往是相互联系、相互影响、相互依 存的。 进一步了解社会现象发生和变化的原因,揭示 社会现象的发展规律,探索和发现现象之间的 关系,才是大多数社会研究的主要目的,而这 则需要对两个变量或多个变量之间的关系进行 分析。
厦门大学社会学系
9
注意:
社会调查中各相关系数的值不可能达到1 相关系数只表示各变量间相关程度的指标,没 有数量的关系。
厦门大学社会学系 4
变量之间的关系
两个变量之间的关系 多个变量之间的关系。 在多数情况下,多个变量之间的关系又可以分 解为若干个两个变量之间的关系,也就是说多 个变量之间的关系可以通过若干个两个变量间 的关系来描述。
厦门大学社会学系
5
厦门大学社会学系
6
知识点
双变量间关系的种类 主要的双变量的测量方法 (1)交互分析—列联表分析 (2)不同层次变量的测量法 (3)自变量和因变量的关系 相关分析和因果分析
厦门大学社会学系
11
例1:a=d=0或b=c=0,两个变量全相关
厦门大学社会学系
12
例2:a×d=b×c,对角线相等,则表 示无相关
厦门大学社会学系
13
例3:如果a×d>b×c或a×d<b×c, 则表示X和Y有相关关系。
厦门大学社会学系
14
(2)相关关系的方向(+、-)
正相关关系和负相关关系 正相关关系:一个变量的取值增加时,另一个变 量的取值也增加,反之亦然;
厦门大学社会学系
21
•理解:x对y的可认知程度
如假定不知道x的值,我们在认识y时的全部 误差是E1。我们知道x的值,可以根据x的值 来认识y的值时的误差的总数(不可认知的部 分)为E2,那么用x的值来预测y的值时减少 的误差就是E1-E2,这个值( E1-E2 )与y全 部误差的比例,则称谓消减了的误差比例
y
m
y
My
nMy
40 30 50 0.40 100 50
厦门大学社会学系 37
(2)对称形式:不确定两个变量的影响方向
m m
x
y
(M x M y )
2n ( M x M y )
My=Y变项的众数次数 Mx=X变项的众数次数 mx=Y变项的每个值(类别)之下X变项的众数次数 my=X变项的每个值(类别)之下Y变项的众数次数 n=全部个案数
厦门大学社会学系
35
公式:
(1)、不对称形式:
y
m
y
My
nMy
My=Y变项的众数次数 my=X变项的每个值(类别)之下Y变项的众数的次数 n=全部个案数 n-My=不知道x值的情况下预测Y值产生的误差 分子E1-E2=(n-My)-(n-∑my)= ∑my-My
厦门大学社会学系
36
例1:分析性别与理想志愿之间的关系
厦门大学社会学系
32
交互分类表的形式要求
每个表的顶端要有表号和标题 线条规范、简洁,最好不用竖线 百分比符号的处理:一种在表顶端的右角;另一种在表中 每一列数字的上方 表的下端用括号标出每一列的频数 两个变量的安排:通常是将自变量、或被看作自变量或用 来做解释的变量放在上面(列),将因变量、或被看作因 变量、或被解释的那个变量放在表的左侧(行)。 变量取值不宜太多。如4个自变量,5个因变量就是20个 百分比 少数点的位数要一致。如67.3和50.0 必须要进行假设检验(多选变量的分析可以没有)
计算过程:先求出E1和E2,计算消减误差的比例
E1 E2 tau y E1
厦门大学社会学系 41
E1
(n Fy ) Fy n
( Fx f ) f E2 Fx
n=全部个案数目 f=某条件次数 Fy=Y变项的某个边缘次数 Fx=X变项的某个边缘次数
特例:如下表,72.4%的制造业工人和64.3%的服务 业人员注重物质报酬,职业类型与价值取向是略 有影响的,但是
y
m
y
My
nMy
(105 45) 150 0 215 120
40
厦门大学社会学系
2、tau-y
不对称测量法 系数值介于0-1之间 计算系数时包括了所有的边缘次数和条件次 数 如果是不对称关系最好选用tau-y计算
厦门大学社会学系
17
因果关系
大多数的社会研究,都涉及因果关系的概念,社 会研究的最终目的,往往在与希望获得某些社会 现象间因果关系的知识。 如“受教育程度与人们的职业获得的研究”、 “不同职业的被调查者收入的差异”---首先认为 这些变量之间存在因果关系。
研究的目的在于辨明这些研究的因果关系状态
厦门大学社会学系 25
强调:相关值的两个意义
两个变量之间关系的大小
用一个变量预测另一个变量能消减的误 差比例
厦门大学社会学系
26
二、交互分类表与列联表
交互分类就是将调查所得的一组数据按照两 个不同的变量进行综合分类。通常以交互分 类表(列联表)的形式出现,如表1:
厦门大学社会学系
27
厦门大学社会学系
厦门大学社会学系
18
(4)相关的类型
相关关系是一种数量关系上不很严格的相互依 存关系。 如果这种关系近似地表现为一条直线,就称为 直线相关,又称线性相关; 如果这个关系近似地表现为一条曲线,则称为 曲线相关,又称非线性相关。 虽然在自然界和社会生活中,曲线相关现象远 比直线相关更多,但由于数学手段上的局限性, 社会统计研究中多以阐述线性(直线)相关为 主。
厦门大学社会学系
22
E1 E2 PRE E1
厦门大学社会学系
23
Y
E1
右图红色表示E1-E2,
厦门大学社会学系
24
PRE值的意义
1、PRE的值在[0,1] 2、E2=0,则PRE=1,x与y是全相关,用x解 释y时不会产生误差 3、E1=E2,则PRE=0,x与y是无相关,用x来 预测y时产生的误差等于不用x来预测y时的 误差 4、如PRE=0.8,表示用x预测y可以减少80% 的误差,也反映了两者的相关程度颇高;如 果PRE=0.08,则表示只能减少8%的误差, 即x对y的影响甚小,需要寻找其他的变量解 释或预测y
厦门大学社会学系
33
三、变量的测量层次与相关测量法
变量之间的关系 定类变量—定类变量 定序变量—定序变量 定距变量—定距变量 定类变量—定序变量 定类变量—定距变量 定序变量—定距变量
厦门大学社会学系
测量法是什么?
34
(一)两个定类变量:Lambda,tau-y
1、Lambda 基本逻辑:用一个定类变量的值来预测另 一个定类变量的值时,如果以众数作为 测量的准则,可以减少多少误差。 消减的误差在全部误差中所占的比例越大, 就表示两个变量的相关越强
厦门大学社会学系 19
厦门大学社会学系
20
5、削减误差比例
1、两个变量间关系的强弱
2、消减误差比例(PRE测量,Proportionate reduction in error):我们在预测或解释社会现象 y时,难免会有误差(错误),假定另一种社会现 象x与y是有关系的,我们可以根据x的值来预测y的 值,理应可以减少若干误差,其值表示的就是x对y 的误差的消减程度
厦门大学社会学系
7
一、相关关系(correlation)
两变量间的相关关系指的是一个变量的值与另一 个变量有连带关系。也就是,当一个变量发生变 化时(或取值不同时),另一个变量也随之发生 变化。(P68)
收入期望
生育期望
如:
文化程度
女性的文化程度
厦门大学社会学系
8
Hale Waihona Puke Baidu 1、相关的性质
(1)相关关系的强度
第六讲 双变量的统计分析
厦门大学社会学系
1
“学好数理化,走遍天下都不怕” “学好数理化,不如有个好爸爸” 布劳与邓肯在1967年出版的《美国的职业结构》中 研究了父亲职业与子女职业的关系,先赋地位和自致 地位哪一个在个人生活中具有更重要的作用。 尽管家庭背景(父亲的职业与受教育水平)给美国男性 的职业地位获得以显著作用,在决定美国在职男性社 会地位获得的因素中,由个人努力所达到的“受教育 水平”要比来自于“父亲职业地位”的作用更强。 他们解释说,美国是一个相当开放的社会越是工业化 社会,先赋性因素对个人社会地位获得的影响就越弱; 越是传统型社会,先赋性因素对个人社会地位获得的 影响就越强。但是,即使如此,在美国这样城市化和 工业化水平较高的西方市场化国家,来自于父亲的先 赋性因素,对子女职业地位的获得仍然具有虽然微弱 但却显著而直接的影响。
厦门大学社会学系 2
那么中国的情况如何? 白威廉(William Parish)的研究最具影响力,白氏通过对中国大陆 1972-1978年间迁居香港的132位移民的访谈,得到了他们2865位 邻居的数据,发现:对于那些在“文革”前(1966年前)就年满20 岁的同期群案例来说,父亲的“受教育水平”与“职业地位”对 子女的受教育水平,父亲的“职业地位”与“阶级出身”对子女 的“职业地位”获得等具有显著影响作用。但对于那些在“文革” 时期才年满20岁的同期群案例来说,作用却并不显著。 谢文和林南于1983年在北京的调查(N=1774)、林南和边燕杰于 1985在天津的调查(N=1000)等进一步证实:父亲的职业地位既对 人们的初职地位获得毫无影响,也对人们目前职业地位的获得缺 少明显作用。 林南与边燕杰将“工作单位部门”这一具有国家社会主义特色的 指标作为中介变量,置于职业地位之前进行检验。研究发现,虽 然父亲的职业地位对子女的教育和职业地位获得缺少统计意义的 影响,但父亲的“工作单位部门”却通过对儿子“工作单位部门” 的作用而影响了儿子的初职地位获得,但女儿却无此殊荣。
28
交互分析的作用
如表3,我们只能得出赞成和反对的人大致相等 的结论
厦门大学社会学系
29
实际从不同性别来看,男性和女性之间存在很 大的差异
厦门大学社会学系
30
思考: 两个表格所显 示信息的差 异
厦门大学社会学系
31
交互分析的作用
较为深入的描述样本资料的分布状况 和内在结构。 对变量之间的关系进行分析和解释
厦门大学社会学系
38
例:青年的教育期望与父母的教育期望
m
x
2n ( M x M y )
my (M x M y )
(28 41 4) (28 41 7) (54 50) 2 *100 (54 50) 0.47
厦门大学社会学系 39
注意:方向的分析只适用于定序以上层次的变量
厦门大学社会学系
16
(3)相关关系的对称性与非对称性
相关的两个变量,不一定有因果关系, 可能是共同变化。
不对称关系:自变量X影响因变量Y,但是 因变量Y不会影响X---因果关系, 如施肥量和小麦产量之间的关系 对称关系:不能确定或区分两个变量的方向。 如交往的多少与他们的互爱程度
人们的文化程度越高,他们的收入水平也越 高;文化程度较低的人,他们的收入水平也 普遍较低。反之,那些收入水平较低的人, 他们的文化程度一般来说也较低。
厦门大学社会学系
15
负相关关系:一个变量的取值增加时,另一个变 量的取值减少;而一个变量的值减少时,另一个 变量值的增加。
在调查中发现,文化程度越高的被调查者,在回答问 卷时,花费的时间越少,而文化程度较低的被调查者, 填答问卷时花费的时间较长。在此,我们可以说文化 程度和问卷填答时间之间存在着负相关关系。
如0.5和0.25,并不表示0.5比0.25的相关大0.25, 或者是0.25相关的两倍
厦门大学社会学系
10
如果a=d=0或b=c=0, 则表示X和Y全相关; 如果a×d=b×c,即, 则表示X和Y无关; 如果a×d>b×c或 a×d<b×c,则表示X和 Y有相关关系。
X和Y分别代表两个变量,各 有二个取值(1,2),表中 的a、b、c、d分别表示不同 情况下个案的数目
厦门大学社会学系
3
单变量的分析和统计描述,是我们了解和认识 社会现象的基础。 但社会生活中的现象并不是孤立存在的,现象 之间往往存在或多或少的关系,或者说,社会 现象之间往往是相互联系、相互影响、相互依 存的。 进一步了解社会现象发生和变化的原因,揭示 社会现象的发展规律,探索和发现现象之间的 关系,才是大多数社会研究的主要目的,而这 则需要对两个变量或多个变量之间的关系进行 分析。