交叉汇总与关联分析Crosstabs的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六讲交叉汇总与关联分析(Crosstabs的应用)
主要用于研究两个变量之间是相互独立还是存在某种关系,有没有关系,关系程度怎么样。最适合于分析两个定类变量之间的关系,但是通过对变量的处理,也可以适合于分析测量层次更高级别的变量。
一、变量及其测量层次
变量:被操作化了的概念,是可以直接观察的,在经验研究中,在不同的状态下有不同的属性,科学研究一定要使用变量的语言,一定要有操作化。
变量从它测量的层次上看,可以区分为四种类型:
定类变量(Nominal ):区分现象、事物的不同性质,而不能从规模大小等方面进行区分,=≠性别(男,女)收入(有收入,无收入)、民族等定序变量(Ordial):当变量不仅区分了对象的属性、特征,还区分出大小、强弱、高低次序时,就是定序变量。=≠< >如社会地位、文化水平、
社会态度、收入等
定距变量(Interval):除了类别、次序属性以外,取值之间的距离还可以用标准化的距离去测量,可以进行加减的运算。年龄
定比变量(Ratio):除了以上三类变量提到的属性,定比变量取值可以构成一个有意义的比率。如智商。
各个变量之间的关系及其测量:
定类——定类——列联表、交互分析
定序——定序——等级分析
定距——定距——回归与相关(简单与多元)
定类——定距——方差分析
定类——定序——非参数检验
二、交叉汇总表的一般形式及其特点
的上面,因变量放在表的旁边
条件分布:将其中一个变量控制起来,再看另外一个变量的分布,可以得到条件分布,如可以对自变量的同一取值作条件分布,进行分析。
三、如何获得交叉汇总表
Analyze-----Descriptives----Crosstabs----
出现对话框:
●ROWS这个框中的变量作为交互表中的行变量(一般放因变量Y,y1, y2,
y3--)
●Column框,这个框中的变量作为交互表中的列变量(一般放自变量
X,x1,x2,x3…)
●Layer框:框中的变量作为控制变量,决定交互表的层,可以多个控制变量。
●Display Clustered bar chats选中这个框,将显示每一组中各个变量的分类条
形图
●Suppress tables选中这个框,只输出统计量,不输出多维列联表
●Statistics 统计量
●Cell display对话框——确定要输出的列联表——观测量数、百分比、残差
以自变量作为计算百分率的方向,是社会学研究的常规,当然,也有例外的情况:如果因变量在样本内的分布不能代表其在总体内的分布,则百分率的计算要根据因变量的方向(见李沛良书P74。)
比较时采用行百分比还是列百分比?原则上是没有自变量与因变量的区分。
如看职业流动表中的流出率,选Row百分比,得行的百分比,行加起来为100%
若选column——列百分比,列若是儿子职业,则列百分比可以看某一职业类别到底由什么人构成,职业流动表中的流入率。
做目前职业身份与父亲从事职业的关系交互表
Rows――父亲从事工作
Columns――目前身份
Cells――row――
问:父亲是农民的那些被调查者,他们目前的身份与父亲是高级管理人员者比有什么特点?
如果cells-column――问目前身份是一线工人的人,他们的父亲都是干什么的?
四、如何看一张交叉汇总表
(一)Cell功能键
observed:观察值的实际数
expected:如果行和列在统计上是独立的或不相关的,那么会在单元格中输出期望的观察值的数量。
Row:行百分比
Column:列百分比
Unstandardized:计算非标准化残差,残差是观察值与期望值之差,正的残差意味着在行列变量相互独立时,单元格中的观察值比期望值大。
Standardized:标准化残差, 它的值是残差除于标准差,其均值是0,标准差等于1。
Adj standardized调整后的残差。
以社会统计学教材P295表10-2为例
1.联合分布、边缘分布与条件分布
Analyze-----Descriptives----Crosstabs--- Cells ――Total――OK
2.列联表中变量的相互独立性――社会统计学教材表10-15分析,可以通过SPSS的如下程序进行操作
Analyze-----Descriptives----Crosstabs--- Cells ――Column(求列百分比)――OK
Analyze-----Descriptives----Crosstabs--- Cells ――Column(求行百分比)――OK
期望分布―――Analyze-----Descriptives----Crosstabs--- Cells ――expected――Column(求列百分比)――OK
五.定类——定类——列联表交互分析――是否相关 (一)交互表的检验——两个变量之间是否相关
一般用x 2来检验,检验的原来假设是:两个变量之间没有关系,研究假设或称为备择假设是两个变量之间有关系。
检验的方法是: Pearson Chi-Square
x 2 的自由度是(r-1)(c-1)
n ij 是观察的样本频次 如果x 2 检验sig <.05,拒绝原假设,即认为两个变量之间相关 如果x 2 检验sig >.05,接受原假设,即认为两个变量之间不相关 注意:对于2×2的列联表,格数过少,为减少偏差,对x 2 进行修正,
x n E E ij ij ij
j r
i c 22
1
105=--==∑
∑(.)
x 2
检验适合于单变量二项总体或者多项总体的检验。
例子:看子辈职业与父辈职业之间是否相关
1.数据