在列联表分析中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如果要进行三维或多维列联表分析,可以根据需要选择控制变量进入【Layer】列表框 中。该变量决定列联表的层。如果要增加另外一个控制变量,首先单击 Next 按钮,再选入 一个变量。单击 Previous 按钮可以重新选择以前确定的变量。
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.com.cn
同表格的检验。其值在-1 到 1 之间 Kendall,s tau-c:反映忽略定序变量之间相关关系的非参数关联程度,其取值范围和
意义与Kendall,s tau-b系数一致。 ● Nominal by interval:适用于一定类变量、一定距变量的方法。选项Eta系数反映行列
变量的关联程度,其值在0和1之间,0表示行列变量之间没有关联性,1表示行列变量之间存 在很高的关联性。
n
∑ ∑ 其中, ni⋅ = nij , n⋅ j = nij 。
j
i
SPSS 中的【Crosstabs】过程能对两个或多个分类变量进行联合描述,可以产生二维甚至
n 维表格,并计算相应的行、列、合计百分比和行、列汇总指标。
(2)行列变量间关系的分析
列联表的频数分布不可能用来直接确定行、列变量之间的关系及关系的强弱。令人感兴
Observed:显示观测值的频数,这是系统默认选择项。 Expected:期望频数。如果行、列变量具有统计上的相互独立意义,显示期望的或 预测的观察值频数。 ● Percentages,用于选择单元格中百分比的显示格式 Row:行百分比,即单元格中观测值数占该行全部观测值总数的百分比。 Column:列百分比,即单元格中观测值数占该列全部观测值总数的百分比。 Total:总百分比,即单元格中观测值数占全部观测值数的百分比。 ● Residuals:用于选择单元格中残差的显示格式。 Unstandardized:非标准化残差,即单元格中的观测值减预测值之差。 Standardized:标准化残差,即皮尔逊残差,其均值等于 0,标准差等于 1。 Adj. standardized:调整的标准化残差。 ● Noninteger Weights (7)选择列联表单元格的输出排列顺序 在【Crosstabs】对话框中单击 Format 按钮,弹出如图 3-20 对话框,它用于选择各单元 格的输出排列顺序。
属于 Ai 类又属于 B j 类的有 nij 个。那么,可以构成一张二维 r × c 列联表,如表 3-8 所示。
表 3-8 二维 r × c 列联表
B1
B2
L
Bc
合计
A1
n11
n12
L
n1c
n1⋅
A2
n21
n22
L
n2c
n2⋅
M
M
M
M
M
Ar
源自文库
nr1
nr 2
L
nrc
nr⋅
合计
n⋅ 1
n⋅ 2
L
n⋅ c
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.com.cn
图 3-20 【Crosstabs:Format】对话框 ● Ascending:以行变量升序方式显示各变量值,这是默认选择项。 ● Descending:以行变量升序方式显示各变量值。 (8)单击 OK 按钮,结束操作,SPSS 软件自动输出结果。
对话框,如图 3-17 所示,这是列联表分析的主操作窗口。
图 3-17 【Crosstabs】对话框 (2)选择行、列变量 在【Crosstabs】对话框左侧的【候选变量】清单中,选取一个或多个待分析变量,将它 们移入右侧的【Row(s)】列表框中,作为列联表的行变量;同理,选择若干候选变量移入右 侧的【Column(s)】列表框中,作为列联表的列变量。 (3)选择层变量
Uncertainty coefficient:不确定性系数。表示使用一个变量的值来预测其他变量的值 可能发生的错误。
● Ordinal:适用于两定序变量的方法。 Gamma:反映两个有序变量之间的对称关联程度,其值的范围在-1~1之间。其值的
绝对值接近于1表示两个变量之间存在高度关联性,接近于0表示变量之间有低度或无线性关
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.com.cn
据数据类型选择不同的独立性检验方法和相关度量。在对话框中选择输出统计量,完成后单 击 Continue 按钮,返回主对话框。
图 3-18 【Crosstabs:Statistics】对话框 ● Chi-square:进行行变量和列变量独立的卡方检验。 ● Correlations:计算 Pearson 相关系数,用于检测两变量的线性相关程度;计算 Spearman 相关系数,用于检测秩次之间的关联。两者的取值介于-1(完全负相关)与+1(完全正相关) 之间,如果取值为 0,则表示两者不存在线性相关关系。 ● Kappa:内部一致性系数。用来检验两个评估人对同一对象进行评估时是否具有一 致性。 ● Risk:计算相对危险度(relative risk)和比数比(odd ration),反映一个因素与发生的某 一特定事件之间的关联程度。 ● McNemar:用于两个相关二项分类变量的非参数检验。 ● Nominal:适用于两定类变量的方法。
SPSS 在列联表分析中的应用
3.4.1 列联表的方法原理
频数表可以描述一个变量的分布情况,但是在实际中研究者往往希望对两个甚至多个分 类变量的频数分析进行联合观察,例如希望考察不同年龄阶段和不同行业的人群购买商品房 的意愿,这就需要将年龄和行业这两个分类变量交叉起来构成复合频数表,简称为列联表。
列联表是指一个频率对应两个变量的表(一个变量用来对行分类,第二个变量用来对列 分类)。列联表非常重要,它经常被用来分析调查结果。它有两个基本任务:第一,根据收 集到的样本数据产生二维或多维交叉列联表;第二,在列联表基础上,对两两变量间是否存 在一定的相关性进行分析。
求。所以,一般采用的检验方法是卡方(χ2)检验,它的计算公式为:
∑ χ 2 =
( f0 − fe )2
fe
其中,f0 表示实际观察频数,fe 表示期望频数。χ2 值是观察频数和期望频数之间距离的 一种度量指标。当 χ2 值越小说明行、列变量之间相关程度越密切。由于 χ2 统计量服从(行
数-1)×(列数-1)个自由度的卡方分布,SPSS 在自动计算统计量后,会给出相应的相伴
(1)交叉列联表 列联表是两个或两个以上的变量交叉分组后形成的频数分布表。它一般由表头、列、行、
排序、计算和求百分比等部分构成。例如二维 r × c 列联表,假设有 n 个个体根据两个属性
A 和 B 进行分类。属性 A 有 r 类: A1,L, Ar ,而属性 B 有 c 类: B1,L, Bc 。n 个个体中既
趣的二维列联表的检验问题是行、列变量的独立性检验。
独立性检验指的是对列联表中行变量和列变量无关这个零假设进行的检验,即检验行、
列变量之间是否彼此独立。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉
列联表分析中,由于行、列变量往往不是连续等距变量,不符合计算简单相关系数的前提要
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.com.cn
Contingency coefficient:列联系数,其数值在0~1之间。其值如果为0,表示行列变 量之间没有关联;其值如果接近1,表示行列变量之间有高度关联。
Phi and Cramer,s V:同列联系数一样,是根据卡方统计量修改计算得到的反映变量 关联程度的值。
Lambda:当自变量用于预测因变量时,该检验反映预测误差。Lambda数等于1时, 表明自变量完全预测因变量;Lambda系数等于0,表明自变量无助于预测因变量。
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.com.cn
系。 Somers,d:两个有序变量之间关联性的检验。它是Gamma系数的非对称性推广,其
意义和Gamma系数基本相同,不同点仅在于它包括与自变量不相关的成对数据。 Kendall,s tau-b:它是对相关的有序变量进行的非参数相关检验,适合行数与列数相
(6)选择列联表单元格的输出类型 在【Crosstabs】对话框中单击 Cell 按钮,弹出如图 3-19 对话框。在对话框中可以选择
显示在列联表单元格中的统计量,包括观测数量、百分比和残差。在对话框中选择相应选项, 完成后单击 Continue 按钮,返回主对话框。
图 3-19 【Crosstabs:Cell】对话框 ● Counts:用于选择单元格中频数的显示格式。
动给出各统计检验的统计量和它们对应的概率 P 值。如果 P 值小于等于显著性水平 α,则拒
绝原假设,认为行、列变量不独立;否则,接受原假设。
3.4.2 列联表的 SPSS 操作详解
(1)打开主窗口 选择主菜单中的【Analyze】→【Descriptive Statistics】→【Crosstabs】命令,弹出【Crosstabs】
概率 P 值,用户可以通过比较概率 P 值和显著性水平值的大小来判断是否接受还是拒绝零
假设。
除此之外,SPSS 中提供了若干种适用于不同数据取值范围和条件的相关系数,例如
Kendall 相关系数、Eta 值等。对这些相关系数的检验是必不可少的,SPSS 提供了不同相关
系数的不同统计检验方法,这些检验的零假设都是:行、列变量之间彼此独立。SPSS 将自
(4)列联表输出格式的选择 在【Crosstabs】对话框下面有两个复选项,它们是用来选择列联表的输出格式。 ● Display clustered bar charts:显示各变量交叉分组下频数分布条形图。 ● Suppress tables:只输出统计量,而不输出列联表。
(5)行、列变量相关程度的度量 在【Crosstabs】对话框中单击 Statistics 按钮,弹出如图 3-18 对话框。该选项主要是根
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.com.cn
同表格的检验。其值在-1 到 1 之间 Kendall,s tau-c:反映忽略定序变量之间相关关系的非参数关联程度,其取值范围和
意义与Kendall,s tau-b系数一致。 ● Nominal by interval:适用于一定类变量、一定距变量的方法。选项Eta系数反映行列
变量的关联程度,其值在0和1之间,0表示行列变量之间没有关联性,1表示行列变量之间存 在很高的关联性。
n
∑ ∑ 其中, ni⋅ = nij , n⋅ j = nij 。
j
i
SPSS 中的【Crosstabs】过程能对两个或多个分类变量进行联合描述,可以产生二维甚至
n 维表格,并计算相应的行、列、合计百分比和行、列汇总指标。
(2)行列变量间关系的分析
列联表的频数分布不可能用来直接确定行、列变量之间的关系及关系的强弱。令人感兴
Observed:显示观测值的频数,这是系统默认选择项。 Expected:期望频数。如果行、列变量具有统计上的相互独立意义,显示期望的或 预测的观察值频数。 ● Percentages,用于选择单元格中百分比的显示格式 Row:行百分比,即单元格中观测值数占该行全部观测值总数的百分比。 Column:列百分比,即单元格中观测值数占该列全部观测值总数的百分比。 Total:总百分比,即单元格中观测值数占全部观测值数的百分比。 ● Residuals:用于选择单元格中残差的显示格式。 Unstandardized:非标准化残差,即单元格中的观测值减预测值之差。 Standardized:标准化残差,即皮尔逊残差,其均值等于 0,标准差等于 1。 Adj. standardized:调整的标准化残差。 ● Noninteger Weights (7)选择列联表单元格的输出排列顺序 在【Crosstabs】对话框中单击 Format 按钮,弹出如图 3-20 对话框,它用于选择各单元 格的输出排列顺序。
属于 Ai 类又属于 B j 类的有 nij 个。那么,可以构成一张二维 r × c 列联表,如表 3-8 所示。
表 3-8 二维 r × c 列联表
B1
B2
L
Bc
合计
A1
n11
n12
L
n1c
n1⋅
A2
n21
n22
L
n2c
n2⋅
M
M
M
M
M
Ar
源自文库
nr1
nr 2
L
nrc
nr⋅
合计
n⋅ 1
n⋅ 2
L
n⋅ c
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.com.cn
图 3-20 【Crosstabs:Format】对话框 ● Ascending:以行变量升序方式显示各变量值,这是默认选择项。 ● Descending:以行变量升序方式显示各变量值。 (8)单击 OK 按钮,结束操作,SPSS 软件自动输出结果。
对话框,如图 3-17 所示,这是列联表分析的主操作窗口。
图 3-17 【Crosstabs】对话框 (2)选择行、列变量 在【Crosstabs】对话框左侧的【候选变量】清单中,选取一个或多个待分析变量,将它 们移入右侧的【Row(s)】列表框中,作为列联表的行变量;同理,选择若干候选变量移入右 侧的【Column(s)】列表框中,作为列联表的列变量。 (3)选择层变量
Uncertainty coefficient:不确定性系数。表示使用一个变量的值来预测其他变量的值 可能发生的错误。
● Ordinal:适用于两定序变量的方法。 Gamma:反映两个有序变量之间的对称关联程度,其值的范围在-1~1之间。其值的
绝对值接近于1表示两个变量之间存在高度关联性,接近于0表示变量之间有低度或无线性关
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.com.cn
据数据类型选择不同的独立性检验方法和相关度量。在对话框中选择输出统计量,完成后单 击 Continue 按钮,返回主对话框。
图 3-18 【Crosstabs:Statistics】对话框 ● Chi-square:进行行变量和列变量独立的卡方检验。 ● Correlations:计算 Pearson 相关系数,用于检测两变量的线性相关程度;计算 Spearman 相关系数,用于检测秩次之间的关联。两者的取值介于-1(完全负相关)与+1(完全正相关) 之间,如果取值为 0,则表示两者不存在线性相关关系。 ● Kappa:内部一致性系数。用来检验两个评估人对同一对象进行评估时是否具有一 致性。 ● Risk:计算相对危险度(relative risk)和比数比(odd ration),反映一个因素与发生的某 一特定事件之间的关联程度。 ● McNemar:用于两个相关二项分类变量的非参数检验。 ● Nominal:适用于两定类变量的方法。
SPSS 在列联表分析中的应用
3.4.1 列联表的方法原理
频数表可以描述一个变量的分布情况,但是在实际中研究者往往希望对两个甚至多个分 类变量的频数分析进行联合观察,例如希望考察不同年龄阶段和不同行业的人群购买商品房 的意愿,这就需要将年龄和行业这两个分类变量交叉起来构成复合频数表,简称为列联表。
列联表是指一个频率对应两个变量的表(一个变量用来对行分类,第二个变量用来对列 分类)。列联表非常重要,它经常被用来分析调查结果。它有两个基本任务:第一,根据收 集到的样本数据产生二维或多维交叉列联表;第二,在列联表基础上,对两两变量间是否存 在一定的相关性进行分析。
求。所以,一般采用的检验方法是卡方(χ2)检验,它的计算公式为:
∑ χ 2 =
( f0 − fe )2
fe
其中,f0 表示实际观察频数,fe 表示期望频数。χ2 值是观察频数和期望频数之间距离的 一种度量指标。当 χ2 值越小说明行、列变量之间相关程度越密切。由于 χ2 统计量服从(行
数-1)×(列数-1)个自由度的卡方分布,SPSS 在自动计算统计量后,会给出相应的相伴
(1)交叉列联表 列联表是两个或两个以上的变量交叉分组后形成的频数分布表。它一般由表头、列、行、
排序、计算和求百分比等部分构成。例如二维 r × c 列联表,假设有 n 个个体根据两个属性
A 和 B 进行分类。属性 A 有 r 类: A1,L, Ar ,而属性 B 有 c 类: B1,L, Bc 。n 个个体中既
趣的二维列联表的检验问题是行、列变量的独立性检验。
独立性检验指的是对列联表中行变量和列变量无关这个零假设进行的检验,即检验行、
列变量之间是否彼此独立。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉
列联表分析中,由于行、列变量往往不是连续等距变量,不符合计算简单相关系数的前提要
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.com.cn
Contingency coefficient:列联系数,其数值在0~1之间。其值如果为0,表示行列变 量之间没有关联;其值如果接近1,表示行列变量之间有高度关联。
Phi and Cramer,s V:同列联系数一样,是根据卡方统计量修改计算得到的反映变量 关联程度的值。
Lambda:当自变量用于预测因变量时,该检验反映预测误差。Lambda数等于1时, 表明自变量完全预测因变量;Lambda系数等于0,表明自变量无助于预测因变量。
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.com.cn
系。 Somers,d:两个有序变量之间关联性的检验。它是Gamma系数的非对称性推广,其
意义和Gamma系数基本相同,不同点仅在于它包括与自变量不相关的成对数据。 Kendall,s tau-b:它是对相关的有序变量进行的非参数相关检验,适合行数与列数相
(6)选择列联表单元格的输出类型 在【Crosstabs】对话框中单击 Cell 按钮,弹出如图 3-19 对话框。在对话框中可以选择
显示在列联表单元格中的统计量,包括观测数量、百分比和残差。在对话框中选择相应选项, 完成后单击 Continue 按钮,返回主对话框。
图 3-19 【Crosstabs:Cell】对话框 ● Counts:用于选择单元格中频数的显示格式。
动给出各统计检验的统计量和它们对应的概率 P 值。如果 P 值小于等于显著性水平 α,则拒
绝原假设,认为行、列变量不独立;否则,接受原假设。
3.4.2 列联表的 SPSS 操作详解
(1)打开主窗口 选择主菜单中的【Analyze】→【Descriptive Statistics】→【Crosstabs】命令,弹出【Crosstabs】
概率 P 值,用户可以通过比较概率 P 值和显著性水平值的大小来判断是否接受还是拒绝零
假设。
除此之外,SPSS 中提供了若干种适用于不同数据取值范围和条件的相关系数,例如
Kendall 相关系数、Eta 值等。对这些相关系数的检验是必不可少的,SPSS 提供了不同相关
系数的不同统计检验方法,这些检验的零假设都是:行、列变量之间彼此独立。SPSS 将自
(4)列联表输出格式的选择 在【Crosstabs】对话框下面有两个复选项,它们是用来选择列联表的输出格式。 ● Display clustered bar charts:显示各变量交叉分组下频数分布条形图。 ● Suppress tables:只输出统计量,而不输出列联表。
(5)行、列变量相关程度的度量 在【Crosstabs】对话框中单击 Statistics 按钮,弹出如图 3-18 对话框。该选项主要是根