交叉表分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
data05-02为某公司工资数据(n=15)。
使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。
可以利用data05-01中的数据,使用变量occcat80为工作性质分类,region为地区,childs 为每个家庭的孩子数。
将childs为行变量,occcat80为列变量,region为控制变量选入Layer of框中,进行交叉表分析。
列联表(交叉表)分析
1、项目名称
Crosstabs过程
4、实训原理
Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。
在分析时可以产生二维至n维列联表,并计算相应的百分数指标。
4-1 列联表分析的含义与任务
在实际分析中,当问题涉及到多个变量时,我们不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。
很明显,如果还采用单纯的频数分析方法显然不能满足要求。
因此,我们需要借助交叉分组下的频数分析,即列联表分析。
列联表分析的主要任务有两个:
(1)根据样本数据产生二维或多维交叉列联表。
交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。
(2)在交叉列联表的基础上,分析两变量之间是否具有独立性或一定的相关性。
4-2 卡方检验的原理
为了理解列联表中行变量(Row)和列变量(Column)之间的关系,我们需要借助非参数检验方法。
通常采用的方法是卡方检验。
和一般假设检验一样,卡方检验主要包括三个步骤:
(1)建立零假设:行变量和列变量相互独立。
(2)选择和计算检验统计量。
列联表分析中的检验统计量是Pearson卡方统计量。
其公式为:
()∑∑
==-=r i c
j e
ij e ij o ij
f f f
11
2
2χ(4-9-1)
其中,r 为列联表的行数,c 为列联表的列数,0f 为实际观测频数,e f 期望观测频数。
期望频数的计算公式为:
n
CT
RT f e ⨯=
(4-9-2) 其中,RT 是指定单元格所在行的观测频数合计,CT 是指定单元格所在列的观测频数合计,n 是观测频数的合计。
由式(4-9-1)可以看出,卡方统计量的大小取决于两个因素:一个是列联表的格子数;另一个是观测频数和期望频数的差值。
在列联表固定的情况下,卡方统计量取值的大小取决于观测频数和期望频数的总差值。
当总差值越大时,卡方值也就越大,表明行列变量之间越相关;反之,当总差值越小时,卡方值也就越小,表明行列变量之间越独立。
(3)得出结论并做决策。
根据卡方统计量的概率P 值和显著性水平α进行比较,做出拒绝还是接受原假设的结论。
如果卡方检验的概率P 值小于显著性水平α,则拒绝原假设,认为行列变量之间不独立,两者之间存在依存关系。
反之,如果卡方检验的概率P 值大于显著性水平α,则接受原假设,认为行列变量之间独立,两者之间不存在依存关系。
在卡方检验中还需要注意:交叉列联表中不应有期望频数小于1的单元格,或者不应有大量期望频数小于5的单元格。
如果交叉列联表中有20%以上单元格中的期望频数小于5,则不应用卡方检验,可以采用似然比(Likelihood Ratio )卡方检验等方法进行修正。
5、背景材料
某新产品上市前一个月中,分别对北京、上海、深圳三地进行了市场调查,调查表中有一项是关于顾客获知该产品的渠道。
随机抽取了300份调查表,统计顾客获知产品渠道的数据如下,SPSS 数据文件见。
表4-9-1 顾客获知某新产品渠道的调查数据
6、实训步骤
6-1 选择菜单“Analyze”→“Descriptive Statistics”→“Crosstabs”弹出如图4-9-1所示的窗口,进入列联表分析界面。
图4-9-1 列联表分析窗口
6-2 选择列联表中的行变量进入Row(s)框,如表4-9-1中的获取新产品的渠道变量。
6-3 选择列连表中的列变量进入Column(s)框,如表4-9-1中的城市变量。
6-4 Layer框:Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。
如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next 钮设为不同层。
Layer在这里用的比较少,在多元回归中我们将进行详细的解释。
6-5 选择Display clustered bar charts复选框表示输出分组条图。
选择Suppress table复选框表示禁止在结果中输出列联表。
6-6 单击按钮,弹出Exact Tests子对话框,如图4-9-2所示。
图4-9-2 Exact Tests子对话框
Exact Tests子对话框是针对2*2以上的行*列表设定计算确切概率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo)或确切计算(Exact)。
其中,系统默认是不计算;蒙特卡罗模拟默认进行10000次模拟,给出99%置信区间;确切计算默认计算时间限制在5分钟内。
这些默认值均可更改。
6-7 单击按钮,弹出Statistics子对话框,用于定义所需计算的统计量。
如图4-9-3所示。
图4-9-3 Statistics子对话框
Statistics子对话框包括:
χ值。
(1)Chi-square复选框:选择是否进行卡方检验,计算2
(2)Correlaitons复选框:计算列联表两变量的Pearson相关系数和Spearman等级相关系数。
(3)Nominal复选框组:选择是否输出反映分类资料相关性的指标,共有四个选项:
Contingency coefficient复选框:列联系数,其值界于0~1之间,取值越大说明两变量之间的相关性越强。
χ值的,Phi在四格表2χ检Phi and Cramer’s V复选框:这两者也是基于2
χ检验中界于0~1之间;Cramer’s V则界于验中界于-1~1之间,在R*C表2
0~1之间。
该指标的绝对值越大,说明两变量之间的相关性越强。
Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测因变量好,为0时表明自变量预测因变量差。
Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差(表示使用一个变量的值来预测其他变量的值可能发生的错误程度),其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。
(4)Ordianl复选框组:选择是否输出反映定序资料相关性的指标。
包括以下组成部分:
Gamma复选框:界于-1~1之间,所有观察实际数集中于左上角和右下角时,其值为1,取1和-1代表两变量完全一致或不一致,取0代表两变量完全不相关。
Somers’d复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例。
界于-1~1之间,结果解释同上;
Kendall’s tau-b复选框:界于-1~1之间,计算过程包括结,结果解释同
上;
Kendall’s tau-c复选框:界于-1~1之间,结果解释同上;
(5)Nominal by Interval:Eta复选框:计算Eta值,用于分类变量的检验,其平方值可认为是因变量受不同因素影响所致方差的比例;
(6)Kappa复选框:计算Kappa值,即内部一致性系数。
通常Kappa大于则认为两变量的一致性较好;小于则认为两变量的一致性较差;
(7)Risk复选框:计算相对危险系数,表明事件的发生和某因素之间的关联性。
如果大于1,说明两者之间有关联。
(8)McNemar复选框:进行McNemar检验(一种非参检验),两个二值变量相关性的非参数检验。
该检验只有在行列数相等时才能用;
(9)Cochran’s and Mantel-Haenszel statistics复选框:进行独立性和齐性检验。
6-8 单击按钮弹出Cell子对话框,用于定义列联表单元格中需要计算的指标,如图4-9-4所示。
图4-9-4 Cell子对话框
Cell子对话框主要包括以下几部分:
Counts复选框:是否输出实际观察数( Observed)和期望数(Expected);
Percentages复选框:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total);
Residuals复选框:选择残差的显示方式,可以是实际数与期望数的差值(Unstandardized)、标化后的差值(standardized,将差值转化为标准正态分布),或者被标准误除的单元格残差();
Noninteger Weights:当频数因为加权而变成小数时,选择该项对频数进行取整。
主要包括五种方法:Round cell counts:对频数进行四舍五入取整;Round case weights:对加权样本在使用前进行四舍五入取整;Truncate cell counts:对频数进行舍位取整;Truncate case weights:对加权样本在使用前进行舍位取整;No adjustments:不调整。
6-9 单击按钮,弹出Format子对话框,用于选择行变量是升序还是降序。
单击按钮返回主界面,单击按钮完成操作。
7、实训解析
由于背景资料中表4-9的数据给出的直接是频数表,因此在建立SPSS数据集时可以直接输入三个变量:——行变量、列变量和指示每个单元格中频数的变量,然后指定频数变量,最后进行检验。
因此,我们要检验原假设:“获知方式”与“城市”两变量之间是独立的,需要首先用Data菜单中的“Weight Cases”命令,设置频数变量;然后在“Crosstabs”命令中将“获知方式”、“城市”分别设置为行列变量;选中Display clustered bar charts选项,在Statistics对话框中选择Chi-square选项,在Cells对话框中选择Observed、Expectde选项,设置完成后点击OK按钮,完成操作,结果如表4-9-2、表4-9-3和图4-9-5所示。
表4-9-3是卡方检验结果,共使用了三种检验方法。
Pearson Chi-Square 的显著水平大于,因此不能拒绝原假设,认为“获知方式”与“城市”两变量之间独立,即它们之间不存在相互依赖关系。
表4-9-3 卡方检验结果Chi-Square Tests
图4-9-5 获知方式与城市交叉分组的条形图
交叉表分析时需要注意的问题
若需要检验的变量为定距以上的变量,则进行交叉表分析前需要把变量先转化为定类或定序变量。
使用Pearson Chi-Square检验要求各单元的期望频数均大于5或者小于5的比例不能超过20%;当单元格的期望频数小于5的比例超过20%,或者当样本数小于20时,需要进行Fisher精确检验结果(Fisher's Exact Test)。
若要在结果中显示Fisher精确检验结果(Fisher's Exact Test)需要在操作过程中单击按钮,弹出Exact Tests子对话框,如下图所示。
Exact Tests子对话框是针对2*2以上的行*列表设定计算确切概率的方法,系统默认是具有渐进分布的大样本数据的计算(Asymptotic only)。
如果是大样本,单元格的期望频数小于5的比例超过20%,精确计算则选择:蒙特卡罗模拟(Monte Carlo)。
蒙特卡罗模拟默认进行10000次模拟,给出99%置信区间。
这些默认值均可更改。
置信区间常用的值为90、95、99。
Number of Samples参数框中通常输入样本量的数值。
如果是小样本则必须选择:确切计算(Exact)。
确切计算默认计算时间限制在5分钟内。
下图是以利用data05-01中的数据,使用变量occcat80为工作性质分类,region为地区,childs为每个家庭的孩子数。
将childs为行变量,occcat80为列变量,region为控制变量选入Layer of框中,进行交叉表分析时进行精确
计算的操作选择。