交叉列联分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 如果期望频数和实际频数相差不大,不拒绝原假 如果期望频数和实际频数相差不大, 如果二者相差很大, 设,如果二者相差很大,拒绝原假设
期望频数的分布
一分公司 赞成该方案 反对该方案 二分公司 三分公司 四分公司
合计 279 141 420
68 32
75 45
57 33
79 31
合计
100
120
90
列边缘分布
描述统计-百分比分布 描述统计 百分比分布
• 在相同的基数上进行比较,可以计算相应 在相同的基数上进行比较 的基数上进行比较, 的百分比, 的百分比,称为百分比分布
• 行百分比:行的每一个观察频数除以相应的行 行百分比: 合计数( 合计数(fij / ri) • 列百分比:列的每一个观察频数除以相应的列 列百分比: 合计数( 合计数( fij / cj ) • 总百分比:每一个观察值除以观察值的总个数 总百分比: ( fij / n )
初中及 以下 男 女 合计
高中
大学
研究生 及以上
合计
编制交叉列联表( 编制交叉列联表(SPSS) )
三维交叉列联表举例
二、交叉列联表行列变量间关系的分析
【 例 】 一个集团公司在四个不同的地区设有分公司 , 现该 一个集团公司在四个不同的地区设有分公司, 集团公司欲进行一项改革, 集团公司欲进行一项改革 , 此项改革可能涉及到各分公司 的利益,故采用抽样调查方式,从四个分公司共抽取420个 的利益,故采用抽样调查方式,从四个分公司共抽取420个 样本单位( 了解职工对此项改革的看法, 样本单位(人),了解职工对此项改革的看法,调查结果如下 表 一分公司 二分公司 三分公司 四分公司 合计
行百分比
一分公司 赞成该方案
列百分比
二分公司 三分公司
总百分比
四分公司
合计 66.4% — — 33.6% — — 100%
24.4% 68.0% 16.2%
26.9% 62.5% 17.8% 31.9% 37.5% 10.7%
20.4% 63.35 13.6% 23.4% 36.7% 7.9%
28.3% 71.8% 18.8% 22.0% 28.2% 7.4%
列联表举例(美国的General Social Survey ) 列联表举例(美国的
幸福状况
非常幸福 婚姻状况 已婚 丧偶 离异 分居 未婚 合计 574 70 83 14 136 877
比较幸福 726 149 292 73 419 1659
不太幸福 82 59 79 30 99 349
合计 1382 278 454 117 654 2885
反对该方案
22.7% 32.0% 7.6%
合计
23.8%
28.6%
21.4%
26.2%
80% 70% 60% 50% 40% 30% 20% 10% 0% 一分公司 二分公司 三分公司 37.5% 32.0% 36.7% 68.0% 62.5% 63.3%
71.8%
28.2%
赞成 反对
四分公司
推断统计-进行卡方检验 推断统计 进行卡方检验
• 根据收集到的样本数据编制交叉列联表 • 在交叉列联表的基础上,对两两变量间是否存在一 在交叉列联表的基础上, 定的相关性进行分析 • 拟合优度检验
一、编制交叉列联表(EXCEL) 编制交叉列联表( )
• • • • 比如分析性别与受教育程度之间的关系 性别变量中’1’=‘男’,‘2’=‘女’ 性别变量中 男 女 文化程度变量中 编制交叉列联表
期望频数的分布
一分公司 二分公司 三分公司 四分公司
实际频数 赞成该 方案 期望频数
68 66 32 34
75 80 45 40
57 60 33 30
79 73 31 37
实际频数 反对该 方案 期望频数
检验统计量
• 在零假设成立时,该统计量近似服从自由度为(r在零假设成立时,该统计量近似服从自由度为 1)×(s-1)的χ2分布。当该统计量的值很大(或p × 的 分布。当该统计量的值很大( 值很小) 就可以拒绝零假设, 值很小)时,就可以拒绝零假设,认为这两个变 量不相互独立。 量不相互独立。
• 检验行变量与列变量是否独立 • 拟合优度检验(多个总体的比例是否相等) 拟合优度检验(多个总体的比例是否相等)
独立性检验(基本原理) 独立性检验(基本原理)
• 原假设:行变量和列变量是相互独立的 原假设: • 前提成立的情况下,每个单元格的频数期望值称 前提成立的情况下, 之为期望频数e 之为期望频数 ij,
结果分析
值 Pearson 卡方 似然比 线性和线性组合 有效案例中的 N 225.274a 230.166 137.494 2885 df 8 8 1 渐进 Sig. (双侧) .000 .000 .000
a. 0单元格(.0%)的期望计数少于5。最小期望计数为14.15。
χ 2统计量的值为 χ 统计量的值为225.274,相应的 值为 值为0.000。由于 值 ,相应的p值为 。由于p值
合计 12 110 122
男生 女生 合计
10 61 71
列边缘分布
专业 Total 酒店管理 男生 Count %within性别 %within专业 %of Total Count %within性别 %within专业 %of Total Total Count %of Total 2 16.7% 3.9% 1.6% 49 44.5% 96.1% 40.2% 51 41.8% 旅游管理 10 83.3% 14.1% 8.2% 61 55.5% 85.9% 50.0% 71 58.2% 90.2% 122 100.0% 9.8% 110 12
检验步骤
• 提出原假设
• H0:婚姻状况和幸福状况这两个变量相互独立; 婚姻状况和幸福状况这两个变量相互独立; • H1:婚姻状况和幸福状况不相互独立。 婚姻状况和幸福状况不相互独立。
• 两个变量都是分类型,采用交叉列联分析 两个变量都是分类型, • 采用SPSS操作 操作 采用
结果分析
幸福状况 非常幸福 比较幸福 不太幸福 婚姻 状况 已婚 丧偶 离异 分居 未婚 合计 计数 期望的计数 计数 期望的计数 计数 期望的计数 计数 期望的计数 计数 期望的计数 计数 期望的计数 574 420.1 70 84.5 83 138.0 14 35.6 136 198.8 877 877.0 726 794.7 149 159.9 292 261.1 73 67.3 419 376.1 1659 1659.0 82 167.2 59 33.6 79 54.9 30 14.2 99 79.1 349 349.0 合计 1382 1382.0 278 278.0 454 454.0 117 117.0 654 654.0 2885 2885.0
• 2、样本量大小的问题 、
行边缘分布
一分公司 赞成该方案 反对该方案 二分公司 三分公司 四分公司
合计 279 141 420
68 32
75 45
57 33
79 31
100 合计 • 列边缘分布
120
90
110
• 列观察值的合计数的分布 • 四个公司接受调查的人数分别为 四个公司接受调查的人数分别为100人 人 120人,90人,110人 人 人 人
行百分比 列百分比 总百分比
性别 女生
• 条件频数反映了数据的分布,但不适合对比 条件频数反映了数据的分布, • 采取百分比分布更加直观
复式柱状图
70 60 50 40 30 20 10 0 10 2 49 61
酒店管理 图1 频数分布图
旅游管理
列联表分析
• 交叉分组下的频数分析称为列联表分析 • 两大基本任务
远远小于通常使用的显著性水平, 远远小于通常使用的显著性水平,因此检验的结论是拒绝 原假设,不能认为婚姻状况和幸福状况相互独立。 原假设,不能认为婚姻状况和幸福状况相互独立。
三、交叉列联表卡方检验的前提
• 1、列联表各单元中期望频数大小的问题 、
• 列联表中不应有期望频数小于 的单元格 列联表中不应有期望频数小于1的单元格 • 不应有大量的期望频数小于 的单元格(如果 不应有大量的期望频数小于5的单元格 如果20% 的单元格( 的单元格中的期望频数小于5,则不适用), ),这种 的单元格中的期望频数小于 ,则不适用),这种 情况应该采取似然率卡方检验等方法进行修正
赞成该方案 反对该方案
68 32
75 45
57 33
79 31
279 141 420
合计
100
120
90
110
每个分公司的看法是否相同
描述统计-观察值的分布 描述统计 观察值的分布
• 行边缘分布
• 行观察值的合计数的分布 • 赞成改革方案和反对改革方案的分别为279人,141人 赞成改革方案和反对改革方案的分别为 人 人
列联表中的数字为交叉单元格中的频数或频率
百度文库
大城市 价格 品牌 款式
中小城市
乡镇
农村
• 以列联表为基础可以对两个变量之间的关系进行多种 统计检验
列联表举例
条件频数—酒店管理专业的男生 人 条件频数 酒店管理专业的男生2人 酒店管理专业的男生
列变量
行变量
酒店管理专业 2 49 51
旅游管理专业
行边缘分布
第8章 列联表分析 章 (Crosstabs )
●列联表是什么,可以用来做什么 列联表是什么, ●采用卡方检验统计量
8.1 解释列联表
• 对分类数据的描述和分析通常使用列联表 • 根据两个变量分组,汇总得到的结果称为列联表,可 根据两个变量分组,汇总得到的结果称为列联表, 以用来分析两个变量之间的关系
110
例如,第1行和第 列的实际频数为 f11 ,它落在第 行 行和第1列的实际 它落在第1行 例如, 行和第 列的实际频数为 它落在第 的概率估计值为r ; 它落在第 列 的概率估计值为 1/n;它落在 第 1列的概率的估计值为 c1/n 。 根据概率的乘法公式 , 该频数落在第 行和第 根据概率的乘法公式,该频数落在第1行和第 行和第1 列的概率应为 由于观察频数的总数为n ,所以f11 的期望频数 e11 应为 由于观察频数的总数为 所以