2 列联表分析(Crosstabs)
交叉列联分析
由于观察频数的总数为n ,所以f11 的期望频数 e11 应为
期望频数的分布
一分公司
二分公司 三分公司 四分公司
实际频数
68
赞成该 方案
期望频数
66
75
57
79
80
60
73
实际频数
32
反对该
方案
期望频数
34
45
33
31
40
30
37
检验统计量
在零假设成立时,该统计量近似服从自由度为(r1)×(s-1)的c2分布。当该统计量的值很大(或p值 很小)时,就可以拒绝零假设,认为这两个变量 不相互独立。
– 列观察值的合计数的分布 – 四个公司接受调查的人数分别为100人
列边缘分布
描述统计-百分比分布
• 在相同的基数上进行比较,可以计算相应的百
分比,称为百分比分布
– 行百分比:行的每一个观察频数除以相应的行合计 数(fij / ri)
– 列百分比:列的每一个观察频数除以相应的列合计 数( fij / cj )
期望频数的分布
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案
68
75
57
79
279
反对该方案
32
45
33
31
141
合计
100
120
90
110
420
例如,第1行和第1列的实际频数为 f11 ,它落在第1行 的概率估计值为r1/n;它落在第1列的概率的估计值为 c1/n 。根据概率的乘法公式,该频数落在第1行和第1列 的概率应为
复式柱状图
61 70
49 60
50
用iReport制作交叉表(CrossTabs)
用iReport制作交叉表(CrossTabs) 立方开源商业智能一个CrossTabs是一种在设计的时候既不确定行数和也不确定列数的一种表格,在运行环境下它会像下面显示的不同年份的一个销售报表一样。
CrossTabs在jasperresports中从1.1.0版本时开始提供,同时iReport也从1.1.0开始支持CrossTabs。
Jasperreports的CrossTabs工具允许对行和列的数据进行分组、汇总和自定义每一个cell里的内容。
填充CrossTab的数据可以来自主报表里的dataset或来自subDataset。
使用iReport里提供的向导我们可以简单快速的创建功能强大的交叉报表组件。
一个CrossTabs本质上是一个表格,行和列的数量取决于填充这个表格的数据。
行和列也可以在groups里做聚合操作。
对于每一个行或列的group我们都可以得到一个细节信息和一个可选的行列数据的汇总。
16.1 交叉表向导 (Crosstab wizard)为了说明怎么让一个crosstab工作起来,我们将使用向导创建一个crosstab,当我们在工具条里选择crosstab元素并将其添加到报表中时crosstab的向导会自动启动。
还是以DoradoSample里提供的hsql数据里的employee报为例,我们使用包含下面查询语句的空报表开始:Select * from employee我们把crosstab放在报表的底部:summary band图16.1在第一步里我们需要选择一个dataset来填充crosstab,我们这里使用主报表里提供的dataset,点击下一步继续。
图16.2在第二步里我们需要定义至少一个行分组.我们这里选择对所有记录使用DEPT_ID进行分组。
这样就意味着crosstab的每一行将会采用一个明确的部门编号,这样JasperReports将会使用部门编号对数据集里的数据进行重新整理计算。
SPSS统计分析教程列联表分析
2 列联表分析(Crosstabs)列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。
SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。
其中卡方检验是分析列联表资料常用的假设检验方法。
例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。
预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。
数据如下表。
山东烟台历年观测数据分级表()注:摘自《农业病虫统计测报》 131页。
1) 输入分析数据在数据编辑器窗口打开“”数据文件。
数据文件中变量格式如下:2)调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图3)设置分析变量选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”变量选入“Rows:”行变量框中。
选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。
4)输出条形图和频数分布表Display clustered bar charts: 选中显示复式条形图。
Suppress table: 选中则不输出多维频数分布表。
5)统计量输出点击“Statistics”按钮,弹出统计分析对话框(如下图)。
Chi-Square: 卡方检验。
选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验(Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。
描述性统计
探索分析-II
探索分析-III
探索分析-IV
探索分析-V
探索分析-VI
2.4.1列联表分析的功能与意义
SPSS的列联表分析过程(Crosstabs)是通过分
析多个变量在不同取值情况下的数据分布情 况,从而进一步分析多个变量之间相互关系 的一种描述性分析方法。 至少指定两个变量,分别为行变量和列变量, 如果要进行分层分析,则我们还要规定层变 量。 不仅可以得到交叉分组下的频数分布,还可 以通过分析得到变量之间的相关关系。
2.2.2 描述性分析实例
【例2.2】下面的资料给出了山东省某
高校50名大一入学新生的体重。试对该 50名学生的体重进行描述性分析,了解 这50名学生体重的基本特征。 配书资料\源文件\2\正文\原始数据文 件\案例2.2.sav
描述性分析-I
描述性分析-II
描述性分析-III
描述性分析-IV
不同分布的箱线图
2.3.2 探索分析实例
【例2.3】下面的资料给出了天津、济南两
个城市07年各月份的平均气温。试据此对天 津平均气温和济南平均气温进行探索性统计 分析,研究天津平均气温和济南平均气温的 基本特征。 配书资料\源文件\2\正文\原始数据文件\案 例2.3.sav
探索分析-I
2.1.1 频数分析的功能与意义
频数分析过程(Frequencies)是描述性分析中
最基本也是最常用的方法之一。 可以得到详细的频数表以及平均值、最大值 、最小值、方差、标准差、极差、平均数标 准误、偏度系数和峰度系数等重要的描述统 计量,还可以通过分析得到合适的统计图。 不仅可以方便的对数据按组进行归类整理, 还可以对数据的分布特征形成初步的认识。
描述性统计
EX. 未分组数据—箱线图
(box plot)
1. 用于显示未分组的原始数据的分布 2. 由一组数据的5个特征值绘制而成,它由一个箱
子和两条线段组成
3. 绘制方法
首先找出一组数据的5个特征值,即最大值、最小 值 四分、位中数位Q数UM) e和两个四分位数(下四分位数QL和上
探索分析-I
探索分析-II
探索分析-III
探索分析-IV
探索分析-V
探索分析-VI
2.4.1列联表分析的功能与意义
SPSS的列联表分析过程(Crosstabs)是通过分 析多个变量在不同取值情况下的数据分布情 况,从而进一步分析多个变量之间相互关系 的一种描述性分析方法。
至少指定两个变量,分别为行变量和列变量, 如果要进行分层分析,则我们还要规定层变 量。
相关描述统计量主要有平均值、最大值 、最小值、方差、标准差、极差、平均 数标准误、偏度系数和峰度系数等。
2.2.2 描述性分析实例
【例2.2】下面的资料给出了山东省某 高校50名大一入学新生的体重。试对该 50名学生的体重进行描述性分析,了解 这50名学生体重的基本特征。
配书资料\源文件\2\正文\原始数据文 件\案例2.2.sav
意义。
描述性统计分析常用的有:频数分 析、描述性分析、探索分析、列联 表分析。下面我们一一介绍这几种 方法的功能和意义。
2.1.1 频数分析的功能与意义
频数分析过程(Frequencies)是描述性分析中 最基本也是最常用的方法之一。
可以得到详细的频数表以及平均值、最大值 、最小值、方差、标准差、极差、平均数标 准误、偏度系数和峰度系数等重要的描述统 计量,还可以通过分析得到合适的统计图。
交叉列联分析
行边缘分布
一分公司 赞成该方案 反对该方案 二分公司 三分公司 四分公司
合计 279 141 420
68 32
75 45
57 33
79 31
100 合计 • 列边缘分布
120
90
110
• 列观察值的合计数的分布 • 四个公司接受调查的人数分别为 四个公司接受调查的人数分别为100人 人 120人,90人,110人 人 人 人
• 2、样本量大小的问题 、
110
例如,第1行和第 列的实际频数为 f11 ,它落在第 行 行和第1列的实际 它落在第1行 例如, 行和第 列的实际频数为 它落在第 的概率估计值为r ; 它落在第 列 的概率估计值为 1/n;它落在 第 1列的概率的估计值为 c1/n 。 根据概率的乘法公式 , 该频数落在第 行和第 根据概率的乘法公式,该频数落在第1行和第 行和第1 列的概率应为 由于观察频数的总数为n ,所以f11 的期望频数 e11 应为 由于观察频数的总数为 所以
• 检验行变量与列变量是否独立 • 拟合优度检验(多个总体的比例是否相等) 拟合优度检验(多个总体的比例是否相等)
独立性检验(基本原理) 独立性检验(基本原理)
• 原假设:行变量和列变量是相互独立的 原假设: • 前提成立的情况下,每个单元格的频数期望值称 前提成立的情况下, 之为期望频数e 之为期望频数 ij,
列联表中的数字为交叉单元格中的频数或频率
大城市 价格 品牌 款式
中小城市
乡镇
农村
• 以列联表为基础可以对两个变量之间的关系进行多种 统计检验
列联表举例
条件频数—酒店管理专业的男生 人 条件频数 酒店管理专业的男生2人 酒店管理专业的男生
SPSS 教程 第三章 基本分析
描述性统计分析(Descriptive Statistics)统计分析往往是从了解数据的基本特征开始的。
描述数据分布特征的统计量可分为两类:一类表示数量的中心位置,另一类表示数量的变异程度(或称离散程度)。
两者相互补充,共同反映数据的全貌。
这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。
1 频数分析 (Descriptive Statistics - Frequencies)频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。
下面我们通过例子来学习单变量频数分析操作。
1) 输入分析数据在数据编辑器窗口打开“data1-2.sav”数据文件。
2)调用分析过程在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。
图3-4 “Frequencies” 对话框3)设置分析变量从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。
在这里我们选“三化螟蚁螟 [虫口数]”变量进入“Variable(s):”框。
4)输出频数分布表Display frequency tables,选中显示。
5)设置输出的统计量单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量:图3-5 “Statistics”对话框① 选择百分位显示“Percentiles Values”栏:Quartiles:四分位数,显示25%、50%和75%的百分位数。
Cut points for 10 equal groups:将数据平分为输入的10个等份。
Percentile(s)::用户自定义百分位数,输入值0—100之间。
选中此项后,可以利用“Add”、“Change”和“Remove”按钮设置多个百分位数。
配对设计2×2列联表的精确检验方法及应用
布是不合理的,此时须采用二项分布的方法进行精确
检验。
配对设计2×2列联表的精确检验
在表1中,如果行变量和列变量的频数分布相同, 那么理论上b和C的比例应为1:1,即两种不一致情 况出现的概率相等,令P=1/2。由此,我们可以给出 无效假设Ho:P=1/2;备择假设H1:p=/:l/2。
令,.=min(b,C)。在Ho:P=1/2成立的前提 下,我们利用二项分布计算累积概率:
SPSSl3.0还提供了配对设计行×列表的精确检 验,此方法是2 X 2列联表的推广。与SAS9.0相比, 这是SPSSl3.0的优点。
参考文献
1.Benard Rosner.Fundamentals of Biostatistics.5th ed.Brooks/Cole, 2000.
2.孙尚拱.生物统计学基础.北京:科学出版社,2004. 3.舢an Agresti.An introduction to categorical data analysis.New York:
万方数据
Chinese Journal of Health Statisticst Oct 2006,V01.23,No;
tables A*B/agree;
weight freq;
SPSSl3.0及SAS9.0软件应用 SPSSl3.0软件应用 例1中令变量A为“电子血压计”,变量B为“水 银血压计”,变量A与B的取值为1=高血压,2=正 常血压;变量freq表示相应的频数(图1)。在统计分析 前,需要进行数据的预处理:用“weight cases”命令,以 #eq为加权变量进行加权。
York:John Wiley&Sons.1981.
(实际工作中通常为两样本率或构成比的比较),则采 用McNemar卡方检验。大多数的国内医学统计书籍
SPSS生物统计分析示例1-基本统计分析
SPSS统计分析示例例一:对两个品系小麦栽培观察测量数据如下:随机调查20株,品系I感染病菌4株,品系II感染病菌7株。
请对上述数据进行数据描述与统计分析。
1.对两个品系小麦栽培观察测量数据的统计分析数据文件“xiaomai-2.sav”统计描述:(1)Data →Split file by “品系”(2)Analyze → Descriptive statistics → Descriptives分别对品系I、II的统计描述:绘图(bar chart with error-bar):Graphs → Interactive →Bar…对两个品系株高、穗长和穗重进行平均值t 检验:Analyze →Compare Means → Independent-samples T test…按品系不同分组’Grouping’,分别比较株高、穗长、穗重SPSS输出:汇总表:品系I 品系II t 株高cm(M±SD) 121.80±16.98 96.40±5.89 4.468**穗长cm(M±SD) 41.50±4.48 38.40±9.74 0.914穗重g (M±SD) 1.54±0.28 1.45±0.48 0.511**:P<0.01从t检验的结果看:(1)株高数据不满足方差齐性,用近似t检验,t=4.468 (df=11.136), 双侧检验P=0.001<<0.01,两品系的株高具有极显著差异,品系I株高显著大于品系II(2)穗长数据不满足方差齐性,用近似t检验,t=0.914 (df=12.640), 双侧检验P=0.378>0.05,两品系的穗长无显著差异(3)穗重数据满足方差齐性,用t检验,t=0.511 (df=18), 双侧检验P=0.615>0.05,两品系的穗重无显著差异对株高、穗重、穗长两两间做相关、回归分析:Analyze →Correlate →Bivariate…(1)穗长、穗重(n=20)穗长、穗重相关关系极显著(相关系数r=0.972,P<<0.01)建立直线回归方程并作图:Graphs → Interactive →Scatterplot…结果输出:穗重(g)(2)穗长、株高(n=20)穗长、株高之间无显著相关(相关系数=0.238,P=0.312>0.05)(3)穗重、株高(n=20)穗重、株高之间无显著相关(相关系数=0.219,P=0.354>0.05)随机调查20株,品系I感染病菌4株,品系II感染病菌7株。
交叉列联分析
66
75
57
79
80
60
73
实际频数
32
反对该
方案
期望频数
34
45
33
31
40
30
37
ppt课件完整
20
检验统计量
r
2
c ( fij eij )2
i1 j1
eij
其自由度为(r 1)(c 1) 式中:fij — 列联表中第i行第j列类别的实际频数
eij — 列联表中第i行第j列类别的期望频数
结果分析
值
df
渐进 Sig. (双侧)
Pearson 卡方
225.274a
8
.000
似然比
230.166
8
.000
线性和线性组合
137.494
1
.000
有效案例中的 N
2885
a. 0单元格(.0%)的期望计数少于5。最小期望计数为14.15。
2统计量的值为225.274,相应的p值为0.000。由于p值远 远小于通常使用的显著性水平,因此检验的结论是拒绝原
33.6
83
292
79
138.0
261.1
54.9
14
73
30
35.6
67.3
14.2
136
419
99
198.8
376.1
79.1
877
1659
349
ppt课8件7完7整.0
1659.0
349.0
合计 1382
1382.0 278
278.0 454
454.0 117
117.0 654
列联表分析spss步骤
【Exact钮】
• 针对2*2以上的行*列表设定计算确切概 率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo) 或确切计算(Exact)。蒙特卡罗模拟 默认进行10000次模拟,给出99%可信 区间;确切计算默认计算时间限制在5 分钟内。这些默认值均可更改。
【Statistics钮】
• 弹出Statistics对话框,用于定义所 需计算的统计量。
• o Chi-square复选框:计算X2 值。
• o Correlations复选框:计算行、 列两变量的Pearson相关系数和 Spearman等级相关系数。
• o Norminal复选框组:选择是 否输出反映分类资料相关性的指标, 很少使用。
Crosstabs过程不能产生一维频数表(单变 量频数表),该功能由Frequencies过程实现。
界面说明
【Rows框】 • 用于选择行*列表中的行变量。 • 【Columns框】 • 用于选择行*列表中的列变量。 • 【Layer框】 • Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中
注意事项
• 如何选用上面众多的统计结果令许多初学 者头痛,实际上我们只需要在
• 未校正卡方、 • 校正卡方和 • 确切概率法 三种方法之间选择即可,其余的对我们而言
用处不大,可以视而不见。
假设三个变量分别名为R、C和W,则数据集结构和命令如下:
R
C
W
1.00
1.00
54.00
1.00
2.00
44.00
2.00
1.00
8.00
2.00
2.00
20.00
1.
Data==>Weight Cases
Crosstabs 列联分析
1、crosstabs列联分析——相关分析在问卷调查、产品检验、医学统计等领域,长需对问题按两个或多个不同的特征进行分类,然后对样本进行交叉汇总后就得到了各种各样的列联表。
一般对列联表的统计分析只着重于分类特征之间是否相互依赖,或者说相互独立,此时可借助卡方检验,也可计算相关系数做相关分析,还可根据不同数据类型给出相应的关联系数。
卡方检验是统计判断是否相互依赖,计算相关系数和关联系数是判断和衡量相关或依赖关系的倾向和程度。
不同数据类型间的相关系数或关联系数合理选择列于下表:关于卡方检验、相关系数或关联系数的细节介绍可参考:列联表分析及在SPSS中的实现pdf文件和相关分析案例PPT文件。
SPSS中Crosstabs工具执行列联分析,其选项中Statistics如下图所示:上图指出:名义变量间、顺序变量间、名义变量和区间变量间可选的关联系数,可参考上面表理解。
对上图,Spss的帮助文件解释如下:Chi-square. 对2x2的列联表, 选Chi-square 来计算 Pearson 卡方值, 似然比卡方值, Fisher's 精确检验, and Yates' 修正后卡方值 (连续修正). 对 2 x 2 列联表, 当表中有一个单元格的期望频率少于5时,进行Fisher's 修正检验,其他情况计算 Yates' 修正卡方值。
对那些有任意数目的行和列的表,选择 Chi-square 计算 Pearson 卡方值和似然比卡方值。
当表的变量是数量型的, Chi-square 执行线线关联检验。
.Correlations. 当表的行列中的值都是可排序的, Correlations 计算 Spearman's 修正系数, rho (仅对数字数据). Spearman's rho 是变量秩序间的关联测度. 当变量都是数量型的, Correlations 计算Pearson 相关系数, r, 测度变量间线性相关系数。
SPSS列联表分析
设置好后,点击“确定”按 钮,SPSS将自动进行列联表
分析。
打开SPSS软件,点击“文件” 菜单,选择“新建”,然后
选择“数据视图”。
在变量视图界面,点击 “新建变量”按钮,设置 变量名称、类型、标签等
信息。
在数据视图界面,输入数据, 每行代表一个观测值,每列
代表一个变量。
在列联表对话框中,设置行 变量和列变量,以及单元格
卡方检验的公式为:卡方值 = Σ[(观测值 - 期望值)^2 / 期望值]
卡方检验的显著性水平通常设定为0.05,当卡方值大于显著性水平时,可以拒绝原假设,认为 两个变量之间存在显著性关联。
独立性:两个变量之间相互独立, 不存在因果关系
方差齐性:两个变量的方差应该 相等
添加标题
添加标题
添加标题
添加标题
列联表制作:使用 SPSS软件制作列联 表
添加标题
列联表分析:对列 联表进行卡方检验、 相关性分析等
添加标题
结果解释:根据分 析结果,解释行变 量和列变量之间的 关系
添加标题
结论与建议:根据 分析结果,提出结 论和建议
卡方检验是一种用于检验两个分类变量之间是否存在关联的统计方法。
卡方检验的基本思想是通过比较观测值和期望值的差异,来判断两个变量之间是否存在显著性 关联。
列联表分析的结果需要结合实际 情况进行解释,不能简单地根据 统计数据得出结论。
结果解释需要结合其他相关因素, 如样本量、数据来源、研究目的 等,进行全面分析。
添加标题
添加标题
添加标题
添加标题
在解释结果时,需要注意到数据 的代表性和可靠性,避免过度解 读或误读数据。
在解释结果时,需要注意到数据 的局限性,如数据收集过程中的 偏差、数据质量等问题,避免盲 目相信统计结果。
交叉汇总与关联分析Crosstabs的应用
第六讲交叉汇总与关联分析(Crosstabs的应用)主要用于研究两个变量之间是相互独立还是存在某种关系,有没有关系,关系程度怎么样。
最适合于分析两个定类变量之间的关系,但是通过对变量的处理,也可以适合于分析测量层次更高级别的变量。
一、变量及其测量层次变量:被操作化了的概念,是可以直接观察的,在经验研究中,在不同的状态下有不同的属性,科学研究一定要使用变量的语言,一定要有操作化。
变量从它测量的层次上看,可以区分为四种类型:定类变量(Nominal ):区分现象、事物的不同性质,而不能从规模大小等方面进行区分,=≠性别(男,女)收入(有收入,无收入)、民族等定序变量(Ordial):当变量不仅区分了对象的属性、特征,还区分出大小、强弱、高低次序时,就是定序变量。
=≠< >如社会地位、文化水平、社会态度、收入等定距变量(Interval):除了类别、次序属性以外,取值之间的距离还可以用标准化的距离去测量,可以进行加减的运算。
年龄定比变量(Ratio):除了以上三类变量提到的属性,定比变量取值可以构成一个有意义的比率。
如智商。
各个变量之间的关系及其测量:定类——定类——列联表、交互分析定序——定序——等级分析定距——定距——回归与相关(简单与多元)定类——定距——方差分析定类——定序——非参数检验二、交叉汇总表的一般形式及其特点的上面,因变量放在表的旁边条件分布:将其中一个变量控制起来,再看另外一个变量的分布,可以得到条件分布,如可以对自变量的同一取值作条件分布,进行分析。
三、如何获得交叉汇总表Analyze-----Descriptives----Crosstabs----出现对话框:●ROWS这个框中的变量作为交互表中的行变量(一般放因变量Y,y1, y2,y3--)●Column框,这个框中的变量作为交互表中的列变量(一般放自变量X,x1,x2,x3…)●Layer框:框中的变量作为控制变量,决定交互表的层,可以多个控制变量。
第七章列联表分析
第七章列联表分析7.1 列联表(Crossta bs)分析的过程7.2 列联表的实例分析7.1 列联表 (Crossta bs) 分析的过程列联表分析的过程是对两个变量之间关系的分析方法。
被分析的变量可以是定类变量也可以是定序变量。
系统是通过生成列联表对两个变量进行列联表分析的。
列联表分析的功能可以通过下述操作来实现。
图7-1 列联表分析对话框1.打开列联表分析对话框执行下述操作:Analyze→Descrip tive→Crossta bs 打开Cross tabs 对话框如图7-1 所示。
2.确定列联分析的变量从左侧的源变量窗口中选择两个定类变量或定序变量分别进入Row(s)(行)窗口和Colu mn(s)(列)窗口。
进入Row(s)窗口的变量的取值将作为行的标志输出,而进入Colu mn(s)窗口的变量的取值将作为列的标志输出。
Display cluster ed bar charts是在输出结果中显示聚类条图。
Suppres s table 是隐藏表格,如果选择此项,将不输出R×C 列联表。
3.选择统计分析内容单击stati stics按钮,打开stati stics对话框,如图7-2 所示。
图7-2statis tics 对话框下面介绍该对话框中的选项和选项栏的内容:(1)Chi-square是卡方(X2)值选项,用以检验行变量和列变量之间是否独立。
适用于定类变量和定序变量。
(2)Correla tions是皮尔逊(Pearson)相关系数r 的选项。
用以测量变量之间的线性相关。
适用于定序或数值变量(定距以上变量)。
(3)Nominal是定类变量选项栏。
选项栏中的各项是当分析的两个变量都为定类变量时可以选择的参数。
1)Conting ency coeffic ient:列联相关的C系数,由卡方系数修正而得。
第八章 二维列联表:双变量关系考察
萨默斯 d 系数也用于测量两个有序分类变量(等级变量)的关联度;
萨默斯 d 系数的取值范围是 ;+1 表示完全正关联,-1 表示 完全负关联,0 表示无关联; 1 ~ 1
定类变量
误差减少比例 PRE λ系数
定序变量
γ 系数 萨默斯 d 系数
取值范围
0 ~1
————
0 ~1
———— 不说明一定 完全无关联 关系性很强
75 98 37 200
分类变量的关系测量
一.
定类变量 1.误差减少比例 2. λ系数 定序变量 1. γ 系数 2. 萨默斯 d 系数
二.
误差减少比例
在预测变量 Y 的值时,知道变量 X 的值时所减少的误差 E1 E2 与总 误差 E1 的比值称为误差减少比例(proportional reduction of error), E E2 简称 PRE。公式为 PRE 1 E1 PRE 的取值范围为 0 ~ 1 ; PRE 值越大,变量 X 与变量 Y 之间的相关性越大; PRE 值越小,变量 X 与变量 Y 之间的相关性越小。
合计 125 — —
总百分比 反对政策人数(人)
行百分比 列百分比 总百分比 合计(人) 总百分比
34.0% 34
45.3% 33.3% 17.0% 102 51.0%
28.5% 41
54.7% 41.8% 20.5% 98 49.0%
62.5% 75
— — 37.5% 200 100.0%
期望值的分布
其中,N s 表示同序对数目; N d 表示异序对数目; T x 表示只在 x 变量上同分的对数; T y 表示只在 y 变量上同分的对数。
萨默斯 d 系数对等级相关系数的分母作了两个方向的修正,并分别 给出了 D yx 和 Dxy 系数; 萨默斯 d 系数具有误差减少比例 PRE 的意义;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
华 从交叉表(Crosstab)对角线中看出,只有“五月气温与玉米螟卵高峰发生期”对角线上
出现的频数大于期望值(5>2.7,3>2.0,3>1.3)。
中 从卡方检验表得知,也只有“五月气温与玉米螟卵高峰发生期”能通过线性间的联合检验
(Linear-by-Linear Association),双尾检验 p<0.012。
中华统计学习网
圣才学习网
中华统计学习网
圣才学习网
在结果窗口中查看计算结果,主要输出内容如下。 五月气温 * 玉米螟卵高峰发生期 Crosstab
玉米螟卵高峰发生期
Total
习 学 计 统 华 中
Chi-Square:卡方检验。选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验 (Likelihood-ratio)、连续性校正卡方检验
(Continuity Correction)及 Fisher 精确概率检验(Fisher’s Exact test)的结果。 Correlations:选中输出皮尔森(Pearson)和 Spearman 相关系数,用以说明行变量和
1)输入分析数据
67
1 3 1 2 1
om 69 70 71 72 73 74 75 76 77 tj.c 3 2 1 2 2 3 2 2 1 0 1 2 3 1 1 1 2 2 1 0 1 1 2 3 1 1 1 1 2 10 2 1 2 1 2 3 2 3 1 www. 1 3 1 1 2 1 1 1 1
6 月 20 日 6 月 21-25 6 月 25 日
前
日
以后
Hale Waihona Puke 16.5 以下 Count(频数) 1
Expected
五月
Count(期望值)
气温 16.6-17.8 Count(频数) 2
Expected
Count(期望值)
17.8 以上 Count(频数) 5
Expected
Count(期望值)
Total
中华统计学习网
圣才学习网
3)设置分析变量 0t 选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”变 0 量选入“Rows:”行变量框中。 0 选择列变量:将“玉米螟卵高峰发生期[y]”变量选入 “Columns:”列变量框中。 1 4)输出条形图和频数分布表 w. Display clustered bar charts:选中显示复式条形图。 w Suppress table:选中则不输出多维频数分布表。。 w 5)统计量输出 网 点击“Statistics”按钮,弹出统计分析对话框(如下图)。
列变量的相关程度。
中华统计学习网
圣才学习网
中华统计学习网
圣才学习网
Nominal:两分类变量的关联度(Association)测量 Contingency Coefficient:列联系数,其值越大关联性越强。 Phi and Cramer’s V:Cramer 列联系数,其值越大关联性越强。 Lambda:减少预测误差率,1 表示预测效果最好,0 表示预测效果最差。 Uncertainty Coefficient:不定系数
均气温 x2(℃)分为 3 级(1 级为 20℃以下,2 级为 20.1-21.5℃,3 级为 21.5℃以上),6
月上旬降雨量 x3(mm)分为 3 级(1 级为 15mm 以下,2 级为 15.1-30mm,3 级为 30mm 以
上),6 月中旬降雨量 x4(mm)分为 3 级(1 级为 29mm 以下,2 级为 29.1-36mm,3 级为
中华统计学习网
圣才学习网
列联表分析(Crosstabs)
列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。SPSS 的
Crosstabs 过程,为二维或高维列联表分析提供了 22 种检验和相关性度量方法。其中卡方检
验是分析列联表资料常用的假设检验方法。
m Kappa:吻合度系数,其取值-1 至+1,其值越大吻合程度越高。 o Risk:危险度分析。 c McNemar:配对计数资料的卡方检验。 . Cochran’s and Mantel-Haenszel statistics:检验在协变量存在下,两个二分类变量是否 j 独立。 0t 6)设置列联表的显示 www.100 单击“Cells”按钮,弹出列联表显示内容对话框(如下图)。
Ordinal:两有序分类变量(等级变量)的关联度测量 Gamma:关联度,+1 表示完全正关联,-1 表示负关联,0 表示无联。 Somers’d:列联度,其取值范围和意义同上。 Kendall’s tau-b:
Nominal by Interval:一个定性变量和一个定量变量的关联度 Eta:关联度统计量。
例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。预报发生期 y 为 3 级(1 级
为 6 月 20 日前,2 级为 6 月 21-25 日,3 级为 6 月 25 日后);预报因子 5 月份平均气温 x1
(℃)分为 3 级(1 级为 16.5℃以下,2 级为 16.6-17.8℃,3 级为 17.8℃以上),6 月上旬平
36mm 以上)。数据如下表。 山东烟台历年观测数据分级表() 59 60 61 62 63 64 65 66
年份 y 13113112 x1 3 2 2 3 1 3 2 3 x2 1 2 3 1 1 2 2 1 x3 3 1 1 3 1 2 1 3 x4 3 1 1 1 1 1 1 1 注:摘自《农业病虫统计测报》131 页。
Count(频数) 8
Expected
Count
Chi-Square Tests
Value
df
Pearson Chi-Square 皮尔森卡方检验
7.750(a)
4
2
3
6
2.7
2.0
1.3
6.0
3
1
6
m 2.7
2.0
1.3
6.0
co 1
0
6
. 2.7
2.0
1.3
6.0
0tj 6
4
18
0 8.0
6.0
中华统计学习网
圣才学习网
中华统计学习网
圣才学习网
Adj.Standardized:调整的标准化残差分析。 Noninteger Weights: ⊙ Round cell counts:临近列计算。 ○ Truncate cell counts:。 ○ Round case Weights 临近记录度量 ○ Truncate case Weights ○ No adjustments:不调整。 7)设置输出格式 单击 Format 按钮,弹出列联表输出格式对话框(如下图)。
4.0
18.0
w.10 Asymp.Sig.(2-sided) ww.101
Likelihood Ratio 似然比卡方检验 8.510
网 4
.075
Linear-by-Linear Association N of Valid Cases
习 6.248
1
学 18
.012
a 9 cells (100.0%)have expected count less than 5.The minimum expected count is 1.33.
Row Order:频数 0 ⊙ Ascending:行变量从小到大升序排列。 0 ○ Descending:行变量从大到小降序排列。 1 8)设置检验 www. 单击“Exact”按钮,弹出精确检验对话框(如下图)。
网 习 学 计 统 华 中
⊙Asymptotic only 近似的,系统设置。 ○Monte Carlo Confidence level:99% 置信度,系统默认 99%。 Number of samples:10000 样本数量,系统默认 10000。 ○Exact Time limit per test:5 minutes 限时检验时间,系统默认值 5 分钟。 9)提交执行 设置完成后,在列联表分析对话框中,点击 OK 按钮,计算结果输出在结果窗口中。 10)结果与分析
网 习 学 计 统 华 中 Counts:频数
Observed:观测频数。 Expected:期望频数。 Percentages:百分比 Row:占本行的百分比。 Column:占本列的百分比。 Total:占全部的百分比。 Residuals:残差分析 Unstandardized:非标准化残差分析。 Standardized:标准化残差分析。
在数据编辑器窗口打开“data1-3.sav”数据文件。
数据文件中变量格式如下:
网
习
学
计
统
华
中
2)调用分析过程 在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图
中华统计学习网
圣才学习网
因此,玉米螟卵高峰发生期与五月气温有密切的关系,五月气温越高,发生越早。
中华统计学习网
圣才学习网