SPSS统计分析教程列联表分析
用SPSS对计数数据进行统计分析和检验
第七节计数数据统计分析的SPSS操作对于计数数据的统计分析,SPSS提供了不同的分析和检验方法,从总体上来说,大致可以分为:用于比率差异的非参数二项检验,用于离散型变量配合度检验的卡方检验、用于连续型变量配合度检验的单样本K-S检验和正态图检验法和用于独立性检验的列联表分析等,这一节我们简单介绍如何通过SPSS操作解决这些常见的计数数据分析的统计问题。
一、二项分布的非参数检验方法我们常常需要检验一个事件在特定条件下发生的概率是否与已知结论相同,如某地区出生婴儿的性别比例是否与通常男女各半的结论相符,或在一次抽样中,男女两性所占的比例是否与原先设计好的比例相符。
此时即可用二项分布(Binomial)方法进行检验。
下面结合具体数据说明Binomial方法在检验比率差异时的应用。
1.数据所用数据文件为SPSS目录下之GSS93 subset.sav。
这里我们将该数据文件另寸为“8-6-1.sav”。
该文件中有一变量SEX,是回答者的性别,我们想检验这些回答者的性别是否各占一半。
2.理论分析从上面数据来看,我们的目的是检验数据中男生和女生所占的比例是否相等,这等价于检验男生所占的比例是否等于0.5,可以用比例检验的方法进行检验。
在SPSS中对应于二项分布的检验(Binomial Test)过程。
3.二项分布检验过程(1)打开该数据文件后点击菜单Analyze,在下拉菜单中选择Nonparametrics Tests子菜单中的Binomial…,单击可进入二项检验(Binomial Test)的主菜单。
把SEX变量选入到检验变量表列中,其他选项请保持默认(图8-1)。
图8-1:二项分布检验主对话框(2)请单击Options…按钮,打开对话框如图8-2所示。
在此我们想同时在结果中输出一些描述统计量及百分位数,可设置如图所示。
设置完成单击Continue按钮回到主对话框。
图8-2:二项分布Options窗口(3)在主对话框中点击OK得到程序运行结果。
第四章 SPSS的基本统计分析知识讲解
多选项分析
多选项分析的基本思路
– 定义多选项变量集 – 多选项频数分析 – 多选项交叉分组下的频数分析
多选项分析
定义多选项变量集
目的:将已分解的变量定义为一个集合,便于进行多选 项分析
– 菜单选项:analyze->multiple response->define sets – 从原变量中选取被分解的变量(数值型)到variables in
进一步计算
– cells选项:选择在频数分析表中输出各种百分比.
row:行百分比(Row pct); column:列百分比(Col pct); total:总百分比(Tot pct);
分析列联表中变量间的关系
目的:
通过列联表分析,检验行列变量之间是否独立。
方法:
– 卡方检验:对品质数据的相关性进行度量
频数分析
基本操作步骤
(1)菜单选项:analyze->descriptive statistics->frequencies (2)选择几个待分析的变量到variables框. (3)chart选项,选择所需要的图形
计算描述统计量
目的
– 精确把握变量的总体分布状况,了解数据的集中趋 势、离散趋势、对称程度、陡峭程度。
– 菜单选项:analyze->multiple response->crosstabs
频数分析
目的
粗略把握变量值的分布状况。
例:研究被调查者的特征(如:性别、年龄、收入) 研究被调查者对某个问题的总体看法(如:教学方式、选修课程) 研究被调查者某方面的状态(如:购买家电的类型、居民月支出状况)
采用的方法
– 计算频分布表:包括计算 频数、累计频数、百分比、累 计百分比
列联表分析及在SPSS中的实现
A A l 2
特 B nl " l i 1 12 1
征 B nl 2 2 2 n2
B
●
A
n h
●
A 6 合计
nG 1 l n.
nG 2 2 n
● : ● :
:
●
:
:
●
:
耳
l n r 2
T l T
合计 n1 . 2 n
ni
nG
记概率 P =P A OB)且 P =m  ̄P =m  ̄ j ( i  ̄, P , . P 。再记 j j j
・
收稿 日期 :0 0一】 一1 2o 】 0 修改稿 日期 :0 1 3 7 20 —0 —2
数有 下列种 类 名 称及类 型 定 义公 式 适 用范 围及 说 明
Pasn er 积矩 o
∞vX. ( Y)
适用于分区间的连续数据或计数数
相系 关 数r
S er n秩 pama
一
寂
0vR C a( , )
据 间 且 体 正 或 似 态 之 ,总 呈 态 近 正 ,
r 3。 l 0 ≥
等级或有序数据之 间, 应用范 围较
相关系数 r s
、| 伍_
西
广 ,<3 , n 0总体不呈正态均可。
列联 相关 系数
C[ C =
v =
适 于 义 据 间其 定 义 基 于 用 名数 之
,
[ ]
卡检统量 方验计 Q
,
其中 q =mi{1} n rc
其 :  ̄ ,) y一 ・ ( ) ; 中c ( y o x 舌 j( 墨) ・ / 而 D x ・ ( ・ ;( ) ・ 一手 ・J/ ( ) 辫一 墨) D y ( y )
spss4-2(基本统计分析)
频数分析表
Central tendency: 用于定义描述 集中趋势的一组指标: 均数(Mean)、中位数(Median)、 众数(Mode)、总和(Sum)。
频数分析表
Dispersion:定义描述 离散趋势的一组指标: Std.deviation:标准差 Variance:方差 Range :全距 Minimum:最小值 Maximum:最大值 S.E.mean:标准误
众数
(不唯一性)
无众数 原始数据: 8 10 5 9 12 6
一个众数 原始数据:
6
5
9
8
5
5
多于一个众数 原始数据: 25 28 28 36 42 42
中位数
(median)
1. 排序后处于中间位置上的值
50%
2. 不受极端值的影响
Me
50%
3. 主要用于顺序数据,也可用数值型数据,但不能 用于分类数据 4. 各变量值与中位数的离差绝对值之和最小,即
8
9
1
2
3
4
5
6
7
n 1 9 1 位置 5 2 2 中位数 1080
数值型数据的中位数
(10个数据的算例)
【例】:10个家庭的人均月收入数据
排 序: 660 750 780 850 1630 2000 位 置: 960 1080 1250 1500
9
10
n 1 10 1 位置 5.5 2 2
2 众数(Mode):出现频率最高的数 3 中位数(Median):将数据排序后位于正中间 的数值。适合于所有分布类型的数据 4 总和(Sum)
众数
(mode) 1. 出现次数最多的变量值
SPSS 教程 第三章 基本分析
描述性统计分析(Descriptive Statistics)统计分析往往是从了解数据的基本特征开始的。
描述数据分布特征的统计量可分为两类:一类表示数量的中心位置,另一类表示数量的变异程度(或称离散程度)。
两者相互补充,共同反映数据的全貌。
这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。
1 频数分析 (Descriptive Statistics - Frequencies)频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。
下面我们通过例子来学习单变量频数分析操作。
1) 输入分析数据在数据编辑器窗口打开“data1-2.sav”数据文件。
2)调用分析过程在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。
图3-4 “Frequencies” 对话框3)设置分析变量从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。
在这里我们选“三化螟蚁螟 [虫口数]”变量进入“Variable(s):”框。
4)输出频数分布表Display frequency tables,选中显示。
5)设置输出的统计量单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量:图3-5 “Statistics”对话框① 选择百分位显示“Percentiles Values”栏:Quartiles:四分位数,显示25%、50%和75%的百分位数。
Cut points for 10 equal groups:将数据平分为输入的10个等份。
Percentile(s)::用户自定义百分位数,输入值0—100之间。
选中此项后,可以利用“Add”、“Change”和“Remove”按钮设置多个百分位数。
列联表资料的SPSS分析
1
一、一般四格表(2 × 2 列联表)资料
实验研究一般四格表(2×2 列联表)资料分析目的主 要有 2 个,一是分析两个比率总体的差别有无统计学意义 或两样本某指标的分布(或构成)总体是否相同,二是分 析两个分类特征是否有关联。
别;Kappa 检验(SPSS 不给可信区间),Kappa = 0.824, P < 0. 01,说明两种检查具有较好的一致性。
可以看出, 两种检验结果是矛盾的。为什么呢? McNemar 法一般用于样本含量 n 不太大的资料,因只考 虑结果不一致的情况,而未考虑样本含量 n 和结果一致的 情况,所以,当 n 很大且结果一致率高时,不一致的数值 相对较小,容易出现有统计学意义的检验结果,但实际意 义可能不大。本例即是如此,应以一致性检验结果为准。 实际上,对于两种检验(查)方法或诊断方法结果进行分 析时,主要分析的也就是一致性。根据Kappa 值判断一致 性强度的标准尚有争议,一般认为:Kappa 值< 0.4 时, 一致性较差;在 0.4~0.75 之间有中度至高度一致性;> 0.75 时,有极好的一致性。
列联表资料的SPSS分析
在实验研究与基础实验研究中,所分析的指 标可以是定量的,也可以是定性的。其定量指标, 有时也转化成定性资料进行分析。这些定性资料 或由定量资料转化而来的定性资料,一般都整理 成列联表形式,根据资料性质和分析目的选择恰 当的分析方法进行统计分析,并将统计分析结果 与专业知识相结合, 做出合理的解释。
51
合计
260 182 144
532
有效率(%)
96.60 90.11 81.94
SPSS超详细操作:卡方检验(R×C列联表)
SPSS超详细操作:卡⽅检验(R×C列联表)医咖会之前推送过⼀些卡⽅检验相关的⽂章,包括:卡⽅检验(2x2)、卡⽅检验(2xC)、配对卡⽅检验、分层卡⽅检验等。
今天我们再和⼤家分享⼀下,如何⽤SPSS来做RxC列联表的卡⽅检验。
⼀、问题与数据研究者拟分析购房⼈与购房类型的关系,共招募了在过去12个⽉中有过购房记录的333位受试者,收集了购房⼈类型(buyer_type)和房屋类型(property_type)的变量信息。
其中研究对象类型按照单⾝男性(single male)、单⾝⼥性(single female)、已婚两⼈(married couple)和多⼈家庭(family)分类;房屋类型按照楼房(flat)、平房(bungalow)、独栋别墅(detached house)和联排别墅(terrace)分类,部分数据如下图。
其中,Individual scores for each paticipant(左图)列出了每⼀个研究对象的情况,⽽Total count data (frequencies)(右图)则是对相同情况研究对象的数据进⾏了汇总。
⼆、对问题的分析研究者想分析多种购房⼈类型与多种房屋类型的关系,建议使⽤卡⽅检验(R×C),但需要先满⾜3项假设:假设1:存在两个⽆序多分类变量,如本研究中购房⼈类型和房屋类型均为⽆序分类变量。
假设2:具有相互独⽴的观测值,如本研究中各位研究对象的信息都是独⽴的,不会相互⼲扰。
假设3:样本量⾜够⼤,最⼩的样本量要求为分析中的任⼀期望频数⼤于5。
本研究数据符合假设1和假设2,那么应该如何检验假设3,并进⾏卡⽅检验(R×C)呢?三、SPSS操作1. 数据加权如果数据是汇总格式(如上图中的Total count data),则在进⾏卡⽅检验之前,需要先对数据加权。
如果数据是个案格式(如上图中的Individual scores for each paticipant),则可以跳过“数据加权”步骤,直接进⾏卡⽅检验的SPSS操作。
SPSS基本统计分析(三):列联表分析
SPSS基本统计分析(三):列联表分析1、引入在医学统计中,计数资料是非常常见的,比如(患病、未患病),(男、女),(有效、无效)等等,这类资料通常会被整理成列联表的形式,我们平常接触到的列联表多数都是二维的(R×C列联表)。
根据变量是否有序,又分为单向有序、双向有序属性相同、双向有序属性不同列联表,不同的列联表所用统计方法是不一样的。
在后续定性资料统计推断中我们会一一介绍其操作步骤,这节先通过一个例子看一下简单的2×2列联表的卡方检验(反映理论频数和实际频数的差异大小)过程。
2、问题与数据为了探讨吸烟与慢性支气管炎有无关系,调查了339人,结果如下:3、操作步骤3.1 数据录入注意数据的录入方式,给不同变量的不同分类定义新的标签值,这里,变量x代表是否吸烟:0代表吸烟,1代表不吸烟;变量y代表是否患病:0代表患病,1代表不患病。
3.2 数据加权因为数据是汇总格式,所以需要先对数据进行加权。
弹出个案加权对话框后,选择个案加权系数,激活频率变量,将人数放入频率变量栏中,点击确定。
3.3 卡方检验和Fisher精确检验将是否吸烟选入行,是否患慢性支气管炎选入列(结局变量放入列)点击精确,弹出的对话框中选择卡方点击格式,计数框中选择实测和期望,百分比框中选择列。
4、结果解读4.1个案处理摘要表中可以看出有效个案数、缺失个案数和总计个案数。
4.2交叉表由于使用卡方检验要求每个单元格频数不少于5,当条件不满足时,应当用Fisher精确检验。
由表格可以看出期望计数的最小值为22.14,大于5,所以可以直接采用卡方检验。
4.3卡方检验由结果得χ2=7.469,P=0.006<0.05,所以应该拒绝原假设,认为患慢性支气管炎与吸烟之间不是相互独立的。
研究问题时,当任何一个期望计数小于5时,便不再使用卡方检验,而是采用Fisher精确检验,由表格可以看出,本题的费希尔精确检验的双侧P值为0.007。
用SPSS作列联分析
列联表的一般结构
列联表中的自由度
I×j列联表
f ij
C1 f11 f 21
C2 f12 f 22
Cj
f1 j f2 j
合计
RT 1 RT 2
R1 R2
Ri
f i1
fi 2
f ij
RTi
合计
CT 1
CT 2
CTj
n
3×3列联表自由度为4
C1 R1 R2
R3
C2 f12 f 22
大学生的运动偏好是否存在差异的问题。如果男女大学生的运动偏好没有差 异,体育部与学生会将针对全体学生发起整体性的宣传活动;如果有差异, 将分别针对男生和女生采取不同的宣传策略。为此,体育部与学生会随机发 放了200份问卷,让每一个学生在乒乓球、羽毛球、网球这三个运动项目上选 择出自己最喜欢的一项。调查数据整理后,得出如表下所示的表格:
f 2
接受域
拒绝域
0.05
0
5.9915 22.4
2
2 22.4 5.9915,拒绝原假设。结论:男女大学生的
运动偏好是有差异的,做出这一推断的把握程度是95%。
某啤酒厂生产三种类型啤酒:淡啤酒、普通啤酒、黑啤酒。会议上有人提出男性
与女性饮酒者啤酒偏好是否相同的问题。若不同,公司将针对不同的目标市场采
1954
a bc d a c b d
ad bc
525 763 831 1123 985 969
0.43
Φ相关系数比较适用于2×2列联表。列联表的行数 和列数大于2时, Φ相关系数会出现大于是1情况。
应用SPSS软件进行列联表分析资料
应用SPSS 软件进行列联表分析应用SPSS软件进行列联表分析在许多调查研究中,所得到的数据大多为定性数据,即名义或定序尺度测量的数据。
例如在一项全球教育水平的研究中,调查了400余人的个人信息,包括性别、学历、种族等,对原始资料进行整理就可以得到频数分布表。
定义四个变量:gender(性别)、educat (学历)、minority (种族)、count (人数),其中前三个为分类变量,并且gender变量取值为0、1,标签值定义为:0表示female,1表示male;educat变量取值为1、2、3,标签值定义为:1表示学历低,2表示学历中等,3表示学历高;minority变量值为0、1,标签值定义为:0表示非少数种族,1表示为少数种族。
下面做gen der.educa t minority的三维列联表分析及其独立性检验。
数据文件如图1所示。
ye Edit 辿ew Derta Transforfti Analyse Graphs Utlltie^ Add-cns Window Help®■昌国穷》8h再鄭H<5曲圜flj靄20图1第一步:用’Count”变量作为权重进行加权分析处理。
从菜单上依次选Data--weight Cases命令,打开对话框,如图2所示。
点选Weight Cases by项,并将变量“count”移入Frequency Variable栏下,之后单击OK按钮。
第二步:从菜单上依次点选An alyze--Deseriptive Statistics-Crosstabs命令,打开列联分析对话框(Crosstabs)如图3所示Fdi 迥 E住rH 丁 T W TPI►i : K 「Tl19CnprCdlK1 13131X5 0GCl 71H 1 9 1 tc 0 11皿F 耳第三步:在Crosstabs 对话框中,如图4将变量性别gender 从左侧的列表框内移 入行变量Row(s)框内,并将受教育年限编码后得到的学历变量educat 移入列变量Column(s)框内(若此时单击OK 按钮,则会输出一个2*3的二维列联表)。
spss列联表分析
列联表分析分析:从表中可以看出,每箱数量的低、中、高与品牌偏好的低、中、高基本一致,说明每箱数量对是有影响的。
分析:从表中可以看出,价格低时,品牌偏好度不高,而在价格高时,品牌偏好高的一组值达到了87.8%,说明价格对品牌偏好有明显的影响。
分析:从表中可以看出,价值低时,品牌偏好不明显,价格适中时,品牌偏好有高值的趋势,价值高时,品牌偏好度达到了88.0%,说明消费者在考虑产品的价值时,品牌偏好比较明显。
分析:从表中可以看出,在护肤的低、中、高三组中,品牌偏好度高的比例都比较高,说明消费者在考虑产品护肤时,有较高的品牌偏好。
分析:从表中可以看出,在样式的低、中、高三组中,品牌偏好度高的比例都比较高,说明消费者在考虑产品样式时,有较高的品牌偏好。
分析:从表中可以看出,随着吸水性由低到高,品牌偏好的高值比例也在增加,说明吸水性越好,品牌选择偏好越明显。
分析:从表中可以看出,随着渗漏值由低到高,品牌偏好的高值比例也在增加,说明渗漏越差,品牌选择偏好越明显。
分析:从表中可以看出,在舒适度上,品牌偏好的高值比例一直都很高,说明在考虑产品的舒适度时,品牌偏好非常明显。
分析::从表中可以看出,在考虑舒胶带时,品牌偏好的高值比例一直都很高,说明在考虑产品是重复粘贴胶带还是普通胶带时,品牌偏好非常明显。
分析:这是控制了价格时的每箱数量和品牌偏好,可以看出,在价格低时,每箱数量的低、中、高与品牌偏好的低、中、高还是有关系的,但是与没有控制价格时相比,两者之间的关系被削弱了。
价格适中时,也是如此。
在价格高时,关系更加清晰。
分析:这是控制了样式时的护肤与品牌偏好,可以看出,在样式低组和中组,护肤与品牌偏好之间原有的关系被逆反了,只有在样式的值高的时候,护肤与品牌偏好才有一定正向相关关系。
分析:这是控制胶带时的舒适度与品牌偏好,可以看出,控制胶带以后,舒适度与品牌偏好完全一致,这加强了舒适度与品牌偏好之间原有的高度相关性。
例题的列联表分析spss步骤
三、数据分析
• 1.百分比 • 步骤:(1) 点击主菜单 【Analyze】 >[discritptive statistic]>[crosstab], 弹出下列窗 口
(2)选择行、列要安排的变量。 选择“单位”->columns;变量“意见”>row;
• (3)选择需要的分析结果(本次主要求期望频数) 第一步:点击【cell】弹出下列窗口. 第二步:选择
“Expected”。最后点击【continue】返回原来的窗口
点击【ok】查看输出结果
3.卡方检验
(3)点击【statistic...】,在弹出的窗口中选择【chisquare】,点击[continue]返回原来窗口。
(3)选择需要的分析结果(本次主要求百分比)
第一步:点击【cell】弹出下列窗口. 第二步:选择“percentage”内
的“row”-->行百分比;"column"-列百分比;"total->"全部百分比。最后 点击【continue】返回原来的窗口
(4).点击【ok】,
5.查看输出结果
2.期望频数
列联表分析spss实现步骤
李俊海 河南工业大学理学院
一、数据格式
二、选择权重(可选步骤)
• 如果数据最原始 赞成和反对数据,则可以直接用列联 表分析。 • 若数据是上述格式---调查结果频数数据,则应需要 把频数变量“人数”作为权重对待! 方法:点击[data]菜单->选择【weight case...】-->弹出 下列窗口
用SPSS作列联分析分解
网球
28 37
合计
110 90
合计
71
64
65
200
如果原假设成立,则总体中男生和女生喜欢乒乓球、羽毛球、网球人数的比 率应是相等的,由列联表所计算得出的总比率35.5%、32.0%、32.5%就是对总 体中的相应比率的估计。做为总体中相应比率的估计,它们对男生和女生就 应当都是适用的。于是,可以根据这些总比率,计算得出各个单元格中的一 个理论上的频数,此理论频数可称之为期望频数,记作 f e : 期望频数 男生
列联表的一般结构
列联表中的自由度
I×j列联表
f ij
C1 f11 f 21
C2 f12 f 22
Cj
f1 j f2 j
合计
RT 1 RT 2
R1 R2
Ri
f i1
fi 2
f ij
RTi
合计
CT 1
CT 2
CTj
n
3×3列联表自由度为4
C1 R1 R2
R3
C2 f12 f 22
f eij
乒乓球 39.1
f eij RTi
CTj n
CTj RTi n
网球 35.8 合计 110
羽毛球 35.2
女生
合计
32.0
71
28.8
64
29.3
65
90
200
观察频数与期望频差异的大小以 2
统计量衡量。该统计量服从自由度 为 R 1 C 1 的 2 分布。 0.30 0.25 0.20 0.15 0.10 0.05
1.70 8.00 2.33 2.02 22.4
列联表分析spss步骤
【Exact钮】
• 针对2*2以上的行*列表设定计算确切概 率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo) 或确切计算(Exact)。蒙特卡罗模拟 默认进行10000次模拟,给出99%可信 区间;确切计算默认计算时间限制在5 分钟内。这些默认值均可更改。
【Statistics钮】
• 弹出Statistics对话框,用于定义所 需计算的统计量。
• o Chi-square复选框:计算X2 值。
• o Correlations复选框:计算行、 列两变量的Pearson相关系数和 Spearman等级相关系数。
• o Norminal复选框组:选择是 否输出反映分类资料相关性的指标, 很少使用。
Crosstabs过程不能产生一维频数表(单变 量频数表),该功能由Frequencies过程实现。
界面说明
【Rows框】 • 用于选择行*列表中的行变量。 • 【Columns框】 • 用于选择行*列表中的列变量。 • 【Layer框】 • Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中
注意事项
• 如何选用上面众多的统计结果令许多初学 者头痛,实际上我们只需要在
• 未校正卡方、 • 校正卡方和 • 确切概率法 三种方法之间选择即可,其余的对我们而言
用处不大,可以视而不见。
假设三个变量分别名为R、C和W,则数据集结构和命令如下:
R
C
W
1.00
1.00
54.00
1.00
2.00
44.00
2.00
1.00
8.00
2.00
2.00
20.00
1.
Data==>Weight Cases
SPSS列联表分析
设置好后,点击“确定”按 钮,SPSS将自动进行列联表
分析。
打开SPSS软件,点击“文件” 菜单,选择“新建”,然后
选择“数据视图”。
在变量视图界面,点击 “新建变量”按钮,设置 变量名称、类型、标签等
信息。
在数据视图界面,输入数据, 每行代表一个观测值,每列
代表一个变量。
在列联表对话框中,设置行 变量和列变量,以及单元格
卡方检验的公式为:卡方值 = Σ[(观测值 - 期望值)^2 / 期望值]
卡方检验的显著性水平通常设定为0.05,当卡方值大于显著性水平时,可以拒绝原假设,认为 两个变量之间存在显著性关联。
独立性:两个变量之间相互独立, 不存在因果关系
方差齐性:两个变量的方差应该 相等
添加标题
添加标题
添加标题
添加标题
列联表制作:使用 SPSS软件制作列联 表
添加标题
列联表分析:对列 联表进行卡方检验、 相关性分析等
添加标题
结果解释:根据分 析结果,解释行变 量和列变量之间的 关系
添加标题
结论与建议:根据 分析结果,提出结 论和建议
卡方检验是一种用于检验两个分类变量之间是否存在关联的统计方法。
卡方检验的基本思想是通过比较观测值和期望值的差异,来判断两个变量之间是否存在显著性 关联。
列联表分析的结果需要结合实际 情况进行解释,不能简单地根据 统计数据得出结论。
结果解释需要结合其他相关因素, 如样本量、数据来源、研究目的 等,进行全面分析。
添加标题
添加标题
添加标题
添加标题
在解释结果时,需要注意到数据 的代表性和可靠性,避免过度解 读或误读数据。
在解释结果时,需要注意到数据 的局限性,如数据收集过程中的 偏差、数据质量等问题,避免盲 目相信统计结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 列联表分析(Crosstabs)
列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。
SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。
其中卡方检验是分析列联表资料常用的假设检验方法。
例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。
预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。
数据如下表。
山东烟台历年观测数据分级表()
注:摘自《农业病虫统计测报》 131页。
1) 输入分析数据
在数据编辑器窗口打开“”数据文件。
数据文件中变量格式如下:
2)调用分析过程
在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图
3)设置分析变量
选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”
变量选入“Rows:”行变量框中。
选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。
4)输出条形图和频数分布表
Display clustered bar charts: 选中显示复式条形图。
Suppress table: 选中则不输出多维频数分布表。
5)统计量输出
点击“Statistics”按钮,弹出统计分析对话框(如下图)。
Chi-Square: 卡方检验。
选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验
(Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。
Correlations: 选中输出皮尔森(Pearson)和Spearman相关系数,用以说明行变量和列变量的相关程度。
Nominal: 两分类变量的关联度(Association)测量
Contingency Coefficient: 列联系数,其值越大关联性越强。
Phi and Cramer’s V:Cramer列联系数,其值越大关联性越强。
Lambda: 减少预测误差率,1表示预测效果最好,0表示预测效果最差。
Uncertainty Coefficient: 不定系数
Ordinal: 两有序分类变量(等级变量)的关联度测量
Gamma: 关联度,+1表示完全正关联,-1表示负关联,0表示无联。
Somers’d:列联度,其取值范围和意义同上。
Kendall’s tau-b:
Nominal by Interval: 一个定性变量和一个定量变量的关联度
Eta:关联度统计量。
Kappa:吻合度系数,其取值-1至+1,其值越大吻合程度越高。
Risk:危险度分析。
McNemar:配对计数资料的卡方检验。
Cochran’s and Mantel-Haenszel statistics:检验在协变量存在下,两个二分类变量是否独立。
6) 设置列联表的显示
单击“Cells”按钮,弹出列联表显示内容对话框(如下图)。
Counts: 频数
Observed: 观测频数。
Expected: 期望频数。
Percentages: 百分比
Row: 占本行的百分比。
Column: 占本列的百分比。
Total: 占全部的百分比。
Residuals: 残差分析
Unstandardized: 非标准化残差分析。
Standardized: 标准化残差分析。
Adj. Standardized: 调整的标准化残差分析。
Noninteger Weights:
⊙ Round cell counts: 临近列计算。
○ Truncate cell counts:。
○ Round case Weights临近记录度量
○ Truncate case Weights
○ No adjustments: 不调整。