10练习题解答:第十章交互分类与卡方检验剖析

10练习题解答:第十章交互分类与卡方检验剖析
10练习题解答:第十章交互分类与卡方检验剖析

第十章 交互分类与2χ检验

练习题:

1. 为了研究婆媳分居对于婆媳关系的影响,在某地随机抽取了180个家庭,调查结果如下表所示:

(1) 计算变量X 与Y 的边际和(即边缘和)X F 和Y F 并填入上表。 (2) 请根据表10-26的数据完成下面的联合分布的交互分类表。

10-27(4) 根据表10-27指出关于X 的条件分布和关于Y 的条件分布。

解:(1)Y F (从上到下):50;30;100.

X F (从左到右)

:115;65. (2)P 11=15/180;P 21=35/180;1

Y F =50/180;

P 12=20/180;P 22=10/180;2

Y F N =30/180; P 13=80/180;P 23=20/180;3

Y F N =100/180;

1X F N

=115/180;2

X F N

=65/180.

(3)关于X 的边缘分布:

x 分居 不分居 P(x)

115/180

65/180

关于Y 的边缘分布: y 紧张 一般 和睦 P(y)

50/180

30/180

100/180

(4)关于X 的条件分布有三个:

y=“紧张” x 分居 不分居 P(x) 15/50

35/50

y=“一般” x 分居 不分居 P(x) 20/30

10/30

y=“和睦” x 分居 不分居 P(x) 80/100

20/100

关于y 的条件分布有两个: X=“分居”

y

紧张 一般 和睦 P(y) 15/115

20/115

80/115

X=“不分居”

y

紧张 一般 和睦 P(y)

35/65

10/65

20/65

2. 一名社会学家关于“利他主义”的研究中,对被调查者的宗教信仰情况进行 了分析,得到的结果如下表所示:

10-29。 (2)根据表10-28和表10-29计算2χ,计算公式为

2

()2

o e e

f f f χ-=∑

。 (3)若要对有无宗教信仰的人的利他主义程度有无显著性差异进行检验,请陈 述研究假设1H 和虚无假设0H 。

(4)本题目中的自由度为多少?若显著性水平为0.05,请查附录的2χ分布表, 找出相对应的临界值。并判断有无宗教信仰的人的利他主义程度有无显著性差

异。

(5)若变量“宗教信仰”和“利他主义程度”存在相关关系,请计算C 系数。

解:(1)“信教”一列(从上到下):

119185

61.67357?=;

125185

64.78357?=;

113185

58.56357

?=.

“不信教”一列(从上到下):

119172

57.33357?=;

125172

60.22357?=;

113172

54.44357

?=.

(2)

2

2

2

2

2

2

2

()2(9061.67)(6064.78)(3558.56)(2957.33)(6560.22)(7854.44)61.67

64.78

58.56

57.33

60.22

54.44

=

=47.42

o e e

f f f χ-------=+

+

+

+

+

(3)1H :总体中有无宗教信仰的人的利他主义程度有显著性差异。

0H :总体中有无宗教信仰的人的利他主义程度没有显著性差异。

(4)df =(r -1)(c -1)=(3-1)?(2-1)=2;显著性水平为0.05时的临界值

是5.991。因为20χ=5.99<2

χ=47.42,检验统计值落在否定域中,可以拒绝虚无假设,接受研究假设,即认为总体中有无宗教信仰的人的利他主义程度是有显著性差异的。

(5

)0.342C

=

=

C 值要利用表“部分交互分类表C 值的上限”中的数值进行修正,本题的表格是3?2,

对应的C 值上限是0.685,因此:

C 0.342

0.685新

==0.4993

3. 某英语培训学校为了研究英语四级考试试卷客观选择题正确答案的设置在

A 、

B 、

C 与

D 的某一个选项上是否有偏好,对最近三年英语四级考试试卷做了分 析,258个单选题的正确答案在A 、B 、C 与D 四个选项上的分布情况如下表所示:

答案选项 频次 A

48 B 74 C 50 D 86 合计

258

(1)请陈述研究假设1H 和虚无假设0H 。

(2)A 、B 、C 与D 四个选项上的期望频次是多少。 (3)根据上表计算2χ值。

(4)若显著性水平为0.05,请判断英语四级考试试卷选择题的正确答案在A 、B 、C 与D 四个选项上的分配是否有显著的倾向。

解:(1)研究假设1H :正确答案在A 、B 、C 与D 四个选项中的设置有偏好。

虚无假设0H :正确答案在A 、B 、C 与D 四个选项中的设置没有偏好。 (2) A 、B 、C 与D 四个选项上的期望频次都是258/4=64.5 (3)

2

2

2

2

2

()2(4864.5)(7464.5)(5064.5)(8664.5)64.5

64.5

64.5

64.5

=16.05

o e e

f f f χ-----==

+

+

+

(4) df=4-1=3,显著性水平为0.05时,查2

χ分布表可知临界值是7.815,统计量落在

否定域内,因此,拒绝虚无假设,接受研究假设,即认为正确答案在A 、B 、C 与D 四个选项上的分配是有偏好的。

4.某个电视节目收视率的商业调查,涉及到了儿童、少年、青年、中年、老年5个群体的收视习惯,调查结果如下表所示:

(1)为了分析5个群体的收视习惯是否有显著差异,请陈述研究假设1H 和虚无

假设0H 。

(2)根据上表计算2χ值。

(3)若显著性水平为0.05,请判断不同群体的收视习惯是否有显著性差异。

解:(1) 研究假设1H :5个群体的收视习惯有显著差异。

虚无假设0H :5个群体的收视习惯没有显著差异。

(2)

2

2222222222()2(8961.5)(68.278)(61.556)(9567)(81.678)(39.512)(43.834)(4589)(8989)(52.456)57.81

o e e

f f f χ-----------==

+

+

+

+

+

+

+

+

+

=∑

(3) df =(r -1)(c -1)=(2-1)?(5-1)=4,显著性水平0.05下的临界值为 9.448,很明显,检验统计值落在否定域内,因此,拒绝虚无假设,接受研究假设,

即认为5个群体的收视习惯有显著差异。

5. 根据武汉市初中生日常行为状况调查的数据(data9),运用SPSS 检验是否 有自己的房间(C3)以供学习对学生在本班的学习层次(C2)有无显著影响,并计算 关系强度系数C 系数、V 系数和φ系数。(显著性水平0.05α=)

解:《武汉市初中生日常行为状况调查问卷》:

C2 你的成绩目前在本班大致属于

1)上等 2)中上等 3)中等 4)中下等 5)下等 C3 你是否有自己的房间以供学习不被打扰

1)有 2)没有

SPSS的操作步骤如下:

○1点击Analyze→Descriptive Statistics→Crosstabs,打开Crosstabs对话框,如图10-1 (练习)所示。将变量“是否有自己的房间以供学习不被打扰(c3)”放置在Column(s)框中,将变量“成绩目前在本班的大致层次(c2)”放置在Row(s)框中,如图10-1(练习)所示。

图10-1(练习)Crosstabs对话框

○2点击Statistics按钮,分别点击Chi-square、Contingency coefficient、Phi and Cramér’s V 复选框,如图10-2(练习)所示。

图10-2(练习)Crosstabs:statistics对话框

○3点击Cells按钮,对单元格进行设置,如图10-3(练习)所示,选择Column选项,选择的是在单元格中计算列百分比。

图10-3(练习)Crosstabs:Cell Display对话框

○4Format采取系统默认格式,点击OK,提交运行,可得到如下的结果。

表10-1(练习)是否拥有房间与在班上学习层次的交互分类表

表10-2(练习)卡方检验表

从表10-2(练习)可以看出卡方值为10.605,自由度为4,卡方检验的P值为0.031,小于0.05,即通过了卡方检验,这意味着是否有自己的房间(C3)以供学习对学生在本班的学习层次(C2)有显著影响。从表10-1(练习)可以看出“有”和“没有”自己房间的两组初中生各个成绩层次的学生在各组所占的比例,在有自己房间的学生中,学习成绩为上等和中上等的比例均高于没有自己房间的学生。

从表10-3(练习)可以看出,列联系数(Contingency coefficient)为0.142,Cramer’s V系数为0.143,φ系数(Phi系数)为0.143。

6. 根据武汉市初中生日常行为状况调查的数据(data9),运用SPSS检验在本班的学习层次(C2)对自己与母亲关系的好坏(D2)有无显著影响,并计算关系强

α=)

度系数C系数、V系数和φ系数。(显著性水平0.05

解:初中生学习成绩的层次与自己同母亲的关系存在着相互影响,这个题目假定学习层次(C2)为自变量,自己与母亲关系的好坏(D2)为因变量。

《武汉市初中生日常行为状况调查问卷》:

C2你的成绩目前在本班大致属于

1)上等2)中上等3)中等4)中下等5)下等

D2 你对自己与母亲的关系

1)非常满意2)比较满意3)一般4)不太满意5)很不满意

SPSS的操作步骤如下:

○1点击Analyze→Descriptive Statistics→Crosstabs,打开Crosstabs对话框,如图10-4(练习)所示。将变量“成绩目前在本班的大致层次(c2)”放置在column(s)框中,将变量“自己与母亲的关系(d2)”放置在row(s)框中,如图10-4(练习)所示。

图10-4(练习)Crosstabs对话框

○2点击Statistics按钮,分别点击Chi-square、Contingency coefficient、

Phi and Cramr’V复选框,如图10-5(练习)所示。

图10-5(练习)Crosstabs:statistics对话框

○3点击Cells按钮,对单元格进行设置,如下图所示,选择Column,设置的是在单元格中计算列百分比。

图10-6(练习)Crosstabs:Cell Display对话框

○4Format采取系统默认格式,点击OK,提交运行,SPSS输出如下的结果。

表10-4(练习)成绩在班上的层次与自己同母亲的关系的交互分类表

表10-5(练习)卡方检验表

表10-6(练习)各相关关系表

从表10-5(练习)可以看出卡方值为32.358,自由度为16,卡方检验的P值为0.009,小于0.05,即通过了卡方检验。这意味着学生学习成绩的层次对自己与母亲的关系的满意程度有显著影响。从表10-4(练习)可以看出“上等”、“中上等”、“中等”、“中下等”与“下等”5组中与父母不同关系水平的初中生占各组的比例,其表现出的总体趋势为:学生的学习成绩的层次越高,其对自己与母亲的关系越满意。

从表10-3(练习)可以看出,列联系数(Contingency coefficient)为0.243,Cramer’s V系数为0.125,φ系数(Phi)为0.250。

10练习题解答:第十章 交互分类与卡方检验

第十章 交互分类与2χ检验 练习题: 1. 为了研究婆媳分居对于婆媳关系的影响,在某地随机抽取了180个家庭,调查结果如下表所示: (1) 计算变量X 与Y 的边际和(即边缘和)X F 和Y F 并填入上表。 (2) 请根据表10-26的数据完成下面的联合分布的交互分类表。 10-27(4) 根据表10-27指出关于X 的条件分布和关于Y 的条件分布。 解:(1)Y F (从上到下):50;30;100. X F (从左到右) :115;65. (2)P 11=15/180;P 21=35/180;1 Y F =50/180; P 12=20/180;P 22=10/180;2 Y F N =30/180; P 13=80/180;P 23=20/180;3 Y F N =100/180;

1X F N =115/180;2 X F N =65/180. (3)关于X 的边缘分布: x 分居 不分居 P(x) 115/180 65/180 关于Y 的边缘分布: y 紧张 一般 和睦 P(y) 50/180 30/180 100/180 (4)关于X 的条件分布有三个: y=“紧张” x 分居 不分居 P(x) 15/50 35/50 y=“一般” x 分居 不分居 P(x) 20/30 10/30 y=“和睦” x 分居 不分居 P(x) 80/100 20/100 关于y 的条件分布有两个: X=“分居” y 紧张 一般 和睦 P(y) 15/115 20/115 80/115 X=“不分居” y 紧张 一般 和睦 P(y) 35/65 10/65 20/65 2. 一名社会学家关于“利他主义”的研究中,对被调查者的宗教信仰情况进行 了分析,得到的结果如下表所示:

sss非参数检验K多个独立样本检验KruskalWallis检验案例解析

spss-非参数检验-K多个独立样本检验( Kruskal-Wallis检验)案例解析2011-09-19 15:09 最近经常失眠,好痛苦啊!大家有什么好的解决失眠的方法吗?希望知道的能够告诉我,谢谢啦,今天和大家一起探讨和分下一下SPSS-非参数检验--K个独立样本检验( Kruskal-Wallis检验)。 还是以SPSS教程为例: 假设:HO: 不同地区的儿童,身高分布是相同的 H1:不同地区的儿童,身高分布是不同的 不同地区儿童身高样本数据如下所示: 提示:此样本数为4个(北京,上海,成都,广州)每个样本的样本量(观察数)都为5个

即:K=4>3 n=5, 此时如果样本逐渐增大,呈现出自由度为K-1的平方的分布,(即指:卡方检验) 点击“分析”——非参数检验——旧对话框——K个独立样本检验,进入如下界面: 将“周岁儿童身高”变量拖入右侧“检验变量列表”内,将“城市(CS)变量” 拖入“分组变量”内,点击“定义范围” 输入“最小值”和“最大值”(这里的变量类型必须为“数字型”)如果不是数字型,必须要先定义或者重新编码。 在“检验类型”下面选择“秩和检验”( Kruskal-Wallis检验)点击确定 运行结果如下所示:

对结果进行分析如下: 1:从“检验统计量a,b”表中可以看出:秩和统计量为:13.900 自由度为:3=k-1=4-1 下面来看看“秩和统计量”的计算过程,如下所示: 假设“秩和统计量”为 kw 那么:

其中:n+1/2 为全体样本的“秩平均” Ri./ni 为第i个样本的秩平均 Ri.代表第i个样本的秩和, ni代表第i个样本的观察数) 最后得到的公式为: 北京地区的“秩和”为:秩平均*观察数(N) = 14.4*5=72 上海地区的“秩和”为:8.2*5=41 成都地区的“秩和”为:15.8*5=79 广州地区的“秩和”为:3.6*5=18

第八章卡方检验

第八章 2 χ 检验 一、教学大纲要求 (一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2 χ检验。 (1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2 χ检验。 3. 行?列表的2 χ检验。 (二) 熟悉内容 频数分布拟合优度的2 χ检验。 (三) 了解内容 1.2 χ分布的图形。 2.四格表的确切概率法。 二、教学内容精要 (一) 2 χ检验的用途 2χ检验(Chi-square test )用途较广,主要用途如下: 1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2 χ检验的基本思想 1.2 χ检验的基本思想是以2 χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2 χ值不应该很大,若实际计算出的2 χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。 2. 基本公式:()∑ -= T T A 2 2 χ,A 为实际频数(Actual Frequency ),T 为理论频数 (Theoretical Frequency )。四格表2 χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2 χ值是一致的。 (三)率的抽样误差与可信区间 1.率的抽样误差与标准误 样本率与总体率之间存在抽样误差,其度量方法: n p ) 1(ππσ-= ,π为总体率,或 (8-1) n p p S p ) 1(-= , p 为样本率; (8-2) 2.总体率的可信区间 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。

卡方检验法

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数 (f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布, 可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况:

第八章 卡方检验与交互分析#(精选.)

第八章卡方检验与交互分析 交互分析是社会调查研究中常用方法之一,用于研究两个定类变量的关系。交互分析中用于检验两个变量是否相关的方法叫做卡方检验,也叫独立性检验。卡方检验是建立在观测频次和期望频次之差基础上的一种检验。 一、卡方检验的原理 例:一项调查得到890个样本的与收入和所处地区的数据,希望分析收入和地区的关系。 表1 要检验的H0:收入和地区之间没有相关性,即每一地区的收入分布模式应该是相同的,收入的高低不应随着地区的不同而有所差异。也就是说,如果东部城市的四个收入类别各自比重和中西北部城市的四个收入类别各自比重一致,那么,收入和地区之间是相互独立的。 如果这个890人的样本能够反应总体的独立性特征,那么就应该能够观测到两个地区具有相同的收入分布模式,称为期望模式,样本的期望观测频次如下:表2 接下来,计算观测频次f0与期望频次f e之间的偏差(f0-f e),如果这些偏差比较小,则有利于证明原假设即总体的独立性。反之,则可能推翻原假设。但偏差之和为0,所以对偏差进行平方。但是,为了说明每一个偏差的相对重要性,每一偏差平方和都需要和本组中的期望频次相比较,计算相对(f0-f e)2/f e。然后,将所有组的贡献相加,从而得到度量全部偏差的一个量,叫做卡方

χ2= ,服从自由度为(c-1)(r-1)的卡方分布。如用c 和r 分别表示表 中的列数和行数,自由度为(c-1)(r-1)。 f 0 f e 153.3 164.7 80 86 66 71 129.7 139.3 (f 0-f e ) (f 0-f e )2/f e 计算出卡方值后,可根据已知 的显著性 水平和自由度查卡方分布表,找出临界值,与之作对比。反过来,也可以计算出概值,再根据我们所希望的显著性水平做比较。该例题中计算出χ2为31.6,查表发现对应自由度为3的那一行的所有临界值都小于χ2,因此,概值小于0.001。由于概值如此小,检验水平可以是1%甚至更小,所以一定可以拒绝原假设。也就是说,在总人口中,收入与地区有显著的相关性,二者并不独立。 练习题:在电视的收视率调查中,得到性别与收视习惯的联列表如下,试分析性别和收视习惯的关系。 男 女 总频次 几乎天天看 38 24 62 偶尔看 31 7 38 总频次 69 31 100 相对频率 0.69 0.31 1.00 解:原假设为“性别和收视习惯相互独立”,如果原假设成立,那么两列期望凭此应通过0.69和0.31分别乘以最后一列总频次而得到。 42.8 19.2 146 172 66 100 51 86 166 103 -7.3 7.3 -14 14 -15 15 36.3 -36.3 0.35 0.32 2.45 2.28 3.41 3.17 10.16 9.46 38 24 31 7

第十章 卡方检验..

第十章χ2检验 χ检验的原理 第一节2 χ检验的假设 一、2 (一)分类相互排斥,互不包容 2 χ检验中的分类必须相互排斥,这样每一个观测值就会被划分到一个类别或另一个类别之中。此外,分类必须互不包容,这样,就不会出现某一观测值同时划分到更多的类别当中去的情况。 (二)观测值相互独立 各个被试的观测值之间彼此独立,这是最基本的一个假定。如一个被试对某一品牌的选择对另一个被试的选择没有影响。当同一被试被划分到一个以上的类别中时,常常会违反这个假定。 当讨论列联表时,独立性假定是指变量之间的相互独立。这种情况下,这种变量的独立性正在被检测。而观测值的独立性则是预先的一个假定。 (三)期望次数的大小 每一个单元格中的期望次数应该至少在5以上。一些更加谨慎的统计学家提出了更严格 χ检验时,每一个单元格的期望次数至少不应低于的标准,当自由度等于1时,在进行2 10,这样才能保证检验的准确性。 另外,在许多分类研究中会存在这样一种情况,如自由度很大,有几个类别的理论次数虽然很小,但在给以接受的标准范围内,只有一个类别的理论次数低于1。此时,一个简单的处理原则是设法使每一个类别的理论次数都不要低于1,分类中不超过20%的类别的理论次数可以小于5。在理论次数较小的特殊的四格表中,应运用一个精确的多项检验来避免使χ检验。 用近似的2 χ检验的类别 二、2 (一)配合度检验 配合度检验主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近,这种2 χ检验方法有时也称为无差假说检验。当对连续数据的正态性进行检验时,这种检验又可称为正态吻合性检验。 (二)独立性检验 独立性检验是用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立 χ检验适用于探讨两个变量之间是否具有关联(非独立)或无关(独性的问题。这种类型的2

T检验和卡方检验

好久没有更新博客了,今天更新一篇关于数据分析方法的文章,主要是基于统计学的假设检验的原理,无论是T检验还是卡方检验在现实的工作中都可以被用到,而且结合Excel非常容易上手,基于这类统计学上的显著性检验能够让数据更有说服力。还是保持一贯的原则,先上方法论再上应用实例,这篇文章主要介绍方法,之后会有另外一篇文章来专门介绍实际的应用案例。 关于假设检验 假设检验(Hypothesis Testing),或者叫做显著性检验(Significance Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。既然以假设为前提,那么在进行检验前需要提出相应的假设: H0:原假设或零假设(null hypothesis),即需要去验证的假设;一般首先认定原假设是正确的,然后根据显著性水平选择是接受还是拒绝原假设。 H1:备择假设(alternative hypothesis),一般是原假设的否命题;当原假设被拒绝时,默认接受备择假设。 如原假设是假设总体均值μ=μ 0,则备择假设为总体均值μ≠μ0,检验的过程就 是计算相应的统计量和显著性概率,来验证原假设应该被接受还是拒绝。 T检验 T检验(T Test)是最常见的一种假设检验类型,主要验证总体均值间是否存在显著性差异。T检验属于参数假设检验,所以它适用的范围是数值型的数据,在网站分析中可以是访问数、独立访客数、停留时间等,电子商务的订单数、销售额等。T检验还需要符合一个条件——总体符合正态分布。 这里不介绍t统计量是怎么计算的,基于t统计量的显著性概率是怎么查询的,其实这些计算工具都可以帮我们完成,如果有兴趣可以查阅统计类书籍,里面都会有相应的介绍。这里介绍的是用Excel的数据分析工具来实现T检验: Excel默认并没有加载“数据分析”工具,所以需要我们自己添加加载项,通过文件—选项—加载项—勾选“分析工具库”来完成添加,之后就可以在“数据”标签的最右方找到数据分析这个按钮了,然后就可以开始做T检验了,这里以最常见的配对样本t检验为例,比较某个电子商务网站在改版前后订单数是否产生了显著性差异,以天为单位,抽样改版前后各10天的数据进行比较:

非参数检验卡方检验实验报告

大理大学实验报告 课程名称生物医学统计分析 实验名称非参数检验(卡方检验) 专业班级 姓名 学号 实验日期 实验地点 2015—2016学年度第 2 学期

Fisher 的精确检验:精确概率法计算的卡方值(用于理论数E<5)。 不同的资料应选用不同的卡方计算方法。 例为2*2列联表,df=1,须用连续性校正公式,故采用“连续校正”行的统计结果。 X2=,P(Sig)=<,表明灭螨剂A组的杀螨率极显着高于灭螨剂B组。 例 表3 治疗方法* 治疗效果交叉制表 计数 治疗效果 123 合计 治疗方法11916540 21612836 31513735合计504120111 分析:表3是治疗方法* 治疗效果资料分析的列联表。 表4 卡方检验 X2值df渐进 Sig. (双侧) Pearson 卡方 1.428a4.839

似然比4.830线性和线性组合.5141.474 有效案例中的 N111 a. 0 单元格(.0%) 的期望计数少于 5。最小期望计数为。 分析:表4是卡方检验的结果。自由度df=4,表格下方的注解表明理论次数小于5的格子数为0,最小的理论次数为。各理论次数均大于5,无须进行连续性校正,因此可以采用第一行(Pearson 卡方)的检验结果,即 X2=,P=>,差异不显着,可以认为不同的治疗方法与治疗效果无关,即三种治疗方法对治疗效果的影响差异不显着。 例 表5 灌溉方式* 稻叶情况交叉制表 计数 稻叶情况 123 合计 灌溉方式114677160 2183913205 31521416182合计4813036547 分析:表5是灌溉方式* 稻叶情况资料分析的列联表。

医学统计学案例分析(1)

案例分析—四格表确切概率法 【例1-5】为比较中西药治疗急性心肌梗塞的疗效,某医师将27例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表1-4。经检验,得连续性校正χ2=3.134,P>0.05,差异无统计学意义,故认为中西药治疗急性心肌梗塞的疗效基本相同。 表1-4 两种药物治疗急性心肌梗塞的疗效比较 药物有效无效合计有效率(%)中药12(9.33)2(4.67)1485.7 西药 6(8.67)7(4.33)1346.2 合计1892766.7【问题1-5】 (1)这是什么资料? (2)该资料属于何种设计方案? (3)该医师统计方法是否正确?为什么? 【分析】 (1) 该资料是按中西药的治疗结果(有效、无效)分类的计数资料。 (2) 27例患者随机分配到中药组和西药组,属于完全随机设计方案。 (3) 患者总例数n=27<40,该医师用χ2检验是不正确的。当n<40或T<1时,不宜计算χ2值,需采用四格表确切概率法(exact probabilities in 2×2 table)直接计算概率 案例分析-卡方检验(一) 【例1-1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取140例胃炎患者分成中药组和西药组,结果中药组治疗80例,有效64例,西药组治疗60例,有效35例。该医师采用成组t检验(有效=1,无效=0)进行假设检验,结果t=2.848,P=0.005,差异有统计学意义检验(有效=1,无效=0)进行进行假设检验,结果t=2.848,P=0.005,差异有统计学意义,故认为中西药治疗胃炎的疗效有差别,中药疗效高于西药。

【问题1-1】 (1)这是什么资料?(2)该资料属于何种设计方案? (3)该医师统计方法是否正确?为什么?(4)该资料应该用何种统计方法?【分析】(1) 该资料是按中西药疗效(有效、无效)分类的二分类资料,即计数资料。(2) 随机抽取140例胃炎患者分成西药组和中药组,属于完全随机设计方案。(3) 该医师统计方法不正确。因为成组t检验用于推断两个总体均数有无差别,适用于正态或近似正态分布的计量资料,不能用于计数资料的比较。(4) 该资料的目的是通过比较两样本率来推断它们分别代表的两个总体率有无差别,应用四格表资料的 X2检验(chi-square test)。 【例1-2】 2003年某医院用中药和西药治疗非典病人40人,结果见表1-1。 表1-1 中药和西药治疗非典病人有效率的比较 药物有效无效合计有效率(%) 中药西药14(11.2) 2 (4.8) 14(16.8) 10 (7.2) 28 12 50.0 16.7 步骤如下: 1.建立检验假设,确定检验水准 H 0:两药的有效率相等,即π 1 =π 2 H 1:两药的有效率不等,即π 1 ≠π 2 2.计算检验统计量值 (1) 计算理论频数根据公式计算理论频数,填入表7-2的括号内。 (2) 计算χ2值 具体计算略。

卡方检验原理与应用实例

卡方检验原理与应用实例: 本文简单介绍卡方检验的原理和两个类型的卡方检验实例。 一、卡方检验的作用和原理 1)卡方检验的作用:简单来说就是检验实际的数据分布情况与理论的分布情况是否相同的假设检验方法。怎么理解这句话呢,拿一个群体的身高来说,理论上身高低于1米5的占10%,高于2.0的占10%,中间的占80%,现在我们抽取了这个群体中的一群人,那么对应这三个身高段的人数的比例关系是不是 1:8:1呢?卡方分析就是解决这类问题。 2)卡方检验的原理:上面已经提到卡方检验是检验实际的分布于理论的分布时候一致的检验,那么用什么统计量来衡量呢!统计学家引入了如下的公式: Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ti等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。和参数检验的判断标准一样,这个统计量有一个相伴概率p。零假设是理论分布与实际分布是一致的,所以如果P小于0.05,那么就拒绝原假设,认为理论和实际分布不一致。 二、适合性卡方测验 所谓适合性检验就是检验一个样本的分布是否符合某个分布的一种假设检验方法。比如说检验数据是否正态分布,是否成二项分布或者平均分布等等。拿正态分布来说吧!请看下图

在这个近似标准正态分布的玉米株高的分布中,横轴代表的是株高的数据,而纵轴代表的是对应株高的频数,简单来说,正态曲线上的某点的纵坐标代表的就是这个点对应的横轴坐标显示株高的玉米有多少株。只不过正态分布曲线上显示的是频率值,而频率=该组株数/总的株数,所以分布曲线不会变,只不过纵坐标由频数变为频率。这也解释了昨天推送的《如何判断数据是否符合正态分布》中用带正态曲线的直方图判断数据是否符合正态分布的原理。 回到本节,当我们要检验玉米株高是否符合正态分布时,我们能够通过计算,计算出当样本量为600(注意本例株高数据的个案数为600,下载数据资料进行练习过的学员应该知道)时,每个株高下的玉米株数设为E,然后我们已经有实际值设为A,然后我们带入上面的公式计算得到卡方统计量,由SPSS输出相伴概率,我们就能判断数据是否符合正态分布了。 再说一个例子。

10练习题解答:第十章 交互分类与卡方检验

第十章 交互分类与2χ检验 练习题: 1. 为了研究婆媳分居对于婆媳关系的影响,在某地随机抽取了180个家庭,调查结果如下表所示: (1) 计算变量X 与Y 的边际和(即边缘和)X F 和Y F 并填入上表。 (2) 请根据表10-26的数据完成下面的联合分布的交互分类表。 10-27(4) 根据表10-27指出关于X 的条件分布和关于Y 的条件分布。 ~ 解:(1)Y F (从上到下):50;30;100. X F (从左到右):115;65.

(2)P 11=15/180;P 21=35/180;1 Y F N =50/180; P 12=20/180;P 22=10/180;2 Y F N =30/180; P 13=80/180;P 23=20/180;3Y F N =100/180; 1 X F N =115/180;2 X F N =65/180. (3)关于X 的边缘分布: x 分居 不分居 ! P(x) 115/180 65/180 关于Y 的边缘分布: y 紧张 一般 和睦 P(y) 》 50/180 30/180 100/180 (4)关于X 的条件分布有三个: y=“紧张” x 分居 不分居 P(x) 15/50 . 35/50 y=“一般” x 分居 不分居 P(x) 20/30 10/30 y=“和睦” x : 分居 不分居 P(x) 80/100 20/100 关于y 的条件分布有两个: X=“分居” y 紧张 · 一般 和睦 P(y) 15/115 20/115 80/115 X=“不分居”

y 紧张 一般 * 和睦 P(y) 35/65 10/65 20/65 2. 一名社会学家关于“利他主义”的研究中,对被调查者的宗教信仰情况进行 了分析,得到的结果如下表所示: 10-29。 (2)根据表10-28和表10-29计算2χ,计算公式为 2 ()2 o e e f f f χ-=∑ 。 (3)若要对有无宗教信仰的人的利他主义程度有无显著性差异进行检验,请陈 * 述研究假设1H 和虚无假设0H 。 (4)本题目中的自由度为多少若显著性水平为,请查附录的2χ分布表, 找出相对应的临界值。并判断有无宗教信仰的人的利他主义程度有无显著性差 异。 (5)若变量“宗教信仰”和“利他主义程度”存在相关关系,请计算C 系数。

卡方检验结果分析

样本的基本信息: 一、样本总数56 二、性别:男27人,女29人 三、年级:大二 四、民族:汉族25人,少数民族31人 五、学院:社心学院16人,管理学院12人,旅历学院17人,计科学院11人 ◆性别与其它因素的关系: 1、平时阅读情况与性别的关系 结论:经过交叉表卡方检验,期望值频数总和为55,大于40,期望计数小于5大于1,因而使用pearson卡方检验,其中sig值0.345大于0.05,因而有理由接受H0,拒绝H1,因此平时阅读情况与性别不存在显著性差异。 2、有否阅读计划与性别的关系 结论:经过交叉表卡方检验,期望值频数总和为56,大于40,期望计数小于5大于1,因而使用pearson精确检验,其中sig值0.128大于0.05,因而有理由接受H0,拒绝H1,因此有否阅读计划与性别不存在显著性差异。

3、阅读方式与性别的关系 结论:经过交叉表卡方检验,期望值频数总和为56,大于40,期望计数少于5,最小期望计数为0.96接近1,因而使用fisher 精确检验,其中sig值0.161大于0.05,因而有理由接受H0,拒绝H1,因此有否阅读计划与性别不存在显著性差异。 4、对课外阅读的看法与性别的关系 结论:经过交叉表卡方检验,期望值频数总和为56,大于40,期望计数小于5大于1,因而使用pearson卡方检验,其中sig值0.857大于0.05,因而有理由接受H0,拒绝H1,因此对课外阅读的看法与性别不存在显著性差异。

5、阅读量的趋势与性别的关系 结论:经过交叉表卡方检验,期望值频数总和为56,大于40,期望计数小于5大于1,因而使用pearson卡方检验,其中sig值0.048小于0.05,因而有理由拒绝H0,接受H1,因此阅读量趋势与性别存在显著性差异。 结论:经过交叉表卡方检验,期望值频数总和为55,大于40,期望计数大于5,因而使用pearson卡方检验,其中sig值0.139大于0.05,因而有理由接受H0,拒绝H1,因此是否有足够时间进行课外阅读与性别不存在显著性差异。

SPSS学习系列24.-卡方检验

SPSS学习系列24.-卡方检验

24. 卡方检验 卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f 0与理论频数f e (又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2χ分布,即 ) (n f f f e e 2 202 ~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2χ值越小。 卡方检验要求: (1)分类相互排斥,互不包容; (2)观察值相互独立; (3) 样本容量不宜太小,理论频数≥5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。 卡方校正公式为: ∑ --=e e f f f 2 02 )5.0(χ 卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途: (1)检验某连续变量的数据是否服从某种分布(拟合优度检验); (2)检验某分类变量各类的出现概率是否等于指定概率; (3)检验两个分类变量是否相互独立(关联性检验); (4)检验控制某几个分类因素之后,其余两个分类变量是否相

互独立; (5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。 (一)检验单样本某水平概率是否等于某指定概率 一、单样本案例 例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。 有数据文件: 检验“性别”的男女比例是否相同(各占1/2)。 1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”

第八章卡方检验

第八章
2 χ 检验
次数资料分析
上一张 下一张 主 页
退 出

第一节
性别 男 女
卡方检验的意义和原理
理论次数 T 50 50 100
实际次数 A 51 49 100
问男女比例是否符合1:1, 即与1:1性别比差异是否显著。 性别比差异是否显著。

χ =
2

A—实际次数
(A ? T) T
2
T—理论次数
χ2是度量实际观察次数与理 论次数偏离程度的一个统计量, 论次数偏离程度的一个统计量, χ2越小, 越小,表明实际观察次数与理 论次数越接近; 论次数越接近; χ2 =0,表示两 者完全吻合; 者完全吻合; χ2越大, 越大,表示两者 相差越大。 相差越大。
上一张 下一张 主 页 退 出

在对次数资料进行χ2检验利用连续型随 机变量χ2分布计算概率时, 分布计算概率时,常常偏低, 常常偏低,特 别是当自由度为1时偏差较大。 时偏差较大。 Yates(1934)提出了一个矫正公式, 提出了一个矫正公式,矫正 后的χ2值记为
χ =∑
2 c
( A ? T ? 0.5) T
2
上一张 下一张 主 页
退 出

当自由度大于1时,χ2分布与连续型随机 变量χ2分布相近似 ,这时, 这时,可不作连续性矫 正 , 但 要 求各组内的理论次数不小于5。若 某组的理论次数小于5,则应把它与其相邻的 一组或几组合并, 一组或几组合并,直到理论次数大 于5 为 止。

卡方检验的这点你千万不能忽视哦

方检验的这点,你千万不能忽视哦! 方检验 方检验有两种用途:1、拟合优度检验(goodness of fit test ):用卡方统计量进行统计学检验,依据总体分布 状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量的分布进行分析的目的。2、拟合优度检验是对一个分 类变量的检验,有时我们会遇到两个分类变量的问题(也就是列联表数据,横标目和纵标目各代表一个分类变量),看这 两个分类变量是否存在联系。现在,来个题考考大家!双向 无序列联表资料什么时候能用卡方检验,什么时候要用 精确概率法? 传统的统计教材中般认为:对双向无序的RxC 列联表资料 进行卡方检验中,当样本量小,存在单元格的理论频数(又 叫期望计数)小于5 ,或这样的单元格数超过总单元格数的20% ,才需要选用精确概率法。其实,这种说法已经过时了。 John H. McDonald 在Handbook of Biological Statistics (3rd ed.)一书中对卡方检验的适用条件进行 了新的阐述。完全颠覆了我的以往思路。现总结归纳如下 、只要样本量小于1000 的列联表资料,都应该使用精确 概率法。因为,1000 以下样本量的精确概率法在Excel 、SAS 、

SPSS 等软件中都可以轻松实现。 、当样本量比1000 大很多时,即使在大型计算机上的强大软件(例如SAS )做精确概率法的运算都可能存在困难,所以对于样本量大于1000 时,应该使用卡方检验。如果自由度只有1 ,可以使用Yates 连续性校正(但是对于如此大的样本量,Yates 连续性校正对P 值在准确性上的改进是微不足道。) 、为了便于操作,McDonald 将其经验法则建立在总样本 量的基础上,而不是最小的期望计数;如果一个或多个期望 计数是非常小(个位数),即使总样本量大于1000 ,也应该 使用精确概率法,只是但愿你的计算机能够处理这样的运算量。 四、如果分类变量的类别数太多,有些类别的期望计数非常小,应该考虑合并较少频数的类别,即使运用的是精确概率法,合并类别后,更小的自由度将提高检验的效力。 五、如果看到别人按照传统的过时规则,对总样本量小于 1000 的数据进行卡方检验,不用太过于担心。旧的习惯很 难改变,除非期望计数真的非常小(达到个位数),否则这 可能不会对结论产生太大的影响。如果卡方检验得到的P 值只低于0.05 一点点,可以用精确概率法再次分析该数据。如 果精确概率法得到的P 值大于0.05 ,那说明卡方检验所得P 值导致了一个完全相反的结论,产生假阳性。下面举例阐述:

医学统计学案例分析

医学统计学案例分析 案例分析—四格表确切概率法 【例1-5】为比较中西药治疗急性心肌梗塞de疗效,某医师将27例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表1-4。经检2验,得连续性校正χP,,差异无统计学意义,故认为中西药治=, 疗急性心肌梗塞de疗效基本相同。 表1-4 两种药物治疗急性心肌梗塞de疗效比较药物有效无效合计有效率(,) 中药 12 2 14 西药 6 7 13 合计 18 9 27 【问题1-5】 (1) 这是什么资料, (2) 该资料属于何种设计方案, (3) 该医师统计方法是否正确,为什么, 【 【分析】 (1) 该资料是按中西药de治疗结果(有效、无效)分类de计数资料。 (2) 27例患者随机分配到中药组和西药组,属于完全随机设计方案。 2(3) 患者总例数n=27,40,该医师用χ检验是不正确de。当n,40或T,1时,2不宜计算χ值,需采用四格表确切概率法(exact probabilities in 2×2 table)直接计算概率 案例分析,卡方检验(一) 【例1-1】某医师为比较中药和西药治疗胃炎de疗效,随机抽取140例胃炎患者分成中药组和西药组,结果中药组治疗80例,有效64例,西药组治疗60例,有效35例。该医师采用成组t检验(有效=1,无效=0)进行假设检验,结

检验(有效=1,无效=0)进行进行果t,,P,,差异有统计学意义 假设检验,结果t,,P,,差异有统计学意义,故认为中西药治疗胃炎de疗效有差别,中药疗效高于西药。 【问题1-1】 【 (1)这是什么资料,(2)该资料属于何种设计方案, (3)该医师统计方法是否正确,为什么,(4)该资料应该用何种统计方法, 【分析】 (1) 该资料是按中西药疗效(有效、无效)分类de二分类资料,即计数资料。 (2) 随机抽取140例胃炎患者分成西药组和中药组,属于完全随机设计方案。(3) 该医师统计 方法不正确。因为成组t检验用于推断两个总体均数有无差别,适用于正态或近似正态分布de计量资料,不能用于计数资料de比较。 (4) 该资料de目de是通过比较两样本率来推断它们分别代表de两个总体率有无差别,应用四格表资料de 检 验(chi-square test)。 【例1-2】 2003年某医院用中药和西药治疗非典病人40人,结果见表1-1。 表1-1 中药和西药治疗非典病人有效率de比较 药物有效无效合计有效率(,) 中药 28 1414 西药 2 10 12 合计 16 24 40 某医师认为这是完全随机设计de2组二分类资料,可用四格表de检验。其步 骤如下: 1(建立检验假设,确定检验水准 [ H:两药de有效率相等,即0 π,π12

10练习题解答:第十章交互分类与卡方检验

第十章交互分类与F检验 练习题: 1.为了研究婆媳分居对于婆媳关系的影响,在某地随机抽取了180个家庭, 调查结果如下表所示: 表10-26 (1)计算变量X与Y的边际和(即边缘和)F x和F Y并填入上表。 (2)请根据表10-26的数据完成下面的联合分布的交互分类表。 表10-27 (3)根据表10-27指出关于X的边缘分布和关于Y的边缘分布。 (4)根据表10-27指出关于X的条件分布和关于Y的条件分布。解:(1)Fy(从上到下):50: 30: 100. 竹(从左到右): 115: 65. (2) P n=15/180: P.35/1S0: ^.50/180:

% P:c=20/180; P产 10/180:=30/180:

5 P沪80/180; P沪20/180:市二100/180: Fx\ Fx? N =115/180:=65/180. (3 关于y的条件分布有两个: X 2.一名社会学家关于“利他主义”的研究中,对被调查者的宗教信仰情况进行 了分析,得到的结果如下表所示: 表10-28

(1)根据 表10-28的观察频次,计算每一个单元格的期望频次并填入表10-29。 (3)若要对有无宗教信仰的人的利他主义程度有无显著性差异进行检验,请陈 述研究假设0和虚无假设H{) o (4)本题口中的自山度为多少若显著性水平为,请查附录的才分布表, 找出相对应的临 界值。并判断有无宗教信仰的人的利他主义程度有无显著性差异。 (5)若变量“宗教信仰”和“利他主义程度”存在相关关系,请计算C系 数。 解:(1)"信教” 一列(从上到下): ,,9X,85 =61.67: 357 125X185 =64.78; 357 ,,3X185=58.56. 357 '‘不信教” 一列(从上到下):1,9X172 =57.33: 357 EG"?: 357

多个样本率的卡方检验及两两比较--之-spss-超简单知识分享

多个样本率的卡方检验及两两比较--之-s p s s-超简单

SPSS:多个样本率的卡方检验及两两比较 来自:医咖会 医咖会之前推送过“两个率的比较(卡方检验)及Fisher精确检验的SPSS教程”,小伙伴们都掌握了吗?如果不止两个分组,又该如何进行卡方检验以及之后的两两比较呢?来看详细教程吧! 1、问题与数据 某医生拟探讨药物以外的其他方法是否可降低患者的胆固醇浓度,如增强体育锻炼、减少体重及改善饮食习惯等。 该医生招募了150位高胆固醇、生活习惯差的受试者,并将其随机分成3组。其中一组给予降胆固醇药物,一组给予饮食干预,另一组给予运动干预。经过6个月的试验后,该医生重新测量受试者的胆固醇浓度,分为高和正常两类。 该医生收集了受试者接受的干预方法(intervention)和试验结束时胆固醇的风险程度(risk_level)等变量信息,并按照分类汇总整理,部分数据如下:

注释:本研究将胆固醇浓度分为“高”和“正常”两类,只是为了分析的方便,并不代表临床诊断结果。 2、对问题的分析 研究者想判断干预后多个分组情况的不同。如本研究中经过降胆固醇药物、饮食和运动干预后,比较各组胆固醇浓度的变化情况。针对这种情况,我们建议使用卡方检验(2×C),但需要先满足5项假设: 假设1:观测变量是二分类变量,如本研究中试验结束时胆固醇的风险程度变量是二分类变量。 假设2:存在多个分组(>2个),如本研究有3个不同的干预组。 假设3:具有相互独立的观测值,如本研究中各位受试者的信息都是独立的,不会相互干扰。 假设4:研究设计必须满足:(a) 样本具有代表性,如本研究在高胆固醇、生活习惯差的人群中随机抽取150位受试者;(b) 目的分组,可以是前瞻性的,也可以是回顾性的,如本研究中将受试者随机分成3组,分别给予降胆固醇药物、饮食和运动干预。 假设5:样本量足够大,最小的样本量要求为分析中的任一预测频数大于5。 经分析,本研究数据符合假设1-4,那么应该如何检验假设5,并进行卡方检验(2×C)呢? 3、思维导图

显著性检验卡方检验等剖析

第十章 研究资料的整理与分析 本章学习目标: 1.理解量化资料整理与分析中的几个基本概念。 2.掌握几种常用的量化分析方法。 3.掌握质性资料的整理分析方法。 无论采用什么研究方法进行研究,都会搜集到大量的、杂乱的、复杂的研究资料。因此,对大量的、复杂的研究资料进行科学、合理的整理和分析,就成为教育科学研究活动的必不可少的一个环节。这一环节体现着研究者的洞见,是研究者对研究资料进行理性思维加工的过程。通过这一过程,产出研究结果。 根据研究资料的性质,研究资料可以分为质性研究资料和量化研究资料。对研究资料的整理和分析就相应的分为:质性研究资料的整理与分析和量化资料的整理与分析。 第一节 定量资料的整理与分析 一、定量资料分析中的几个基本概念 1.随机变量 在相同条件下进行试验或观察,其可能结果不止一个,而且事先无法确定,这类现象称为随机现象。表示随机现象中各种可能结果(事件)的变量就称为随机变量。教育研究中的变量,大多数都是随机变量。如身高、智商、学业测验分数等。 2.总体和样本 总体是具有某种或某些共同特征的研究对象的总和。样本是总体中抽出的部分个体,是直接观测和研究的对象。例如,要研究西安市5岁儿童的智力发展问题,西安市的5岁儿童就是研究的总体,从中抽取500名儿童,这500名儿童就成为研究的样本。 3.统计量和参数 统计量:反映样本数据分布特征的量称为统计量。例如:样本平均数、样本标准差、样本相关系数等,都属于统计量,它们分别用 表示。统计 量一般是根据样本数据直接计算而得出的。 参数:反映总体数据分布特征的量称为参数。例如:总体平均数、总体标准差、总体相关系数等。它们分别用ρσμ,,等符号来表示。总体参数常常需要根据样本统计量进行估计和推断。 4.描述统计与推断统计 描述统计是指对获得的杂乱的数据进行分类、整理和概括,以揭示一组数据

统计学例题_方差分析、相关分析、卡方检验和交互分析报告

第一章方差分析 例1、1977年,美国的某项调查从三种受过不同教育类型的妇女中各分别抽取了50位全日制工作的妇女 完成的学历年数收入平均值X (耳)Z(^x)2 初中(8年)X1 7.8 1835 高中(12年)X2 9.7 2442 大学(16年)X3 14.0 4707 解::顼=瓯x爲 :三组收入均值有显著差异 F = ,即组间均方/组内均方 SS^r ? df^ 其中,组间自由度地=3-1=2,组内自由度就戶50-1)X3=147 由于样本均值^-=(7.8+9.7+14.0)/3=10.5 所以组间偏差平方和=50=50*(+ + )=1009 组内偏差平方和= =1835+2442+4707=8984 1009/2 所以,F = B9B4/147 拒绝原假设;认为不同学历的妇女收入存在差异。 例2、月收入数据: 男:2500,2550,2050,2300,1900 女:2200,2300,1900,2000,1800 如果用Y表示收入,哑变量X表示性别(X=1为女性),计算Y对X的回归方程,并在5%的水平下检验收入是否与性别无关(先求回归系数的置信区间)。 根据最小二乘法,可知 VAR^2)=駆胡 脸:收入与性别无关 收入与性别不完全无关 ?8.2548419 > 爲常(2,147)=3.07 (1) 计算如下:

Y 2500 2550 2050 2300 1900 2200 2300 1900 2000 1800 X 0 0 0 0 0 1 1 1 1 1 240 290 -210 40 -360 160 260 -140 -40 -240 =2150 g =0.5 根据公式1,得恰=-220 ;為才?玄馳,即Y ^^-220X+llilj 根据公式2、3,得VAR()=点愿戯~ 156.3549577 n=10. , n-2=8 ;当 df=8 时,ig 卜=2.306 的0.05置信区间求解方法如下: 亠 b 曲—E'2 -2.036<= ------ <=2.306,得 140.57769. se(b 3) 由于原假设飓=0落入了这个置信区间,所以接受原假设,认为 加系数不显著,收入与性别 无关。 第二章相关分析 结婚时丈夫的年龄y 24 22 26 20 23 21 24 25 22 23 结婚时妻子的年龄x 24 18 25 22 20 23 19 24 23 22 2) 求总体相关系数 「的95%置信区间; 3)以5%的水平,检验“夫妻的结婚年龄之间没有什么线性联系”这一原假设 - - 13 由于=22, =23;= ?0.3426 1 V1440 ⑵ 由于 se( )= , n=10,df=8;扁忑=2.306,所以 se( )=0.332 0.342 6-p -2.036<= <=2.306 得 解:⑴ 1.062072

相关文档
最新文档