第二章 定性数据的卡方检验
《卡方检验正式》课件
卡方检验的结果可以直接解释为实际意义 ,例如,如果卡方值较大,则说明观察频 数与期望频数存在显著差异。
缺点
对数据要求高
卡方检验要求数据量较大,且各分类的期望频数不能太小,否则可能 导致结果不准确。
对离群值敏感
卡方检验对离群值比较敏感,离群值可能会对结果产生较大的影响。
无法处理缺失值
卡方检验无法处理含有缺失值的数据,如果数据中存在缺失值,需要 进行适当的处理。
案例二:市场研究中的卡方检验
总结词
市场研究中,卡方检验用于评估不同市 场细分或产品特征与消费者行为之间的 关联。
VS
详细描述
在市场研究中,卡方检验可以帮助研究者 了解消费者对不同品牌、产品或服务的偏 好。例如,通过比较不同年龄段消费者对 某品牌的选择比例,企业可以更好地制定 市场策略和产品定位。
案例三:社会调查中的卡方检验
小,表示两者之间的差异越小。通常根据卡方值的概率水平来判断差异
是否具有统计学显著性。
02
卡方检验的步骤
建立假设
假设1
观察频数与期望频数无显著差异
假设2
观察频数与期望频数有显著差异
收集数据
从样本数据中获取观察频数 确定期望频数,可以使用理论值或预期频数
制作交叉表
将收集到的数据整理成二维表格形式,行和列分别表示分类变量
卡方检验的基本思想
01
基于假设检验原理
卡方检验基于假设检验的原理,通过构建原假设和备择假设,利用观测
频数与期望频数的差异来评估原假设是否成立。
02
比较实际观测频数与期望频数
卡方检验的核心是比较实际观测频数与期望频数,通过卡方值的大小来
评估两者之间的差异程度。
03
卡方检验医学统计学
卡方检验医学统计学卡方检验是医学统计学中最常用的检验方法之一,它可用于测量两组数据之间的关联性。
在研究中,我们常常需要探究二者之间是否存在某种关联,卡方检验就是我们解决这个问题的利器。
卡方检验的原理卡方检验的原理是基于期望频数和实际频数的差异来检验两个变量之间的关系。
期望频数指的是在假设两个变量独立的情况下,我们可以根据样本量和其他条件,计算出不同组之间的理论值。
而实际频数则是实验中观察到的实际结果。
卡方检验的步骤如下:1.建立零假设和备择假设。
零假设指的是假设两个变量之间不存在任何关系,备择假设则是反之。
2.确定显著性水平 alpha,通常取值为0.05。
3.构建卡方检验统计量。
计算方法为将所有观察值与期望值的差平方后,再除以期望值的总和。
4.根据自由度和显著性水平,查卡方分布表得到 P 值。
5.如果 P 值小于显著性水平,拒绝零假设;否则无法拒绝零假设。
卡方检验的应用卡方检验可以应用于多个领域,其中医学统计学是最为常见的一个。
卡方检验可以用来分析两个疾病之间的相关性或者测量一种治疗方法的效果。
举个例子,某药厂要研发一种新的药物来治疗心脏病。
为了验证该药的疗效,实验组和对照组各50 人。
在 6 个月的治疗后,实验组和对照组中分别有 10 人和 15 人痊愈了。
卡方检验的作用就在于此时可以用来检验两组之间的差异是否具有统计学意义。
除了医学统计学之外,卡方检验在社会学、心理学、市场营销、物理等领域也都有广泛应用。
卡方检验的限制虽然卡方检验被广泛应用于各种实验和研究中,但它也有着自己的限制。
其中比较明显的一点就是对样本量有一定的要求。
当样本量较小的时候,期望频数的计算就会出现一定的误差,进而导致检验结果不准确。
此外,在面对非常态分布数据时,卡方检验也会出现问题。
当数据呈现正态分布时,卡方检验的准确性最高。
然而,实际上,很多数据都呈现出非正态分布,这时需要使用一些修正方法来解决。
卡方检验是医学统计学中最常用的统计方法之一,它可以用来测量两个变量之间的关联性。
定性数据分析——卡方检验
定性数据分析——卡方检验卡方检验(Chi-square test)是统计学中用于检验两个定性变量之间关联性的方法。
它可以帮助我们确定两个变量之间的差异是由于随机因素导致的还是由于真实的关联性。
卡方检验的基本原理是,通过比较实际观察到的频数与期望频数之间的差异来判断变量之间是否存在关联。
在卡方检验中,我们首先要计算期望频数,即假设两个变量之间没有关联时,我们预计每个组别内的频数应该是多少。
然后,我们计算实际观察到的频数与期望频数之间的差异,并将这些差异加总得到一个卡方值。
最后,我们将卡方值与自由度相结合,使用卡方分布表来确定检验结果是否具有统计学意义。
卡方检验可以分为两种类型:拟合优度检验(goodness-of-fit test)和独立性检验(independence test)。
拟合优度检验用于确定观察到的频数是否与预期的频数相匹配。
它在比较一个变量的分布与一个预先给定的理论分布之间的差异时非常有用。
例如,我们可以使用卡方检验来检验一个骰子是否公平,即骰子的六个面是否具有相等的概率。
独立性检验用于确定两个变量之间是否存在关联。
它可以帮助我们确定两个变量是否独立,即它们的分布是否相互独立。
例如,我们可以使用卡方检验来确定男性和女性之间是否存在偏好其中一种产品的差异。
在进行卡方检验时,我们需要满足一些前提条件。
首先,两个变量必须是独立的,即每个观察值只能属于一个组别。
其次,每个组别中的观察值必须相互独立。
最后,期望频数应该足够大,通常要求每个组别的期望频数大于5卡方检验的结果通常以p值的形式呈现。
p值表示观察到的差异是由于随机因素导致的可能性。
如果p值小于预先设定的显著性水平(通常为0.05),则我们可以拒绝原假设,即认为变量之间存在关联。
在实际应用中,卡方检验可以帮助我们解决许多问题。
例如,我们可以使用卡方检验来确定广告宣传对购买行为的影响,消费者对不同品牌的偏好程度,或者员工对不同工作条件的满意度。
医学统计学-卡方检验
卡方检验是一种常用的统计方法,用于比较观察值和期望值之间的差异。它 在医学研究中有着广泛的应用,可以帮助我们验证假设、推断总体特征以及 分析类别变量的相关性。
卡方检验的定义和原理
卡方检验是一种基于卡方分布的统计检验方法。它基于观察值与期望值之间 的差异来判断样本数据与理论分布的拟合程度。
卡方检验的局限性和注意事项
• 卡方检验只能验证分类变量之间的关联性,不能验证因果关系。 • 卡方检验对样本足够大和数据分类合理的要求比较严格。 • 卡方检验结果受样本选择和观察误差的影响,需要谨慎解释。 • 在进行卡方检验前,需要对数据进行充分的清洗和准备。
结论和要点
卡方检验是一种常用的统计方法
卡方检验的应用领域
医学研究
卡方检验可以用来分析疾病的发生与某个因素之间的关联性,如吸烟与肺癌。
社会科学
卡方检验可以用来研究不同人群之间的行模式和态度偏好,如性别与政治观点。
市场调研
卡方检验可以用来分析消费者的购买偏好和市场细分,如年龄与产品偏好。
卡方检验的假设和前提条件
1 独立性假设
卡方检验基于观察值和期望值之间的差异来验证两个变量之间是否存在独立性。
它可以帮助我们验证假设、推断总体特征以 及分析类别变量的相关性。
结果解读和意义
卡方检验的结果可以帮助我们了解变量之间 的关系,并为决策提供依据。
应用广泛
卡方检验在医学研究、社会科学和市场调研 等领域都有着重要的应用。
局限性和注意事项
卡方检验有一定的局限性,需要注意样本大 小和数据分类的合理性。
4
比较卡方值和临界值
判断卡方值是否大于临界值,从而做出关于拒绝或接受原假设的决策。
卡方检验的结果解读和意义
《卡方检验》课件
制作交叉表
确定交叉表的行列变量
根据研究目的和内容,选择合适的行列变量,构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表,以便于进行卡 方检验。
计算理论频数
确定期望频数
根据交叉表中的数据,结合各组 的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理 论频数,为后续的卡方检验提供 依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值,该 值反映了实际频数与理论频数的差异 程度。
自由度的确定
在计算卡方值时,需要确定自由度, 自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标,通常选择0.05或0.01作为显著性水 平。
判断显著性
根据卡方值和自由度,结合显著性水平判断卡方检验的结果是否显著,从而得 出结论。
3.84、6.63等),可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前,需要明确研究 的目的和假设,以便有针对性地收集 相关数据。
根据研究目的和内容,制定合适的调 查问卷或建立数据收集程序,确保数 据的完整性和准确性。
详细描述
例如,在市场调研中,我们可以通过卡方检验来分析不同年龄段、性别、职业等 人群对于某产品的态度或购买意愿是否有显著差异,从而为产品定位和营销策略 提供依据。
实际案例二:医学研究中的应用
总结词
在医学研究中,卡方检验常用于病例 对照研究和队列研究中的分类变量关 联性分析。
详细描述
例如,在病例对照研究中,我们可以 通过卡方检验来比较病例组和对照组 在某些基因型、生活方式或暴露因素 上的分布是否有统计学差异,从而探 讨病因或危险因素。
定性数据的分析——卡方检验
2 ) 理论频数计算公式
TRC
nR nC n
T频RC数表;示列联表中第R行第C列交叉格子的理论
nR表示该格子所在的第R行的合计数; nC表示该格子所在的第C列的合计数; n表示总例数。
例10-1 用磁场疗法治疗腰部扭挫伤患者 708人,其中有效673例。用同样疗法治 疗腰肌劳损患者347人,有效312例。观 察结果如表10-6所示。
χ2检验连续性校正公式为
2 ( A T 0.5)2 T
四格表χ2检验连续性校正公式*
2 ( ad bc 0.5n)2 n
(a b)(c d)(a c)(b d )
例10-4 某医生用复合氨基酸胶囊治疗肝硬 化病人,观察其对改善某实验室指标的 效果,见表10-7。
分组 B1
B2
合计
A1
a
b
a+b
A2
c
d
c+d
合计 a+c
b+d
a+b+c+d
案例1 治疗肺炎新药临床试验 用某新药治疗肺 炎病,并选取另一常规药作为对照药,治疗结果 如下:采用新药治100例,有效 60例;采用对照 药治40例,有效 30例。
试问:1) 列表描述临床试验结果;
2)两种药物疗效有无差别?
相应地此时率的标准误估计值按下式计算:
S p ˆ p
p(1 p) n
(10 2)
• 式中,Sp为率的标准误的估计值;p为样本率。
二、率的区间估计
总体率的点估计是计算样本的率,很简单, 但计算得到的样本率不等于总体率,它们 间存在差异。因此,我们还需要知道总体 率大概会在一个什么样的区间范围,即所 谓总体率的可信区间估计。
医学统计方法之卡方检验教学内容
1、建立检验假设并确定检验水准 H0:π1=π2 ,即试验组与对照组的总体有效率相等 H1 :π1≠π2 ,即试验组与对照组的总体有效率不等 α=0.05 2、计算检验统计量
T1147404125.8
T1247420918.2
T2127604115.2 T2227620910.8
用基本公式计算卡方值:
2
2
3.62
(25)2( 69)2(2)65(9)
3、查界值表,确定P值,做出推断结论
自由度=1, Χ20.05(1)=3.84, Χ2< Χ20.05(1), 所以 , P>0.05,在α=0.05的检验水准下,不拒绝H0,说明四年 级与五年级学生近视眼患病率差别没有统计学意义,可 认为尚未发现四年级与五年级学生近视眼患病率有显著 性差异。
2 连续性校正仅用于 1的 四格表资料,当 2 时,一般不 作校正。
例8.2 某医学院抽样调查大学四年级和五年级学生近视 眼患病情况,四年级学生的近视率为7.14%,五年级学 生的近视率为35.71%,调查结果见下表,试问该大学四 年级与五年级学生的近视眼患病率是否一样?
表8-2 两个年级大学生的近视眼患病率比较
组别
有效 无效 合计 有效率(%)
西药组
51
49 100
51.00
中药组
35
45
80
43.75
合计
86
94 180
47.78
1、建立检验假设并确定检验水准
H0:西药与中药治疗肝炎的有效率相同; H1 :西药与中药治疗肝炎的有效率的有效率不同; α’=0.05/3=0.017
2、计算检验统计量
2 1 8 0 (5 1 2 4 9 2 3 5 24 5 2 1 ) 0 .9 4 1 0 0 8 61 0 0 9 48 0 8 68 0 9 4
《卡方检验方法》ppt课件
在υ=1, 02.05,1u02.05/21.962
自在度一定时,P值越小, x2值越大, 反比关系。
当P 值一定时,自在度越大, x2越大。
=1时, P=0.05, x2 =3.84
P=0.01, x2 =6.63
P=0.05时, =1, x2 =3.84
=2, x2 =5.99
第一节 四格表资料χ2检验
2
0 2 , 1,2,3,...
2分布是一种延续型分布(Continuous
distribution),v 个相互独立的规范正态变量
(standard normal variable)
ui(i1,2, 的,)平
方和称为 2 变量,其分布即为 2 分布;自
在度(degree of freedom)为v 。
普通四格表的根本方式
B1
B2
合计
A1
a
b
a+b
A2
c
d
c+d
合计 a+c b+d n=a+b+c+d
表7-1 完全随机设计两样本率比较的四格表
处置组
属性
阳性
阴性
合计
1
A11 (T11) A12 (T12) n1(固定值)
2
A21 (T21) A22 (T22) n2(固定值)
合计
m1
m2
n
四格表2检验的公用公式
7
36
28
37
35
73
阳性率 〔%〕 80.56
24.32
52.05
2检验(Chi-square test)是现代统计学的 开创人之一,英国人K . Pearson〔 1857-1936〕于1900年提出的一种具有 广泛用途的统计方法。
统计学方法 卡方检验
统计学方法卡方检验
卡方检验是一种统计学方法,主要用于分类变量分析,包括两个率或两个构成比的比较、多个率或多个构成比的比较以及分类资料的相关分析等。
具体步骤如下:
首先,观察实际观测值和理论推断值的偏离程度,此处的理论值可以是预期的发生频率或概率。
实际观测值与理论推断值之间的偏离程度决定了卡方值的大小。
如果卡方值越大,说明实际观测值与理论值之间的差异越大;反之,则差异越小。
如果两个值完全相等,卡方值就是0,这表明理论值完全符合实际观测值。
此外,在没有其他限定条件或说明时,卡方检验通常指的是皮尔森卡方检验。
在进行卡方检验时,研究人员通常会将观察量的值划分成若干互斥的分类,并尝试用一套理论(或零假设)去解释观察量的值落入不同分类的概率分布模型。
卡方检验的目的就在于衡量这个假设对观察结果所反映的程度。
卡方检验
浙江大学医学院流行病与卫生统计学教研室
沈毅
卡方检验基础
2值的计算:
( A E) E
供了完整的支持,此处只涉及两分类变量间关联程度的指
标,更系统的相关程度指标见相关与回归一章。
浙江大学医学院流行病与卫生统计学教研室
沈毅
两分类变量间关联程度的度量
相对危险度RR:是一个概率的比值,指试验组人群反应阳性概率 与对照组人群反应阳性概率的比值。数值为1,表明试验因素与
反应阳性无关联;小于1时,表明试验因素导致反应阳性的发生
小 结
3.Kappa一致性检验对两种方法结果的一致
程度进行评价;配对检验则用于分析两种
分类方法的分类结果是否有差异。
浙江大学医学院流行病与卫生统计学教研室
沈毅
小 结 4.分层卡方检验是把研究对象分解成不同层次,按 各层对象来进行行变量与列变量的独立性研究。可 在去除分层因素下更准确地对行列变量的独立性进
浙江大学医学院流行病与卫生统计学教研室 沈毅
小 结
2.关联程度的测量:卡方检验从定性的角度分析是否存在 相关,而各种关联指标从定量的角度分析相关的程度大小。 不同的指标适合不同类型的变量。 RR值是一个概率的比值,是指试验组人群反应阳性概率与 对照组人群反应概率的比值。用于反映试验因素与反应阳 性的关联程度。 OR值是比值的比。是反应阳性人群中试验因素有无的比例 与反应阴性人群中试验因素有无的比例之比。在下列两个 条件均满足时,可用于估计RR值:①所关注的事件发生概 率比较小(<0.1),②所设计的研究是病例对照研究。 浙江大学医学院流行病与卫生统计学教研室 沈毅
数据分析知识:数据分析中的卡方检验流程
数据分析知识:数据分析中的卡方检验流程卡方检验是统计学中一种常用的假设检验方法,它适用于分析两个变量之间的关系以及检验两个分布之间的差异。
本文将详细介绍卡方检验的流程以及应用场景。
一、卡方检验的基本概念卡方检验是基于卡方分布的检验方法,首先需要了解卡方分布。
卡方分布是统计学中常用的概率分布,是由自由度为n的n个独立标准正态分布随机变量平方和所组成的随机变量的分布。
卡方检验是通过计算观察值与期望值之间的差异来检验数据之间是否存在相关性或差异。
这里的观察值指的是实际观测到的数据,期望值则是通过假设检验得到的预测值。
当观察值与期望值之间的差异越大,就说明两个变量之间的相关性或差异越显著。
卡方检验分为拟合优度检验和独立性检验两种类型。
拟合优度检验用于检验样本分布是否符合某个已知的理论分布,而独立性检验则用于检验两个变量之间是否存在关联。
二、卡方检验的流程卡方检验的流程通常分为以下五个步骤:1.建立假设在进行卡方检验之前,需要明确所要检验的假设。
一般情况下,研究人员提出两个假设:原假设和备择假设。
原假设通常是指不存在差异或关联,备择假设则是指存在差异或关联。
例如,在研究男女生育率是否存在差异时,原假设可以设为男女生育率相同,备择假设可以设为男女生育率存在差异。
2.计算卡方值计算卡方值是卡方检验的核心内容。
卡方值通常通过以下公式计算:![image.png](attachment:image.png)其中,O为观察值,E为期望值,n为数据总量,k为自由度。
自由度的计算公式为(r-1)*(c-1),其中r表示行数,c表示列数,代表每个分类变量在计算期望值时可以独立取值的数量。
具体而言,在研究男女生育率是否存在差异的例子中,可以将数据按照男女分类,列出如下的交叉表:![image-2.png](attachment:image-2.png)假设男性生育率的期望比例为50%,女性生育率的期望比例也为50%,那么期望频数可以通过以下公式计算:期望频数=总频数*期望比例男性生育率的期望频数为1000 * 0.5 = 500,女性生育率的期望频数也为500。
定性资料的比较(2011.9)
4 四格表卡方值的校正
• 当样本量在一定范围内,当卡方值大于 等于3.84时,其对应的概率会略大于5%,用 于假设检验时, I型错误的概率超过5%,故 提出校正: ( A − T − 0.5) 2 2 χ =∑ T • 式中的0.5为连续性校正数.
2011-9-28 21
5 四格表专用公式适用条件
12
• 例:某小学男女蛔虫的感染率如下表,试判断男女蛔虫 感染率是否有差别? 某小学男女蛔虫感染率的比较 性别 虫卵阳性人数 阴性人数 合计 感染率(%) 男 23(17.45) 57(62.55) 80 28.75 女 13(18.55) 72(66.45) 85 15.29 合计 36 129 165 21.82
2011-9-28 15
卡方分布
• • • • 统计学中的几种主要分布: 正态分布、标准正态分布(U分布) t 分布 F分布
• Χ2分布 • 卡方值与U值关系:卡方值为U值的 平方,是一个与自由度有关的分布.(图形)
2011-9-28 16
χ2分布(chi-square distribution)
6 四格表确切பைடு நூலகம்率法
• 四格表资料 中,如果n<40,或有理论数小 于1,传统的方法是改用四格表的确切概率 法. • 确切概率法的原理 由四格表中资料,计算各种情况的精 确的概率后,与检验水准比较进行判断.
2011-9-28
26
四格表资料的Fisher确切概率 法
• 当n<40,T<1 Fisher确切概率法 • 由R.A.Fisher提出(1934年) • 其理论依据是超几何分布,并非χ2检验 的范畴 • 实际应用中常用它作为四格表资料假设 检验的补充
• H0 :男女生蛔虫感染率相同 • 根据这一假设,可算出男女合计的感 染率为:21.82%,80名男生“假如按这一 感染率感染蛔虫”,则理论上虫卵阳性人 数应为80*21.82%=17.45(人) • 同理可计算出女生虫卵阳性的人数的理 论数为85*21.82%=18.55(人) • 同时算出阴性感染的理论人数,则得到 了公式中的理论值“T”
医学统计学课件卡方检验
队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。
第二章定性数据卡方检验
【例2.1.1】某超市为了研究顾客对三种品牌矿泉水的喜好比例, 以便为下一次进货提供决策,随机观察了150名购买者,并记录下 他们所买的品牌,统计出购买三种品牌的人数,如下表:
顾客购买喜好调查
品牌
甲
乙
丙
人数
61
53
36
这些数据是否能够说明顾客对这三种矿泉水的喜好确实存在差异?
为了解决这个问题,我们需要知道这些分类分布。由于该问题有
据两种分类准则对样本实体进行交叉分类。 在进行一致性检验时,我们先把两个或多个感兴趣的总体等同起来,
并从每一个总体各抽选一个样本,然后将这些样本的实体放到一个感兴 趣变量的各种不同类目中去。 2、推算预期频数时的根据不同以及对结果的解释不同
在列联表分析中,推算预期频数的根据是n个独立事件协同出现的概 率。
甲、乙、丙三类,所以,这个分布称为多项概率分布,简称多项分布。
多项分布是二项分布的推广,可以看成是多项试验得到的分布。
多项试验有如下一些性质:
1. 多试验由n个相同的试验所组成。
2. 每个试验的结果落在k组的某一组中。
3. 某个试验的结构落在某一特定组,比如说组i中的概率为
k
pi(i1,2,..k.),且在试验之间保持不变,且有 p i 1 。
致的。可以利用一致性的 2检验法来检验这一零假设。
具体做法是:从我们感兴趣的若干个总体中各抽一个随机样本,并确 定每个样本中落在每一个感兴趣的类目中的受试验对象数。这一样本 数据可列成如下表的列联表。
一致性检验与独立性检验之间是有差别的:
1、所用的抽样程序不同 在做独立性检验时,典型的抽样程序是从一个总体抽出本,然后根
En11
En12
En23
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【例2.3.1】一个广告公司想知道n组年龄不同的人所喜欢的电视节目是否 不同。他们在不同年龄的三组人中各抽选了一个随机样本,并请求样本中 的每一个人回答在三类电视节目中他或她喜欢哪一类。调查结果在下表, 括号内是预期频数。
表中的预期频数是运用一致性检验中的推理根据算出来的。
如果就对节目的喜欢来说三个被抽样总体是一致的,则在每一个年
于A j和Bi 的个体数目为 nij (i 1,2,..., r; j 1,2,..., c) 。下表通常称为列联
表(contineency table)。
LOGO
类似地,对应上表的r×c列联表的多项概率分布见下表:
LOGO
表中pij称为同时属于Bi和Aj类的概率(i=1,2,…,r;j=1,2,…, c),通常称为联合概率。在表的最后一行中,相应的概率p.j,为以特性A 分类的一向多项概率分布,通常称为边际概率分布。同样地,在表的最后 一列中,相应的概率pi.(i=1,2,…,r)也是边际概率。 【例2.2.1 】一个建筑装饰公司对一个城市三个地区的乔迁居民喜好地板的 比例感兴趣,目的是决定对这些地区应采取何种营销策略。这个公司的调 研部进行了一项调查,结果见下表:
比如说,若干组不同年龄的人对某种社会保障政策是否具有同样的态 度;不同社会经济背景的顾客购买某种商品的理由是否不同;若干组不同 年龄的人是否具有同样的看电视的嗜好。
用假设检验来表述上述问题,即我们感兴趣的零假设是H0,就受试验 对象落人某种分类准则的若干类目或水平之中的比例而言,若干总体是一
致的。可以利用一致性的 2检验法来检验这一零假设。
LOGO
具体做法是:从我们感兴趣的若干个总体中各抽一个随机样本,并确 定每个样本中落在每一个联表。
LOGO
一致性检验与独立性检验之间是有差别的:
1、所用的抽样程序不同 在做独立性检验时,典型的抽样程序是从一个总体抽出本,然后根
据两种分类准则对样本实体进行交叉分类。 在进行一致性检验时,我们先把两个或多个感兴趣的总体等同起来,
【例2.1.1】某超市为了研究顾客对三种品牌矿泉水的喜好比例, 以便为下一次进货提供决策,随机观察了150名购买者,并记录下 他们所买的品牌,统计出购买三种品牌的人数,如下表:
顾客购买喜好调查
品牌
甲
乙
丙
人数
61
53
36
这些数据是否能够说明顾客对这三种矿泉水的喜好确实存在差异
?
LOGO
为了解决这个问题,我们需要知道这些分类分布。由于该问题有
50
50
50
矿泉由水于的喜好=6确.5实2>存5.在99差1异,。因此拒绝零假设。即认为顾客对这L三O种G品O牌
SPSS演示
数据录入
设计表格
录入数据
数据分析
LOGO
输出结果:
可以看出 2 =6.520,P值(Sig)yl 0.038小于α=0.05与以上计算结LO果G一O致.
2.2 列联表分析
74.74
114 .7
21.14
=6.4849
再次,给定显著性水平α,查临界值:2 (r 1)(c 1)
查表得:
2 0.05
5.991
最后,进行决策:有充分理由拒绝H0。
LOGO
SPSS演示
设计表格 录入数据
数据分析
LOGO
LOGO
输出结果
前一表中列出了每一类的观察频数和估计的期望频数,与前面结果基本一
甲、乙、丙三类,所以,这个分布称为多项概率分布,简称多项分布。
多项分布是二项分布的推广,可以看成是多项试验得到的分布。
多项试验有如下一些性质:
1. 多试验由n个相同的试验所组成。
2. 每个试验的结果落在k组的某一组中。
3. 某个试验的结构落在某一特定组,比如说组i中的概率为
k
pi (i 1,2,..., k)且在试验之间保持不变,且有 pi 1 。
4. 试验是独立的。
i 1
5. 实验者关心 n1, n2 ,..., nk , ni (i 1,2,..., k ) 这里n1 n2 ... nk n
等于试验结果落在组 i 中的数目。注意:
在多项实验中,当k=2时,就得到二项试验。
在大多数实际情况中,k个可能结果的概率 p1, p2 ,..., pk通常是未
并从每一个总体各抽选一个样本,然后将这些样本的实体放到一个感兴 趣变量的各种不同类目中去。 2、推算预期频数时的根据不同以及对结果的解释不同
在列联表分析中,推算预期频数的根据是n个独立事件协同出现的概 率。
对于一致性检验,推算预期频数的根据是建立在这样一个假定的基 础上的:如果n个被抽样总体是一致的,我们就能通过将n个适当的样本 联合起来的方法,来求得某一给定总体的某个个体落在感兴趣变量的某 一给定类目中的概率的最佳估计值。
LOGO
多项分布与 2 检验
收集分类数据的目的是分析在各个类中数据的分布。 例如,我们为了估计消费者中喜欢三种牙膏中每一种的比例, 则统计购买这三种品牌牙膏的顾客购买每一种的人数。在这里仅仅 是根据牙膏的种类来分类,我们称之为一维分类或一向分类。而顾 客的投资倾向与职业的关系中,分类是按投资倾向和职业两个方向 进行分类,我们称之为二向分类或列联表。
H0成立,则A与B独立,于是P(A|B)=P(A)·P(B),而P(A)=P.1,P(B)=P1.,
从而H0成立,必须有P11=P1.·P.1;同理有P12=P1.·P.2,P21=P.2·P.1,等等,
故H0可表达成: H0:pij=pi.·p.j i=1,2;j=1,2,3 H1:上述等式至少有一个不成立
第二章 定性数据的 2 检验
➢ 2.1 多项分布与 2 检验 ➢ 2.2 列联表分析 ➢ 2.3 一致性检验 ➢ 2.4 拟合优度检验
LOGO
2.1 多项分布与 2 检验
问题的提出
在各个研究领域中,有些研究问题只能划分为不同性质的类别, 各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、 工人……,教师职称又分为教授、副教授、……。有时虽有量的关系 ,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、 能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为 优良中差,喜欢与不喜欢等少数几个等级。
n1 502 n2 502 n3 502
50
50
50
如果 2 值很大,则有理由拒绝H0,故拒绝域为:
由假设检验的一般原理知,c的值可由给定的显著性水平α确定
即c满足:
p 2 c
为了解出c,我们必须知道检验统计量的抽样分布。
LOGO
关于统计量的分布,英国统计学家Karl Pearson于1900年得到下面
对例1来说,我们希望去检验顾客对这三种品牌的矿泉水的喜好是否确 实存在差异,可以考虑检验零假设为对三种品牌的喜好没有差异,对立
假设为对三种品牌的喜好确实有差异。如果令:
p1=所有顾客中喜欢品牌甲的比例 p2=所有顾客中喜欢品牌乙的比例 p3=所有顾客中喜欢品牌丙的比例
LOGO
则我们所要检验的假设为:
知的,我们的目的就是要对它们进行判断。
LOGO
2 检验
基本思想:实际频数与理论频数的符合程度,即差别是否由抽样误差引起 的。 用途:分类计数资料的假设检验,检验两个或多个总体率或构成比有无差
别。
H0(无效假设):总体参数没有差别
检验统计量:
2
k i 1
ni
Eni 2 Eni
其次,根据前面分类数据的频数和期望频数计算 2统计量:
2
n11
^
E
n11
2
^
n12
^
E
n12
2
^
n23
^
^
E
n23
2
En11
En12
En23
2 69 74.742 126 114 .72 27 21.142
问卷调查中常常设计对某问题两个或多个不同特征的分类。 例如产商考虑顾客选择房子设计的类型与职业的关系,所调查的每 个顾客都有两个特性,一个是选择的房子类型,另一个是职业;例如广 告公司为了调查城市和乡村的观众对电视广告的关注情况,每位被调查 者都有两个特性,一个是来自城市还是乡村,另一个是对广告的态度。 在这些例子中我们通常关心的是按照两个特性进行的分类的方法之 间是否相互依赖,或者说是否相互独立。如房地产商关心的是顾客选择 房子的类型是否与职业无关,或者说选择何种房子与职业独立。在观众 对电视广告的关注情况的调查中,感兴趣的是每个观众对电视广告的关 注情况是否与他来自城市还是农村独立。 类似这样的问题都可用下表来刻画,特性A有c类,特性B有r类,属
龄小组中,喜欢A类节目者的真正比例的最佳估计值应为140/400=0.35
一般要求n应较大,使得每一类中的期望值个数不少于5。由Pearson
定理知,当n充分大时, 2 ~ 2 (k-1),从而:
c 2 k 1
对例1来说,k=3,当α=0.05时,2(k-1)=
2 0.05
=5.991。
2 61 502 53 502 36 502 6.52
同理:
^
E n12
n1. n.2 n
...
^
E n23
n2. n.3 n
根据样本观察数据,得到:
^
E n11
n1. n.1 n
69 1261669 78 74.74
415
LOGO
根据样本观察数据,得到每一类观察频数和期望频数如下表: