(新)高中数学第一章统计案例1_1独立性检验卡方检验素材新人教B版选修1-21
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
χ
检验
(一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2
χ检验。
(1) 四格表2
χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2
χ检验。 3. 行⨯列表的2
χ检验。 (二) 熟悉内容
频数分布拟合优度的2
χ检验。 (三) 了解内容 1.2
χ分布的图形。
2.四格表的确切概率法。
(一) 2χ检验的用途
2χ检验(Chi-square test )用途较广,主要用途如下:
1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2
χ检验的基本思想
1.2
χ检验的基本思想是以2
χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2
χ值不应该很大,若实际计算出的2
χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。
2. 基本公式:()∑
-=
T
T A 2
2
χ,A 为实际频数(Actual Frequency ),T 为理论频数
(Theoretical Frequency )。四格表2
χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2
χ值是一致的。
(三)率的抽样误差与可信区间 1.率的抽样误差与标准误
样本率与总体率之间存在抽样误差,其度量方法:
n
p )
1(ππσ-=
,π为总体率,或 (8-1)
n
p p S p )
1(-=
, p 为样本率; (8-2)
2.总体率的可信区间
当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。 总体率的可信区间:(p p S u p S u p ⨯+⨯-2/2/,αα)。 (8-3) (四)2
χ检验的基本计算
见表8-1。
表8-1 2
χ检验的用途、假设的设立及基本计算公式
资料形式 用途 0H 、1H 的设立与计算公式
自由度 四格表
①独立资料两 样本率的比较
②配对资料两 样本率的比较
0H :两总体率相等 1H :两总体率不等
①专用公式
))()()(()(22
d b c a d c b a n
bc ad ++++-=χ
②当n ≥40但1≤T<5时,校正公式
)
)()()(()2/(2
2
d b c a d c b a n n bc ad ++++--=
χ ③配对设计c
b c b +--=
2
2
)1(χ
1
R ⨯C 表
①多个样本率、 构成比的比较
②两个变量之 间关联性分析 0H :多个总体率(构成比)相等
(0H :两种属性间存在关联)
1H :多个总体率(构成比)不全相等 (0H :两种属性间存在关联)
)1(
2
2
-=∑
C
R n n A n χ
(R-1)(C-1)
频数分布表
频数分布的拟合优度检验
0H :资料服从某已知的理论分布 1H :资料不服从某已知的理论分布
∑
-T
T A 2
)(
据频数表的组数而定
(五)四格表的确切概率法
当四格表有理论数小于1或n <40时,宜用四格表的确切概率法。
(六)2χ检验的应用条件及注意事项
1.分析四格表资料时,应注意连续性校正的问题,当1
2
χ检验;T ≤1,或n ≤40时,用Fisher 精确概率法。
2.对于R ⨯C 表资料应注意以下两点:
(1)理论频数不宜太小,一般要求:理论频数<5的格子数不应超过全部格子的1/5; (2)注意考察是否有有序变量存在。对于单向有序R ⨯C 表资料,当指标分组变量是有序的时,宜用秩和检验;对于双向有序且属性不同的R ⨯C 表资料,若希望弄清两有序变量之间是否存在线性相关关系或存在线性变化趋势,应选用定性资料的相关分析或线性趋势检验;对于双向有序且属性相同的R ⨯C 表资料,为考察两种方法检测的一致性,应选用Kappa 检验。
典型试题分析
(一)单项选择题
1.下列哪项检验不适用2
χ检验( )
A . 两样本均数的比较
B . 两样本率的比较
C . 多个样本构成比的比较
D . 拟合优度检验 答案:A
[评析] 本题考点:2
χ检验的主要用途。2
χ检验不能用于均数差别的比较。 2.分析四格表时,通常在什么情况下需用Fisher 精确概率法( )
A .1
B .T <5
C .T 1≤或n 40≤
D .T 1≤或n 100≤ 答案: C
[评析] 本题考点:对于四格表,当T 1≤或n 40≤时,不宜用2
χ检验,应用Fisher 精确概率法。
3.2
χ值的取值范围为
A .∞-<2
χ<∞+ B .+∞≤≤2
0χ C .12
≤χ D .02
≤≤∞-χ
答案: B
[评析]根据2χ分布的图形或2χ的基本公式可以判断2
χ值一定是大于等于零且没有上界的,故应选B 。
(二)是非题 两样本率的比较可以采用2
χ检验,也可以采用双侧u 检验。 答案:正确。
[评析]就两个样本率的比较而言,双侧u 检验与2
χ检验是等价的。 (三)简答题
1.四格表的2
χ检验和u 检验有何联系与区别?
答案:相同点:凡是能用u 检验进行的两个率比较检验的资料,都可用2
χ检验,两者是等价的,即2
2
χ=u ;相异点:(1)u 检验可进行单侧检验;(2)满足四格表u 检验的资料,
计算两个率之差的可信区间,可从专业上判断两率之差有无实际意义;(3)2
χ检验可用于2⨯2列联表资料有无关联的检验。
2.R ⨯C 表2
χ检验的适用条件及当条件不满足时可以考虑的处理方法是什么? 答案:R ⨯C 表2χ检验的适用条件是理论频数不宜过小,否则有可能产生偏性。当条件不满足时有三种处理方法:①增大样本例数使理论频数变大;②删去理论数太小的行或列;③将理论数太小的行或列与性质相近的邻行或邻列合并,使重新计算的理论频数变大。但②、③法都可能会损失信息或损害样本的随机性,因此应慎用。
(四)计算题
1.为研究静脉曲张是否与肥胖有关,观察122对同胞兄弟,每对同胞兄弟中有一个属肥胖,另一个属正常体重,记录得静脉曲张发生情况见表8-2,试分析之。
表8-2 122对同胞兄弟静脉曲张发生情况
正常体重 肥胖
合计 发生 未发生 发 生
19 5 24 未发生 12 86 98 合 计
31 91
122
[评析]这是一个配对设计的资料,因此用配对2
χ检验公式计算。 H 0:肥胖者与正常体重者的静脉曲张发生情况无差别 H 1:肥胖者与正常体重者的静脉曲张发生情况不同 05.0=α c
b c b +--=
2
2)1(χ=
()12.212
511252
=+--,1=ν
2χ=2.11<2
1,05.0χ,P >0.05,尚不能认为静脉曲张与肥胖有关。
2.某卫生防疫站在中小学观察三种矫正近视眼措施的效果,近期疗效数据见表8-3。试对这三种措施的疗效作出评价。