独立性检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.2 独立性检验的基本思想及其初步应用
1.掌握2×2列联表的独立性检验,能利用给出的数据列出列联表并会 求K2的观测值. 2.了解独立性检验的基本思想和方法.
1.本节课的重点是理解独立性检验的基本思想及实施步骤. 2.本节课的难点是了解随机变量K2的含义和根据K2的值得出结论的意 义.
1.分类变量 变量的不同“值”表示个体所属的___不_同_类,别像这样的变量 称为分类变量. 2.列联表 (1)定义:列出的两个分类变量的___频_数,表称为列联表.
2.独立性检验与反证法的异同点 独立性检验的思想来自于统计学的假设检验思想,它与反证法类似, 假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“ 矛盾”来断定结论是否成立.但二者“矛盾”的含义不同,反证法中 的“矛盾”是指不符合逻辑的事件的发生;而假设检验中的“矛盾” 是指不符合逻辑的小概率事件的发生,即在结论不成立的假设下,推 出利用结论成立的小概率事件的发生.
等高条形图的应用
【技法点拨】
1.判断两个分类变量是否有关系的两个常用方法
(1)利用数形结合思想,借助等高条形图来判断两个分类变量
是否相关是判断变量相关的常见方法.
(2)一般地,在等高条形图中, 与a 类变量有关系的可能性就越大. a b
相c差越大,两个分 cd
2.利用等高条形图判断两个分类变量是否相关的步骤
分类变量有关系”.
wk.baidu.com
【典例训练】 1.(2012·武汉高二检测)在独立性检验中,若随机变量K2的观测值 k≥6.635,则( ) (A)X与Y有关系,犯错的概率不超过1% (B)X与Y有关系,犯错的概率超过1% (C)X与Y没有关系,犯错的概率不超过1% (D)X与Y没有关系,犯错的概率超过1%
【归纳】等高条形图的作法及作用小结. 提示:1.首先作2×2列联表,注意对涉及的变量分清类别;其次要注意 计算的准确性;第三画等高条形图,注意各变量的顺序与所画位置. 2.通过等高条形图可以粗略地判断两个分类变量是否有关系,但无法 精确地给出所得结论的可靠程度.
独立性检验 【技法点拨】
解决一般的独立性检验问题的步骤
(2)公式:K2=
n(ad bc)2 .其中n=___a_+_b+.c+d
__(a_ b_)(_c _d)_(a_ c_)(_b d)
1.在独立性检验中,计算得k=29.78,在判断变量相关时, P(K2≥6.635)≈0.01的含义是什么? 提示:P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的 前提下认为两个变量相关.
2.作列联表如下:
考前心情紧张 考前心情不紧张
总计
性格内向 332 94 426
性格外向 213 381 594
总计 545 475 1 020
相应的等高条形图如图所示,
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例 ,从图中可以看出,考前紧张的样本中性格内向占的比例比考前心情 不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有 关.
2.列联表中|ad-bc|的值与两个分类变量之间相关的强弱有什么关 系? 提示:在列联表中,若两个分类变量没有关系,则|ad-bc| ≈0,所以|ad-bc|的值越小,两个分类变量之间的关系越弱;| ad-bc|的值越大,两个分类变量之间的关系越强.
3.作散点图的主要目的是_______. 【解析】散点图可以形象地展示两个变量之间的关系,所以它的主要 目的就是直观了解两个变量之间的关系. 答案:直观了解两个变量之间的关系
2.某学校对高三学生进行了一项调查发现:在平时的模拟考试中,性 格内向的学生426人中有332人在考前心情紧张,性格外向的学生594 人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心 情紧张与性格类别是否有关系. 【解析】1.比较来说,两者差距较大,在“有酒精”和“无酒精”两 个矩形中,阴影部分的面积不同,由此可以看出在某种程度上认为血 液中含有酒精与对事故负有责任有关系.
4.若由一个2×2列联表中的数据计算得K2的观测值k=4.013,则认为“ 两个变量有关系”犯错误的概率不超过_______. 【解析】∵P(K2≥3.841)≈0.05, ∴认为“两个变量有关系”犯错误的概率不超过0.05. 答案:0.05
1.对于“分类变量”的理解 (1)这里的“变量”和“值”都应作为“广义”的变量和值进行理解. 例如,对于性别变量,其取值为男和女两种.那么这里的变量指的是 性别,同样这里的“值”指的是“男”和“女”.因此,这里所说的 “变量”和“值”不一定取的是具体的数值.
【典例训练】 1.从发生交通事故的司机中抽取2 000名司机作随机样本,根据他们血 液中是否含有酒精以及他们是否对事故负有责任将数据整理如下:
有酒精 无酒精
总计
有责任 650 700
1 350
无责任 150 500 650
总计 800 1 200 2 000
相应的等高条形图如图所示.试结合等高条形图分析血液中含有酒精 与对事故负有责任是否有关系.
(2)2×2列联表: 一般地,假设两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2}, 其样本频数列联表(称2×2列联表)为
y1
x1
a
x2
c
总计 a+c
y2
总计
b
a+b
d
c+d
b+d a+b+c+d
3.独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的
方法称为两个分类变量的独立性检验.
3.判断两个分类变量是否有关系的两种方法比较 判断两个分类变量是否有关系的两种方法是:等高条形图和独立性检 验. (1)通过等高条形图,可以粗略地判断两个分类变量是否有关系,但 是这种判断无法精确地给出所得结论的可靠程度. (2)利用独立性检验来判断两个分类变量是否有关系,能够精确地给 出这种判断的可靠程度,也常与图形分析法结合.
确定 求值  判断
通过列联表确定a,b,c,d,n的值;根据实际 问题需要的可信程度确定临界值k0;
利用 K2=
n(ad-bc) 2
(a+b)(c+d)(a+c)(b+d)
, 求出K2的观测值k;
如果k≥k0,就推断“两个分类变量有关系”, 这种推断犯错误的概率不超过α,否则就认为在
犯错误的概率不超过α的前提下不能推断“两个
相关文档
最新文档