独立性检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

独立性检验
§1.2独立性检验的基本思想及其初步应用
课前热身
1.2×2列联表
(1)分类变量的定义
变量的不同“值”表示__________,像这样的变量称作分类变量.
(2)2×2列联表的定义
一般地取两个分类变量X和Y,它们的值域分别为__________和__________,其样本频数列联表(也称2×2列联表)为下表:
2.二维条形图
在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占比例__________,也可以估计满足X=x2的个体中具有Y=y1的个体所占比例为__________,两个比例的值相差越大,则两分类变量有关系的可靠程度越大.
3.K2统计量
为了消除样本量|ad-bc|的影响,统计学中引入下面的量K2=_____________________________________________________,
其中n=__________为样本容量.
4.独立性检验的定义及实施步骤
(1)独立性检验的定义
利用随机变量K2来确定是否能以给定把握认为“________________”的方法,称为两个分类变量的独立性检验.
(2)判断“__________________________”的方法有列联表法、__________及K2公式的计算.
名师讲解
一般地,假设两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表:
若要推断的论述为H1:“X与Y有关系”.
可以按如下步骤判断H1成立的可能性.
(1)通过二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.
在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占比例为a
a+b

也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例为c
c+d
,两个比例的值相差越大,H1成立的可能性就越大.
(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能
较精确地给出这种判断的可靠程度,具体的做法是:
根据数据代入公式K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
求出随机变量K2的观测值k,其值越大,说明X与Y有关系的可能性越大,当得到的观测数据a、b、c、d都不小于5时,可以得到以下结论用于确定X与Y的可信程度:
①如果k>10.828,有99.9%的把握认为X与Y有关系.
②如果k>7.879,就有99.5%的把握认为X与Y有关系.
③如果k>6.635,就有99%的把握认为X与Y有关系.
④如果k>5.024,就有97.5%的把握认为X与Y有关系.
⑤如果k>3.841,就有95%的把握认为X与Y有关系.
⑥如果k>2.706,就有90%的把握认为X与Y有关系.
⑦如果k≤2.706,就认为没有充分的证据显示X与Y有关系.
典例剖析
题型一概念辨析
例1在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()
A.如果K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病
C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推理出现错误
D.以上三种说法都不正确
误区警示题中所说的“有99%的把握认为吸烟与患肺病有关”是指统计上的关系,而不是因果关系,也不能认为99%是指某人患有肺病的概率.
变式训练1下列说法正确的个数为()
①对事件A与B的检验无关,说明两事件互不影响;
②事件A与事件B关系越密切,K2的值就越大;
③K2的大小是判断事件A与B是否相关的唯一数据;
④若判断两事件A与B相关,则A发生B一定发生.
A.1B.2C.3D.4
例2打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据,试问:每晚都打鼾与患心脏病有关吗?用图表分析.
变式训练2在500人身上试验某种血清预防感冒的作用,把一年中的记录与另外500个未用血清的人作比较,结果如下:
题型三利用K2公式进行独立性检验
例3在研究某种新措施对猪白痢的防治效果问题时,得到以下数据:
试问新措施对防治猪白痢是否有效果?
分析对于新措施对防治猪白痢是否有效果?可以计算K2的值与临界值进行比较,作出判断.
规律技巧虽然二维条形图也能判断新措施对防治猪白痢是否有效果,但不能给出它们关系这一结论的可靠程度,因而我们常用K2公式解答问题.
变式训练3调查者询问了72名大学生在购买食品时是否观看营养说明得到下表所示的数据,从表中数据分析看不看说明书与大学生的性别之间有没有关系.
题型四独立性检验的应用
例4下表是某地区的一种传染病与饮用水的调查表:
(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;
(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
变式训练4现有两种治疗运动员膝关节损伤的药方,为了比较两药方的疗效收集的数据如下表:
(2)哪种药方疗效好?
技能演练
基础强化
1.下列关于K2的说法正确的是()
A.K2在任何相互独立问题中都可以用来检验有关还是无关
B.K2的值越大,两个事件的相关性越大
C.K2是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合D.K2的观测值的计算公式为
K2=n(ad-bc)
(a+b)(c+d)(a+c)(b+d)
2.下面是一个2×2列联表
则表中a
A.94、96B.52、50 C.52、54 D.54、52 3.观察下列各图,其中两个分类变量x,y之间关系最强的是()
4.考察棉花种子经过处理跟生病之间的关系得到如下表数据:
A .种子经过处理跟是否生病有关
B .种子经过处理跟是否生病无关
C .种子是否经过处理决定是否生病
D .以上都是错误的 5.分类变量x 和y 的列联表如下,则( )
A.ad -bc C .(ad -bc )2越大,说明x 与y 的关系越强 D .(ad -bc )2越小,说明x 与y 的关系越强 6.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:
A .99%
B .95%
C .90%
D .无充分依据
7.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
k =50(13×20-10×7)220×30×23×27≈4.844,因为k >3.841,所以确定主修统计专业与性别有关系,
那么这种判断出错的可能性为__________.
8.某大学在研究性别与职称(分正教授,副教授)之间是否有关系,你认为应该收集的数据是__________.
能力提升
9.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅下表来确定断言“X 和Y有关系”的可信度.如果k>5.024,那么就有把握认为“X和Y有关系”的百分比为__________.
10
11.在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动,你能否判断性别与休闲方式是否有关系?
品味高考
12.(2010·新课标)为了调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
(1)
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮
助与性别有关;
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提
供帮助的老年人的比例?说明理由?
附:
K 2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )。

相关文档
最新文档