统计案例-独立性检验及其初步应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
独立性检验的基本思想及其初步应用
知识点
1.与列联表相关的概念
(1)分类变量:变量的不同“值”表示个体所属的不同类型,像这样的变量称为分类变量. (2)列联表:
①列出的两个分类变量的频数表, 称为列联表.
①一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:
y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计
a +c
b +d
a +
b +
c +d
在2×2列联表中,如果两个分类变量没有关系,则应满足ad -bc ≈0, 因此|ad -bc |越小, 关系越弱; |ad -bc |越大, 关系越强. 2.等高条形图
将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图。
等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响, 常用等高条形图展示列表数据的频率特征. 列联表和等高条形图的优劣:
列联表可以准确掌握总体中各部分的频率,但是需要计算;
等高条形图可以比较各个部分之间的差异,明确展现两个分类变量的关系。 3.独立性检验的基本思想
(1)定义:利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)公式:K 2=
n ad -bc 2a +b
c +
d a +c
b +d
,其中n =a +b +c +d 为样本容量.用它的大小可以用
来决定是否拒绝原来的统计假设0H .如果K 2的值较大,就拒绝0H ,即认为A 与B 是有关的.
注:独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.
4.独立性检验的步骤:
(1)确定分类变量,获取样本频数,得到列联表.
(2) 利用公式K2=
n ad-bc2
a+b c+d a+c b+d计算随机变量K
2的观测值k0.
(3) 根据实际问题的需要推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
(4)作出判断.如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误
的概率不超过α的前提下不能推断“X与Y的关系”。
常见的临界值表为:
P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828
题型一等高条形图的应用
【例1】为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别阳性数阴性数总计
铅中毒病人29736
对照组92837
总计383573
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色
素为阳性是否有关系?
【过关练习】
1.1网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主
管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末
考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?
题型二独立性检验
【例1】某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
【过关练习】
1.某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.
【例2】(2017·全国Ⅱ改编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.
附:
K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
.
【过关练习】
为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为2
3.
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由; (3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X ,求X 的分布列与均值.
课后练习
【补救练习】