第3章 3.1 独立性检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章 3.1 独立性检验
3.1独立性检验
1.了解独立性检验的概念,会判断独立性检验事件.
2.能列出2×2列联表,会求χ2(卡方统计量的值).
3.能够利用临界值,作出正确的判断.(重点)
4.应用独立性检验分析实际问题.(难点)
[基础·初探]
教材整理12×2列联表的意义
阅读教材P91~P94“例1”以上部分,完成下列问题
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下表所示的抽样数据:
Ⅱ
类1类2合计
Ⅰ
类A a b a+b
类B c d c+d
合计a+c b+d a+b+c+d
列联表,2×2列联表经常用来判断Ⅰ和Ⅱ之间是
否有关系.
下面是一个2×2列联表:
y1y2合计
x1 a 2173
x282533
合计 b 46
则表中a,b
【解析】∵a+21=73,∴a=52.
又b=a+8=52+8=60.
【答案】52,60
教材整理2独立性检验
阅读教材P93~P94“例1”以上部分完成下列各题.
预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流:
疑问1:
解惑:
疑问2:
解惑:
疑问3:
解惑:
[小组合作型]
绘制2×2列联表
在一项有关医疗保健的社会调查中,调查的男性为530人,女性为670人,发现其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.
【精彩点拨】分成两类,找出不同类情况下的两个数据再列表.
【自主解答】作2×2列联表如下:
喜欢甜食不喜欢甜食合计
男117413530
女492178670
合计609591 1 200 1
2.表中排成两行两列的数据是调查得来的结果.
3.选取数据时,要求表中的四个数据a,b,c,d都要不小于5,以保证检验结果的可信度.
[再练一题]
1.某电视公司为了研究体育迷是否与性别有关,在调查的100人中,体育迷75人,其中女生30人,非体育迷25人,其中男生15人,请作出性别与体育迷的列联表.
【解】
体育迷非体育迷合计
男451560
女 30 10 40 合计
75
25
100
利用χ2
值进行独立性检验
某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业
性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:
阳性例数
阴性例数
合计 新防护服 5 70 75 旧防护服 10 18 28 合计
15
88
103
【精彩点拨】 通过有关数据的计算,作出相应的判断.
【自主解答】 提出假设H 0:新防护服对预防皮肤炎没有明显效果. 根据列联表中的数据可求得 χ2=
103×(5×18-70×10)2
75×28×15×88
≈13.826.
因为H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效.
根据2×2列联表,利用公式n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )计算χ2的值,再与临
界值比较,作出判断.
[再练一题]
2.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶.根据以上数据判断男性病人的秃顶与患心脏病是否有关系?
【解】 提出假设H 0:男性病人的秃顶与患心脏病没有关系. 根据题中所给数据得到如下2×2列联表:
患心脏病 未患心脏病
合计 秃顶
214
175
389
不秃顶 451 597 1 048 合计
665
772
1 437
根据列联表中的数据可以求得
χ2=1 437×(214×597-175×451)
2389×1 048×665×772
≈16.373.
因为当H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈16.373>10.828,所以有99.9%的把握认为,男性病人的秃顶与患心脏病有关系.
[探究共研型]
独立性检验的综合应用
探究1 利用χ2进行独立性检验,估计值的准确度与样本容量有关吗? 【提示】 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n 越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
探究2 在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P (χ2≥6.635)≈0.01和P (χ2≥7.879)≈0.005,哪种说法是正确的?
【提示】 两种说法均正确.P (χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P (χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现
统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关?
【精彩点拨】 解答本题可先列出2×2列联表,然后具体分析. 【自主解答】 (1)2×2列联表如下:
合格品数 次品数 合计 甲在生产现场 982 8 990 甲不在生产现场
493 17 510 合计
1 475
25
1 500
程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.
(2)由2×2列联表中数据,计算得到χ2的观测值为 χ2=
1 500×(982×17-493×8)2
990×510×1 475×25
≈13.097>10.828,
因此在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关.
判断两个变量是否有关的三种方法
[再练一题]
3.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.
(1)将下面的2×2列联表补充完整;
晚上 白天 合计 男婴 女婴 合计
系?
【解】 (1)
晚上 白天 合计 男婴 24 31 55 女婴 8 26 34 合计
32
57
89
(2)χ2=
89×(24×26-31×8)2
55×34×32×57
≈3.689>2.706.
根据临界值表知P (χ2≥2.706)≈0.10.
因此在犯错误的概率不超过0.10的前提下认为婴儿的性别与出生时间有关系.
[构建·体系]
1.在2×2列联表中,若每个数据变为原来的2倍,则χ2的值变为原来的________倍.
【解析】由公式χ2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
中所有值变为原来的2倍,
得(χ2)′=2n(2a·2d-2b·2c)2
(2a+2b)(2c+2d)(2a+2c)(2b+2d)
=2χ2,
故χ2也变为原来的2倍.
【答案】 2
2.下列说法正确的是________.(填序号)
①对事件A与B的检验无关,即两个事件互不影响;②事件A与B关系越密切,χ2就越大;③χ2的大小是判断事件A与B是否相关的唯一数据;④若判定两事件A与B有关,则A发生B一定发生.
【解析】对于①,事件A与B的检验无关,只是说两事件的相关性较小,并不一定两事件互不影响,故①错.②是正确的.对于③,判断A与B是否相关的方式很多,可以用列联表,也可以借助于概率运算,故③错.对于④,两事件A与B有关,说明两者同时发生的可能性相对来说较大,但并不是A发生B一定发生,故④错.
【答案】②
3.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:
理科文科合计
男131023
女72027
合计203050
χ2=50×(13×20-10×7)2
23×27×20×30
≈4.844.
则有__________的把握认为选修文科与性别有关.
【答案】95%
4.在2×2列联表中,两个比值
a
a+b
与________相差越大,两个分类变量
有关系的可能性越大. 【导学号:29440066】
【解析】根据2×2列联表可知,比值
a
a+b
与
c
c+d
相差越大,则|ad-bc|
就越大,那么两个分类变量有关系的可能性就越大.
【答案】
c c+d
5.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品不喜欢甜品合计南方学生602080
北方学生101020 合计7030100
品的饮食习惯方面有差异”.
【解】将2×2列联表中的数据代入公式计算,得
χ2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
=100×(60×10-20×10)2
80×20×70×30
=
100
21≈4.762.
因为 4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
我还有这些不足:
(1)
(2)
我的课下提升方案:
(1)
(2)。