1.2独立性检验
1.2独立性检验的基本思想
独立性检验的基本思想及其初步应用
在统计学中, 在统计学中,独立性检验就是检验两个分类变量是 否有关系的一种统计方法。 否有关系的一种统计方法。 所谓“分类变量” 就是指个体所属的类别不同, 所谓“分类变量”,就是指个体所属的类别不同,也 称为属性变量或定型变量。 称为属性变量或定型变量。 在日常生活中, 在日常生活中,我们常常关心两个分类变量之间是 否有关系,例如吸烟是否与患肺癌有关系? 否有关系,例如吸烟是否与患肺癌有关系?性别是否对 于喜欢数学课程有影响等等。 于喜欢数学课程有影响等等。
在吸烟与患肺病这两个分类变量的计算中,下列说法正确 在吸烟与患肺病这两个分类变量的计算中, 的是( 的是(
c
)
A、若K的观测值为 、 的观测值为k=6.635,我们有 我们有99%的把握认为吸烟与患 的观测值为 我们有 的把握认为吸烟与患 肺病有关系,那么在 个吸烟的人中必有99个患肺病 肺病有关系,那么在100个吸烟的人中必有 个患肺病 个吸烟的人中必有 B、从独立性检验可知有99%的把握认为吸烟与患肺病有关 、从独立性检验可知有 的把握认为吸烟与患肺病有关 系时,我们说某人吸烟,那么他有99%的可能患肺病 系时,我们说某人吸烟,那么他有 的可能患肺病 C、若从统计量中求出有95%的把握认为吸烟与患肺病有关 、若从统计量中求出有 的把握认为吸烟与患肺病有关 系,是指有5%的可能性使得推理出现错误 是指有 的可能性使得推理出现错误 D、以上三种说法都不对 、
列联表的条形图: 90% 列联表的条形图: 100%
80% 70% 60% 50% 40% 30% 20% 10% 0%
优秀 不优秀
由图及表直观判断,好像“成绩优秀与班级有关系”,由表中 由图及表直观判断,好像“成绩优秀与班级有关系” 数据计算, 数据计算,得 K 2 的观察值为 k ≈ 0.653 > 0.455。由教科书中表 11, 1-11,得
1.2独立性检验
1.2独立性检验1.2独立性检验的基本思想及其初步应用1.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:认为作业多 认为作业不多 总数 喜欢玩电脑游戏 18 9 27 不喜欢玩电脑游戏 8 15 23 总数262450根据表中数据得到25018158927232426k ()⨯⨯-⨯=≈⨯⨯⨯ 5.059,因为p(K 2≥5.024)=0.025,则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为( )(A)97.5% (B) 95% (C)90% (D)无充分根据2.(2011•湛江一模)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅表格来确定“X 和Y 有关系”的可信度.如果k >3.84,那么有把握认为“X 和Y 有关系”的百分比为( ) P(0.50.400.250.150.100.050.0250.0100.0050.001K2>k)k 0.455 0.7081.3232.0722.7063.845.0246.6357.87910.83A.5%B.75%C.99.5%D.95%3.(2012•泰安一模)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程,变量x增加一个单位时,y平均增加5个单位;③线性回归方程必过;④在一个2×2列联表中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是()A.0B.1C.2D.34.(2010•泰安二模)某医疗研究所为了检验新开发的流感疫苗对甲型H1N1流感的预防作用,把1000名注射了疫苗的人与另外1000名未注射疫苗的人的半年的感冒记录作比较,提出假设H:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算出P(Χ2≥6.635)≈0.01,则下列说法正确的是()A.这种疫苗能起到预防甲型H1N1流感的有效率为1%B.若某人未使用该疫苗,则他在半年中有99%的可能性得甲型H1N1C.有1%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”D.有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”5.(2012•枣庄一模)通过随机询问100名性别不同的大学生是否爱好踢毪子运动,得到如下的列联表:男女总计爱好10 40 50不爱好20 30 50总计30 70 100附表:P(K2≥k)0.10 0.05 0.025k 2.706 3.841 5.024随机变量,经计算,统计量K2的观测值k≈4.762,参照附表,得到的正确结论是()A.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”C.有97.5%以上的把握认为“爱好该项运动与性别有关”D.有97.5%以上的把握认为“爱好该项运动与性别无关”6.(2013•临沂一模)某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有()的把握认为“学生性别与支持该活动有关系”.P(k2≥k) 0.100 0.050 0.025 0.010 0.0012.7063.841 5.024 6.635 10.828 kA.0.1%B.1%C.99%D.99.9%7.(2012•武昌区模拟)通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男女总计走天桥40 20 60走斑马线20 30 50总计60 50 110由,算得参照独立性检验附表,得到的正确结论是()A.有99%的把握认为“选择过马路的方式与性别有关”B.有99%的把握认为“选择过马路的方式与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”8.(2012•上饶一模)在调查学生数学成绩与物理成绩之间的关系时,得到如下数据(人数:)合计物理成绩好物理成绩不好数学成绩好18 7 256 19 25数学成绩不好合计24 26 50数学成绩与物理成绩之间有把握有关?()A.90%B.95%C.97.5%D.99%9.(2014•韶关二模)由于工业化城镇化的推进,大气污染日益加重,空气质量逐步恶化,雾霾天气频率增大,大气污染可引起心悸、胸闷等心脏病症状.为了解某市患心脏病是否与性别有关,在某医院心血管科随机的对入院50位进行调查得到了如表:患心脏病不患心脏病合计男20 5 25女10 15 25合计30 20 50参考临界值表:p(p2≥k) 0.15 0.10 0.05 0.025 0.010.0050.001K 2.072 2.7063.8415.0246.6357.87910.828(参考公式:K2=其中n =a +b +c +d).问有多大的把握认为是否患心脏病与性别有关.答:()A.95% B.99% C.99.5% D.99.9%10.(2014•黄山二模)某部门为了了解青年人喜欢户外运动是否与性别有关,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论为:有()把握认为“喜欢户外运动与性别有关”.附:(独立性检验临界值表)P(K2≥k) 0.05 0.025 0.010 0.005 0.001k3.841 5.024 6.636 7.879 10.828A.0.1%B.1%C.99%D.99.9%11.(2014•永州三模)随机调查某校110名学生是否喜欢跳舞,由列联表和公式K2=计算出K2,并由此作出结论:“有99%的可能性认为学生喜欢跳舞与性别有关”,则K2可以为()附表:P(K2≥k) 0.10 0.05 0.025 0.010k2.7063.841 5.024 6.635A.3.565B.4.204C.5.233D.6.842 12.(2013•河南模拟)某中学采取分层抽样的方法从高二学生中按照性别抽出20名学生,其选报文科、理科的情况如下表所示,男女文科 2 5理科 10 3则以下判断正确的是()参考公式和数据:k2=p(k2≥k) 0.15 0.10 0.05 0.025 0.010 0.005 0.001k2.07 2.713.84 5.02 6.64 7.88 10.83A.至少有97.5%的把握认为学生选报文理科与性别有关B.至多有97.5%的把握认为学生选报文理科与性别有关C.至少有95%的把握认为学生选报文理科号性别有关D.至多有95%的把握认为学生选报文理科与性别有关13.(2014•泰安一模)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如表:性别是否需要志愿者男女需要40 30不需要160 270由算得,附表:P(K2≥k)0.050 0.010 0.001k 3.841 6.635 10.828参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别无关”C.有99%以上的把握认为“需要志愿者提供帮助与性别有关”D.有99%以上的把握认为“需要志愿者提供帮助与性别无关”14.(2012•潍坊二模)为了普及环保知识,增强环保意识,某大学从理工类专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:优秀非优秀总计A班14 6 20B班7 13 20C班21 19 40附:参考公式及数据:(1)卡方统计量(其中n=n11+n12+n21+n22);(2)独立性检验的临界值表:P(x2≥k)0.050 0.010K3.841 6.635则下列说法正确的是()A.有99%的把握认为环保知识测试成绩与专业有关B.有99%的把握认为环保知识测试成绩与专业无关C.有95%的把握认为环保知识测试成绩与专业有关D.有95%的把握认为环保知识测试成绩与专业无关15.(2014•潍坊三模)为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到如下的2×2列联表.喜爱打篮球不喜爱打篮球合计男生20 5 25女生10 15 25合计30 20 50则至少有()的把握认为喜爱打篮球与性别有关.A.95%B.99%C.99.5%D.99.9% 16.(2014•珠海二模)通过随机询问100名性别不同的小学生是否爱吃零食,得到如下的列联表:男女总计爱好10 40 50不爱好20 30 50总计30 70 100P(K2≥k)0.10 0.05 0.025k 2.706 3.841 50.24由K2=算得K2=≈4.762参照附表,得到的正确结论()A.在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”B.在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别无关”C.有97.5%以上的把握认为“是否爱吃零食与性别有关”D.有97.5%以上的把握认为“是否爱吃零食与性别无关”17.某班主任对全班50名学生作了一次调查,所得数据如表:认为作业多认为作业不多总计喜欢玩电脑游戏18 9 27不喜欢玩电脑游戏8 15 23总计26 24 50由表中数据计算得到K2的观测值k≈5.059,于是________(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.18.为考察某种药物预防禽流感的效果,进行动物家禽试验,调查了100个样本,统计结果为:服用药的共有60个样本,服用药但患病的仍有20个样本,没有服用药且未患病的有20个样本.(1)根据所给样本数据完成下面2×2列联表;(2)请问能有多大把握认为药物有效?不得禽流感得禽流感总计服药不服药总计参考答案1.A 【解析】试题分析:∵根据表中数据得到K225018158927232426()⨯⨯-⨯=⨯⨯⨯≈5.059,因为p (K 2≥5.024)=0.025,∴认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为1-0.025=97.5% 故选A .考点:独立性检验的应用. 2.D 【解析】试题分析:根据所给的观测值,把观测值同表格所给的临界值进行比较,看观测值大于哪一个临界值,得到说明两个变量有关系的可信程度.解:∵k>3.84,∴有0.05的几率说明这两个变量之间的关系是不可信的,即有1﹣0.05=95%的把握说明两个变量之间有关系,故选D.点评:本题考查独立性检验,考查两个变量之间的关系的可信程度,考查临界值表的应用,本题是一个基础题,关键在于理解临界值表的意义,而没有要我们求观测值,降低了题目的难度.3.C【解析】试题分析:①方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程,变量x增加一个单位时,y平均减少5个单位;③线性回归方程必过必过样本中心点;④由计算得K2=13.079,则其两个变量间有关系的可能性是99.9%,解:①方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变,故①正确;②设有一个回归方程,变量x增加一个单位时,y平均减少5个单位,故②不正确;③线性回归方程必过必过样本中心点,故③正确;④由计算得K2=13.079,对照临界值,可得其两个变量间有关系的可能性是99.9%,故④错误,综上知,错误的个数是2个故选C.点评:本题考查线性回归方程,考查独立性检验,考查方差的变化特点,是一个考查的知识点比较多的题目,注意分析,本题不需要计算,只要理解概念就可以得出结论.4.D【解析】试题分析:根据计算出的临界值,同临界值表进行比较,得到假设不合理的程度约为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,得到正确答案.解:∵并计算出P(Χ2≥6.635)≈0.01,这说明假设不合理的程度约为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,∴有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”故选D.点评:本题是一个独立性检验,我们可以利用临界值的大小来决定是否拒绝原来的统计假设,若值较大就拒绝假设,即拒绝两个事件无关.5.A【解析】试题分析:题目的条件中已经给出这组数据的观测值,我们只要把所给的观测值同节选的观测值表进行比较,发现它大于3.841,在犯错误的概率不超过5%的前提下,认为“爱好这项运动与性别有关”.解:由题意算得,k2=4.762>3.841,参照附表,可得在犯错误的概率不超过5%的前提下,认为“爱好这项运动与性别有关”.故选A.点评:本题考查独立性检验的应用,本题有创新的地方就是给出了观测值,只要进行比较就可以,是一个基础题.6.C【解析】试题分析:把观测值同临界值进行比较.得到有99%的把握说学生性别与支持该活动有关系.解:∵K2=7.069>6.635,对照表格:)0.100 0.050 0.025 0.010 P(k2≥k0.0012.7063.841 5.024 6.635 10.828k∴有99%的把握说学生性别与支持该活动有关系.故选C.点评:本题考查独立性检验,解题时注意利用表格数据与观测值比较,这是一个基础题.7.A【解析】试题分析:把所给的观测值与临界值进行比较,发现它大于6.635,得到有99%以上的把握认为“选择过马路的方式与性别有关”.解:由题意,K2≈7.8∵7.8>6.635,∴有0.01=1%的机会错误,即有99%以上的把握认为“选择过马路的方式与性别有关”故选A.点评:本题考查独立性检验的应用,这种问题一般运算量比较大,通常是为考查运算能力设计的,本题有创新的地方就是给出了观测值,只要进行比较就可以,本题是一个基础题.8.D【解析】试题分析:根据列联表可以求得K2的值,与临界值比较,即可得到结论.解:提出假设H:学生数学成绩与物理成绩之间没有关系.根据列联表可以求得K2=≈11.5>6.635,∴有0.01=1%的机会错误,即有99%以上的把握认为“数学成绩与物理成绩之间有把握有关”故选D.点评:本题考查独立性检验的应用,这种问题一般运算量比较大,通常是为考查运算能力设计的,本题是一个基础题.9.C【解析】试题分析:利用公式求得K2,与临界值比较,即可得到结论.解:K2==≈8.333又 P(k2≥7.789)=0.005=0.5%,所以我们有 99.5%的把握认为患心脏病与性别有关系.故选:C.点评:本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于基础题.10.C【解析】试题分析:把观测值同临界值进行比较.得到有99%的把握说学生性别与支持该活动有关系.解:∵K2=7.069>6.635,对照表格:) 0.100 0.050 0.025 0.010 0.001P(k2≥kk2.7063.841 5.024 6.635 10.828∴有99%的把握说学生性别与支持该活动有关系.故选:C.点评:本题考查独立性检验,解题时注意利用表格数据与观测值比较,这是一个基础题.11.D【解析】试题分析:根据有99%的可能性认为学生喜欢跳舞与性别有关,可得K2>6.635,即可得出结论.解:∵有99%的可能性认为学生喜欢跳舞与性别有关,∴K2>6.635,故选:D.点评:根据列联表,计算K2,与临界值比较,是解决独立性检验的应用问题的方法12.C【解析】试题分析:根据所给的数据,代入求观测值的公式,得到观测值,把观测值同临界值进行比较得到结论.解:根据所给的数据代入求观测值的公式,得到k2=≈4.432>3.844,∴至少有95%的把握认为学生选报文理科号性别有关,故选:C.点评:本题考查独立性检验的应用,本题解题的关键是理解临界值对应的概率的意义,能够看出两个变量之间的关系,属于基础题.13.C【解析】试题分析:K2=9.967,同临界值表进行比较,得到有多大把握认为老年人是否需要志愿者提供帮助与性别有关.解:由于K2=9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.故选:C.点评:本题考查独立性检验.利用观测值K2与临界值的大小来确定是否能以一定把握认为两个分类变量有关系.其方法是:K≥K0,解释为有[1﹣P(k2≥k)]×100%的把握认为两个分类变量有关系;K<K,解释为不能以[1﹣P(k2≥k)]×100%的把握认为两个分类变量有关系.14.C【解析】试题分析:由列联表中数据,代入公式,求出X2的值,进而与3.841进行比较,即可得出能否有95%的把握认为环保知识测试成绩与专业有关.解:由两个班同学的统计得到成绩与专业的列联表:根据列联表中的数据可得X2=40(14×13﹣6×7)2÷(21×19×20×20)≈4.912>3.841 ∴有95%的把握认为环保知识测试成绩与专业有关.故选C.点评:本题考查独立性检验的应用,考查数据处理能力、运算求解能力和应用意识,本题解题的关键是正确运算出观测值,理解临界值对应的概率的意义,要想知道两个变量之间的有关或无关的精确的可信程度,只有利用独立性检验的有关计算,才能做出判断,本题是一个基础题.15.C【解析】试题分析:根据所给的列联表得到求观测值所用的数据,把数据代入观测值公式中,做出观测值,同所给的临界值表进行比较,得到所求的值所处的位置,得到百分数.解:根据所给的列联表,得到k2==8.333>7.879,∴至少有99.5%的把握说明喜爱打篮球与性别有关.故选:C.点评:根据所给的列联表得到求观测值所用的数据,把数据代入观测值公式中,做出观测值,同所给的临界值表进行比较,得到所求的值所处的位置,得到百分数.16.A【解析】试题分析:根据P(K2>3.841)=0.05,即可得出结论.解:∵K2=≈4.762>3.841,P(K2>3.841)=0.05∴在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”.故选:A.点评:本题考查独立性检验的应用,考查学生分析解决问题的能力,属于基础题.17.不能【解析】查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.考点:独立性检验.18.(1)不得禽流感得禽流感总计服药40 20 60 不服药20 20 40总计 6040 100(2)大概90%认为药物有效【解析】试题分析:(1)由所给样本数据完成下面2×2列联表即可(2)根据公式计算观测值,然后比较观测值与临界值表中相应的检验水平,最后做出统计判断.(1)填表 不得禽流感得禽流感 总计 服药 4020 60 不服药20 20 40 总计 60 40 100(2)假设检验问题H 0:服药与家禽得禽流感没有关系22()()()()()n ad bc K a b c d a c b d -=++++ 2100(40202020) 2.77860406040⨯-⨯=≈⨯⨯⨯ 由P(2 2.706K≥)=0.10 所以大概90%认为药物有效12分 考点:2×2列联表;独立性检验.。
1.2独立性检验的基本思想及其初步应用
试用图形判断服用药和患病之间是否有关系?
解析:相应的等高条形图如下:
从图形可以看出,服用药的样本中患病的比例明显低于 没有服用药的样本中患病的比例,因此可以认为:服用药和 患病之间有关系.
独立性检验方法——K2公式
在调查的480名男士中有38名患有色盲,520名女 士中有6名患有色盲,能否在犯错误的概率不超过0.001的前 提下认为性别与患色盲有关系? 分析:
4.下面是一个2×2列联表: x1 x2 总计 y1 a 2 b y2 21 25 46 总计 73 27 100
则表中a、b的值分别为( C ) A.94、96 C.52、54 B.52、50 D.54、52
5.性别与身高列联表如下: 男 女 总计 高(165 cm以上) 37 6 43 矮(165 cm以下) 4 13 17 总计 41 19 60
作出2×2列联表 → 计算随机变量K2的值 → 对照临界值作出结论 解析:根据题目所给的数据作出如下的列联表:
色盲 不色盲 总计
男
女 总计
38
6 44
442
514 956
480
520 1 000
根据列联表中所给的数据可以得: a=38,b=442,c=6,d=514,a+b=480,c+d= 520,a+c=44,b+d=956,n=1 000.
3.独立性检验. 利用随机变量K2来判断“两个分类变量有关系”的方法 定义 称为独立性检验.
nad-bc2 公式 K2=_____________________ a+bc+da+cb+d ,其中n=______________. a+b+c+d
①根据实际问题的需要确定容许推断“两个分类变量有 临界值 k0 .② 关系”犯错误概率的上界α,然后查表确定 ________ k________ ≥k0 利用公式计算随机变量K2的 ________ , 观测值 k .③如果 具体 就推断“X与Y有关系”,这种推断犯错误的概率不超过 步骤 α;否则,就认为在犯错误的概率不超过α的前提下不能 推断“X与Y有关系”,或者在样本数据中没有发现足够 证据支持结论“X与Y有关系”.
人教A版 选修1-2 1.2 独立性检验的基本思想及初步应用 教案
[核心必知]1.预习教材,问题导入根据以下提纲,预习教材P 10~P 15的内容,回答下列问题. 阅读教材P 10“探究”的内容,思考: (1)是否吸烟、是否患肺癌是什么变量? 提示:分类变量.(2)吸烟与患肺癌之间的关系还是前面我们研究的线性相关关系吗? 提示:不是.(3)如何研究吸烟是否对患肺癌有影响? 提示:独立性检验. 2.归纳总结,核心必记 (1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表①定义:列出的两个分类变量的频数表称为列联表. ②2×2列联表一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为(3)等高条形图①图形与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.②通过直接计算或观察等高条形图发现a +b a 和c +d c相差很大,就判断两个分类变量之间有关系.(4)独立性检验(1)有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?提示:观点不正确.犯错误的概率不超过0.01说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.(2)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的吗? 提示:不一定.所有的推断只代表一种可能性,不代表具体情况. (3)下面是2×2列联表.则表中a ,b 提示:a =46-13=33,b =33+a =33+33=66.[课前反思](1)分类变量的定义是什么?(2)列联表的定义是什么?2×2列联表中的各个数据有什么意义?(3)什么是等高条形图,有什么作用?(4)独立性检验的内容是什么?讲一讲1.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用a +b a 与c +d c判断二者是否有关系.[尝试解答] 2×2列联表如下:年龄在六 十岁以上 年龄在六 十岁以下 总计 饮食以蔬菜为主 43 21 64 饮食以肉类为主27 33 60 总计7054124a +b a =6443=0.671 875.c +d c =6027=0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将a +b a 与c +d c c +d d的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.练一练1.假设有两个分类变量X 与Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其2×2列联表为:y 1y 2x 1 1018 x 2m26则当m 取下面何值时,X 与Y A .8 B .9 C .14 D .19解析:选C 由10×26≈18m ,解得m ≈14.4,所以当m =14时,X 与Y 的关系最弱.讲一讲2.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.[尝试解答] 作列联表如下:性格内向 性格外向 总计 考前心情紧张 332 213 545 考前心情不紧张94 381 475 总计4265941 020图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.利用等高条形图判断两个分类变量是否相关的步骤:练一练2.在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?解:根据题目给出的数据作出如下的列联表:色盲不色盲总计男38442480女6514520总计449561000从等高条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例大得多,因此,我们认为患色盲与性别是有关系的.讲一讲3.研究人员选取170名青年男女大学生为样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;110名男生在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.(链接教材P 13-例1)附:P (K 2≥k 0)0.10 0.05 0.025 k 02.7063.8415.024[尝试解答]肯定 否定 总计 男生 22 88 110 女生 22 38 60 总计44126170根据2×2k =110×60×44×126170×(22×38-22×88≈5.622>5.024.所以在犯错误的概率不超过0.025的前提下,认为“性别与态度有关系”.根据题意列出2×2列联表,计算K 2的观测值,如果K 2的观测值很大,说明两个分类变量有关系的可能性很大;如果K 2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系.练一练3.在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞机航程中,男乘客是否比女乘客更容易晕机?附:P (K 2≥k 0)0.10 0.05 k 02.7063.848解:根据题意,列出 晕机 不晕机 总计由公式可得K 2的观测值k =(a +b n(ad -bc=55×34×32×5789(24×26-31×8≈3.689>2.706,故在犯错误的概率不超过0.10的前提下,认为“在天气恶劣的飞机航程中男乘客比女乘客更容易晕机”.——————————————[课堂归纳·感悟提升]——————————1.本节课的重点是用2×2列联表、等高条形图分析两个分类变量间的关系以及独立性检验.2.本节课要重点掌握的规律方法(1)用2×2列联表分析两分类变量间的关系,见讲1; (2)用等高条形图分析两分类变量间的关系,见讲2; (3)独立性检验,见讲3.3.解决一般的独立性检验问题的步骤:(1)通过列联表确定a ,b ,c ,d ,n 的值,根据实际问题需要的可信程度确定临界值k 0; (2)利用K 2=(a +b n(ad -bc 求出K 2的观测值k ;(3)如果k ≥k 0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.其中第(2)步易算错K 2的值,是本节课的易错点.课下能力提升(二) [学业水平达标练]题组1 用2×2列联表分析两分类变量间的关系 1.分类变量X 和Y 的列联表如下:A .ad -bc 越小,说明X 与Y 关系越弱B .ad -bc 越大,说明X 与Y 关系越强C .(ad -bc )2越大,说明X 与Y 关系越强 D .(ad -bc )2越接近于0,说明X 与Y 关系越强解析:选C |ad -bc |越小,说明X 与Y 关系越弱,|ad -bc |越大,说明X 与Y 关系越强.2.假设有两个变量X 与Y ,它们的取值分别为x 1,x 2和y 1,y 2,其列联表为:( ) A .a =50,b =40,c =30,d =20 B .a =50,b =30,c =40,d =20 C .a =20,b =30,c =40,d =50 D .a =20,b =30,c =50,d =40解析:选D 当(ad -bc )2的值越大,随机变量K 2=(a +b n(ad -bc的值越大,可知X 与Y 有关系的可能性就越大.显然选项D 中,(ad -bc )2的值最大.3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即a +b b =5818,c +d d =4227,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案:是题组2 用等高条形图分析两分类变量间的关系4.如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )A .性别与喜欢理科无关B .女生中喜欢理科的百分比为80%C .男生比女生喜欢理科的可能性大些D .男生不喜欢理科的比为60%解析:选C 从图中可以分析,男生喜欢理科的可能性比女生大一些. 5.观察下列各图,其中两个分类变量x ,y 之间关系最强的是( )解析:选D 在四幅图中,D 图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.6.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:解:等高条形图如图所示:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.题组3 独立性检验7.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( ) A.平均数与方差 B.回归分析C.独立性检验 D.概率解析:选C 判断两个分类变量是否有关的最有效方法是进行独立性检验.8.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( )A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,即k越小,“X与Y有关系”的可信程度越小.9.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.答案:③10.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.附:k =(a +b n(ad -bc=50×50×44×56100(32×38-18×12≈16.234. 因为16.234>6.635,所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.[能力提升综合练]1.利用独立性检验对两个分类变量是否有关系进行研究时,若有99.5%的把握认为事件A 和B 有关系,则具体计算出的数据应该是( )A .k ≥6.635B .k <6.635C .k ≥7.879D .k <7.879解析:选C 有99.5%的把握认为事件A 和B 有关系,即犯错误的概率为0.5%,对应的k 0的值为7.879,由独立性检验的思想可知应为k ≥7.879.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=(a +b n(ad -bc 算得,观测值k =60×50×60×50≈7.8. 附表:A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关” 解析:选A 由k ≈7.8及P (K 2≥6.635)=0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”.3.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表3A .成绩B .视力C .智商D .阅读量解析:选D 因为K 12=16×36×32×2052×(6×22-14×10=16×36×32×2052×82,K 22=16×36×32×2052×(4×20-16×12=16×36×32×2052×1122,k 32=16×36×32×2052×(8×24-12×8=16×36×32×2052×962, K 42=16×36×32×2052×(14×30-6×2=16×36×32×2052×4082,则有K 42>K 22>K 32>K 12,所以阅读量与性别有关联的可能性最大. 4.下列关于K 2的说法中,正确的有________. ①K 2的值越大,两个分类变量的相关性越大; ②K 2的计算公式是K 2=(a +b n(ad -bc ;③若求出K 2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;④独立性检验就是选取一个假设H 0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H 0的推断.解析:对于①,K 2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故①错;对于②,(ad -bc )应为(ad -bc )2,故②错;③④对.答案:③④5.某班主任对全班50名学生作了一次调查,所得数据如表:)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.解析:查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k 0=6.635,本题中,k ≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.答案:不能6.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:已知在全部30人中随机抽取1人,抽到肝病患者的概率为15.(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:解:(1)设患肝病中常饮酒的人有x 人,30=15,x =6.由已知数据可求得K 2=10×20×8×22≈8.523>7.879,因此有99.5%的把握认为患肝病与常饮酒有关.(2)设常饮酒且患肝病的男性为A ,B ,C ,D ,女性为E ,F ,则任取两人有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种.其中一男一女有AE ,AF ,BE ,BF ,CE ,CF ,DE ,DF ,共8种.故抽出一男一女的概率是P =158.7.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.表1 甲流水线样本频数分布表(1)根据上表数据作出甲流水线样本频率分布直方图;(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.解:(1)甲流水线样本频率分布直方图如下:(2)由表1知甲样本合格品数为8+14+8=30,由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36, 故甲样本合格品的频率为4030=0.75, 乙样本合格品的频率为4036=0.9, 据此可估计从甲流水线任取1件产品, 该产品恰好是合格品的概率为0.75. 从乙流水线任取1件产品, 该产品恰好是合格品的概率为0.9. (3)2×2列联表如下:因为K2的观测值k=(a+b=66×14×40×40≈3.117>2.706,所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.。
1.2独立性检验PPT优秀课件
|adbc|越大,说明吸 吸烟 道与 疾患 病呼 关
统计学家为了消除样本量对上式的影响,引入
了卡方统计量 2
2abc n add a b c c 2bd
其 n 中 a b c d
作为检验在多大程度上可以认为“两个变量 有关系”的标准 。
吸烟与患呼吸道疾病列联表有效无效合计 Nhomakorabea口服
58
40
98
注射
64
31
95
合计
122
71
194
网络链接——检验结果
亲子鉴定的可靠性
DNA亲子鉴定的原理和程序
DNA是从几滴血, 腮细胞或培养的组织纤内提取而 来. 用畴素将DNA样本切成小段, 放进喱胶内,用电泳槽推 动DNA小块使之分离--最细的在最远, 最大的最近. 之後, 分离开的基因放在尼龙薄膜上,使用特别的DNA探针去寻找 基因, 相同的基因会凝聚于一 , 然後, 利用特别的染料, 在X光的环境下,便显示由DNA探针凝聚于一 的黑色条码. 小孩这种肉眼可见的条码很特别 ---- 一半与母亲的吻合, 一半与父亲的吻合.这过程重覆几次, 每一种探针用于寻 找DNA的不同部位并影成独特的条码, 用几组不同的探针, 可得到超过99,9%的父系或然率或分辨率.
(nabcd为样本 )
⑤下结论。
2、做出相反的假设
结论的可靠 程度如何?
通过数据和图表分析,得到结论是: 吸烟与患呼吸道病有关
H0: 吸烟和患呼吸道疾病没有关系
1、列2× 2联表
吸烟 不吸烟
总计
吸烟与患呼吸道疾病关系列联表
患病
不患病
总计
a
b
a+b
c
d
1.2独立性检验的基本思想及其初步应用
三元整合导学模式数学学科导学稿主编人:覃振宇审稿人:高二数学科组定稿日:2013年02月20日课题:1.2独立性检验的基本思想及其初步应用(人教A版数学新课标教材选修1-2第一章1.2)。
课型分析:本课属于数学规则课型。
学习要求:1.通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的必要性.2.会根据列联表求统计量.学习重点:对独立性检验的基本思想的理解.学习难点:独立性检验的基本思想的应用.学习过程:一、复习准备:复习线性回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析).二、学习新课:新知一:学习探究:吸烟与患肺癌的关系1.由列联表可粗略的看出:(1)不吸烟者有患肺癌;(2)不吸烟者有患肺癌.因此,直观上课的结论: .2.用等高条形图直观反映:根据列联表的数据,作出等高条形图:由上图可以直观地看出,吸烟与患肺癌 .反思:(独立性检验的必要性)通过数据和图形,我们得到的直观印象是患肺癌有关.那是否有一定的把握认为“吸烟与患肺癌有关”呢?新知2:吸烟与患肺癌列联表具体做法是:根据观测数据计算由K2=给出的检验随机变量K2的值k,其值越大,说明“X与Y有关系”成立的可能性越大.可以通过查阅下表来确定断言“X与Y有关系”的可信程度.P(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001 k0.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828(1)如果≥10.828,就有______的把握认为“与有关系”;(2)如果k≥7.879,就有______的把握认为“X与Y有关系”;(3)如果k≥6.635,就有99%的把握认为“X与Y有关系”;(4)如果k≥5.024,就有97.5%的把握认为“X与Y有关系”;(5)如果k≥3.841,就有95%的把握认为“X与Y有关系”;(6)如果k≥2.706,就有____的把握认为“X与Y有关系.提示:在判断两变量相关时,若K2的观测值k=56.632,则P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001,哪种说法是正确的?提示:两种说法均正确.P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下,认为两变量相关;而P(K2≥10.828)≈0.001的含义是在犯错误的概率不超过0.001的前提下,认为两变量相关.典型例题例1. 在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞行航程中,男乘客是否比女乘客更容易晕机?【思路点拨】列2×2列联表――→根据公式求随机变量值――→分析比较结论晕机不晕机总计男乘客243155女乘客82634总计325789由公式可得K2的观测值失误防范:1.K2≥6.635是指两个分类变量有关系这一结论成立的可信度为99%,不是指两个分类变量有关系的概率为99%.2.独立性检验首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.三、总结提升1. 列联表: .2. 统计量: .四.课时训练1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A. 若k=6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D. 以上三种说法都不对.2. 下面是一个列联表A. 94,96B. 52,50C. 52,54D. 54,52,数据如下表:( )A. 99%B. 95%C. 90%D.无充分依据4. 在独立性检验中,当统计量满足时,我们有99%的把握认为这两个分类变量有关系.5.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取。
1.2独立性检验的基本思想及其应用第1课时 选修1-2精品教案
§1.2独立性检验的基本思想及其应用(一)【学情分析】:在实际的问题中,经常会面临需要推断的问题,比如研制一种新药,需要推断此药是否有效?有人怀疑吸烟的人更容易患肺癌,那么吸烟是否与患肺癌有关呢?等等。
在对类似的问题作出推断时,我们不能仅凭主观意愿作出结论,需要通过试验来收集数据,并依据独立性检验的原理作出合理的分析推断.在本节的学习中,通过案例分析,使学生学会用假设检验的思想方法解决对于两个分类变量是否有关系的判断问题,并理解统计思维与确定性思维的差异。
【教学目标】:(1)知识与技能:理解分类变量的含义;会根据收集的数据列出2×2列联表,并会阅读三维柱形图和二维条形图,并粗略判断两个分类变量是否有关系;理解假设检验思想,会利用独立性检验精确判断两个分类变量是否有关系;(2)过程与方法:利用学生身边熟悉的问题引入分类变量是否相关的问题;运用统计学解决问题的一般思路引导学生;让学生经历假设检验思想的形成及运用过程,领会分析、总结的方法; (3)情感态度与价值观:通过提供适当的情境资料,吸引学生的注意力,激发学生的学习兴趣;在合作讨论中学会交流与合作,启迪思维,提高创新能力;通过实际问题的解决和从不同角度对问题的解决,可提高学生应用数学能力。
【教学重点】:理解独立性检验的基本思想及实施步骤。
【教学难点】:.(1)了解独立性检验的基本思想;(2)了解随机变量2K 的含义,2K 太大认为两个分类变量是有关系的。
【课前准备】:课件【教学过程设计】:同步练习与测试:(基础题) 1、根据下表计算:计算随机变量的观测值k= 。
解:把表格补充完整≈⨯⨯⨯⨯-⨯=17812222872)358514337(3002k 4.512、独立性检验常作的图形是 和 。
答案 :三维柱形图 ,二维条形图3、两个临界值为3.841与6.635。
当23.841k ≤时,认为事件A 与B 是 (填“有关的”或“无关的”);当26.635k >时,有99%的把握说事件A 与B 是 (填“有关的”或“无关的”)。
高中数学《1.2独立性检验的基本思想及其初步应用》ppt课件6
乙厂抽查的产品中有 320 件优质品,从而乙厂生产的零件的优质 320 品率估计为 =64%. 500 (4 分)
(2) 甲厂 乙厂 总计 优质品 非优质品 总计 360 140 500 320 180 500 680 320 1 000 (8 分) 1 000×360×180-320×1402 k= ≈7.353>6.635, 500×500×680×320 (10 分)
男生
女生 总计
98
2 100
82
50 132
180
52 232
232×98×50-2×822 k= ≈42.117>10.828. 100×132×180×52 所以有 0.1%的把握认为多动症与性别有关系. 应 该 是 有 (1 - P(K2≥10.828))×100% = (1 - 0.001)×100% 的 把 握 , 而 不 是 0.001×100%的把握. P(K2≥10.828)×100% =
【变式2】 某教育机构为了研究人具有大学专科以上学历(包括大 学专科)和对待教育改革态度的关系,随机抽取了392名成年 人进行调查,所得数据如下表所示:
支持教育改
革情况 学历 大学专科 以上学历
积极支持 不太赞成 教育改革 教育改革 39 29 68 157 167 324
总计
196 196 392
题型三 独立性检验的基本思想
【例3】 某企业有两个分厂生产某种零件,按规 定内径尺寸(单位:mm)的值落在(29.94,30.06) 的零件为优质品.从两个分厂生产的零件中各 抽出500件,量其内径尺寸,结果如下表:
甲厂 [30.0 [30.1 分组 [29.86, [29.90, [29.94, [29.98, [30.02, 6, 10) 频数 乙厂 [30. [30. 06 分组 [29.86, [29.90, [29.94, [29.98, [30.02, , 10 , 12 63 86 182 92 61 0, 14) 4
高中数学 第一章 统计案例 1.2 独立性检验是如何判断
独立性检验是如何判断两个事件是否相互独立的独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量2χ应该很小.如果由观测数据计算得到的2χ的观测值很大,则在一定程度上说明假设不合理.根据随机变量2χ的含义,可以通过概率式评价该假设不合理的程度,由实际计算的2χ>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当2χ≤3.841时,认为两个分类变量是无关的.对于两事件而言即相互独立. 1.两个事件独立的判定例1: 为了研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进根据193个病人的数据,能否作出药的效果与给药方式有关的结论?请说明理由. 解:提出假设H 0:药的效果与给药方式无关系.根据列联表中的数据,得χ2=2193(58314064)122719895-⨯-⨯⨯⨯⨯≈1.3896<2.072.当H 0成立时,χ2>1.3896的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设H 0,即不能作出药的效果与给药方式有关的结论.注意:这是一个由列联表来验证的独立性检验问题,其结论是没有关系的假设成立.并且应该注意上述结论是对所有口服药物与注射药物的实验人而言的,绝不要误以为对被跟踪的193个跟踪研究对象成立.例2:调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表.试问能以多大把握认为婴儿的性别与出生时间有关系.分析:利用表中的数据通过公式计算出2χ统计量,可以用它的取值大小来推断独立性是否成立. 解:由公式()841.368892.35732345531826248922<≈⨯⨯⨯⨯-⨯⨯=χ 故婴儿的性别与出生时间是相互独立的(也可以说没有充分证据显示婴儿的性别与出生时间有关).2.两个事件不独立的判定例3:在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.利用独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?分析:列出22⨯列联表,利用公式求出2χ与两个临界值3.841与6.635比较大小得适当范围.解:根据题目所给数据得到如下表所示: 秃顶与患心脏病列联表由公式,得:()635.6373.167726651048389451175597214143722>≈⨯⨯⨯⨯-⨯⨯=χ 所以有99%的把握认为“秃顶与患心脏病有关”.说明:因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.例 4.某班主任对全班50名学生进行了作业量多少的调查,喜欢玩电脑游戏的同学认为作业多的有18人,认为作业不多的有9人,不喜欢玩电脑游戏的同学认为作业多的有8人,认为作业不多的有15人,则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约是多少?2x =059.523272426)981518(502=⨯⨯⨯⨯-⨯, ()024.52>x P =0.025,有97.5%的把握认为喜欢玩电脑游戏与认为作业多有关系.。
1.2独立性检验的基本思想及其初步应用课件人教新课标
因此,
|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判 标准,基于上述分析,我们构造一个随机变量:
K2 =
n(ad - bc)n
(a + b)(c + d)(a + c)(b + d)
其中n=a+b+c+d为样本容量.
48 121 208 223 193 165 42
(I)将各组的频率填入表中;
(II)根据上述统计结果,计算灯管使用寿命不足 1500小时的频率.
解答
分组
频数 频率
[500,9 [900, 00) 1100)
48 121 0.048 0.121
[1100, 1300)
208 0.208
[1300, 1500)
P(k2>k) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.455 0.708 1.323 2.072 2.706 3.84 5.024 6.635 7.879 10.83
(2)利用K2公式,计算随机变量K2的观测值k.
(3)如果k>k0,就推断“X与Y有关系”,这 种推断犯错误的概率不超过a;否则,就认为在犯 错误的概率不超过a的前提下不能推断“X与Y有关 系”.
k=
16.373 > 6.635
3891048 665 772
所以有99%的把握认为”秃顶与患心脏病有关”.
解答
根据题目所得数据得到列联表:
秃顶 不秃顶
总计
患心脏病 214 451 665
1.2独立性检验
1.2独立性检验的基本思想及其初步应用1.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总数喜欢玩电脑游戏18927不喜欢玩电脑游戏81523总数262450根据表中数据得到25018158927232426k()⨯⨯-⨯=≈⨯⨯⨯5.059,因为p(K2≥5.024)=0.025,则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为()(A)97.5% (B) 95% (C)90% (D)无充分根据2.(2011•湛江一模)利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅表格来确定“X和Y有关系”的可信度.如果k>3.84,那么有把握认为“X和Y有关系”的百分比为()P(K2>k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.708 1.323 2.072 2.706 3.84 5.024 6.6357.87910.83A.5%B.75%C.99.5%D.95%3.(2012•泰安一模)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程,变量x增加一个单位时,y平均增加5个单位;③线性回归方程必过;④在一个2×2列联表中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是()A.0B.1C.2D.34.(2010•泰安二模)某医疗研究所为了检验新开发的流感疫苗对甲型H1N1流感的预防作用,把1000名注射了疫苗的人与另外1000名未注射疫苗的人的半年的感冒记录作比较,提出假设H0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算出P(Χ2≥6.635)≈0.01,则下列说法正确的是()A.这种疫苗能起到预防甲型H1N1流感的有效率为1%B.若某人未使用该疫苗,则他在半年中有99%的可能性得甲型H1N1C.有1%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”D.有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”男女总计爱好104050不爱好203050总计3070100附表:P(K2≥k)0.100.050.025k 2.706 3.841 5.024随机变量,经计算,统计量K2的观测值k≈4.762,参照附表,得到的正确结论是()A.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”C.有97.5%以上的把握认为“爱好该项运动与性别有关”D.有97.5%以上的把握认为“爱好该项运动与性别无关”6.(2013•临沂一模)某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有()的把握认为“学生性别与支持该活动有关系”.P(k2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828A.0.1%B.1%C.99%D.99.9%7.(2012•武昌区模拟)通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男女总计走天桥402060走斑马线203050总计6050110由,算得参照独立性检验附表,得到的正确结论是()A.有99%的把握认为“选择过马路的方式与性别有关”B.有99%的把握认为“选择过马路的方式与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”物理成绩好物理成绩不好合计数学成绩好18725数学成绩不好61925合计242650数学成绩与物理成绩之间有把握有关?()A.90%B.95%C.97.5%D.99%9.(2014•韶关二模)由于工业化城镇化的推进,大气污染日益加重,空气质量逐步恶化,雾霾天气频率增大,大气污染可引起心悸、胸闷等心脏病症状.为了解某市患心脏病是否与性别有关,在某医院心血管科随机的对入院50位进行调查得到了如表:患心脏病不患心脏病合计男20525女101525合计302050p(p2≥k)0.150.100.050.0250.0100.0050.001K 2.072 2.706 3.841 5.024 6.6357.87910.828(参考公式:K2=其中n =a +b +c +d).问有多大的把握认为是否患心脏病与性别有关.答:()A.95%B.99%C.99.5%D.99.9%10.(2014•黄山二模)某部门为了了解青年人喜欢户外运动是否与性别有关,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论为:有()把握认为“喜欢户外运动与性别有关”.附:(独立性检验临界值表)P(K2≥k0)0.050.0250.0100.0050.001k0 3.841 5.024 6.6367.87910.828A.0.1%B.1%C.99%D.99.9%11.(2014•永州三模)随机调查某校110名学生是否喜欢跳舞,由列联表和公式K2=计算出K2,并由此作出结论:“有99%的可能性认为学生喜欢跳舞与性别有关”,则K2可以为()附表:P(K2≥k0)0.100.050.0250.010k0 2.706 3.841 5.024 6.635A.3.565B.4.204C.5.233D.6.84212.(2013•河南模拟)某中学采取分层抽样的方法从高二学生中按照性别抽出20名学生,其选报文科、理科的情况如下表所示,男女文科 2 5理科 10 3则以下判断正确的是()参考公式和数据:k2=p(k2≥k0)0.150.100.050.0250.0100.0050.001k0 2.07 2.71 3.84 5.02 6.647.8810.83A.至少有97.5%的把握认为学生选报文理科与性别有关B.至多有97.5%的把握认为学生选报文理科与性别有关C.至少有95%的把握认为学生选报文理科号性别有关D.至多有95%的把握认为学生选报文理科与性别有关13.(2014•泰安一模)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如表:性别是否需要志愿者男女需要4030不需要160270由算得,附表:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别无关”C.有99%以上的把握认为“需要志愿者提供帮助与性别有关”D.有99%以上的把握认为“需要志愿者提供帮助与性别无关”参考答案1.A【解析】试题分析:∵根据表中数据得到K22 5018158927232426()⨯⨯-⨯=⨯⨯⨯≈5.059,因为p(K2≥5.024)=0.025,∴认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为1-0.025=97.5%故选A.考点:独立性检验的应用.2.D【解析】试题分析:根据所给的观测值,把观测值同表格所给的临界值进行比较,看观测值大于哪一个临界值,得到说明两个变量有关系的可信程度.解:∵k>3.84,∴有0.05的几率说明这两个变量之间的关系是不可信的,即有1﹣0.05=95%的把握说明两个变量之间有关系,故选D.点评:本题考查独立性检验,考查两个变量之间的关系的可信程度,考查临界值表的应用,本题是一个基础题,关键在于理解临界值表的意义,而没有要我们求观测值,降低了题目的难度.3.C【解析】试题分析:①方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程,变量x增加一个单位时,y平均减少5个单位;③线性回归方程必过必过样本中心点;④由计算得K2=13.079,则其两个变量间有关系的可能性是99.9%,解:①方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变,故①正确;②设有一个回归方程,变量x增加一个单位时,y平均减少5个单位,故②不正确;③线性回归方程必过必过样本中心点,故③正确;④由计算得K2=13.079,对照临界值,可得其两个变量间有关系的可能性是99.9%,故④错误,综上知,错误的个数是2个故选C.点评:本题考查线性回归方程,考查独立性检验,考查方差的变化特点,是一个考查的知识点比较多的题目,注意分析,本题不需要计算,只要理解概念就可以得出结论.4.D【解析】试题分析:根据计算出的临界值,同临界值表进行比较,得到假设不合理的程度约为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,得到正确答案.解:∵并计算出P(Χ2≥6.635)≈0.01,这说明假设不合理的程度约为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,∴有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”故选D.点评:本题是一个独立性检验,我们可以利用临界值的大小来决定是否拒绝原来的统计假设,若值较大就拒绝假设,即拒绝两个事件无关.5.A【解析】试题分析:题目的条件中已经给出这组数据的观测值,我们只要把所给的观测值同节选的观测值表进行比较,发现它大于3.841,在犯错误的概率不超过5%的前提下,认为“爱好这项运动与性别有关”.解:由题意算得,k2=4.762>3.841,参照附表,可得在犯错误的概率不超过5%的前提下,认为“爱好这项运动与性别有关”.故选A.点评:本题考查独立性检验的应用,本题有创新的地方就是给出了观测值,只要进行比较就可以,是一个基础题.6.C【解析】试题分析:把观测值同临界值进行比较.得到有99%的把握说学生性别与支持该活动有关系.解:∵K2=7.069>6.635,对照表格:P(k2≥k0) 0.100 0.050 0.025 0.010 0.001k0 2.706 3.841 5.024 6.635 10.828∴有99%的把握说学生性别与支持该活动有关系.故选C.点评:本题考查独立性检验,解题时注意利用表格数据与观测值比较,这是一个基础题.7.A【解析】试题分析:把所给的观测值与临界值进行比较,发现它大于6.635,得到有99%以上的把握认为“选择过马路的方式与性别有关”.解:由题意,K2≈7.8∵7.8>6.635,∴有0.01=1%的机会错误,即有99%以上的把握认为“选择过马路的方式与性别有关”故选A.点评:本题考查独立性检验的应用,这种问题一般运算量比较大,通常是为考查运算能力设计的,本题有创新的地方就是给出了观测值,只要进行比较就可以,本题是一个基础题.8.D【解析】试题分析:根据列联表可以求得K2的值,与临界值比较,即可得到结论.解:提出假设H0:学生数学成绩与物理成绩之间没有关系.根据列联表可以求得K2=≈11.5>6.635,∴有0.01=1%的机会错误,即有99%以上的把握认为“数学成绩与物理成绩之间有把握有关”故选D.点评:本题考查独立性检验的应用,这种问题一般运算量比较大,通常是为考查运算能力设计的,本题是一个基础题.9.C【解析】试题分析:利用公式求得K2,与临界值比较,即可得到结论.解:K2==≈8.333又 P(k2≥7.789)=0.005=0.5%,所以我们有 99.5%的把握认为患心脏病与性别有关系.故选:C.点评:本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于基础题.10.C【解析】试题分析:把观测值同临界值进行比较.得到有99%的把握说学生性别与支持该活动有关系.解:∵K2=7.069>6.635,对照表格:P(k2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828∴有99%的把握说学生性别与支持该活动有关系.故选:C.点评:本题考查独立性检验,解题时注意利用表格数据与观测值比较,这是一个基础题.11.D【解析】试题分析:根据有99%的可能性认为学生喜欢跳舞与性别有关,可得K2>6.635,即可得出结论.解:∵有99%的可能性认为学生喜欢跳舞与性别有关,∴K2>6.635,故选:D.点评:根据列联表,计算K2,与临界值比较,是解决独立性检验的应用问题的方法12.C【解析】试题分析:根据所给的数据,代入求观测值的公式,得到观测值,把观测值同临界值进行比较得到结论.解:根据所给的数据代入求观测值的公式,得到k2=≈4.432>3.844,∴至少有95%的把握认为学生选报文理科号性别有关,故选:C.点评:本题考查独立性检验的应用,本题解题的关键是理解临界值对应的概率的意义,能够看出两个变量之间的关系,属于基础题.13.C【解析】试题分析:K2=9.967,同临界值表进行比较,得到有多大把握认为老年人是否需要志愿者提供帮助与性别有关.解:由于K2=9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.故选:C.点评:本题考查独立性检验.利用观测值K2与临界值的大小来确定是否能以一定把握认为两个分类变量有关系.其方法是:K≥K0,解释为有[1﹣P(k2≥k0)]×100%的把握认为两个分类变量有关系;K<K0,解释为不能以[1﹣P (k2≥k0)]×100%的把握认为两个分类变量有关系.14.C【解析】试题分析:由列联表中数据,代入公式,求出X2的值,进而与3.841进行比较,即可得出能否有95%的把握认为环保知识测试成绩与专业有关.解:由两个班同学的统计得到成绩与专业的列联表:根据列联表中的数据可得X2=40(14×13﹣6×7)2÷(21×19×20×20)≈4.912>3.841∴有95%的把握认为环保知识测试成绩与专业有关.故选C.点评:本题考查独立性检验的应用,考查数据处理能力、运算求解能力和应用意识,本题解题的关键是正确运算出观测值,理解临界值对应的概率的意义,要想知道两个变量之间的有关或无关的精确的可信程度,只有利用独立性检验的有关计算,才能做出判断,本题是一个基础题.15.C【解析】试题分析:根据所给的列联表得到求观测值所用的数据,把数据代入观测值公式中,做出观测值,同所给的临界值表进行比较,得到所求的值所处的位置,得到百分数.解:根据所给的列联表,得到k2==8.333>7.879,∴至少有99.5%的把握说明喜爱打篮球与性别有关.故选:C.点评:根据所给的列联表得到求观测值所用的数据,把数据代入观测值公式中,做出观测值,同所给的临界值表进行比较,得到所求的值所处的位置,得到百分数.16.A【解析】试题分析:根据P(K2>3.841)=0.05,即可得出结论.解:∵K2=≈4.762>3.841,P(K2>3.841)=0.05∴在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”.故选:A.点评:本题考查独立性检验的应用,考查学生分析解决问题的能力,属于基础题.17.不能【解析】查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.考点:独立性检验.不得禽流感得禽流感总计服药402060不服药202040总计6040100(2)大概90%认为药物有效【解析】试题分析:(1)由所给样本数据完成下面2×2列联表即可(2)根据公式计算观测值,然后比较观测值与临界值表中相应的检验水平,最后做出统计判断.(1)填表:服药与家禽得禽流感没有关系(2)假设检验问题HK≥)=0.10 所以大概90%认为药物有效 12分由P(2 2.706考点:2×2列联表;独立性检验.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9965(7775 49 42 2099) k 56.632. 7817 2148 9874 91
2
这个值到底能告诉我们什么呢?
统计学家经过研究发现,在H0成立的情况下,
P( K 6.635) 0.01
2
即在 H 0 成立的情况下,K2 大于6.635概率非常小,近似为0.01
不吸烟 吸烟 总计
表1-8
a c a+c
b d b+d
a+b c+d a+b+c+d
如果“吸烟与患肺癌没有关系”,那么吸烟样本中不 患肺癌的比例应该与不吸烟样本中相应的比例差不多, 即 a c
ab cd a(c d ) c( Nhomakorabea b)
ad bc 0
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
一般地,假设有两个分类变量X和Y,它们的可能取值 分别为 {x1,x2} 和 {y1,y2}, 其样本频数列联表(称为 2x2列联表)为: y1 x1 x2 总计 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d
若要判断结论为: H1 :“ X 与 Y 有关系”,如果通过直 c 接计算或观察等高条形图发现 a 和 相差很大, cd ab 就判段两个分类变量之间有关系.
怎样判断K² 的观测值k是大还是小呢? 这仅需确定一个正数 k 0 ,当 k k 0 时就认为IK² 的观测 值k大,此时相应于的判断规则为:如果k k 0 ,就认为
“两分类变量有关系”;否则就认为“两分类变量没有 k k 0 为一个判断规则的临界值 关系”.我们称这样的 .按照 上述规则,把“两个分类变量没有关系”错误地判断为 “两个分类变量有关系”的概率为 P(K 2 k0 )
为了使不同样本容量的数据有统一的评判标准,基于 上述分析,我们构造一个随机变量
n(ad bc ) K (a b)(c d )(a c )(b d )
2 2
( 1 )
其中n=a+b+c+d为样本容量. 若H0成立,即“吸烟与患肺癌没有关系”,则K2应很小. 由表1-7中数据,利用公式(1)计算得K2的观测值为:
0.025 0.010 0.005 0.001
k
0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
(2)由观测数据计算得到随机变量K2的观测值k; (3)如果k> k0 ,就以(1-P(K2≥ k0))×100%的把 握认为“X与Y有关系”;否则就说样本观测数据没有 提供“X与Y有关系”的充分证据.
0
上面这种利用随机变量 K2 来确定在多大程度上可以
认为“两个分类变量有关系”的方法称为两个分类变量
的独立性检验. 独立性检验的基本思想:
类似于数学上的反证法,对“两个分类变量有关系” 这一结论成立的可信程度的判断: ( 1 )假设该结论不成立,即假设结论“两个分类变量没有关系” 成立. (2)在假设条件下,计算构造的随机变量K2,如果有观测数据 计算得到的K2很大,则在一定程度上说明假设不合理. (3)根据随机变量K2的含义,可以通过(2)式评价假设不合理 的程度,由实际计算出的k>6.635,说明假设不合理的程度约为 99%,即“两个分类有关系”这一结论成立的可信程度约为99%.
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 秃顶 不秃顶
相应的等高条形图如图所示, 从图中可以看出秃顶样本中
不患心脏病 患心脏病
患心脏病的频率明星高于不 秃顶样本中换心脏病的频率, 因此可以认为“秃顶与患心脏 病有关”.
根据列联表中的数据,得到: 2 1437 (214 597 175 451) 2 K 16.373 6.635. 389 1048 665 772 所以有99%的把握认为“秃顶患心脏病有关”.
等高条形图
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟
等高条形图更 清晰地表达了 两种情况下患 肺癌的比例.
患肺癌 不患肺癌
其中两个浅色条的高分别表示吸烟和不吸烟样本中不患肺癌 的频率;两个深色条的高分别表示吸烟和不吸烟样本中患肺癌的 频率,比较图中两个深色条的高可以发现,在吸烟样本中患肺癌 的频率要高一些,因此直观上可以认为吸烟跟容易引发肺癌
探究
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
表1-7吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817
吸烟
总计
2099
9874
49
91
2148
9965
那么吸烟是否对患肺癌有影响?
像表1-7这样列出两个分类变量的频数表,称为列联表 . 有吸烟和患肺癌列联表可以粗略估计出,在不吸烟者 中,有 0.54% 患有肺癌;在吸烟者中,有 2.28% 患有肺 癌。因此,直观上可以得到结论:吸烟者和不吸烟者 患肺癌的可能性存在差异. 与表格相比,图形跟能直观地反映出两个变量间是否 相互影响,常用等高条形图展示列联表数据的频率特 征.
1.2独立性检验的基本思想 及其初步应用
对于性别变量,其取值为男和女两种,这种变量 的不同“值”表示个体所属的不同类别,像这样的变 量称为分类变量. 分类变量在现实生活中是大量存在的,如是 否吸烟,是否患肺癌,宗教信仰,国别,年龄, 出生月份等等。 在日常生活中,主要考虑分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等.
上面这种直观判断的不足之处在于不能给出推断“两 个分类变量有关系”犯错误的概率,而利用独立性检验 来考察两个分类变量是否有关系,能较精确地给出这种 判断的可靠程度. 具体作法是: (1)根据实际问题需要的可信程度确定临界值k0;
P( K 2 k ) 0.50 0.40
0.5
0.15
0.10
0.05
现在的K2=56.632的观测值远大于6.635,所以有理 由判定H0不成立,即认为“吸烟于患肺癌有关系”.但 是这种判断还犯错误,犯错误的概率不会超过0.010
在上述过程中,实际上是借助于随机变量K2的观测值k, 建立一个判断H0是否成立的规则:如果k≥6.635,就判断 H0不成立,即认为“吸烟与患肺癌有关系”;否则就判定 H0成立,即认为“吸烟与患肺癌没有关系” 在改规则下,把结论“H0成立”错判为“H0不成立” 2 的概率不会超过 P( K 6.635) 0.01
例1.在某医院,因为患心脏病而住院的 665名男性病人中,有214 人秃顶;而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在什么范围内有效?
解:根据题目所给数据得到如下列联表: 患心脏病 不患心脏病 总计 秃顶 214 175 389 不秃顶 451 597 1048 总计 665 772 1437
这里概率计算的前提是H0成立
上面解决问题的想法类似于反证法.要判断“两个分类 变量有关系”,首先假设该结论不成立,即:H0:两个分 类变量没有关系成立.在该假设下我们所构造的随机变量 K² 应该很小,如果有观测数据计算得到K² 的观测值k很大, 则断言H0不成立,即认为“两个分类变量有关系”,如果 观测值很小,则说明在样本数据中没有发现足够的证据拒 绝 H0
(1)如果k>10.828,就有99.9%的把握认为“X与Y有关系” (2)如果k>7.879,就有99.5%的把握认为“X与Y有关系”; (3)如果k>6.635,就有99%的把握认为“X与Y有关系”; (4)如果k>5.024,就有97.5%的把握认为“X与Y有关系”; (5)如果k>3.841,就有95%的把握认为“X与Y有关系”; (6)如果k>2.706,就有90%的把握认为“X与Y有关系”; (7)如果k<=2.706,就认为没有充分的证据显示“X与Y有 关系”.
上面我们通过分析数据和图形,得到的直观印象是吸 烟和患肺癌有关,那么这种判断是否可靠?我们可以 用统计观点来考察这个问题.
为了回答上面的问题,我们先假设: H0:吸烟与患肺癌没有关系 看看能推出怎样的结论。 把表 1-7 中的数字用字母代替,得到如下用字母表示 的列联表(表1-8): 不患肺癌 患肺癌 总计