3.2 独立性检验的基本思想及其初步应用
独立性检验的基本思想及其初步应用高中数学人教A版选修PPT课件

a ≈ a + b×a + c nn n
其中n = a + b + c + d为样本容量,即
(a+b+c+d)a (a+b)(a+c),
即ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
18
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分
甲生产线 97 3
100
乙生产线 95 5
100
总计
192 8
200
10
100 90 80 70 60 50 40 30 20 10 0 合格
不合格
合格
不合格
甲生产线 乙生产线
甲生产线 乙生产线
0
100
200
300
11
1 . 2×2 列 联 表 是 传 统 的 调 查 研 究 中 最 常 用的方法之一,用于研究两个变量之间相 互独立还是存在某种关联性,它适用于分 析两个变量之间的关系.
k
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
(1)如果k 10.828,就有99.9%的把握认为" X与Y有关系"
(2)如果k 7.879,就有99.5%的把握认为" X与Y有关系"
(3)如果k 6.635,就有99%的把握认为" X与Y有关系"
不成立,即有99%的把握认为“吸烟
0
与患肺癌有关系”。
20
判断H 0是否成立的规则
如果 k 6.635 ,就判断 H0 不成立,即认为吸烟与
3.2《独立性检验》

(这是“反证法”采用的假 设)
1. ad bc 越小说明吸烟与患肺癌之间关系越弱; 2. ad bc 越大说明吸烟与患肺癌之间关系越强;
这就是用数量来刻画“有关”程度的一种 方法
为了使不同样本容量的数据有一个统一的标准,我们构造一个随机变量K 2,
2 n ( ad bc ) k2的观测值为 K ,其中n=a+b+c+d为样本容量 (a b)(c d )(a c)(b d )
在假设H0成立的前提下,K 2的观测值k应该比较小。
当k很小时,H0成立的理由很充分,即没有足够的理由拒绝H0成立。 k很大时,说明没有充分的证据说明H0成立。 “假设H ”成立的概率
k大小的“标准”是什么呢?
P(K 2 k0 ) 0.50
0.40 0.708 0.25 1.323
0
临界值表
0.10 2.706
k0
在吸烟与患肺病这两个分类变量的计算中,下列说法正确
的是( c
)
A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患 肺病有关系,那么在100个吸烟的人中必有99个患肺病 B、从独立性检验可知有99%的把握认为吸烟与患肺病有关 系时,我们说某人吸烟,那么他有99%的可能患肺病
C、若从统计量中求出有95%的把握认为吸烟与患肺病有关
9965(7775 49 42 2099)2 K 的观测值为 k 56.632 7817 2148 9874 91
2
根据临界值表可知P( K 2 10.828) 0.001 只有0.1%的理由说明H0成立,所以有99.9%的理由判断H0不成立, 所以吸烟与患癌症有关系。
这种判断可能有错误,但是犯错误的概率不会超过0.001,这 是个小概率事件,我们有99.9%的把握认为“吸烟与患癌症有 关系”
高中数学必修2-3第三章3.2独立性检验的基本思想及其初步应用讲解

3.2独立性检验的基本思想及其初步应用1.问题导航(1)分类变量的概念是什么?什么是列联表?什么是2×2列联表?(2)等高条形图的优点是什么?如何利用等高条形图判断两个变量之间的关系?(3)独立性检验的概念是什么?怎样进行独立性检验?2.例题导读例1是利用等高条形图和K2值的计算判断秃顶与患心脏病是否有关,请试做教材P97练习.1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的_______不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的_______频数表称为列联表.②2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为_______{x1,x2_______}和_______{y1,y2.2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否_______相互影响,常用等高条形图展示列联表数据的_______频率特征.(2)观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间_______有关系.3.独立性检验(1)定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=_______n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定_______临界值k0.②利用公式计算随机变量K2的_______观测值k.③如果_______k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则,就认为在_______犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中_______没有发现足够证据支持结论“X与Y有关系”.1.判断(对的打“√”,错的打“×”)(1)列联表中的数据是两个分类变量的频数.()(2)事件A与B的独立性检验无关,即两个事件互不影响.()(3)K2的大小是判断事件A与B是否相关的统计量.()答案:(1)√(2)×(3)√2.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是()A.散点图B.等高条形图C.2×2列联表D.以上均不对答案:B3.分类变量X和则下列说法中正确的是()A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强答案:C4.若由一个2×2列联表中的数据计算K2的观测值k=4.013,那么在犯错误的概率不超过________的前提下认为两个变量有关系.答案:0.05详析独立性检验(1)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握认为两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论.(3)独立性检验原理:在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率.等高条形图的应用(2015·青岛高二检测)某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.[解]作列联表如下:相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类别有关.利用等高条形图判断两个分类变量是否相关的步骤1.(1)观察下列各图,其中两个分类变量X,Y之间关系最强的是()解析:选D.在四幅图中,D图中两个阴影条的高度相差最明显,说明两个分类变量之间的关系最强.(2)在一次恶劣气候的飞行航程中,调查男女乘客在机上晕机的情况如下表所示,据此解:由数据的列联表可以得到等高条形图为:从图中可以发现男性中晕机的频率与女性中晕机的频率相差较大,故我们认为性别和是否晕机有关系,且在恶劣气候飞行中男性比女性更容易晕机.独立性检验(2014·高考辽宁卷节选)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.[解]将2×2列联表中的数据代入公式计算,得K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(60×10-20×10)2 70×30×80×20=10021≈4.762.因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.解决独立性检验问题的基本步骤:(1)根据已知的数据作出列联表.(2)作出相应的等高条形图,可以利用图形做出相应判断.(3)求K2的观测值.(4)判断可能性:与临界值比较,得出事件有关的可能性大小.2.(1)为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?解:列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关. (2)①这种传染病是否与饮用水的卫生程度有关,请说明理由;②若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解:①假设H 0:传染病与饮用水无关,把表中数据代入公式得K 2=830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. ②依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)214×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但①中我们有99.9%的把握肯定结论的正确性.②中我们只有97.5%的把握肯定.(本题满分12分)调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.(1)将下面的2×2(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系? [解] (1)4分(2)由所给数据计算K 2的观测值 k =89×(24×26-31×8)255×34×32×57≈3.689>2.706.8分根据临界值表知P (K 2≥2.706)≈0.10.9分因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.12分 [规范与警示] (1)解答过程中的表格经常因为不认真仔细,把数据填写错误,会直接导致总计出错,也会导致k值求错,另外在利用公式求K2的观测值时经常因为公式用错,数据代入计算错误,而使得独立性检验出错.(2)在解答独立性检验题目中,数据有时比较多,一定不要混淆,要分辨清楚,否则会影响解题的下一步,如本例2×2列联表中数据极易混淆.(3)计算中,有时公式复杂,要记忆准确,同时计算不能失误,如K2的公式很复杂,计算中也不要粗心.1.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B.k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.2.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%解析:选C.由图知女生中喜欢理科的比为20%,男生不喜欢理科的比为40%,故B、D 不正确.由图知,男生比女生喜欢理科的可能性大些.3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名由表中数据直观分析,收看新闻节目的观众与年龄________.(填“有关”或“无关”) 解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即b a +b =1858,d c +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄有关.答案:有关4.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.(1)计算a ,(2)文科学生总成绩不好与数学成绩不好有关系吗? 解:(1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,∵P (k ≥5.024)≈0.025,∴在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.[A.基础达标]1.下面是2×2则表中a ,b 的值分别为A .94,72 B .52,50 C .52,74 D .74,52 解析:选C.根据列联表的特点,可知:⎩⎪⎨⎪⎧a +21=73,a +22=b ,解得⎩⎪⎨⎪⎧a =52,b =74. 2.下列关于等高条形图的叙述正确的是( )A .从等高条形图中可以精确地判断两个分类变量是否有关系B .从等高条形图中可以看出两个变量频数的相对大小C .从等高条形图中可以粗略地看出两个分类变量是否有关系D .以上说法都不对解析:选C.在等高条形图中仅能粗略判断两个分类变量的关系,故A 错.在等高条形图中仅能够找出频率,无法找出频数,故B 错.3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是( )A .100个心脏病患者中至少有99人打鼾B .1个人患心脏病,则这个人有99%的概率打鼾C .100个心脏病患者中一定有打鼾的人D .100个心脏病患者中可能一个打鼾的人都没有解析:选D.这是独立性检验,犯错误的概率在不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.4.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中由以上数据,计算得到K 的观测值k ≈9.643,根据临界值表,以下说法正确的是( ) A .没有充足的理由认为课外阅读量大与作文成绩优秀有关 B .有0.5%的把握认为课外阅读量大与作文成绩优秀有关 C .有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关解析:选D.根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.5.对两个分类变量A、B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.1 B.2C.3 D.0解析:选A.①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A与B是否相互独立;③不正确,也可借助等高条形图等.故选A.6.独立性检验所采用的思路是:要研究X,Y两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.解析:独立性检验的前提是假设两个分类变量无关系,然后通过随机变量K2的观测值来判断假设是否成立.答案:无关系不成立7.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.答案:③8根据上述数据分析,我们得出的K 的观测值k 约为________. 解析:由公式可计算得k =102×(27×29-34×12)239×63×61×41≈2.334.答案:2.3349.某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.解:根据题目所给数据得如下2×2列联表:∵ad -bc =982×17-8×493=12 750,|ad -bc |比较大,说明甲在不在生产现场与产品质量好坏有关系.相应的等高条形图如图所示.图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样品中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.10.研究人员选取170名青年男女大学生作为样本,对他们进行一种心理测验,发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,作否定的有38名;110名男生在相同的题目上作肯定的有22名,作否定的有88名,问:性别与态度之间是否存在某种关系?试用独立性检验的方法判断.解:根据题意,得如下2×2列联表:根据列联表中的数据,得k=170×(22×38-22×88)2110×60×44×126≈5.622>5.024,所以可以在犯错误的概率不超过0.025的前提下认为“性别与态度有关”.[B.能力提升]1.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表如下:对于以下数据,对同一样本能说明X与Y有关的可能性最大的一组为()A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=2,b=3,c=5,d=4解析:选D.对于A,|ad-bc|=|10-12|=2;对于B,|ad-bc|=|10-12|=2;对于C,|ad-bc|=|10-12|=2;对于D,|ad-bc|=|8-15|=7.2.有两个分类变量X,Y,其一组的列联表如下所示,其中a,15-a均为大于50.05的前提下认为X,Y有关,则a 的值为( )A .8B .9C .8,9D .6,8解析:选 C.根据公式,得K 2的观测值k =65×[a (30+a )-(15-a )(20-a )]220×45×15×50=13×(13a -60)220×45×3×2>3.841,根据a >5且15-a >5,a ∈Z ,求得a =8,9满足题意.3.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:K 2的观测值:k =50×(13×20-10×7)223×27×20×30≈4.844>3.841.因此,判定主修统计专业与性别有关系,那么这种判断出错的概率为________. 解析:根据k >3.841,可判断在犯错误的概率不超过0.05的前提下,认为主修统计专业与性别有关系.故出错的概率为0.05.答案:0.054试说明心理障碍与性别的关系:________. 解析:由表可知,a =10,b =20,c =10,d =70,a +b =30,c +d =80,a +c =20,b +d =90,n =110,ad =700,bc =200, 把以上数值代入K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=110×(700-200)230×80×20×90≈6.365 7.因为6.365 7>5.024,所以在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.答案:在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系5.某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数大于等于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位同学说明其30位亲属的饮食习惯; (2)(3)能否在犯错误的概率不超过0.010的前提下认为“其亲属的饮食习惯与年龄有关”?并写出简要分析.解:(1)30位亲属中50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为主.(2)列联表如表所示:(3)K 2=30×(4×2-8×16)212×18×20×10=10>6.635,所以在犯错误的概率不超过0.010的前提下认为“其亲属的饮食习惯与年龄有关”. 6.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否在犯错误的概率不超过0.010的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500×100%=14%.(2)K 2的观测值k =500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以在犯错误的概率不超过0.010的前提下认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.。
2020学年高中数学第3章统计案例3.2独立性检验的基本思想及其初步应用课件新人教A版选修2_3

返回目录
(2)独立性检验(精确判断) 具体实施步骤如下: ①根据实际问题需要的可信程度确定临界值 k0; ② 根 据 观 测 数 据 计 算 随 机 变 量 K2 = a+bcn+add-ab+cc2b+d的观测值 k,其中 n=a+b+c+ d 为样本容量;
返回目录
③查临界值表(以K2的观测值k的大小作为检验在多 大程度上可以认为“两个变量有关系”的标准),如果 k≥k0,就以(1-P(K2≥k0))×100%的把握认为“两分类 变量有关系”;否则,就认为根据样本数据没有充分的 理由说明“两分类变量有关系”.
返回目录
2.(独立性检验)有人发现,多看电视容易使人变冷 漠,下表是一个调查机构对此现象的调查结果.
冷漠 不冷漠 总计 多看电视 68 42 110 少看电视 20 38 58
总计 88 80 168
返回目录
则大约有多大的把握认为多看电视与人变冷漠有关
系( )
A.99%
B.97.5%
C.95%
D.90%
返回目录
要点三 独立性检验
定义 利用随机变量K2来判断“两个分类变量有关系” 的方法称为独立性检验 nad-bc2
公式 K2=_____a_+__b__c_+__d__a_+__c___b_+__d_____,其中n= ___a_+_b_+__c_+__d___
返回目录
①认真读题,取出相关数据,作出2×2列联表; 具体 ②根据2×2列联表中的数据,计算K2的观测值k; 步骤 ③通过观测值k与临界值k0比较,得出事件有关的
返回目录
P(K2≥k0) 0.100 0.050 0.010 k0 2.706 3.841 6.635
思维导引:根据列联表直接代入K2公式可得南方学 生和北方学生的差异与是否喜欢甜品的相关程度.
第三章--统计案例-3.2-独立性检验的基本思想及其初步应用

解:由列联表中的数据,得 K2 的观测值为 1 633×30×1 355-224×242 k= ≈68.033>10.828. 254×1 379×54×1 579 因此,在犯错误的概率不超过 0.001 的前提下,认为每 一晚都打鼾与患心脏病有关.
为了调查某生产线上,某质量监督员甲对产
品质量好坏有无影响,现统计数据如下:质量监督员在现 场时,990件产品中合格品为 982 件,次品数为 8 件,甲不 在现场时,510件产品中合格品为493件,次品数为17件, 试分别用列联表、等高条形图、假设检验的方法对数据进
的方法来判断色盲与性别是否有关?你所得的结论在什么
范围内有效? 解:根据题目所给的数据作出如下的列联表: 色盲 不色盲 合计
男 女 合计
38 6 44
442 514 956
480 520 1 000
根据列联表作出相应的等高条形图,如图所示:
38 从等高条形图来看在男人中患色盲的比例480比在女人
38 6 6 中患色盲的比例520要大,其差值为480-520 ≈0.068,差
位统一,图形准确,但它不能给我们两个分类变量有关或
无关的精确的判断,若要作出精确的判断,可以进行独立 性检验的有关计算.
本题应首先作出调查数据的列联表,再根据列联表画
出等高条形图,并进行分析,ห้องสมุดไป่ตู้后利用独立性检验作出判 断.
在调查 480 名男士中有 38 名患有色盲, 520名女士中有6名患有色盲,分别利用图形和独立性检验
步
骤
③如果 k≥k0 ,就推断“X与Y有关系”,这种推断
犯错误的概率不超过α;否则,就认为在犯错误的概 率不超过α的前提下不能推断“X与Y有关系”,或者 在样本数据中没有发现足够证据支持结论“X与Y有 关系”.
高中数学3.2独立性检验的基本思想及其初步应用优秀课件

例2 为考察高中生的性别与是否喜欢数学课程 之间的关系,在某城市的某校高中生中随机 抽出 300 名学生, 得到如下列联表 :
表3 12 性别与喜欢数学课程列联表
喜欢数学课程 不喜欢数学课程 总计
男
37
85
122
女
35
143
178
3.2 独立性检验的根本思想及其初步应用
一、分类变量的定义
对于性别变量,其取值为男和女两种.
这种变量的不同“值〞表示个体所属的不同类别, 像这类变量称为分类变量.
生活中的分类变量
是否吸烟,宗教信仰,国籍…
两个分类变量之间是否有关系?
吸烟
患肺癌
性别
是否喜欢 数学课程
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查
患心脏病 患其他病 总计
秃顶
214
175
389
不秃顶 451
597
1048
总计
665
772
1437
根据列联表3 11中的数据,得到
K2 1437 214 597 175 4512 16.373 6.635 .
389 1048 665 772
所以有99%的把握认为"秃顶与患心脏病有关".
例1 在某医院,因为心脏病而住院的 665 名男性 病人中,有214 人秃顶,而另外772 名不是因为患心 脏病而住院的男性病人中有175 人秃顶.分别利用 图形和独立性检验方法判断秃顶与患心脏病是否
有关系? 你所得的结论在什么范围内有效?
解 根据题目所给数据得到如下列联表
表3 11 秃顶与患心脏病列联表
独立性检验的基本思想及其初步应用

如果“吸烟与患肺癌没有关系”,那么吸烟样
本中不患肺癌的比例应该与不吸烟样本中相应的比
例差不多.
所以
a a+
b
c
c +d
,
所以 a c + d ca + b,
ad bc
即 ad bc 0.
︱ad-bc︱越小,说明吸烟与患肺癌之间的关系越弱;
︱ad-bc︱越大,说明吸烟与患肺癌之间的关系越强.
患心脏病 患其他病 总计
秃顶
214
175
389
不秃顶
451
597
1 048
总计
665
772
1 437
(1)相应的等高条形图如下所示,
不患心脏病 患心脏病
秃顶
不秃顶
由图可认为秃顶与患心脏病有关系
吸烟与患肺癌列联表(单位:人)
不患肺癌
患肺癌
总计
不吸烟
7 775
42
7 817
吸烟
2 099
49
2 148
总计
9 874
91
9 965
在不吸烟者中患肺癌的比重是__0_._5_4_%_,
在吸烟者中患肺癌的比重是__2_._2_8_%_.
说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大.
K2
(n ad bc)2
(a b)(c d )(a c)(b d )
临界值表:
P ( K 2 k 0 ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
选修2-3《独立检验的基本思想及其应用》教案

教材:普通高中课程标准实验教科书数学选修32 人教A版章节:2.3独立性检验的基本思想及其初步应用一、内容和内容解析本节课是人教A版(选修)2—3第三章第二单元第一课时的内容.理论性比较强,很多教师为了图省事,在教学过程中采用学生看书自学的方式,我认为不妥。
结合课本内容,拟用两节课的时间完成整节的教学内容,本节为第一节。
山东省教育厅在2010年9月15日“关于印发山东省普通高中学科教学内容调整意见二、教学目标分析1.目标:①知识与技能目标通过生活中案例的探究,理解独立性检验的基本思想,明确独立性检验的基本步骤,会对两个分类变量进行独立性检验,并能利用独立性检验的基本思想来解决实际问题。
②过程与方法目标通过探究引出独立性检验的问题,借助样本数据的列联表分析独立性检验的实施步骤。
③情感态度价值观目标通过本节课的学习,加强数学与现实生活的联系。
以科学的态度评价两个分类变量有关系的可能性。
培养学生运用所学知识,解决实际问题的能力。
教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性。
2.目标解析:在学习中通过对统计案例的分析,理解和掌握独立性检验的方法,体会独立性检验的基本思想在解决实际问题的应用,以提高我们处理生活和工作中的某些问题的能力.新课标指出:学生的数学学习内容应当是现实的、有趣的和富有挑战性的。
从心理学的角度看,青少年有一种好奇的心态、探究的心理。
因此,紧紧地抓住学生的这一特征,利用学生身边的问题设计教学情境,使学生在观察、讨论等活动中,逐步提高数学能力。
本节课学生应该了解的几个问题:1、判断两个分类变量是否有关的几种方法及其不同点⑴列联表⑵三维柱形图⑶二维条形图⑷等高条形图⑸独立性检验的思想及应用2、独立性检验的思想与反证法思想的比较3、k2表达式及k2值表的含义三、教学问题诊断分析1.课本上k2的结构比较复杂,来的也比较突然,学生可能会提出疑问.关于这个问题,可借助两件事独立的定义以及样本容量较大时可以用频率近似表示概率来解决。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
创新方案系列丛书
1.分类变量中的“变量”和“值”与定理中的变量和值有 什么不同? 提示:分类变量中所说的“变量”和“值”不一定取具体
的数值.例如:对于性别变量,取值有男和女两种情况,那么
这里的变量指的是性别,同样这里的值是“男”或“女”.在 现实生活中,分类变量是大量存在的.
高中同步新课标·数学
高中同步新课标·数学
创新方案系列丛书
解决独立性检验问题的基本步骤:
(1)根据相关数据,列2×2列联表,确定a,b,c,d的值;
(2)求K2的观测值; (3)由K2的值判断两分类变量的相关关系.
高中同步新课标·数学
创新方案系列丛书
1.为了调查胃病是否与生活规律有关,在某地对 540 名 40 岁以上的人 进行了调查,结果是:患胃病者生活不规律的共 60 人,患胃病者生活规律的 共 20 人,未患胃病者生活不规律的共 260 人,未患胃病者生活规律的共 200 人. (1)根据以上数据列出 2×2 列联表; (2)在犯错误的概率不超过 0.01 的前提下认为 40 岁以上的人患胃病与否和生 活规律有关系吗?为什么?
高中同步新课标·数学
创新方案系列丛书
利用随机变量 K2 来判断“两个分类变量有关系 ”的方法称为独 定义 立性检验
2 n ( ad - bc ) K2= , ( a+ b)( c+ d)(a+ c)( b+d)
公式
其中 n= a+ b+ c+ d ①认真读题,取出相关数据,作出 2×2 列联表; 具体 步骤 ②根据 2×2 列联表中的数据,计算 K2 的观测值 k; ③通过观测值 k 与临界值 k0 比较,得出事件有关的可能性大 小
表 2:注射药物 B 后皮肤疱疹面积的频数分布表 疱疹面积 [60,65) [65,70) [70,75) [75,80) [80, 85) 频数 10 25 20 30 15
高中同步新课标·数学
创新方案系列丛书
完成下面 2× 2 列联表,并回答能否在犯错误的概率不超过 0.001 的前提下认为“注射药物 A 后的疱疹面积与注射药物 B 后的疱疹面积 有差异”. 表 3: 疱疹面积小 于 70 mm2 注射药物 A 注射药物 B 合计 n= a= c= 疱疹面积不 小于 70 mm2 b= d=
高中同步新课标·数学
创新方案系列丛书
乙厂 分组 [29.86,29.90) [29.90,29.94) [29.94,29.98) [29.98,30.02) [30.02,30.06) [30.06,30.10) [30.10,30.14) 频数 29 71 85 159 76 62 18
(1)试分别估计两个分厂生产零件的优质品率;
高中同步新课标·数学
创新方案系列丛书
在绘制列联表时,应对问题中的不同数据分成不同的类别,然 后列表.要注意列联表中各行、各列中数据的意义及书写格 式.
高中同步新课标·数学
创新方案系列丛书
3.某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,
30.06)的零件为优质品.从两个分厂生产的零件中各抽
施西部开发战略的公布对应届大学毕业生的选择产生了影响?
高中同步新课标·数学
创新方案系列丛书
[自主解答] 根据题意,列出 2× 2 列联表. 志愿者 开发战略公布前 开发战略公布后 合计
2
非志愿者 920 800 1 720
合计 1 000 1 200 2 200
80 400 480
2 200× (80× 800-920× 400)2 由公式计算 K 统计量得:k= ≈205.22. 480× 1 720× 1 000× 1 200 因为 205.22>10.828, 因此在犯错误的概率不超过 0.001 的前提下认为实施西 部开发战略的实施对应届毕业大学生的选择产生了影响.
高中同步新课标·数学
合计
n=
创新方案系列丛书
[自主解答 ] 疱疹面积小 于 70 mm 注射药物 A 注射药物 B 合计
2 2
疱疹面积不 小于 70 mm b= 30 d= 65 95
2
合计 100 100 n= 200
a= 70 c= 35 105
200×( 70× 65- 35× 30) 2 由列联表中的数据 ,得 K 的观测值为, k= ≈ 24.56>10.828. 100×100×105×95 因此 ,能在犯错误的概率不超过 0.001 的前提下认为 “注射药物 A 后的疱疹面积与注射药物 B 后的疱疹面积有差异 ”.
比较图中深色条的高可以发现经常上网不及格的频率明显高于经常上网及格 的频率,因此可以认为经常上网与学习成绩有关.
高中同步新课标·数学
创新方案系列丛书
进行独立性检验的前提是根据题中数据获得 2× 2 列联 表,而常用等高条形图展示列联表数据的频率特征,即将 a c b d 与 (或 与 )的值相比,由此能直观地反映 a+b c+d a+b c+d 出两个分类变量间是否相互影响,但是此方法较粗略.
高中同步新课标·数学
创新方案系列丛书
2.为了解铅中毒病人与尿棕色素为阳性是否有关系,分别 对病人组和对照组的尿液作尿棕色素定性检查,结果如下: 组别 铅中毒病人 对照组 总计 阳性数 29 9 38 阴性数 7 28 35 总计 36 37 73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕 色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关 系.
②2×2列联表:
一般地,假设两个分类变量X和Y,它们的取值分别为{x1,x2}{y1,
y2},其样本频数列联表(称2×2列联表)为 y1 X1 x2 总计 a c a+c y2 b d b+d 总计 a+b c+ d a+b+c+d
高中同步新课标·数学
创新方案系列丛书
2.等高条形图
将列联表中的数据用高度相同的两个条形图表示出来,其中两列 的数据分别对应不同的颜色,这就是等高条形图. 等高条形图可以展示列联表数据的 频率 特征,能够直观地反 映两个变量间 是否相互影响 .
高中同步新课标·数学
创新方案系列丛书
考点1
独立性检验的原理
例1:在国家未实施西部开发战略前,一新闻单位在应届 大学毕业生中随机抽取1 000人问卷,只有80人志愿加入西部 建设.而国家分步实施西部开发战略后,随机抽取1 200名应 届大学毕业生问卷,有400人志愿加入国家西部建设.
问:能否在犯错误的概率不超过0.001的前提下,认为实
3.利用K2进行独立性检验,估计值的准确度与样本容量有
关吗? 提示:利用K2进行独立性检验,可以对推断的正确性的概率作
出估计,样本容量n越大,这个估计值越准确.如果抽取的样本
容量很小,那么利用K2进行独立性检验的结果就不具有可靠 性.
高中同步新课标·数学
创新方案系列丛书
4.在K2运算后,得到K2的值为29.78,在判断变量相关时,
高中同步新课标·数学
创新方案系列丛书
解:等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组 样本中尿棕色素为阳性的频率. 由图可以直观地看出铅中毒病人与对照组相比,尿棕 色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性 有关系.
高中同步新课标·数学
创新方案系列丛书
考点3
独立性检验的综合应用
2
P(K2≥k0) k0
0.05 3.841
0.01 6.635
高中同步新课标·数学
创新方案系列丛书
解: (1)甲厂抽查的产品中有 360 件优质品,从而甲厂生产的零件的优质品率估计为 360 = 72%; 500 乙厂抽查的产品中有 320 件优质品,从而乙厂生产的零件的优质品率估计为 (2)由已知表中数据,可得下列 2× 2 列联表: 甲厂 优质品 非优质品 合计 360 140 500 乙厂 320 180 500 合计 680 320 1 000 320 = 64%. 500
出500件,量其内径尺寸的结果如下表:
甲厂 分组 [29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10, 30.14) 频数 12 63 86 182 92 61 4
1 000× ( 360×180- 320× 140) 2 k= ≈7.35> 6.635, 500×500×680× 320 因此,在犯错误的概率不超过 0.01 的前提下认为 “两个分厂生产的零件的质量有差异 ”.
高中同步新课标·数学
创新方案系列丛书
在调查的 480 名男人中,有 38 名患色盲, 520 名女人中,有 6 名患色盲.试判断人的性别 与患色盲是否有关?你所得到的结论在什么范围内有效?
高中同步新课标·数学
创新方案系列丛书
解:(1)由已知可列 2×2 列联表: 患胃病 生活规律 生活不规律 总计 20 60 80 未患胃病 200 260 460 总计 220 320 540
(2)根据列联表中的数据 ,由计算公式得 K2 的观测值: 540×(20×260-200×60)2 k= ≈9.638. 220×320×80×460 因为 9.638>6.635, 所以在犯错误的概率不超过 0.01 的前提下认为 40 岁以上的人患胃病与否 和生活规律有关 .
例3:为了比较注射 A,B两种药物后产生的皮肤疱疹的
面积,选200只家兔做试验,将这200只家兔随机地分成两组,
每组 100 只,其中一组注射药物 A ,另一组注射药物 B. 下表 1 和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单 位:mm2)
高中同步新课标·数学
创新方案系列丛书
表 1:注射药物 A 后皮肤疱疹面积的频数分布表 疱疹面积 频数 [60,65) 30 [65,70) 40 [70,75) 20 [75,80) 10