高二数学3.2独立性检验的基本思想及其初步应用学案新人教A版选修2-3
2020版高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用学案 新人教A版选修2-3
§3.2 独立性检验的基本思想及其初步应用学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K 2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.知识点一 分类变量及2×2列联表思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:体育 文娱 合计 男生 210 230 440 女生 60 290 350 合计270520790如何判定“喜欢体育还是文娱与性别是否有联系”?答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断. 梳理 (1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表①定义:列出的两个分类变量的频数表,称为列联表. ②2×2列联表一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(也称为2×2列联表)为下表.y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d知识点二 等高条形图1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.2.如果通过直接计算或等高条形图发现aa +b 和cc +d相差很大,就判断两个分类变量之间有关系.知识点三 独立性检验1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.3.独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(2)利用公式计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.1.列联表中的数据是两个分类变量的频数.( √)2.事件A与B的独立性检验无关,即两个事件互不影响.( ×)3.K2的大小是判断事件A与B是否相关的统计量.( √)类型一等高条形图的应用例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?考点定性分析的两类方法题点利用图形定性分析解等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.反思与感悟在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.两个比例的值相差越大,X与Y有关系成立的可能性就越大.跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?考点定性分析的两类方法题点利用图形定性分析解根据题目所给的数据得到如下2×2列联表:经常上网不经常上网总计不及格80120200及格120680800总计200800 1 000得出等高条形图如图所示:比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.类型二独立性检验例2 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.考点独立性检验及其基本思想题点独立性检验的方法解 将2×2列联表中的数据代入公式计算,得K 2的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(60×10-20×10)270×30×80×20=10021≈4.762. 因为4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.反思与感悟 (1)独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad -bc ≈0,因此|ad -bc |越小,关系越弱;|ad -bc |越大,关系越强. (2)独立性检验的具体做法①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k 0.②利用公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算随机变量K 2的观测值k .③如果k ≥k 0,推断“X 与Y 有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够的证据支持结论“X 与Y 有关系”. 跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.(1)根据以上数据建立一个2×2列联表;(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系. 考点 独立性检验及其基本思想 题点 独立性检验的方法 解 (1)2×2列联表如下所示:(2)假设“对新课程教学模式的赞同情况与教师年龄无关”. 由公式得K 2=50×(10×6-24×10)234×16×20×30≈4.963<6.635,所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关. 类型三 独立性检验的综合应用例3 (2017·全国Ⅱ改编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).考点独立性检验思想的应用题点分类变量与统计、概率的综合性问题解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,由P (A )=P (BC )=P (B )P (C ),则旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62,新养殖法的箱产量不低于50 kg 的频率为(0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66,则事件A 的概率估计值为P (A )=P (B )P (C )=0.62×0.66=0.409 2, ∴A 发生的概率为0.409 2.(2)根据箱产量的频率分布直方图得到列联表:则K 2=200×(62×66-38×34)2100×100×96×104≈15.705,由15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. 反思与感悟 两个分类变量相关关系的判断(1)等高条形图法:在等高条形图中,可以估计满足条件X =x 1的个体中具有Y =y 1的个体所占的比例aa +b,也可以估计满足条件X =x 2的个体中具有Y =y 1的个体所占的比例cc +d.两个比例的值相差越大,X 与Y 有关系成立的可能性就越大.(2)观测值法:通过2×2列联表,先计算K 2的观测值k ,然后借助k 的含义判断“两个分类变量有关系”这一结论成立的可信程度.跟踪训练3 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为23.(1)请将上面的2×2列联表补充完整(不用写计算过程);(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X ,求X 的分布列与均值. 考点 独立性检验思想的应用题点 分类变量与统计、概率的综合性问题 解 (1)列联表补充如下:喜爱打篮球不喜爱打篮球合计 男生 22 6 28 女生 10 10 20 合计321648(2)由K 2=48×(220-60)228×20×32×16≈4.286.因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关. (3)喜爱打篮球的女生人数X 的可能取值为0,1,2. 其概率分别为 P (X =0)=C 210C 220=938,P (X =1)=C 110C 110C 220=1019,P (X =2)=C 210C 220=938,故X 的分布列为X 0 1 2 P9381019938X 的均值为E (X )=0+1019+919=1.1.某机构调查中学生的近视情况,了解到某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( ) A .平均数 B .方差 C .回归分析 D .独立性检验 考点 独立性检验及其基本思想 题点 独立性检验的思想 答案 D2.对于分类变量X 与Y 的随机变量K 2的观测值k ,下列说法正确的是( )A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大考点独立性检验及其基本思想题点独立性检验的思想答案 B解析k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.3.用等高条形图粗略估计两个分类变量是否相关,观察下列各图,其中两个分类变量关系最强的是( )考点定性分析的两类方法题点利用图形定性分析答案 D解析由等高条形图易知,D选项两个分类变量关系最强.4.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这个人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有考点独立性检验及其基本思想题点独立性检验的方法答案 D解析独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.总成绩好 总成绩不好 总计 数学成绩好 478 a490 数学成绩不好39924423 总计b c913(1)计算a ,b ,c 的值;(2)文科学生总成绩不好与数学成绩不好有关系吗? 考点 独立性检验及其基本思想 题点 独立性检验的方法解 (1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2的观测值k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,因为P (K 2≥5.024)≈0.025,所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系. 2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K 2的值,如果K 2的值很大,说明假设不合理.K 2越大,两个分类变量有关系的可能性越大.一、选择题1.下面是一个2×2列联表:y 1 y 2总计 x 1 a21 73 x 2825 33 总计b46106则表中a ,b 的值分别为( ) A .94,96 B .52,50 C .52,60D .54,52考点 分类变量与列联表 题点 求列联表中的数据 答案 C2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得K 2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( ) A .0.1% B .1% C .99% D .99.9% 考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 C解析 易知K 2=7.01>6.635,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.3.在独立性检验中,两个分类变量“X 与Y 有关系”的可信度为99%,则随机变量K 2的观测值k 的取值范围是( ) A .[3.841,5.024) B .[5.024,6.635) C .[6.635,7.879) D .[7.879,10.828)考点 分类变量与列联表 题点 求观测值 答案 C4.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:则随机变量K 2的观测值约为( ) A .0.600 B .0.828 C .2.712D .6.004考点 分类变量与列联表 题点 求观测值 答案 A解析 根据列联表中的数据,可得随机变量K 2的观测值k =90×(11×37-34×8)245×45×19×71≈0.600.故选A.5.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为( )A.a a +b 与c c +d B.a c +d 与c a +b C.aa +d 与cb +cD.ab +d 与ca +c考点 定性分析的两类方法 题点 利用图形定性分析 答案 A 解析 由题意,⎪⎪⎪⎪⎪⎪a a +b -c c +d =⎪⎪⎪⎪⎪⎪ac +ad -ac -bc (a +b )(c +d )=⎪⎪⎪⎪⎪⎪ad -bc (a +b )(c +d ),因为|ad -bc |的值越大,两个分类变量有关系的可能性就越大,故选A.6.有两个分类变量X ,Y ,其列联表如下所示,其中a,15-a 均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X ,Y 有关,则a 的值为( ) A .8 B .9 C .8或9D .6或8考点 分类变量与列联表 题点 求列联表中的数据 答案 C解析 根据公式,得K 2的观测值 k =65×[a (30+a )-(15-a )(20-a )]220×45×15×50=13×(13a -60)220×45×3×2>3.841,根据a >5且15-a >5, a ∈Z ,求得当a =8或9时满足题意.7.某班主任对全班50名学生进行了作业量的调查,数据如下表:则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( ) A .0.01 B .0.025 C .0.005 D .0.001 考点 独立性检验及其基本思想 题点 独立性检验的方法答案 B解析 由公式得K 2的观测值k =50×(18×15-8×9)226×24×27×23≈5.059>5.024.∵P (K 2≥5.024)=0.025,∴犯错误的概率不超过0.025. 二、填空题8.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K 2的观测值k >6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________. 考点 独立性检验及其基本思想 题点 独立性检验的思想 答案 ③解析 K 2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确. 9.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为K 2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为__________.考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 5%解析 因为K 2>3.841,所以有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.10.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为35,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 95%解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A ,由已知得P (A )=q +35100=35,所以q =25,p =25,a =40,b =60.K 2=100×(25×35-25×15)240×60×50×50=256≈4.167>3.841.故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关. 三、解答题11.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断. 考点 定性分析的两类方法 题点 利用图形定性分析解 建立性别与态度的2×2列联表如下:根据列联表中所给的数据,可求出男生中作肯定态度的频率为110=0.2,女生中作肯定态度的频率为2260≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.根据列联表中的数据得到K 2的观测值k =170×(22×38-22×88)2110×60×44×126≈5.622>5.024.因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.12.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:喜欢 不喜欢 合计 大于40岁 20 5 25 20岁至40岁10 20 30 合计302555(1)判断是否有99.5%的把握认为喜欢“人文景观”景点与年龄有关?(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6名市民作为一个样本,从中任选2人,求恰有1位大于40岁的市民和1位20岁至40岁的市民的概率. 考点 独立性检验思想的应用题点 分类变量与统计、概率的综合性问题解 (1)由公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )得,观测值k ≈11.978>7.879,所以有99.5%以上的把握认为喜欢“人文景观”景点与年龄有关.(2)由题意知抽取的6人中大于40岁的市民有4个,20岁至40岁的市民有2个,分别记为B 1,B 2,B 3,B 4,C 1,C 2,从中任选2人的基本事件有(B 1,B 2),(B 1,B 3),(B 1,B 4),(B 1,C 1),(B 1,C 2),(B 2,B 3),(B 2,B 4),(B 2,C 1),(B 2,C 2),(B 3,B 4),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),(C 1,C 2),共15个,其中恰有1位大于40岁的市民和1位20岁至40岁的市民的事件有(B 1,C 1),(B 1,C 2),(B 2,C 1),(B 2,C 2),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),共8个,所以恰有1位大于40岁的市民和1位20岁至40岁的市民的概率为815.四、探究与拓展13.假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其中2×2列联表为:y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d对同一样本,以下数据能说明X 与Y 有关的可能性最大的一组是( ) A .a =5,b =4,c =3,d =2 B .a =5,b =3,c =4,d =2 C .a =2,b =3,c =4,d =5 D .a =3,b =2,c =4,d =5考点 分类变量与列联表 题点 求列联表中的数据 答案 D解析 对于同一样本,|ad -bc |越小,说明x 与y 相关性越弱,而|ad -bc |越大,说明x 与y 相关性越强,通过计算知,对于A ,B ,C 都有|ad -bc |=|10-12|=2.对于选项D ,有|ad -bc |=|15-8|=7,显然7>2. 14.2017年世界第一届轮滑运动会(the first edtion of Roller Games)在南京举行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者.调查发现,男、女志愿者分别有10人和6人喜爱轮滑,其余不喜爱.得到2×2列联表如下.(1)根据2×2列联表,判断能否在犯错误的概率不超过0.10的前提下认为性别与喜爱轮滑有关? (2)从女志愿者中抽取2人参加接待工作,若其中喜爱轮滑的人数为ξ,求ξ的分布列和均值. 考点 独立性检验思想的应用题点 独立性检验与线性回归方程、均值的综合应用解 (1)假设:是否喜爱轮滑与性别无关.由已知数据可求得K 2的观测值为 k =30×(10×8-6×6)216×14×16×14≈1.157 5<2.706.因此不能在犯错误的概率不超过0.10的前提下认为喜爱轮滑与性别有关. (2)喜爱轮滑的人数ξ的可能取值为0,1,2, 则P (ξ=0)=C 06C 28C 214=2891=413,P (ξ=1)=C 16C 18C 214=4891,P (ξ=2)=C 26C 08C 214=1591.所以喜爱轮滑的人数ξ的分布列为4 13+1×4891+2×1591=67.所以喜爱轮滑的人数ξ的均值为E(ξ)=0×。
高二数学(人教A版)选修2-3导学案:3.2独立性检验的基本思想及初步应用(无答案)
编号:gswhsxxx2-3---03-03文华高中高二数学选修2-3§3.2《独立性检验的基本思想及其应用》导学案学习目标:1. 通过对典型案例的分析,了解分类变量、2×2列联表、随机变量2K的意义.2.通过对典型案例分析,了解独立性检验的基本思想、方法及初步应用。
重点难点:1. 理解独立性检验的基本思想及实施步骤;2.了解随机变量2K太大认为两个分类变量是有关系的。
K的含义,2学习方法:自主学习,合作探究情感态度与价值观:通过提供适当的情境资料,吸引学生的注意力,激发学生的学习兴趣;在合作讨论中学会交流与合作,启迪思维,提高创新能力。
一.新课导学(预习课本P91~P95,完成以下相关概念)1. 分类变量的定义:2. 列联表:分类变量的汇总统计表(频数表).一般我们只研究每个分类变量只取两个值,这样的列联表称为列联表.引例:在日常生活中,我们关心两个分类变量之间是否有关系,如:吸烟是否与患肺癌有关? 为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到不患肺癌患肺癌总计不吸烟7775 42 7817吸烟2099 49 2148总计9874 91 9965:不患肺癌患肺癌总计不吸烟吸烟3. 独立性检验(1)定义:利用随机变量2K来判断_____________________的方法称为独立性检验.(2)2K=______________________,其中n=a+b+c+d为样本容量.一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)4.独立性检验的具体做法:①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定__________K.②利用公式计算随机变量2K的__________k.③如果______,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在______________不超过α的前提下不能推断“X与Y的关系”,或者在样本数据中_________________支持结论“X与Y有关系”.5.独立性检验的几个常用临界值在独立性检验中,设2K的观测值为k,当k>________时,有95%的把握说事件A与B有关;当k>________时;有99%的把握说事件A与B有关;当k≥10.828时,有99.9%的把握认为A与B有关;当k≤_______时,认为事件A与B是无关的二.合作探究:例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.(1)独立性检验方法判断秃顶与患心脏病是否有关系?(2)能否在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系?含有酒精以及他们是否对事故负有责任将数据整理如下:有责任无责任总计有酒精650 150 800无酒精700 500 1200总计1350 650 2000三:课堂展示例3. 某学校对手工社、摄影社两个社团招新报名的情况进行调查,得到如下的列联表:手工社摄影社总计女生 6男生42总计30 60(1)(2)已知报名摄影社的6名女生中甲、乙、丙三人来自于同一个班级,其他再无任意两人同班情况.现从此6人中随机抽取2名女生参加某项活动,则被选到两人同班的概率是多少?(3)能否在犯错误的概率不超过0.05的前提下,认为学生对这两个社团的选择与“性别”有关系?四.课堂小结要推断“X与Y有关系”成立的可能性的方法:1、通过三维柱形图和二维条形图粗略判断两个分类变量是否有关系,(1)︱ad -bc︱(2)aa+b≈cc+d2、利用独立性检验精确判断两个分类变量是否有关系(1)假设无关(2)求k值(3)下结论本节课我最大的收获是: .我存在的疑惑有: .文华高中高二数学选修2-3《独立性检验的基本思想及其应用》节节过关达标检测班级:------------ 组名:------------ 学生姓名:----------1.在2×2列联表中,两个比值________相差越大,两个分类变量之间的关系越强()A.aa+b 与cc+dB.ac+d与ca+bC.aa+d与cb+cD.ab+d与ca+c2.判断两个分类变量是彼此相关还是相互独立的常用方法中,最为精确的是() A.三维柱形图B.二维条形图C.等高条形图D.独立性检验()4.通过随机询问72名不同性别的大学生在购买食物时是否看营养说明,得到如下列联表:5. 有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表:班级与成绩列联表。
高中人教A数学选修2-3学案:3.2 独立性检验的基本思想及其初步应用 含答案
3.2独立性检验的基本思想及其初步应用自主预习·探新知情景引入饮用水的质量是人类普遍关心的问题.据统计,饮用优质水的518 人中,身体状况优秀的有466 人,饮用一般水的312 人中,身体状况优秀的有218 人.人的身体健康状况与饮用水的质量之间有关系吗?新知导学1.与列联表相关的概念(1)分类变量:变量的不同“__值__”表示个体所属的__不同类别__,像这样的变量称为分类变量.(2)列联表:①列出__两个__分类变量的__频数表__,称为列联表.②一般地,假设有两个分类变量X 和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2 列联表)为:XYy1 y2 总计x1 a b __a+b__ x2 c d __c+d__ 总计__a+c__ __b+d__ a+b+c+d2.等高条形图等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否__相互影响__,常用等高条形图展示列表数据的__频率特征__.3.独立性检验的基本思想Earlybird(1)定义:利用随机变量__K2__来判断“两个分类变量__有关系__”的方法称为独立性检验.n ad-bc2(2)公式:K2=__ __,其中n=__a+b+c+d__.a+b c+d a+c b+d(3)独立性检验的具体做法:①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定__临界值__k0.②利用公式计算随机变量K2 的__观测值__k.③如果__k≥k0__,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α;否则,就认为在__犯错误的概率__不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中__没有发现足够证据__支持结论“X 与Y 有关系”.预习自测1.下表是一个2×2 列联表:y1 y2 总计x1 a 21 73x2 2 25 27总计 b 46 100则表中a、b 处的值分别为(C)A.94,96B.52,50C.52,54D.54,52[解析]由Error!得Error!2.通过随机询问110 名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好40 20 60不爱好20 30 50总计60 50 110n ad-bc2由K2=算得a+b c+d a+c b+d110 ×40 ×30-20 ×20 2K2=≈7.8.60 ×50 ×60 ×50附表:P(K2≥k0) 0.050 0.010 0.001k0 3.841 6.635 10.828Earlybird参照附表,得到的正确结论是( A )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”[解析]根据独立性检验的定义,由K2≈7.8>6.635 可知,有99%以上把握认为“爱好该项运动与性别有关”.3.(2020·泸州模拟)某中学兴趣小组为调查该校学生对学校食堂的某种食品喜爱与否是否与性别有关,随机询问了100 名性别不同的学生,得到如下的2×2 列联表:男生女生总计喜爱30 20 50不喜爱20 30 50总计50 50 100n ad-bc 2附K2=a+b c+d a+c b+dP(K2≥k0) 0.15 0.10 0.05 0.025 0.010k0 2.072 2.706 3.841 5.024 6.635根据以上数据,该数学兴趣小组有多大把握认为“喜爱该食品与性别有关”(C) A.99%以上B.97.5%以上C.95%以上D.85%以上100 ×30 ×30-20 ×20 2[解析]K2==4>3.841,50 ×50 ×50 ×50∴该数学兴趣小组有95%以上把握认为“喜爱该食品与性别有关”.故选C.4.某班主任对全班50 名学生进行了作业量多少的调查,数据如下表所示:作业量的情况认为作业多认为作业不多总数玩电脑游戏的情况喜欢玩电脑游戏18 9 27不喜欢玩电脑游戏8 15 23总数26 24 50则认定喜欢玩电脑游戏与认为作业量的多少有关系的把握为(B)A.99%B.95%C.90%D.以上都不对Earlybird晨鸟教育50 ×18 ×15-8 ×9 2[解析]K2=≈5.059>3.841.27 ×23 ×26 ×24因而有95%的把握认定喜欢玩电脑游戏与认为作业量的多少有关.互动探究·攻重难互动探究解疑命题方向❶利用等高条形图判断两个分类变量是否相关典例1为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29 7 36对照组9 28 37总计38 35 73试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系.[解析]等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比较尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性有关系.『规律总结』 1.判断两个分类变量是否有关系的两种常用方法(1)利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.a c(2)一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越a+b c+d大.Earlybird2.利用等高条形图判断两个分类变量是否相关的步骤独立性检验的计算公式⇒n ad-bc 2K2=a+b c+d a+c b+d┃┃跟踪练习1__■(1)假设两个变量x 与y 的2×2 列联表如下表:y1 y2x1 a bx2 c d对于以下数据,对同一样本能说明x 与y 有关系的可能性最大的一组为(B)A.a=2,b=3,c=4,d=5B.a=5,b=3,c=3,d=4C.a=3,b=6,c=2,d=5D.a=5,b=3,c=4,d=3[解析]根据观测值求解的公式可以知道,当ad 与bc 差距越大,两个变量有关的可能性就越大,检验四个选项中所给的ad 与bc 的差距:A:ad-bc=10-12=-2,B:ad-bc=20-9=11,C:ad-bc=15-12=3,D:ad-bc=15-12=3.显然B 中|ad-bc|最大,故选B.(2)某生产线上,质量监督员甲在生产现场时,990 件产品中有合格品982 件,次品8 件;不在生产现场时,510 件产品中有合格品493 件,次品17 件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.[解析]根据题目所给数据得如下2×2 列联表:合格品数次品数总计甲在生产现场982 8 990甲不在生产现场493 17 510总计 1 475 25 1 500所以ad-bc=982×17-8×493=12 750,|ad-bc|比较大,说明甲在不在生产现场与产品质量好坏有关系.相应的等高条形图如图所示.Earlybird图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样品中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.命题方向❷独立性检验的应用典例2某中学对高二甲、乙两个同类班级,进行“加强‘语文阅读理解’训练,对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:60 分以下61-70 分71-80 分81-90 分91-100 分甲班(人数) 3 11 6 12 18乙班(人数) 7 8 10 10 15现规定平均成绩在80 分以上(不含80 分)的为优秀.(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面2×2 列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?优秀人数非优秀人数合计甲班乙班合计n ad-bc 2参考公式及数据:K2=.a+b c+d a+c b+dP(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828[思路分析](1)由表格统计出甲、乙两个班的总人数和优秀人数,求出优秀率;(2)依统计数据填写列联表,代入公式计算K2 的估计值,查表下结论.Earlybird晨鸟教育[解析](1)由题意知,甲、乙两班均有学生50 人,30甲班优秀人数为30 人,优秀率为=60%,5025乙班优秀人数为25 人,优秀率为=50%,50所以甲、乙两班的优秀率分别为60%和50%.(2)优秀人数非优秀人数合计甲班30 20 50乙班25 25 50合计55 45 10010025 ×30-25 ×20 2因为K2=≈1.010<3.841,55 ×45 ×50 ×50所以由参考数据知,没有95%的把握认为有帮助.『规律总结』 1.独立性检验的步骤:第一步,确定分类变量,获取样本频数,得到列联表.第二步,根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.n ad-bc2第三步,利用公式K2=计算随机变量K2 的观测值K0.a+b c+d a+c b+d第四步,作出判断.如果k≥k0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”.2.由于独立性检验计算量大,要细致,避免计算失误.┃┃跟踪练习2__■为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361 名高二在校学生,调查结果如下:理科对外语有兴趣的有138 人,无兴趣的有98 人,文科对外语有兴趣的有73 人,无兴趣的有52 人.能否在犯错误的概率不超过0.1 的前提下,认为“学生选报文、理科与对外语的兴趣有关”?[解析]根据题目所给的数据得到如下联系:理科文科总计有兴趣138 73 211无兴趣98 52 150Earlybird总计236 125 361根据列联表中数据由公式计算得361 ×138 ×52-73 ×98 2k=≈1.871×10-4.211 ×150 ×236 ×125因为1.871×10-4<2.706,所以,在犯错误的概率不超过0.1 的前提下,不能认为“学生选报文、理科与对外语的兴趣有关”.学科核心素养独立性检验的综合应用独立性检验的思想来自统计上的假设检验思想,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“矛盾”来断定结论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指一个不符合逻辑的事情发生,而假设检验中的“矛盾”是指一个小概率事件发生,即在结论不成立的假设下,推出有利于结论成立的小概率事件发生.我们知道小概率事件在一次试验中通常是不会发生的,若在实际中这个事件发生了,说明保证这个事件为小概率事件的条件有问题,即结论在很大的程度上应该成立.典例3某工厂有工人1 000 名,其中250 名工人参加过短期培训(称为A 类工人),另外750 名工人参加过长期培训(称为B 类工人).现用分层抽样的方法(按A 类、B 类分两层)从该工厂的工人中抽取100 名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表:表1:A 类工人生产能力的频数分布表生产能力分组[110,120) [120,130) [130,140) [140,150)人数8 x 3 2表2:B 类工人生产能力的频数分布表生产能力分组[110,120) [120,130) [130,140) [140,150)人数 6 y 27 18(1)确定x、y 的值;(2)完成下面2×2 列联表,并回答能否在犯错误的概率不超过0.001 的前提下认为工人的生产能力与工人的类别有关系?生产能力分组[110,130) [130,150) 总计工人类别EarlybirdA 类工人B 类工人总计n ad-bc 2附:K2=,a+b c+d a+c b+dP(K2≥k0) 0.050 0.010 0.001k0 3.841 6.635 10.828[思路分析](1)确定x、y 的值,可用分层抽样解决;(2)判断在规定条件下工人的生产能力与工人的类别是否有关系可通过独立性检验解决.由已知工厂中A、B 类工人的人数和抽取工人数,进行分层抽样,可直接计算A、B 类工人样本数;由表1、表2 可得列联表,计算K2 的观测值k 与临界值可比较.[解析](1)∵从该工厂的工人中抽取100 名工人,且该工厂中有250 名A 类工人,750 名B 类工人,∴要从A 类工人中抽取25 名,从B 类工人中抽取75 名,∴x=25-8-3-2=12,y=75-6-27-18=24.(2)根据所给的数据可以完成列联表,如下表所示:生产能力分组[110,130) [130,150) 总计工人类别A 类工人20 5 25B 类工人30 45 75总计50 50 100 由列联表中的数据,得K2 的观测值为100 ×20 ×45-5 ×30 2k==12>10.828,25 ×75 ×50 ×50因此,在犯错误的概率不超过0.001 的前提下认为工人的生产能力与工人的类别有关系.『规律总结』两个分类变量相关关系的判断(1)等高条形图法:在等高条形图中,可以估计满足条件X=x1 的个体中具有Y=y1 的个体a c 所占的比例,也可以估计满足条件X=x2 的个体中具有Y=y1 的个体所占的比例.两个a+bc+d比例的值相差越大,X 与Y 有关系成立的可能性就越大.(2)观测值法:通过2×2 列联表,先计算K2 的观测值k,然后借助k 的含义判断“两个分Earlybird晨鸟教育类变量有关系”这一结论成立的可信程度.┃┃跟踪练习3__■某高校共有15 000 人,其中男生10 500 人,女生4 500 人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300 位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300 个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].在样本数据中,有60 位女生的每周平均体育运动时间超过4 个小时.请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P(K2≥k0) 0.10 0.05 0.010 0.005k0 2.706 3.841 6.635 7.879n ad-bc 2附:K2=a+b c+d a+c b+d4 500[解析](1)300×=90,所以应收集90 位女生的样本数据.15 000(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4 小时的概率的估计值为0.75.300 位学生中有300×0.75=225 人的每周平均体育运动时间超过4 小时,75 人的每周平均体育运动时间不超过4 小时,又因为样本数据中有210 份是关于男生的,90 份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过4 小时45 30 75每周平均体育运动时间超过4 小时165 60 225总计210 90 300300 ×45 ×60-165 ×30 2 100综合列联表可算得K2==≈4.762>3.841.75 ×225 ×210 ×90 21所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关.”Earlybird易混易错警示因对独立性检验的基本思想不理解而致错典例4已知两个分类变量X 和Y 的取值分别为{x1,x2},{y1,y2},若其列联表为y1 y2x1 5 15x2 40 10则(D)A.X 与Y 之间有关系的概率为0.001B.X 与Y 之间有关系的概率为0.999C.认为X 与Y 有关系,犯错误的概率为0.999D.认为X 与Y 有关系,犯错误的概率不超过0.001[错解]独立性检验的基本思想是指某件事发生在犯错概率不超过某个非常小的数据的前提下,我们有把握认为有关.理解有误会致误.[辨析] 1.在求K2 的过程中,弄混a,b,c,d 而致错或者因运算量大而致错.2.没有理解好独立性检验的基本思想而致错.[正解]K2 的观测值为5+15+40+10× 5 ×10-40 ×152k=≈18.822.查表知P(K2≥10.828)=0.001,5+15×40+10×5+40×15+10所以在犯错误的概率不超过0.001 的前提下,我们认为X 与Y 有关.课堂达标·固基础1.在某次飞行航程中遭遇恶劣气候,55 名男乘客中有24 名晕机,34 名女乘客中有8 名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是(C) A.频率分布直方图B.回归分析C.独立性检验D.用样本估计总体[解析]根据题意,结合题目中的数据,列出2×2 列联表,求出K2 观测值,对照数表可得出概率结论,这种分析数据的方法是独立性检验.2.如表是一个2×2 列联表:则表中a,b 的值分别为(C)y1 y2 总计x1 a 21 73x2 22 25 47Earlybird总计 b 46 120A.94,72B.52,50C.52,74D.74,52[解析]a=73-21=52,b=a+22=52+22=74.3.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果K2 的观测值k>5.024,那么在犯错误的概率不超过______的前提下认为“X 和Y 有关系”(D)P(K2≥k0) 0.50 0.40 0.25 0.15 0.10k0 0.455 0.708 1.323 2.072 2.706P(K2>k0) 0.05 0.025 0.010 0.005 0.001k0 3.841 5.024 6.635 7.879 10.828A.0.25B.0.05C.0.1D.0.025[解析]因为K2 的观测值k>5.025,而在临界值表中对应于5.024 的是0.025,所以可以在犯错误的概率不超过0.025 的前提下认为“X 和Y 有关系”.4.为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有显著效果的图形是(D)[解析]分析四个等高条形图得选项D 中,不服用药物患病的概率最大,服用药物患病的概率最小,所以最能体现该药物对预防禽流感有显著效果,故选D.5.(2020·济南高二检测)分类变量X 和Y 的列表如下,则下列说法判断正确的是(C)y1 y2 总计x1 a b a+bx2 c d c+dEarlybird总计a+c b+d a+b+c+dA.ad-bc 越小,说明X 和Y 关系越弱B.ad-bc 越大,说明X 和Y 关系越强C.(ad-bc)2 越大,说明X 与Y 关系越强D.(ad-bc)2 越接近于0,说明X 与Y 关系越强[解析]列联表可以较为准确地判断两个变量之间的相关关系程度,a+b+c+d ad-bc 2由K2=,a+b a+c b+d c+d当(ad-bc)2 越大,K2 越大,表明X 与Y 的关系越强.(ad-bc)2 越接近0,说明两个分类变量X 和Y 无关的可能性越大.即所给说法判断正确的是C.Earlybird。
人教版数学高二A版选修2-3教材梳理 3.2独立性检验的基本思想及其初步应用
庖丁巧解牛知识·巧学一、两个分类变量之间关系的定性分析 1.分类变量取不同的“值”表示个体所属不同类别的分量称为分类变量.这里的“变量”和值都应作为“广义”的变量和值进行理解.例如:对于性别变量,其取值为男和女两种.那么这里的变量指的是性别,同样这里的“值”指的是“男”和“女”,因此,这里所说的“变量”和值不一定取的是具体的数值.要点提示 注意此处空半格分类变量是大量存在的,例如:吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别. 2.定性分析的方法 (1)频率分析通过对样本的每个分类变量的不同类别的事件发生的频率大小比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的占少数表来进行分析. (2)图形分析①三维柱形图.它可以清晰的看出各个频数的相对大小;②二维条形图.如本节引例中,可画叠在一起的二维条形图.浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数; ③频率分布条形图:为了更清晰的表示引例的特征,我们可用等高条形图表示两种情况下患肺癌的比例.方法归纳 注意此处空半格三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.作三维柱形图时要注意选择恰当的视角,以使每个柱体都能被看到. 二、独立假设上表称为2×2列联表.意思是问题要考虑调查的人的两种状态:是否吸烟,是否患肺癌.每种状态又分两种情况:吸烟,不吸烟以及患肺癌、未患肺癌.表中排成两列的数据是调查得来的结果,希望根据这4个数据来检验上述两种状态是否有关.这一检验就称为2×2列联表的独立性检验.2.独立性检验:利用随机变量K 2=))()()(()(2d b c a d c b a bc ad n ++++-(其中n=a+b+c+d为样本容量)来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.要点提示 注意此处空半格上述表达式就是统计中重要的K 2统计量,用它的大小可以决定是否拒绝原来的统计假设H 1,如果算出的K 2值较大,就拒绝H 1,也就是拒绝事件“X 与Y 无关”,从而就认为它们是有关的了.深化升华 注意此处空半格独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.在该假设下构造的随机变量K 2应该很小.如果由观测数据计算得到的K 2的观测值k很大,则在一定程度上说明假设不合理.根据随机变量K 2的含义,可以通过概率P(K 2≥k)的大小来评价该假设不合理的程度有多大,从而说明这“两个分类变量没有关系”这一结论成立的可信程度有多大.三、判断结论成立的可能性的方法1.通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.(1)在三维柱形图中,主对角线上两个柱形高度的乘积ad与副对角线上的两个柱形高度的乘积bc相关越大,H 1成立的可能性就越大.(2)在二维条形图中,可以估计满足条件X=x 1的个体中具有Y=y 1的个体所占的比例ba a+,也可以估计满足条件X=x 2的个体中具有Y=y 2的个体所占的比例dc c+.两个比例的值相差越大,H 1成立的可能性就越大.2.利用独立性检验来考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是根据观测数据计算检验随机变量K 2的值k ,其值越大,说明H 1成立的可能性就越大.当得到的观测数据a、b、c、d都不小于5时,可以通过随机变量k 2来确定结论的可信程度.要点提示 注意此处空半格在计算得检验随机变量K 2的值时,要注意临界值6.635,3.841和2.706.如果k 2>6.635,就有99%把握认为“X 与Y 有关系”.如果k 2>3.841,就有95%把握认为“X 与Y 有关系”.如果k 2>2.706,就有90%把握认为“X 与Y 有关系”.而如果k 2≤2.706,就认为没有充分的证据显示“X 与Y 有关系”.误区警示 注意此处空半格使用K 2统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5,所以在选取样本容量时一定要注意这一点. 问题·探究问题1某聋哑研究机构对聋哑关系进行抽样调查,在耳聋的657人中有416人哑,而另外不聋的680人中有249人哑.你能运用这组数据得出相应结论吗?思路:认真分析后,我们就是要在聋与哑有无关系上作出结论.于是可以运用独立性检验进行判断.一种方法可以根据题目所给数据得到2×2列联表,计算K 2的值,与临界值做比较;另一种方法可以用三维柱形图粗略估计得出结论.当然,我们也可以采用对照两组人群中哑的比例进行粗略估计,但精确度要相对低一些.根据列联表中数据得到:K 2=680657672665)241249431416(13372⨯⨯⨯⨯-⨯≈95.29>10.828,所以我们有99.9%的把握说聋与哑有关.方法二:我们可以把题目中的数据做出相应的三维柱形图(图),容易比较发现,底面副对角线两个柱体高度的乘积大些,可以在某种程度上认为聋与哑有关. 问题2如何进行独立性检验?试举一例说明之.思路:(1)作统计假设:假设H 0“事件A 与B 独立”;(2)根据公式K 2=))()()(()(2d b c a d c b a bc ad n ++++-,求出K 2;(3)作出统计判断:若K 2>6.635,则有99%的把握说事件A 与B 有关,若K 2>3.841,则有95%的把握说事件A 与B 有关.若K 2≤2.706,则认为没有充分的证据显示事件A 与B 有关.注意在此过程中要使表中的4个数据大于5.如“五一”黄金周前某地的一旅游景点票价上浮,黄金周过后,统计本地与外地来的游客人数,问票价上浮后游客人数与所处地区是否有关系?探究:按照独立性检验的基本步骤,假设票价上浮后游客人数与所处地区没有关系.因为k 2=4907273833964249)1331284220651407(76452⨯⨯⨯⨯-⨯⨯≈30.35>6.635.所以假设不成立,我们有99%的把握认为票价上浮后游客人数与所处地区有关系. 典题·热题例1为了研究人的性别与患色盲与否是否有关,某研究所进行了随机调查.发现在调查的480名男性中有39名患有色盲,520名女性中有6名患有色盲,试检验人的性别与患色盲与否有关?思路分析:由题意列出2×2列联表,由公式计算出K 2,与临界值做比较,得出事件成立的可信程度.由公式得K 2=52048095545)441651439(10002⨯⨯⨯⨯-⨯⨯≈28.23.因为28.23>10.828,所以有99.9%的把握认为患色盲与否与人的性别有关,男性患色盲的概率要比女性大很多.方法归纳 注意此处空半格独立性检验问题的基本步骤为:(1)找相关数据,作列联表;(2)求统计量K 2;(3)判断可能性,注意与临界值做比较,得出事件有关的确信度.例2某县对在职的71名高中数学教师就支持新的数学教材还是支持旧的数学教材做了调查,根据此资料,你是否认为教龄的长短与支持新的数学教材有关?思路分析:根据独立性检验思想,由公式计算出K 2,然后与两临界值比较得出结论.解:由公式得K 2=49223437)10252412(71))()()(()(22⨯⨯⨯⨯-⨯=++++-d b c a d c b a bc ad n ≈0.08.由K 2<2.706,我们没有充分的证据说明教龄的长短与支持新的数学教材有关.深化升华 注意此处空半格独立性检验能帮助我们对日常生活中的实际问题作出合理的推断和预测.因此要在学习中,应通过案例分析,理解和掌握独立性检验的方法,体会其基本思想在解决实际问题中的应用,以提高我们分析和处理问题的能力.例3在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.利用独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论是在什么范围内有效? 思路分析:由题意列出2×2列联表,利用公式求得K 2后与临界值比较,得出结论后要注意这组数据是来自于住院的病人,而不是随机对全体人群采样.由公式得K 2=7726651048389)451175597214(14372⨯⨯⨯⨯-⨯⨯≈10.828.所以有99.9%的把握认为“秃顶与患心脏病有关”.误区警示 注意此处空半格在应用公式时,切忌误用公式为K 2=))()()(()(2d b c a d c b a bc ad n ++++-.这会使结果相差甚远.例4某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人. 思路分析:分别列出两个量间的2×2列联表,将数据代入公式求得K 2,对照K 2与临界值及三个的大小关系得出结论.代入公式可得K 2=270.114 3.代入公式可得K2=240.611 2.代入公式可得K2=914.645 6.由上面分析可知,数学成绩优秀与物理、化学、总分优秀都有关系.由计算K2的值都大于10.828,由此说明都有99.9%的把握认为数学优秀与物理、化学、总分优秀都有关系,但与总分优秀关系最大,物理次之.深化升华注意此处空半格本例中,我们利用2×2列联表的独立假设分析了数学与物理、化学、总分优秀是否有关系.由此发现,学好数学对总分及学好物理关联很大,因此我们要努力学好数学.其次,本例还告诉我们如何利用所学习的独立性假设的思想方法来分析多个分类变量之间关系的方法.。
人教版数学高二A版选修2-3教案3.2独立性检验的基本思想及其初步应用第一课时
3.2独立性检验的基本思想及其初步应用整体设计教材分析1.教材的地位和作用独立性检验是一种重要的统计方法,也是统计学中很常用的方法,更是高中数学新教材的新增内容.本节内容将反证法与独立性检验进行了合理整合,将假设检验的思想应用到实际生活中去.教材的设计还原了数学的本源、本质,是对“观察发现、抽象概括、感性到理性”等数学认知规律的提炼与总结,能让学生充分体会数学的发生、发展.2.课时划分独立性检验的基本思想及其初步应用的教学分三个课时完成:第1课时内容为直观判断两个分类变量是否有关系的基本方法;第2课时内容为独立性检验的基本思想;第3课时内容为独立性检验的初步应用.第一课时教学目标知识与技能结合生活实例了解分类变量的概念,了解直观判断分类变量相关性的方法,了解列联表和等高条形图的特点.过程与方法通过探索、研究、总结等方式使判断分类变量是否有关系的方法呈现在学生面前,使学生体会用样本来研究总体的思想.情感、态度与价值观通过学习本节课培养学生思维的批判性,深化学生对数学意义的理解,激发学习兴趣,认识数学的科学价值、应用价值和文化价值;通过探究学习培养学生互助合作的学习习惯,形成良好的思维品质和锲而不舍的钻研精神.重点难点教学重点:直观判断分类变量是否有关系的方法.教学难点:如何根据列联表和等高条形图来判断分类变量是否有关系.教学过程引入新课提出问题:在现实生活中,会遇到各种各样的变量,并需要研究它们之间的关系,观察下面两组变量,分析在取不同的“值”时表示的个体有何差异?(1)国籍、宗教信仰、性别、吸烟与患病是否有关;(2)成绩、身高、年龄、某班学生的百米成绩.学生活动:先独立思考,然后相互讨论交流认识统一看法.教师逐步引导学生发现分类变量的特点,分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别.学情预测:(1)中的变量每取不同的“值”时,表示不同的类别;(2)中的变量每取不同的“值”时,表示不同的个体.教师:分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量.分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等等.分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义,如用“0”表示“男”,用“1”表示“女”.注意分类变量的取值一定是离散的.在我们的日常生活中,存在着大量的分类变量,如何判断两个分类变量是否有关系也是我们需要解决的一个重要问题.设计意图:从大量的生活实例出发,让学生充分体会分类变量的含义和分类变量的特点,使分类变量概念的形成水到渠成,同时也为判断分类变量的必要性做好铺垫.探究新知5月31日是世界无烟日.有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.这些疾病与吸烟有关的结论是怎样得出的呢?我们来看下面的问题:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?学生活动:先让学生独立思考,然后小组交流,教师巡视指导,并注意与学生交流,为了研究这个问题,(1)(2)估计吸烟者与不吸烟者患病的可能性差异.问题:由上述结论能否得出患病与吸烟有关?把握有多大?学情预测:在吸烟的人中,有37220≈16.82%的人患病,在不吸烟的人中,有21295≈7.12%的人患病.由上可以看出,吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,故“患呼吸道疾病与吸烟可能有关”.教师:类似于上面的表格,我们称分类变量的汇总统计表(频数表)为列联表,一般我们只研究每个分类变量只取两个值,这样的列联表称作2×2列联表.在日常生活中,为了直观显示两个分类变量之间的关系,还可以画出两个分类变量的等高条形图.观察下面的图形,能得到什么结论?(教师在课堂上用Excel 软件演示等高条形图,引导学生观察这类图形的特征,并分析由图形得出的结论)等高条形图学生活动:观察给出的图形,相互讨论,沟通认识. 学情预测:通过上面的等高条形图可以直观看出,吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,故“患呼吸道疾病与吸烟可能有关”.设计目的:自然合理地提出问题,并通过不同的手段,让学生学会根据不同的方法来分析两个分类变量是否有关系.理解新知提出问题:一般地,假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其2×2列联表和等高条形图如下表所示,试说明如何根据图表来判断分类变量X 和Y 是否可能有关系?学生活动:分组讨论,合作交流,教师引导学生回顾上面问题的解决过程并加以适当的提示.学情预测:根据列联表,可估计满足条件X =x 1的个体中具有Y =y 1的个体所占比例a a +b ,也可以估计满足条件X =x 2的个体中具有Y =y 1的个体所占比例c c +d ,两个比例的值相差越大,就意味着X 和Y 有关系的可能越大.由a a +b -c c +d =ad -bc (a +b)(c +d)可知,两个比例的值相差越大即ad 与bc 相差越大,就意味着X 和Y 有关系的可能越大.由于等高条形图的纵轴是频率,故通过等高条形图可以直观展示比例差距的相对大小,进而判断分类变量是否存在关系.提出问题:上面给出的两种判断分类变量是否可能有关系的方法各有什么特点? 学生活动:独立思考,然后再相互交流.学情预测:列联表有助于直观地观测数据之间的关系,与表格相比,等高条形图更能直观地反映出相关数据的总体状况.但这两种方法都仅能粗略地判断两个分类变量是否可能有关系,但无法精确地给出得出结论的可靠程度.设计意图:通过引导学生对三种直观方法进行分析和总结,使学生掌握如何根据列联表、等高条形图来判断两个分类变量是否有关系,并了解两种方法的局限性,同时为下一节课的学习打好基础.运用新知例1学生课外活动的类别与性别有关吗?试用学过的等高条形图进行分析. 分析:根据题设条件中的列联表,画出等高条形图进行直观分析.解:等高条形图如下图所示:由图可以直观看出喜欢体育的在男生中占有较高比例,喜欢文娱的在女生中占有较高比例,故学生课外活动的类别在性别上有较大差异,说明课外活动的类别与性别在某种程度上有关系.点评:在画等高条形图时,在有条件的情况下,可引导学生利用Excel软件进行作图.【变练演编】例2在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?分析:根据数据列出列联表,然后画出等高条形图,来分析色盲与性别是否有关.根据列联表作出相应的等高条形图:从等高条形图来看在男人中患色盲的比例要比在女人中患色盲的比例大得多,因而,我们认为性别与患色盲是有关系的.设计意图:通过例题以及变式的学习,进一步学习利用图形直观判断分类变量是否有关系的要领,并能够画出大致的直观图形.【达标检测】1.下列不是分类变量的是()A.是否吸烟B.成绩C.宗教信仰D.国籍2.假设两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其中2×2列联表如下:对于以下数据,对同一样本能说明X与Y有关的可能性最大的一组为()A.a=5,b=4,c=3,d=2 B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5 D.a=2,b=3,c=5,d=43.服用某种维生素对婴儿头发稀疏或稠密的影响调查如下:服用维生素的婴儿有60人,头发稀疏的有5人;不服用维生素的婴儿有60人,头发稀疏的有46人.试根据以上数据作出列联表.答案:1.B 2.D课堂小结(给学生1~2分钟的时间默写本节的主要基础知识、方法、例题、题目类型、解题规律等;然后用精炼的、准确的语言概括本节的知识脉络、思想方法、解题规律) 1.知识收获:直观判断分类变量是否有关系的方法.2.方法收获:借助于图形的直观特征分析数据间的关系.设计意图:让学生自己小结,这是一个多维整合的过程,是一个高层次的自我认识过程.补充练习【基础练习】1.下列关于等高条形图说法正确的是()A.等高条形图表示高度相对的条形图B.等高条形图表示的是分类变量的频数C.等高条形图表示的是分类变量的比例D.等高条形图表示的是分类变量的实际高度2.下面是一个2×2列联表:则表中a,b处的值分别为()A.94,96 B.52,50 C.52,54 D.54,523.以下说法正确的是()A.分类变量是表示个体所属的不同类别的变量B.分类变量是表示个体所属的不同类别的两个以上的变量C.分类变量是表示个体所属的不同类别的一个变量D.以上答案均不正确答案:1.C 2.C 3.A【拓展练习】4.从发生交通事故的司机中抽取2 000名司机的随机样本,根据他们的血液中是否含试结合等高条形图分析血液中含有酒精与对事故负责有关系吗?解:由等高条形图可以看出,血液中含酒精的司机中负交通事故责任的比例要大于血液中不含酒精的司机,由此我们可以在某种程度上认为“血液中含有酒精与对事故负责”有关系.设计说明本节课在数学教材的选取上,力求贴近生活实际,如吸烟与患病、性别与课外活动的类型等,就地取材,创设学生熟悉的感兴趣的问题情境,使学生能在轻松、愉快的教学情境中学习有用的数学知识,同时也能运用数学知识来分析问题和解决问题.教案的设计“以人为本,以学定教”,教师始终扮演的是组织者、引导者、参与者的角色,通过问题教学法,变“教的课堂”为“学的课堂”,学生成为课堂学习真正的主人.倡导合作式学习,通过学生小组合作设计问题、小组交流解决问题的方式,不但提高了学生合作学习、主动探究的能力,而且大大促进了学生对知识的理解和灵活运用.备课资料用Excel软件画等高条形图用Excel软件画等高条形图的步骤.(1)在Excel软件中输入列联表的数据(也可以直接复制粘贴).(2)画柱形图.选中已输入的数据部分,然后单击工具栏上的“插入”,在下拉菜单中选择“图表”.然后在图表菜单中选择图表类型(如柱形图).(设计者:杨雪峰田宗臣)。
3.2独立性检验的基本思想及其初步应用 课件(人教A版选修2-3)
3. 独立性检验临界值表
P(K2 ≥k 0 ) k0
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
想一想:在K2运算时,在判断变量相关时,若K2的观测值k= 56.632,则P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001, 哪种说法是正确的? 提示 两种说法均正确.
兴趣不浓厚的
总计
86
73
103
95
189
判断学生的数学成绩好坏与对学习数学的兴趣是否有关?
解 由公式得 K 的观测值
解 由公式得 K 的观测值 86×103×95×94
2
189× 64×73-22×30 k189 = ×64×73-22×302 ≈38.459. 86 × 103 × 95 × 94 k= ≈38.459.
想一想:如何理解分类变量?
提示
(1)这里的“变量”和“值”都应作为“广义”的变量和值
来理解.例如:对于性别变量,其取值有“男”和“女”两 种,这里的“变量”指的是“性别”,这里的“值”指的是“男”
或“女”.因此,这里说的“变量”和“值”不一定是取具体的
数值. (2)分类变量是大量存在的.例如:吸烟变量有吸烟与不 吸烟两种类别,而国籍变量则有多种类别.
2.独立性检验 利用随机变量K2来判断“两个分类变量有关系”的方法 定义 称为独立性检验
公式
n ad-bc2 a+bc+da+c b+d K2=_______________________ 其中n=___________ a+b+c+d
高二人教A版数学选修2-3 精品导学案:3.2独立性检验的基本思想及其初步应用
32独立性检验的基本思想及其初步应用3.2.1独立性检验的基本思想及其初步应用课前预习阅读教材P91-P95,了解相关概念,如:分类变量、列联表、独立性检验。
学习目标(1)通过对典型案例的探究,了解独立性检验(只要求22列联表)的基本思想、方法及初步应用;(2)经历由实际问题建立数学模型的过程,体会其基本方法。
学习重点:独立性检验的基本方法学习难点:基本思想的领会学习过程一、情境引入5月31日是世界无烟日。
有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手。
这些疾病与吸烟有关的结论是怎样得出的呢?我们看一下问题:某医疗机构为了了解肺癌与吸烟是否有关,进行了一次抽样调查,共调查了9965个人,其中吸烟者2148人,不吸烟者7817人。
调查结果是:吸烟的2148人中有49人患肺癌,2099人未患肺癌;不吸烟的7817人中有42人患肺癌,7775人未患肺癌。
问题:根据这些数据能否断定“患肺癌与吸烟有关”?二、学生活动【自主学习】(1)将上述数据用下表(一)来表示:在不吸烟者中患肺癌的人约占多大比例?;在吸烟的人中患肺癌的人约占多大比例?。
问题:由上述结论能否得出患肺癌与吸烟有关?把握有多大? 【合作探究】1、观察、分析样本数据的列联表和柱形图、条形图,你能得出什么结论?2、该结论能否推广到总体呢?3、假设0H :患肺癌与吸烟没有关系。
则两事件发生的概率有何关系?4、构造随机变量22()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++),结合3中结论,若0H 成立,则K 2应该很 (大、小)根据表(一)中的数据,利用4中公式,计算出K 2的观测值,该值说明什么?(统计学中有明确的结论,在0H 成立的情况下,P(K 2≥6.635)≈0.01。
) 5、结合表(二)和三维柱形图、二维条形图如何判断两个分类变量是否有关系?利用独立性检验呢?二者谁更精确? 【当堂检测】在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?3.2.2独立性检验的基本思想及其初步应用学习目标通过对典型案例的探究,进一步巩固独立性检验的基本思想、方法,并能运用K 2进行独立性检验. 学习重点:独立性检验的应用 学习过程 一.前置测评(1)某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据? 。
【优选整合】高中数学人教A版 选修2-3 3.2.2独立性检验的基本思想及其初步应用 学案
3.2独立性检验的基本思想及其初步应用(2)------------ 学 案一、学习目标理解假设检验思想,会利用独立性检验精确判断两个分类变量是否有关系; 二、自主学习1.设A ,B 为两个变量,每一个变量都可以取两个值, 变量A :A 1,A 2=A 1; 变量B :B 1,B 2=B 1. 通过观察得到下表所示数据:ABB 1B 2总计A 1 ab b a + a A 2 cd d c + 总计c a +d b +d c b a n +++=其中,a 表示变量A 取A 1,且变量B 取B 1时的数据;b 表示变量A 取A 1,且变量B 取B 2时的数据;c 表示变量A 取A 2,且变量B 取B 1时的数据;d 表示变量A 取A 2,且变量B 取B 2时的数据. 设n=a+b+c+d,用_______________估计P(A 1B 1), ______________估计P(A 1), __________估计P(B 1). 若有式子nc a n b a n a +∙+=, 则可以认为______________独立. 同理,若n d b n b a n b +∙+=,则可以认为______________独立;若nca n d c n c +∙+=,则可以认为______________独立;若ndb n dc nd +∙+=,则可以认为______________独立. 但是,在n c a n b a n a +∙+=中,由于nca nb a n a ++,,表示的是______________,不同于概率,即使变量之间独立,式子两边也不一定恰好相等.但是当两边相差______________时,变量之间就不独立. 2.选取χ2作统计量,用它的大小 检验变量之间是否独立.χ2=______________________________________________________________________ 当数据量较大时,在统计中,用以下结果对变量的独立性进行判断.(1)当χ2≤______________时,没有充分的证据判定变量A,B 有关联,可以认为变量A,B 是没有关联的; (2)当χ2>______________时,有90 的把握判定变量A,B 有关联; (3)当χ2>______________时,有95 的把握判定变量A,B 有关联; (4)当χ2>______________时,有99 的把握判定变量A,B 有关联. 三、合作探究【例1】在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶,利用独立性检验的方法判断秃顶与患心脏病是否有关系. 分析:计算χ2的值,然后与临界值进行比较. 解:根据题目所给的数据得到如下列联表:患心脏病 患其他病 总计 秃顶 214 175 389 不秃顶 451 597 1 048 总计6657721 437故χ2=7726651048389)451175597214(14372⨯⨯⨯⨯-⨯⨯≈16.373>6.635,所以有99 的把握认为“秃顶与患心脏病有关”.名师点睛:因为这组数据 自住院的病人,因此所得到的结论只适合住院的病人群体,不要脱离这个前提而将结论推广到一般人群..【例2】某地震观测站对地下水位的变化和发生地震的情况进行了n=1 700次观测,列联表如下:有地震 无地震 水位有变化 98 902 水位无变化82618问观测结果是否说明地下水位的变化与地震的发生有关系?分析:判断两个分类变量是否相关,只须计算χ2的值然后与临界值比较即可. 解:列联表:有地震 无地震 总计 水位有变化989021 000水位无变化82 618 700 总计1801 5201 700χ2=70010001520180)9028261898(17002⨯⨯⨯⨯-⨯⨯≈1.59<2.706,∴没有充分的证据显示地下水位的变化与地震的发生相关..名师点睛:当χ2≤2 706时,一般认为没有充分证据显示“X 与Y 有关系”..【例3】在一项有关医疗保健的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,判断喜不喜欢甜食与性别是否有关系. 分析:先由题目中的条件画出列联表,然后计算χ2. 解:作列联表如下:喜欢甜食 不喜欢甜食总计 男 117 413 530 女 492 178 670 总计6095911 200χ2=670530591609)413492178117(12002⨯⨯⨯⨯-⨯≈312.272>6.635,∴有99 的把握认为喜不喜欢甜食与性别有关系. 四、自主小测1.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:喜欢数学课程不喜欢数学课程总计 男 37 85 122 女 35 143 178 总计72228300由表中的数据,你认为在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?为什么? 2.为了研究性格与血型的关系抽取80人测试,血型与性格汇总如下,试判断性格与血型是否相关.O 型或A 型B 型或AB 型总计 A 型 18 16 34 B 型172946总计 35 45 803.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:患慢性气管炎未患慢性气管炎合计 吸烟 43 16 2205 不吸烟 13 121 134 合计56283339试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?参考答案1解:χ2=17812222872)853514337(3002⨯⨯⨯⨯-⨯⨯≈4.513>3.841,在假设“性别与是否喜欢数学课程之间没有关系”的前提下,χ2应该很小,并且P (χ2>3.841)≈0.05, 而我们所得到的χ2的观察值4.513超过3.841,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05,即有95 的把握认为“性别与是否喜欢数学课程之间有关系”. 2解:由列联表中的数据得到χ2=46344535)17162918(802⨯⨯⨯⨯-⨯⨯≈2.030≤2.706.所以认为没有充分的证据显示血型与性格有关系. 3解:根据列联表中的数据,得到χ2=28356134205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469.因为7.469>6.635,所以我们有99 的把握说50岁以上的人患慢性气管炎与吸烟习惯有关.。
(教师用书)高中数学 3.2 独立性检验的基本思想及其初步应用课件 新人教A版选修2-3
(2)2×2 列联表的定义 假设有两个分类变量 X 和 Y,它们的取值分别为{x1,x2} {y1,y2} 和 ,其样本频数列联表(称为 2×2 列联表)为:
y1 x1 x2 a c y2 b d 总计
a+b c+d
总计 a+c b+d a+b+c+d
2.随机变量 K2 为了使不同样பைடு நூலகம்容量的数据有统一的评判标准,我们构
●教学流程
演示结束
1.了解分类变量、2×2列联表、随 机变量K2的意义. 课标 2.通过对典型、案例的分析,了 解读 解独立性检验的基本思想方法. 3.通过典型、案例的分析,了解 两个分类变量的独立性检验的应用.
独立性检验及其应用
【问题导思】 山东省 2011 年大力推行素质教育, 增加了高中生的课外 活动时间,某校调查了学生的课外活动方式,结果整理成下 表:
●教学建议 教学时通过引导学生探究“吸烟是否与患肺 癌有关 系”引出独立性检验的问题,借助样本数据的列联表、等高 条形图展示在吸烟人中患肺癌的比例比不吸烟人中患肺癌 的比例要高,使学生直观感觉到吸烟和患肺癌可能有关系, 在教学中可以把假设检验的方法与反证法作对比,以加深学 生对独立性检验思想的理解.
2×2 列联表如下:
物理优秀 物理非优秀 总计 数学优秀 228 b 360
143 d 880 数学非优秀 371 1 240 b+d 总计 ∴b=360-228=132,d=880-143=737,b+d=132
+737=869. 代入公式可得 K2 的观测值为 k1≈270.114.
(2)按照上述方法列出数学与化学优秀的 2×2 列联表如 下:
●重点、难点 重点:理解独立性检验的基本思想及实施步骤. 难点:(1)了解独立性检验的基本思想; (2)了解随机变量 K2 的含义,K2 的观测值很大,就认为 两个分类变量是有关系的. 引导学生通过类比反证法来体会假设检验,从而理解 k2 的含义,通过例题与练习更进一步了解独立性检验的基本思 想.
【优选整合】高中数学人教A版 选修2-3 3.2.2独立性检验的基本思想及其初步应用 教案
3.2独立性检验的基本思想及其初步应用(2)一、教学目标: 知识与技能:通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确 的判断。
明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。
过程与方法:利用学生身边熟悉的问题引入分类变量是否相关的问题;运用统计学解决问题的一般思路引导学生;让学生经历假设检验思想的形成及运用过程,领会分析、总结的方法; 情感、态度与价值:让学生探索、发现数学知识和掌握数学知识的内在规律的过程中不,不断获得成功积累愉快的体验,不断增进学习数学的兴趣,同时还通过探索这一活动培养学生善于和他人合作的精神. 二、教学重点、难点重点:理解独立性检验的基本思想及实施步骤。
难点:(1)了解独立性检验的基本思想;(2)了解随机变量2K 的含义,2K 太大认为两个分类变量是有关系的。
三、教学模式与教法、学法教学模式:本课采用“探究——发现”教学模式.教师的教法:利用多媒体辅助教学,突出活动的组织设计与方法的引导.“抓三线”,即(一)知识技能线(二)过程与方法线(三)能力线. “抓两点”,即一抓学生情感和思维的兴奋点,二抓知识的切入点. 学法:突出探究、发现与交流.四、教学过程 (一)温故知新(1)某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据? .(2)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:非统计专业统计专业 男 13 10 女720专业性别为了判断主修统计专业是否与性别有关系,根据表中的数据,得到χ2250(1320107) 4.84423272030⨯⨯-⨯=≈⨯⨯⨯,∵χ2 3.841≥, 所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 .(答案:5%) 附:临界值表(部分):P (χ20x ≥)0.10 0.05 0.025 0.010 0x2.7063.8415.0246.635(二)运用巩固例1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
高中数学 独立性检验的基本思想及其初步应用教案 新人教A版选修2-3
独立性检验的基本思想及其初步应用(共计3课时)一、教学内容与教学对象分析通过典型案例,学习下列一些常用的统计方法,并能初步应用这些方法解决一些实际问题。
①通过对典型案例(如“患肺癌与吸烟有关吗”等)的探究。
了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
②通过对典型案例(如“人的体重与身高的关系”等)的探究,了解回归的基本思想、方法及其初步应用。
二. 学习目标1、知识与技能通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。
明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。
2、过程与方法在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R 的求法,以及它们的实际意义。
从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。
最后介绍了独立性检验思想的综合运用。
3、情感、态度与价值观通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。
加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系。
明确数学在现实生活中的重要作用和实际价值。
教学中,应多给学生提供自主学习、独立探究、合作交流的机会。
养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题。
「高中数学」人教A版(选修2-3)独立性检验的基本思想及初步应用
「高中数学」人教A版(选修2-3)独立性检验的基本思想及
初步应用
我是“教评宋老师”,致力于教育教学的
交流和经验分享,也在这里给大家推荐教育类
APP,推荐书籍和分享相关资源,如果感兴趣
的朋友们,可以关注下。
前言
从今天开始不仅分享相关资源,在文章最后也会和大家分享一些“趣味数学”和“数学名家”,希望能给大家帮助,也希望能让大家喜欢,如果感兴趣,请点击上面红色“关注”,你的关注和转发是对我最大的支持。
期待你留下脚印。
具体内容(3.2独立性检验的基本思想及其初步应用)
以上是本次资源分享的全部内容,如果需要电子版,请私信回复“资源”,我会在第一时间回复并分享。
趣味数学——书生分卷
毛诗春秋周易书,九十四册共无余,毛诗一册三人读,春秋一本四人呼,周易五人读一本,要分每样几多书,就见学生多少数,请君布算莫踌躇。
《毛诗》相传是西汉毛亨、毛苌所著,此题选自明朝程大位所著的《算法统宗》一书。
答曰:《毛诗》四十册,《春秋》三十册,《周易》二十四册,学生一百二十名。
这道题可以用方程组解,也可以用算术方法解。
你会解吗?请在评论区说出你的详细过程。
书籍推荐
你喜欢看哪方面的图书 (多选)
0人
0%
高中相关教辅
0人0% 文学类0人0% 科幻类0人0% 玄幻类0人0% 励志类。
【志鸿优化设计】高中数学 3.2独立性检验的基本思想及其初步应用同步检测 新人教A版选修2-3
独立性检验的基本思想及其初步应用一、选择题1.通过对K2的统计量的研究得到了若干个临界值,当K2≤2.706时,我们认为( ).A.在犯错误的概率不超过0.05的前提下认为X与Y有关系B.在犯错误的概率不超过0.01的前提下认为X与Y有关系C.没有充分理由认为X与Y有关系D.不能确定答案:C解析:∵K2≤2.706,∴没有充分理由认为X与Y有关系.2.班级与成绩2×2列联表:表中数据m,n,p,q的值应分别为( ).A.70,73,45,188B.17,73,45,90C.73,17,45,90D.17,73,45,45答案:B解析:m=10+7=17,n=35+38=73,p=7+38=45,q=45+p=90.故B正确.3.(2014江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( ).表1表2视力好差总计表3表4A.成绩B.视力C.智商D.阅读量答案:D解析:根据K2=,代入题中数据计算得D选项K2最大.故选D.4.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图可以看出( ).A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%答案:C解析:由图知女生中喜欢理科的比为20%,男生不喜欢理科的比为40%,故B,D不正确.由图知,男生比女生喜欢理科的可能性大些.5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:则认为多看电视与人变冷漠有关系的把握大约为( ).A.99.9%B.97.5%C.95%D.90%答案:A解析:可计算K2的观测值k≈11.377>10.828.二、填空题6.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:(填“是”或“否”).答案:是解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.7.某中学2013年共910人参加高考,统计数据如下:则考生的户口形式和高考录取的关系是.(填无关或多大把握有关)答案:无关解析:2×2列联表如下:统计假设H0:考生的户口形式对高考录取没有影响.计算K2的观测值k=≈1.13.由于1.13<2.706,所以我们接受统计假设,故考生的户口形式和高考录取无关.8.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到k=≈4.844.则认为选修文科与性别有关系出错的可能性为.答案:5%解析:∵k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.三、解答题9.为了解某班关注NBA是否与性别有关,对该班48人进行了问卷调查得到如下的列联表:已知在全班48人中随机抽取1人,抽到关注NBA的学生的概率为.(1)请将上面的表补充完整(不用写计算过程),并判断是否有95%的把握认为关注NBA与性别有关?(2)现记不关注NBA的6名男生中某两人为a,b,关注NBA的10名女生中某3人为c,d,e,从这5人中选取2人进行调查,求:至少有一人不关注NBA的被选取的概率.下面的临界值表,供参考(参考公式:K2=,其中n=a+b+c+d)解:(1)列联表补充如下:由上表数据,可得K2=≈4.286.因为4.286>3.841,故有95%的把握认为关注NBA与性别有关.(2)从5人中选2人的基本事件有ab,ac,ad,ae,bc,bd,be,cd,ce,de共10种,其中至少有一人不关注NBA的有ab,ac,ad,ae,bc,bd,be共7种,故至少有一人不关注NBA的概率为.10.某校对学生课外活动内容进行调查,结果整理成下表:试用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关系”?解:其等高条形图如图:由图可以直观地看出喜欢体育还是喜欢文娱与性别在某种程度上有关系,但只能作粗略的判断,要想搞清两个量在多大程度上有关系,可用下面的方法:假设“喜欢体育还是喜欢文娱与性别没有关系”, 因为a=21,b=23,c=6,d=29,n=79, 所以K 2的观测值k= =≈8.106,且P (K 2≥7.879)≈0.005,因为K 2的观测值k ≈8.106>7.879,所以在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.11.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表: 甲厂:乙厂:(1)分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填写2×2列联表,并问能否在犯错误的概率不超过0.01的前提下认为两个分厂生产的零件的质量有差异.解:(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%.(2)填写表格如下表:由列联表中的数据,得K2的观测值为k=≈7.353>6.635.因此,在犯错误的概率不超过0.01的前提下,认为两个分厂生产的零件的质量有差异.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不用独立性检验而凭经验下结论致错 【典例】 调查者通过询问男女大学生在购买食品时是否看营养说明得到的数据如下表所
示.请估计看营养说明是否与性别有关系
.
看营养说明
不看营养说明
总计
男大学生
10
45
55
女大学生
8
27
35
总计
18
72
90
解析: 由表中数据得 K2 的观测值为:
90 (10×27-8×45) 2
y1
y2
x1
a
20- a
x2
15- a
30+ a
A.5 或 6 B. 6 或 7 C . 7 或 8 D . 8 或 9 解析: 查表可知,要使在犯错误的概率不超过
0.1 的前提下,认为 K2 之间有关系,则
K2>2.706 ,而
K2= 65[
a( 30+ a)-( 20- a)( 20× 45× 15× 50
k=
≈ 0.292<0.455 ,
55× 35× 18× 72
所以我们没有充分的证据认为看营养说明与男女性别有关.
【易错剖析】本题若不用独立性检验,会有如下错解:由表中数据可知,
55 名男大学生中
有 10 名看营养说明, 而 35 名女大学生中有 8 名看营养说明,显然男性看营养说明的比例
10 55比女
解析: 由公式得 K2的观测值为
407×( 32×213-61×101)
k=
133 × 274× 93 ×314
2
≈ 0.164<0.455.
6.有两个分类变量 x ,y,其 2×2列联表如下表.其中 a, 15- a 均为大于 5 的整数,若在
犯错误 的概率不超过 0.1 的前提下认为“ x 与 y 之间有关系”,则 a 的取值应为 ( D)
高中数学 3.2 独立性检验的基本思想及其初步应用学案
基础梳理
1 .分类变量的概念. 变量的不同“值”表示个体所属的不同类别,像这样的变量称为
分类变量.
2. 2× 2 列联表. 一般地,假设有两个分类变量 联表 ( 称为 2×2列联表 ) 如下:
X 和 Y,它们的取值分别为 { x 1, x2} 和 { y1, y2} ,其样本频数列
专 性别
非统计专业
统计专业
男生
13
10
100 个
吸烟的人中必有 99 人患有肺病
B.从独立性检验可知,有 99%的把握认为吸烟与患肺病 有关系时,我们说某人吸烟,那么
他有 99%的 可能患有肺病
C.若从统计量中求出有 95%的把握认为吸烟与患肺病有关系,是指有
5%的可能性使得推断
出现错误
D.以上三种说法都不正确
解析: 根据独立性检验的概念知,选项 C 正确.故选 C.
15- a) ]
2 13( 65a- 300 ) 2
=
=
60 × 45× 50
13( 13a- 60) 2 60× 90 ,要使
K2>2.706
得 a>7.19
或 a<2.04.
又因为
a>5 且 15- a>5, a∈ Z,所以
a
=8 或 9,故当 a 取 8 或 9 时在犯错误的概率不超过 0.1 的前提下 ,认为“ x 与 y 之间有 关系”. 7.某高校统计初步课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
B.独立性检验的基本思想类似于数学上的反证法
C.任何两个分类变量有关系的可信度都可以通过查表得到
D.不能从等高条形图中看出两个分类变量是否相关
解析: 根据独立性检验的概念知,选项 B 正确.故选 B. 2.对于分类变量 X 与 Y 的随机变量 K2 的观测值 k,下列说法正确的是 ( B)
A. k 越大,推断“ X 与 Y 有关系”,犯错误的概率越大
8 性的 要低,因此看营养说明与性别有关.
35
基础巩固
1. 下列关于 K2 的说法正确的是 ( C) A. K2在任何相互独立问题中都可以用来检验有关还是无关 B. K2的值越大,两个事件的相关性越大 C. K2 是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合
D. K2的观测值的计算公式为
K2= ( a+ b)(
n( ad- bc) c+ d)( a+ c)(
b+ d)
解析: A 中 K2 的使用范围是四个数据中每个数据都必须大于
5,故 A 错; B 中过于确定,不
正确; C 正确; D中公式有错.
2.在 2×2 列联表中,两个比值 ________ 相差越大,两个分类变量之间的关系越强
(A)
a
c
a
c
A. a+ b与 c+ d B. c +d与 a+b
a
c
a
c
C. a+ d与 b+ c D. b+d与 a+c
a
c
解析: a+ b与 c+ d相差越大,说明 ad 与 bc 相差越大,两个分类变量之间的关系越强.
3.下面是 2×2列联表:
y1
y2
总计
x1
a 21
73
x2
2
25
27
总计
b 46
则表中 a、 b 的值分别为 ( C)
A. 94、 96 B . 52、 50
C. 52、 54 D . 54、 52
解析: ∵ a+ 21 = 73,∴ a= 52.
又∵ a+ 2=b,∴ b=54.
4.某大学在研究性别与职称 ( 分正教授,副教授 ) 之间是否有关系,你认为应该收
是 男正教授人数,男副教授人数,女正教授人数,女副教授人数
.
集的数据
能力提升
5. 考察棉花种子经过处理跟生病之间的关系得到如下表数据:
种子处理
种子未处理
总计
得病
32
101
133
不得病
61
213
274
总计
93
根据以上数据,则 ( A)
314
407
A.没有充分的理由说明种子经过处理跟是否生病有关
B.种子经过处理跟是否生病有关
C.种子是否经过处理决定是否生病
D.以上都是错误的
构造随机变量
K2=
(a+
b)(
n( ad- bc) 2 c+ d)( a+ c)(
b+
d),其中
n= a+ b+ c+ d 为样本容量.
3.独立性检验. 利用随机变量 K2来判断“ 两个分类变量有关系 ”的方法称为独立性检验.
临界值表:
自测自评
1.下面说法正确的是 ( B)
A.统计方法的特点是统计推断准确、有效
B. k 越小,推断“ X 与 Y 有关系”,犯错误 的概率越大
C. k 越接近于 0,推断“ X与 Y 无关”,犯错误的概率越大
D. k 越大,推断“ X 与 Y 无关”,犯错误的概率越小
3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是
( C)
A.若 K2的观测值为 k = 6.635 ,我们有 99%的把握认为吸烟与患肺病有关系,那么在