独立性检验中的列表与用表

合集下载

高中数学- 独立性检验

高中数学- 独立性检验
2.独立性检验类似于数学中的反证法,要确认“两个变 量有关系”这一结论成立的可信度,首先假设结论不成立,在 假设下,我们构造的统计量χ2应该很小.如果由观测数据计 算得到的χ2值很大,则在一定程度上说明假设不合理,再根 据不合理的程度与临界值的关系作出判断.
点击下图进入“应用创新演练”
ห้องสมุดไป่ตู้
1.对于事件A与B及统计量χ2,下列说法正确的是( ) A.χ2越大,“A与B有关系”的可信程度越小 B.χ2越小,“A与B有关系”的可信程度越小 C.χ2越接近于0,“A与B没有关系”的可信程度越小 D.χ2越大,“A与B没有关系”的可信程度越大 解析:χ2越大,“A与B没有关系”的可信程度越小,则 “A与B有关系”的可信程度越大,即χ2越小,“A与B有 关系”的可信程度越小. 答案:B
2.独立性检验
(1)χ2=
nn11n22-n12n212 n1+n2+n+1n+2
.
(2)经过对χ2统计量分布的研究,已经得到了两个临界
值:3.841与6.635.
①当χ2>3.841时,有 95%的把握说事件A与B有关;
②当χ2>6.635时,有 99%的把握说事件A与B有关; ③当χ2≤3.841时,认为事件A与B是 无关的.
性别与患色盲有关系.
(10分)
[一点通] (1)独立性检验方法有三步:一是列表,二是计算, 三是判断. (2)注意判断时把计算结果与两个临界值3.841与 6.635比较,其值越大,有关的可信度越高.
3.为观察药物A、B治疗某病的疗效,某医生将100例患 该病的病人随机分成两组,一组40人,服用A药;另 一组60人,服用B药.结果发现:服用A药的40人中有 30人治愈;服用B药的60人中有11人治愈.问A、B两 药对该病的治愈率之间是否有显著差异?

数学独立性检验

数学独立性检验

独立性检验是统计学中用于判断两个或多个随机变量之间是否存在关联关系的一种方法。

它通常用于假设检验中,以确定观察到的数据是否支持某个假设。

常用的独立性检验方法包括卡方检验、Fisher精确检验、列联表分析等。

其中,卡方检验是最常用的一种方法,适用于分类变量之间的独立性检验。

它通过计算观察频数与期望频数之间的差异,来判断两个分类变量之间是否存在关联关系。

在进行独立性检验时,需要先提出一个原假设和一个备择假设。

原假设通常表示两个随机变量之间不存在关联关系,而备择假设则表示它们之间存在关联关系。

然后,根据样本数据计算出观察频数和期望频数,并计算它们的卡方值。

最后,根据卡方值和自由度的大小,来决定是否拒绝原假设。

独立性检验在各个领域都有广泛的应用,例如医学、社会科学、经济学等。

它可以用来分析因果关系、控制实验误差、预测未来趋势等。

列表分析卡方检验适应性检验独立性检验

列表分析卡方检验适应性检验独立性检验

列表分析卡⽅检验适应性检验独⽴性检验基于样本分布与理论分布之间的偏离程度构建统计量,得到⼀个统计量的抽样分布。

判断样本分布与理论分布之间的偏离程度是抽样误差还是实质性变化,具体⽽⾔就是样本值与理论值之间的差值是抽样误差造成的还是本⾝就这样。

令样本统计量(O)与总体真值(E)之间的差值作为统计量,⽤平⽅(O-E)来表现样本分布与理论分布之间的偏离程度,本来应该⽤绝对值,但是绝对值不好计算,此时采⽤平⽅数但仍有问题:所以,平⽅整体下⾯⽐上理论值能更真实反应。

于是得到了卡⽅统计量为其中,0.4566就是卡⽅值。

准确公式是:其中,⾃由度是k-1。

如图:⾃由度⼤正态分布,⾃由度⼩偏态注意任意⼀组的理论次数⼤于5,即数值⼤于5。

因为卡⽅检验本来应⽤于连续型变量,但在列表中是离散型变量,所以对于⼤样本可以较好拟合,但是⼩样本离散型变量要进⾏矫正,其中Df=1 连续型矫正:应⽤于总体分布未知,假设变量之间的关系,⽤总体数据检验该关系是否存在。

卡⽅检验⽤途:1.适合性检验:拟合优度检验,判断假设变量关系是否存在。

H0:观测量满⾜XXXX关系,所以满⾜概率论中关于独⽴变量的计算,便有⼀个理论值H1:观测量满⾜XXXX关系操作:假设满⾜XXXX关系,则可得到理论值,结合实际值再计算出卡⽅值。

显隐性:在遗传学中,有许多显、隐性⽐率可以划分为两组的资料,如欲测其与某种理论⽐率的适合性。

因为显隐性⽐例⾃由度是1,所以需要矫正,最后的卡⽅值为:多于两组的值可以使⽤独⽴性检验:两个或两个以上变量之间是否有关系H0:认为独⽴,所以满⾜概率论中关于独⽴变量的计算,便有⼀个理论值H1:认为变量之间不相互独⽴由2×2推得r×c因为2×2⾃由度为1,所以需要矫正:对于r×c则是:其中,各变量对应如下所⽰:其⾃由度是:要注意df=1时进⾏矫正。

人教版高中数学选修2-3 教学案:3.2 独立性检验的基本思想及其初步应用

人教版高中数学选修2-3 教学案:3.2 独立性检验的基本思想及其初步应用

独立性检验的基本思想及其初步应用预习课本P91~96,思考并完成以下问题1.分类变量与列联表分别是如何定义的?2.独立性检验的基本思想是怎样的?3.独立性检验的常用方法有哪些?[新知初探]1.与列联表相关的概念(1)分类变量:变量的不同“值”表示个体所属的不同类型,像这样的变量称为分类变量.(2)列联表:①列出的两个分类变量的频数表,称为列联表.②一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0, 因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.2.等高条形图等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列表数据的频率特征.3.独立性检验的基本思想(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)公式:K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d为样本容量.[小试身手]1.判断下列命题是否正确.(正确的打“√”,错误的打“×”)(1)分类变量中的变量与函数中的变量是同一概念.()(2)列联表频率分析法、等高条形图可初步分析两分类变量是否有关系,而独立性检验中K2取值则可通过统计表从数据上说明两分类变量的相关性的大小.()(3)独立性检验的方法就是反证法.()答案:(1)×(2)√(3)×2.与表格相比,能更直观地反映出相关数据总体状况的是()A.列联表B.散点图C.残差图D.等高条形图答案:D3.如果有99%的把握认为“X与Y有关系”,那么具体算出的数据满足()附表:A.k>6.635 B.k>5.024C.k>7.879 D.k>3.841答案:A4.下面是一个2×2列联表:则表中a,b的值分别为________.答案:52, 54[典例]液作尿棕色素定性检查,结果如下:铅中毒病人与尿棕色素为阳性是否有关系?[解]等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.,在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b.两个比例的值相差也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d越大,X与Y有关系成立的可能性就越大.[活学活用]某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.解:作列联表如下:相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.两个变量的独立性检验[典例]为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?[解]根据题目所给的数据得到如下列联表:理科文科总计有兴趣13873211无兴趣9852150总计236125361根据列联表中数据由公式计算得随机变量K2的观测值k=361××52-73×2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以在犯错误的概率不超过0.1的前提下,不能认为“学生选报文、理科与对外语的兴趣有关”.独立性检验的步骤(1)确定分类变量,获取样本频数,得到列联表.(2)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(3)利用公式K2=n ad-bc2a+b c+d a+c b+d计算随机变量K2的观测值k0.(4)作出判断.如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y的关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.[活学活用]在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2的列联表;并估计,以运动为主的休闲方式的人的比例;(2)能否在犯错误的概率不超过0.025的前提下,认为性别与休闲方式有关系?附表:P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.8 28K2=n() ad-bc2()a+b()c+d()a+c()b+d.解:(1)由所给的数据得到列联表休闲方式性别看电视运动总计女432770男213354总计6460124 所以以运动为主要的休闲方式的人的比例为15∶31.(2)根据列联表中的数据计算得随机变量K2的观测值,k=124××33-27×270×54×64×60≈6.201,因为k>5.024,所以在犯错误的概率不超过0.025的前提下认为休闲方式与性别有关.独立性检验的综合应用[典例]某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A,B两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如图.记成绩不低于90分者为“成绩优秀”.(1)在乙班样本的20个个体中,从不低于86分的成绩中随机抽取2个,求抽出的两个均“成绩优秀”的概率;(2)由以上统计数据作出列联表,并判断能否在犯错误的概率不超过0.1的前提下认为:“成绩优秀”与教学方式有关.[解](1)由题意知本题是一个等可能事件的概率,试验发生包含的事件是从不低于86分的成绩中随机抽取两个包含的基本事件是:(86,93), (86,96), (86,97), (86,99), (86,99), (93,96),(93,97), (93,99), (93,99), (96,97), (96,99), (96,99),(97,99),(97,99),(99,99),共有15种结果,符合条件的事件数(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共有10种结果,根据等可能事件的概率得到P=1015=2 3.(2)由已知数据得甲班乙班总计成绩优秀15 6成绩不优秀191534总计202040 根据列联表中的数据,计算得随机变量K2的观测值k=-26×34×20×20≈3.137,由于3.137>2.706,所以在犯错误的概率不超过0.1的前提下认为:“成绩优秀”与教学方式有关.(1)独立性检验问题是常与统计、概率相结合,解题时一定要认真审题,找出各数据的联系.(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.[活学活用]某市教育局邀请教育专家深入该市多所中小学,开展听课、访谈及随堂检测等活动,他们把收集到的180节课分为三类课堂教学模式,教师主讲的为A 模式,少数学生参与的为B 模式,多数学生参与的为C 模式,A ,B ,C 三类课的节数比例为3∶2∶1.(1)为便于研究分析,教育专家将A 模式称为传统课堂模式,B ,C 统称为新课堂模式,根据随堂检测结果,把课堂教学效率分为高效和非高效,根据检测结果统计得到如下2×2列联表(单位:节)请根据统计数据回答:有没有99%的把握认为课堂教学效率与教学模式有关?并说明理由.(2)教育专家采用分层抽样的方法从收集到的180节课中选出12节课作为样本进行研究,并从样本中的B 模式和C 模式课堂中随机抽取2节课,求至少有一节课为C 模式课堂的概率.参考临界值有:参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)由列联表中的统计数据计算随机变量K 2的观测值为: ∵k =180××50-40×2100×80×90×90=9>6.635,由临界值表P (K 2≥6.635)≈0.010,∴有99%的把握认为课堂效率与教学模式有关.(2)样本中的B 模式课堂和C 模式课堂分别是4节和2节.从中任取两节有C 26=15种取法,其中至少有一节课为C 模式课堂取法有C 26-C 24=9种,∴至少有一节课为C 模式课堂的概率为915=35.层级一 学业水平达标1.以下关于独立性检验的说法中, 错误的是( ) A .独立性检验依赖于小概率原理 B .独立性检验得到的结论一定准确C .样本不同,独立性检验的结论可能有差异D .独立性检验不是判断两事物是否相关的唯一方法解析:选B 根据独立性检验的原理可知得到的结论是错误的情况是小概率事件,但并不一定是准确的.2.观察下列各图,其中两个分类变量之间关系最强的是( )解析:选D 在四幅图中,D 图中两个阴影条的高相差最明显,说明两个分类变量之间关系最强,故选D .3.在列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大( ) A .a a +b 与d c +d B .c a +b 与a c +dC .a a +b 与c c +dD .a a +b 与c b +c解析:选C 由等高条形图可知a a +b 与cc +d的值相差越大,|ad -bc |就越大,相关性就越强.4.对于分类变量X 与Y 的随机变量K 2的观测值k ,下列说法正确的是( ) A .k 越大,“X 与Y 有关系”的可信程度越小 B .k 越小,“X 与Y 有关系”的可信程度越小 C .k 越接近于0,“X 与Y 没有关系”的可信程度越小 D .k 越大,“X 与Y 没有关系”的可信程度越大解析:选B K 2的观测值k 越大,“X 与Y 有关系”的可信程度越大.因此,A 、C 、D 都不正确.5.考察棉花种子经过处理跟生病之间的关系得到下表数据:A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的解析:选B由K2=407××213-61×293×314×133×274≈0.164<2.706,即没有把握认为是否经过处理跟是否生病有关.6.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”或“无关”)解析:∵K2的观测值k=27.63,∴k>10.828,∴在犯错误的概率不超过0.001的前提下认为打鼾与患心脏病是有关的.答案:有关7.如果根据性别与是否爱好运动的列联表得到K2≈3.852>3.841,则判断性别与是否爱好运动有关,那么这种判断犯错的可能性不超过________.解析:∵P(K2≥3.841)≈0.05.∴判断性别与是否爱好运动有关,出错的可能性不超过5%.答案:5%8.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B 有关,当k≤2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841k≤2.7069.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.(1)根据以上数据列出2×2列联表;(2)在犯错误的概率不超过0.01的前提下认为40岁以上的人患胃病与否和生活规律有关系吗?为什么?解:(1)由已知可列2×2列联表:(2)k =540××260-200×2220×320×80×460≈9.638.∵9.638>6.635,因此,在犯错误的概率不超过0.01的前提下认为40岁以上的人患胃病与否和生活规律有关.10.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99.5%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵K 2=50××15-10×230×20×25×25≈8.333>7.879,∴有99.5%的把握认为喜爱打篮球与性别有关.层级二 应试能力达标1.在第29届北京奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2 548名男性中有1 560名持反对意见,2 452名女性中有1 200名持反对意见,在运用这些数据说明性别对判断“中国进入了世界体育强国之列”是否有关系时,用什么方法最有说服力()A.平均数与方差B.回归直线方程C.独立性检验D.概率解析:选C由于参加调查的人按性别被分成了两组,而且每一组又被分成了两种情况,判断有关与无关,符合2×2列联表的要求,故用独立性检验最有说服力.2.对于独立性检验,下列说法正确的是()A.K2>3.841时,有95%的把握说事件A与B无关B.K2>6.635时,有99%的把握说事件A与B有关C.K2≤3.841时,有95%的把握说事件A与B有关D.K2>6.635时,有99%的把握说事件A与B无关解析:选B由独立性检验的知识知:K2>3.841时,有95%的把握认为“变量X与Y 有关系”;K2>6.635时,有99%的把握认为“变量X与Y有关系”.故选项B正确.3.想要检验是否喜欢参加体育活动是不是与性别有关,应该检验()A.H0:男性喜欢参加体育活动B.H0:女性不喜欢参加体育活动C.H0:喜欢参加体育活动与性别有关D.H0:喜欢参加体育活动与性别无关解析:选D独立性检验假设有反证法的意味,应假设两类变量(而非变量的属性)无关,这时的K2应该很小,如果K2很大,则可以否定假设,如果K2很小,则不能够肯定或者否定假设.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”,得到如下的列联表:由此表得到的正确结论是()A.在犯错误的概率不超过0.01的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过0.01的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”解析:选C由2×2列联表得到a=45,b=10,c=30,d=15.则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100.代入K2=n ad-bc2a+b c+d a+c b+d,得K2的观测值k=100×-255×45×75×25≈3.030.因为2.706<3.030<3.841.所以在犯错误的概率不超过0.1的前提下认为“该市居民能否做到‘光盘’与性别有关”.5.若两个分类变量X与Y的列联表为:则“X与Y之间有关系”这个结论出错的可能性为________.解析:由题意可得K2的观测值k=+15+40+××16-40×2+×+×+×+≈7.227,∵P(K2≥6.635)≈1%, 所以“x与y之间有关系”出错的可能性为1%.答案:1%6.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:差别的结论________(填“能”或“不能”).解析:根据列联表中的数据,可以求得K2的观测值k=392××167-29×2 68×324×196×196≈1.779.K2<2.072的概率为0.85.作出这两种手术对病人又发作心脏病的影响有差别的结论.答案:1.779不能7.甲、乙两机床加工同一种零件,抽检得到它们加工后的零件尺寸x(单位:cm)及个数y,如下表:由表中数据得y关于x的线性回归方程为y=-91+100x(1.01≤x≤1.05),其中合格零件尺寸为1.03±0.01(cm).完成下面列联表,并判断是否有99%的把握认为加工零件的质量与甲、乙有关?解:x=1.03,y=a+495,由y^=-91+100x知,a+495=-91+100×1.03,所以a=11,由于合格零件尺寸为1.03±0.01 cm,故甲、乙加工的合格与不合格零件的数据表为:所以K2=n ad-bca+b c+d a+c b+d=60××18-6×230×30×36×24=10,因K2=10>6.635,故有99%的把握认为加工零件的质量与甲、乙有关.8.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:(1)习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品.现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.解:(1)将2×2列联表中的数据代入公式计算,得 K 2=100××10-20×270×30×80×20=10021≈4.762. 由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 1,b 3),(a 1,b 2,b 3),(a 2,b 1,b 2),(a 2,b 1,b 3),(a 2,b 2,b 3),(b 1,b 2,b 3)}.(其中a i 表示喜欢甜品的学生,i =1,2.b j 表示不喜欢甜品的学生,j =1,2,3)Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2),(a 1,b 1,b 3),(a 1,b 2,b 3),(a 2,b 1,b 2),(a 2,b 1,b 3),(a 2,b 2,b 3),(b 1,b 2,b 3)}.事件A 是由7个基本事件组成,因而P (A )=710.(时间120分钟 满分150分)一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.对有线性相关关系的两个变量建立的回归直线方程y ^=a ^+b ^x 中,回归系数b ^( ) A .可以小于0 B .大于0 C .能等于0D .只能小于0解析:选A ∵b ^=0时,则r =0,这时不具有线性相关关系,但b ^可以大于0也可以小于0.2.每一吨铸铁成本y (元)与铸件废品率x %建立的回归方程y ^=56+8x ,下列说法正确的是( )A .废品率每增加1%,成本每吨增加64元B .废品率每增加1%,成本每吨增加8%C .废品率每增加1%,成本每吨增加8元D .如果废品率增加1%,则每吨成本为56元解析:选C 根据回归方程知y 是关于x 的单调增函数,并且由系数知x 每增加一个单位,y 平均增加8个单位.3.下表显示出样本中变量y 随变量x 变化的一组数据,由此判断它最可能是( )A .线性函数模型B .二次函数模型C .指数函数模型D .对数函数模型解析:选A 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型.4.试验测得四组(x ,y )的值为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( )A .y ^=x +1B . y ^=x +2 C .y ^=2x +1 D .y ^=x -1解析:选A 由题意发现,(x ,y )的四组值均满足y ^=x +1,故y ^=x +1为回归直线方程.5.下列关于等高条形图说法正确的是( ) A .等高条形图表示高度相对的条形图 B .等高条形图表示的是分类变量的频数 C .等高条形图表示的是分类变量的百分比 D .等高条形图表示的是分类变量的实际高度 解析:选C 由等高条形图的特点及性质进行判断.6.根据一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的散点图分析存在线性相关关系,求得其回归方程y ^=0.85x -85.7,则在样本点(165,57)处的残差为( )A .54.55B .2.45C .3.45D .111.55解析:选B 把x =165代入y ^=0.85x -85.7,得y =0.85×165-85.7=54.55,由57-54.55=2.45,故选B .7.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 解析:选C 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到K 2=105××30-20×255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”,选项C 正确.8.某考察团对全国10大城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )A .83%B .72%C .67%D .66%解析:选A 将y =7.675代入回归方程,可计算得x ≈9.262,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.262≈0.83≈83%,即约为83%.9.为了研究男子的年龄与吸烟的关系,抽查了100个男子,按年龄超过和不超过40岁,吸烟量每天多于和不多于20支进行分组,如下表:则在犯错误的概率不超过__________的前提下认为吸烟量与年龄有关( ) A .0.001 B .0.01 C .0.05 D .没有理由解析:选A K 2=100××25-10×265×35×60×40≈22.16>10.828,所以我们在犯错误的概率不超过0.001的前提下认为吸烟量与年龄有关.10.为了考察两个变量x 和y 之间的线性相关性,甲、乙两个同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线为l1和l2,已知在两人的试验中发现对变量x的观测数据的平均值恰好相等,都为s,对变量y的观测数据的平均值也恰好相等,都为t,那么下列说法正确的是()A.直线l1和直线l2有交点(s,t)B.直线l1和直线l2相交,但交点未必是点(s,t)C.直线l1和直线l2由于斜率相等,所以必定平行D.直线l1和直线l2必定重合解析:选A l1与l2都过样本中心(x,y).11.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表如下:() A.a=9,b=8,c=7,d=6B.a=9,b=7,c=6,d=8C.a=8,b=6,c=9,d=7D.a=6,b=7,c=8,d=9解析:选B对于同一样本|ad-bc|越小,说明X与Y之间的关系越弱,|ad-bc|越大,故检验知选B.12.两个分类变量X和Y, 值域分别为{x1,x2}和{y1,y2}, 其样本频数分别是a=10, b =21, c+d=35.若X与Y有关系的可信程度不小于97.5%, 则c等于() A.3 B.4C.5 D.6解析:选A列2×2列联表如下:故K2的观测值k=66×-c-21c]31×35×+c-c≥5.024.把选项A, B, C, D代入验证可知选A.二、填空题(本大题共4小题,每小题5分,共20分.请把正确答案填在题中的横线上)13.已知某车间加工零件的个数x 与所花费时间y (h)之间的线性回归方程为y ^=0.01x +0.5,则加工600个零件大约需要________h .解析:当x =600时,y ^=0.01×600+0.5=6.5. 答案:6.514.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),若e i 恒为0,则R 2为________.解析:e i 恒为0,说明随机误差总为0,于是y i =y ^,故R 2=1. 答案:115.下列是关于出生男婴与女婴调查的列联表那么A =______,B =______,C ______,D =________,E =________. 解析:∵45+E =98,∴E =53,∵E +35=C ,∴C =88,∵98+D =180,∴D =82, ∵A +35=D ,∴A =47,∵45+A =B ,∴B =92. 答案:47 92 88 82 5316.已知x ,y 之间的一组数据如表,对于表中数据,甲、乙两同学给出的拟合直线分别为l 1:y =13x +1与l 2:y =12x +12,利用最小二乘法判断拟合程度更好的直线是________.解析:用y =13x +1作为拟合直线时,所得y 的实际值与y 的估计值的差的平方和为:S 1=⎝⎛⎭⎫1-432+(2-2)2+(3-3)2+⎝⎛⎭⎫4-1032+⎝⎛⎭⎫5-1132=73.用y =12x +12作为拟合直线时,所得y 的实际值与y 的估计值的差的平方和为:S 2=(1-1)2+(2-2)2+⎝⎛⎭⎫3-722+(4-4)2+⎝⎛⎭⎫5-922=12.因为S 2<S 1,故用直线l 2:y =12x +12,拟合程度更好.答案:y =12x +12三、解答题(本大题共6小题,共70分,解答时写出必要的文字说明、证明过程或演算步骤)17.(本小题满分10分)对某校小学生进行心理障碍测试得如下列联表:(其中焦虑、说谎、懒惰都是心理障碍)试说明在这三种心理障碍中哪一种与性别关系最大?解:对于上述三种心理障碍分别构造三个随机变量K 21,K 22,K 23,由表中数据可得K 21=110××60-25×230×80×25×85≈0.863,K 22=110××70-20×230×80×20×90≈6.366,K 23=110××30-15×230×80×65×45≈1.410.因为K 22的值最大,所以说谎与性别关系最大.18.(本小题满分12分)有人统计一个省的6个城市某一年的人均国内生产总值(人均GDP)x 和这一年各城市患白血病的儿童数量y ,其数据如下表所示:(1)画出散点图,并判断是否线性相关; (2)求y 与x 之间的回归方程. 解:(1)作散点图(如下图所示).由散点图可知y 与x 具有线性相关关系.(2)将数据代入公式,可得b ^≈23.253,a ^≈102.151.故y 与x 之间的线性回归方程是y ^=23.253x +102.151.19.(本小题满分12分)某校在两个班进行教学方式对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如下表所示(单位:人):(1)求m ,n ;(2)能否在犯错误的概率不超过0.005的情况下认为教学方式与成绩有关系? 解:(1)m =45-15=30,n =50+50=100. (2)由表中的数据,得K 2的观测值为 k =100××30-15×250×50×55×45≈9.091.因为9.091>7.879,所以能在犯错误的概率不超过0.005的前提下认为教学方式与成绩有关系.20.(本小题满分12分)某工厂用甲、乙两种不同工艺生产一大批同一种零件,零件尺寸均在[21.7,22.3](单位:cm)之间,把零件尺寸在[21.9,22.1)的记为一等品,尺寸在[21.8,21.9)∪[22.1,22.2)的记为二等品,尺寸在[21.7,21.8)∪[22.2,22.3]的记为三等品,现从甲、乙工艺生产的零件中各随机抽取100件产品,所得零件尺寸的频率分布直方图如图所示:(1)根据上述数据完成下列2×2列联表,根据此数据你认为选择不同的工艺与生产出一等品是否有关?附:K2=n ad-bc2a+b c+d a+c b+d(2)以上述各种产品的频率作为各种产品发生的概率,若一等品、二等品、三等品的单件利润分别为30元、20元、15元,你认为以后该工厂应该选择哪种工艺生产该种零件?请说明理由.解:(1)2×2列联表如下K2=200××40-60×2110×90×100×100≈2.02<2.706,所以没有理由认为选择不同的工艺与生产出一等品有关.(2)由题知运用甲工艺生产单件产品的利润X的分布列为X的数学期望为E(X)=30×0.5+20×0.3+15×0.2=24,X的方差为D(X)=(30-24)2×0.5+(20-24)2×0.3+(15-24)2×0.2=39.乙工艺生产单件产品的利润Y的分布列为Y的数学期望为E(Y)=30×0.6+20×0.1+15×0.3=24.5,Y的方差为D(Y)=(30-24.5)2×0.6+(20-24.5)2×0.1+(15-24.5)2×0.3=47.25.由上述结果可以看出D(X)<D(Y),即甲工艺波动小,虽然E(X)<E(Y),但相差不大,所以以后选择甲工艺.21.(本小题满分12分)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样的方法从该地区调查了500位老年人,结果如下:附:K2的观测值k=n ad-bc2a+b c+d a+c b+d.(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)在犯错误的概率不超过0.01的前提下是否可认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?请说明理由.解:(1)调查的500位老人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为70500=14%.(2)随机变量K2的观测值k=500××270-30×2200×300×70×430≈9.967.由于9.967>6.635,因此,在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关.(3)由(2)的结论知,该地区的老年人是否需要帮助与性别有关,并且从样本数据中能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,并且采用分层抽样方法比采用简单随机抽样的方法更好.22.(本小题满分12分)某市为了对学生的数理(数学与物理)学习能力进行分析,从10 000名学生中随机抽出100位学生的数理综合学习能力等级分数(6分制)作为样本,分数频数分布如下表:。

列联表的独立性检验

列联表的独立性检验

拒绝域形式Q2 c.
因为ˆi
ni n
,ˆ j
n j n
.
r
Q2
s
nij
nin j n
2
r
s
2
nnij nin j
i1 j1
nin j
i1 j1
nnin j
如果H0成立,Qn2渐近服从自由度为(r -1() s -1)
的 2分布.
例1 随机抽取某校男生35名,女生31,进行
体育达标考核,结果如下表 问体育达标水平是
2.5 列联表的独立检验
一、二维r 列s联表
设A, B为两个定性变量,A有r个不同水平(A1,A2 , Ar ),
B有s个不同水平(B1,B2 , Bs ).观测n次, 各水平组合(Ai ,Bj )
出现频数为nij. 列表如下: 二维 r s 列联表
s
令:ni nij j 1
A
B B1,
B2 ,
著的差异.
即有 n11 n21
n1 n2+
如果p1 p2, 表示有属性A的个体中有属性B的比例高

n11 n1
n21 n2+
如果p1 p2,表示有属性A的个体中有属性B的比例低

n11 n21
n1 n2+
四表格的检验问题, 即属性A和B的独立性检验问题有
(1) H0 : p1=p2, H1 : p1 p2 (2) H0 : p1=p2, H1 : p1 p2 (3) H0 : p1=p2, H1 : p1 p2
X-squared = 0.0057, df = 1, p-value = 0.9397 因此在0.05显著性水平下,接受原假设.

专题19 独立性检验(解析版)

专题19 独立性检验(解析版)

专题19 独立性检验一、解答题 1.(2022·全国·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:(2)从该地的人群中任选一人,A 表示事件“选到的人卫生习惯不够良好”,B 表示事件“选到的人患有该疾病”.(|)(|)P B A P B A 与(|)(|)P B A P B A 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R . (ⅰ)证明:(|)(|)(|)(|)P A B P A B R P A B P A B =⋅;(ⅰ)利用该调查数据,给出(|),(|)P A B P A B 的估计值,并利用(ⅰ)的结果给出R 的估计值.附22()()()()()n ad bc K a b c d a c b d -=++++,(2)(i )证明见解析;(ii)6R =; 【解析】 【分析】(1)由所给数据结合公式求出2K 的值,将其与临界值比较大小,由此确定是否有99%的把握认为患该疾病群体与未黄该疾病群体的卫生习惯有差异;(2)(i) 根据定义结合条件概率公式即可完成证明;(ii)根据(i )结合已知数据求R . (1)由已知222()200(40906010)=24()()()()50150100100n ad bc K a b c d a c b d -⨯-⨯==++++⨯⨯⨯, 又2( 6.635)=0.01P K ≥,24 6.635>,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异. (2) (i)因为(|)(|)()()()()=(|)(|)()()()()P B A P B A P AB P A P AB P A R P B A P B A P A P AB P A P AB =⋅⋅⋅⋅,所以()()()()()()()()P AB P B P AB P B RP B P AB P B P AB =⋅⋅⋅所以(|)(|)(|)(|)P A B P A BRP A B P A B=⋅,(ii)由已知40(|)100P A B=,10(|)100P A B=,又60(|)100P A B=,90(|)100P A B=,所以(|)(|)=6 (|)(|)P A B P A BRP A B P A B=⋅2.(2022·全国·高考真题(文))甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,()2P K k0.1000.0500.010 k 2.706 3.841 6.635【答案】(1)A,B两家公司长途客车准点的概率分别为1213,78(2)有【解析】【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;(2)根据表格中数据及公式计算2K,再利用临界值表比较即可得结论.(1)根据表中数据,A共有班次260次,准点班次有240次,设A家公司长途客车准点事件为M,则24012 ()26013==P M;B共有班次240次,准点班次有210次,设B 家公司长途客车准点事件为N , 则210()27840==P N . A 家公司长途客车准点的概率为1213; B 家公司长途客车准点的概率为78.(2) 列联表2()()()()()n ad bc K a b c d a c b d -=++++=2500(2403021020) 3.205 2.70626024045050⨯⨯-⨯≈>⨯⨯⨯,根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关. 3.(2021·全国·高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bc K a b c d a c b d -=++++(2)能. 【解析】根据给出公式计算即可 【详解】(1)甲机床生产的产品中的一级品的频率为15075%200=, 乙机床生产的产品中的一级品的频率为12060%200=. (2)()22400150801205040010 6.63527013020020039K ⨯-⨯==>>⨯⨯⨯, 故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.4.(2022·四川省内江市第六中学模拟预测(理))国内某大学有男生6000人,女生4000人,该校想了解本校学生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取100人,调查他们平均每天运动的时间(单位:小时),统计表明该校学生平均每天运动的时间范围是[]0,3,若规定平均每天运动的时间不少于2小时的学生为“运动达人”,低于2小时的学生为“非运动达人”.根据调查的数据按性别与“是否为‘运动达人’”进行统计,得到如下2×2列联表:前提下认为性别与“是否为‘运动达人’”有关;(2)将此样本的频率估计为总体的概率,随机调查该校的3名男生,设调查的3人中运动达人的人数为随机变量X ,求X 的分布列和数学期望()E X 及方差()D X . 附表及公式:2()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)列联表答案见解析,在犯错误概率不超过0.025的前提下,可以认为性别与“是否为‘运动达人’”有关(2)分布列答案见解析,9()5E X =,18()25D X =【分析】(1)根据题意完善2×2列联表,根据卡方公式计算出2K ,结合临界表即可得出结论;(2)根据题意可知随机变量X 满足二项分布,求出对应事件的概率,列出随机变量的分布列,结合二项分别的数学期望和方差公式直接计算即可. (1)由题意,该校根据性别采取分层抽样的方法抽取的100人中,有60人为男生, 40人为女生,据此2×2列联表中的数据补充如下.所以2650506040K ==⨯⨯⨯,又6 5.024>, 所以在犯错误概率不超过0.025的前提下,可以认为性别与“是否为‘运动达人’”有关. (2)由题意可知,该校每个男生是运动达人的概率为363605=, 故35~3,X B ⎛⎫⎪⎝⎭,X 可取的值为0,1,2,3,所以30003238(0)C 55125P X -⎛⎫⎛⎫=== ⎪⎪⎝⎭⎝⎭,311132336(1)C 55125P X -⎛⎫⎛⎫===⎪⎪⎝⎭⎝⎭, 322232354(2)C 55125P X -⎛⎫⎛⎫=== ⎪⎪⎝⎭⎝⎭,333332327(3)C 55125P X -⎛⎫⎛⎫===⎪⎪⎝⎭⎝⎭. X 的分布列为:∴()355E X =⨯=,3218()35525D X =⨯⨯=. 5.(2022·青海·海东市第一中学模拟预测(文))某公司为了解用户对公司生产的产品的满意度做了一次随机调查,共随机选取了100位用户对其产品进行评分.用户对产品评分情况如表所示(已知满分100分,选取的100名用户的评分分值在区间[)70,100上). 选取的100名用户中男性用户评分情况:(1)分别估计用户对产品评分分值在70,80,80,90,的概率;(2)若用户评分分值不低于80分,则定位用户对产品满意.填写下面的22⨯列联表,并分析有没有95%以上的把握认为用户对产品满意与否与性别有关?参考公式与数据:22()()()()()n ad -bc K a+b c+d a+c b+d =,n a b c d =+++.【答案】(1)1025,, (2)表格见解析,没有95%以上的把握认为用户对产品满意与否与性别有关. 【解析】 【分析】(1)利用古典概型分别去求用户对产品评分分值在[)70,80,[)80,90,[)90,100的概率;(2)先按要求填写22⨯列联表,再计算出2K 并与3.841进行大小比较,进而判断是否有95%以上的把握认为用户对产品满意与否与性别有关. (1)由统计数据得,用户对产品评分分值在[)70,80的概率为71139303=10010010+++=,用户对产品评分分值在[)80,90的概率为18121285011001002+++==,用户对产品评分分值在[)90,100的概率为88222011001005+++==.(2)男性用户有64人,女性用户有36人,根据统计数据得到22⨯列联表:2100(46122418)0.298 3.84164367030K ⨯-⨯=≈<⨯⨯⨯.所以没有95%以上的把握认为用户对产品满意与否与性别有关.6.(2022·全国·模拟预测)某社区为庆祝中国共产党成立100周年,举办一系列活动,通过调查得知其中参加文艺活动与体育活动的居民人数如下表:0.5%的前提下认为参加活动的类型与性别有关? (2)在参加活动的男性居民中,用分层抽样方法抽取7人,再从这7人中随机抽取3人接受采访,记抽到参加文艺活动的人数为X ,求X 的分布列与期望. 附:()()()()2()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)填表见解析;在犯错的概率不超过0.5%的前提下,可以认为参加活动的类型与性别有关(2)分布列见解析;期望为97【解析】 【分析】(1)先直接补齐联列表,然后计算2K ,即可求解;(2)先求出参加文艺活动的应抽取3人,参加体育活动的有4人,则X 的可能取值为0,1,2,3,再求出每个值所对应的概率即可求解 (1)依题意,22⨯列联表如下:275(15103020)2258.0367.8794530354028K ⨯⨯-⨯==≈>⨯⨯⨯,故在犯错的概率不超过0.5%的前提下,可以认为参加活动的类型与性别有关.(2)因为男性居民中参加文艺活动的有15名,参加体育活动的有20名,用分层抽样方法抽取7人,则参加文艺活动的应抽取3人,参加体育活动的有4人,则X 的可能取值为0,1,2,3,所以()()031234343377C C C C 4180,1C 35C 35P X P X ⋅======,()()2133433377C C C 1212,3C 35C 35P X P X ⋅======. 所以X 的分布列为所以()12190123353535357E X =⨯+⨯+⨯+⨯=. 7.(2022·山西大附中三模(文))甲、乙两所学校高三年级分别有1000人,1100人,为了了解两所学校全体高三年级学生高中某学科基础知识测试情况,采用分层抽样方法从两个学校一共抽取了105名学生的该学科成绩,并作出了如下的频数分布统计表,规定考试成绩在[120,150]内为优秀. 甲校:(2)由以上统计数据填写下面2×2列联表,若按是否优秀来判断,是否有97.5%的把握认为两个学校的数学成绩有差异?(2)有97.5%的把握认为两个学校的数学成绩有差异 【解析】 【分析】(1)由分层抽样计算甲乙两校分别抽取的人数,结合表格即可求解;(2)补充列联表,计算卡方,根据独立性检验的性质判断. (1)由题可知,采用分层抽样共抽取105人,1000:110010:11=, 所以甲校抽取101055021⨯=人,乙校抽取111055521⨯=人, 故12981010350x +++++++=,解得7x =,231015153155y +++++++=,解得6y =;(2)由频数分布表可得22⨯列联表为所以()210520453010 6.109 5.024********K ⨯⨯-⨯=≈>⨯⨯⨯ 故有97.5%的把握认为两个学校的数学成绩有差异.8.(2022·全国·模拟预测(文))在一次数学考试中,将某班所有学生的成绩按照性别绘制成如下茎叶图,规定;分数不低于125分为优秀.(1)求本次成绩的众数、中位数;(2)从该班中任意抽取一位学生,求该学生成绩优秀的概率;(3)完成下列22⨯列联表,并判断是否有90%的把握认为学生数学成绩是否优秀与性别有关?附:()()()()2n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.(2)1425(3)答案见解析 【解析】 【分析】(1)根据茎叶图可得答案;(2)由图可知,该班有50名学生,成绩优秀的有28名,根据古典概型概率计算公式可得答案; (3)根据茎叶图完成22⨯列联表,代入2K 可得答案. (1)本次成绩的众数为124,中位数为127128127.52+=. (2)由图可知,该班有50名学生,成绩优秀的有28名,所以从该班中任意抽取一名学生,该学生成绩优秀的概率为28145025P ==. (3)22⨯列联表如下,25016131291001.2992822252577⨯⨯-⨯==≈⨯⨯⨯K,因为1.299 2.705<,所以没有90%的把握认为学生数学成绩是否优秀与性别有关.9.(2022·青海西宁·二模(文))第24届冬季奥运会于2022年2月4日在北京开幕,本次冬季奥运会共设7个大项,15个分项,109个小项.为调查学生对冬季奥运会项目的了解情况,某大学进行了一次抽样调查,若被调查的男女生人数均为10m(*m∈N),统计得到以下22⨯列联表,经过计算可得2 4.040K≈.(2)为弄清学生不了解冬季奥运会项目的原因,采用分层抽样的方法从抽取的不了解冬季奥运会项目的学生中随机抽取9人,再从这9人中抽取2人进行面对面交流,求“至少抽到一名女生”的概率.附:独立性检验临界值表(参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++)【答案】(1)20m=,有95%的把握认为该校学生对冬季奥运会项目的了解情况与性别有关(2)5 6【解析】【分析】(1)根据题意完成表格,再根据公式计算即可;(2) 抽取的9人中男生的人数为4,设为a,b,c,d,女生的人数为5,设为1,2,3,4,5,用列举法求解即可.(1)解:列联表如下表所示:则()()()()()()2220654520 4.0401010119911n ad bc m m m m m mK a b c d a c b d m m m m-⨯-⨯===≈++++⨯⨯⨯⨯ 因为*m ∈N ,可得20m =, 而4.040 3.841>,且4.040 5.024<因此,有95%的把握认为该校学生对冬季奥运会项目的了解情况与性别有关. (2)采用分层抽样的方法从抽取的不了解冬季奥运会项目的学生中随机抽取9人, 这9人中男生的人数为4,设为a ,b ,c ,d ,女生的人数为5,设为1,2,3,4,5,则从这9人中抽取2人的情况有:ab ,ac ,ad ,1a ,2a ,3a ,4a ,5a ,bc ,bd ,1b ,2b ,3b ,4b ,5b ,cd ,1c ,2c ,3c ,4c ,5c ,1d ,2d ,3d ,4d ,5d ,12,13,14,15,23,24,25,34,35,45,共36种;其中这2人中至少抽到一名女生的有1a ,2a ,3a ,4a ,5a ,1b ,2b ,3b ,4b ,5b ,1c ,2c ,3c ,4c ,5c ,1d ,2d ,3d ,4d ,5d ,12,13,14,15,23,24,25,34,35,45,共30种.所以这9人中抽取2人进行面对面交流,“至少抽到一名女生”的概率为305366P ==. 10.(2022·吉林·洮南市第一中学模拟预测(文))某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如表:(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++,【答案】(1)见解析 (2)815【解析】 【分析】(1)由公式计算出2K 值,与题中所给的值进行比较可得答案;(2)根据分层抽样的定义可知样本中有4个男生,2个女生,然后利用古典概型的概率公式求解可得答案. (1)由公式可得()2255202010511.9787.87930252530K ⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(2)设所抽样本中有m 个男生,则63020m=,得4m =,所以样本中有4个男生,2个女生,分别记作1B ,2B ,3B ,4B ,1G ,2G ,从中任选2人的基本事件有()12,B B ,()13,B B ,()14,B B ,()11,B G ,()12,B G ,()23,B B ,()24,B B ,()21,B G ,()22,B G ,()34,B B ,()31,B G ,()32,B G ,()41,B G ,()42,B G ,()12,G G ,共15个,其中恰有1个男生和1个女生的事件有()11,B G ,()12,B G ,()21,B G ,()22,B G ,()31,B G ,()32,B G ,()41,B G ,()42,B G ,共8个, 所以恰有1个男生和1个女生的概率为815. 11.(2022·河南·平顶山市第一高级中学模拟预测(文))2021年10月1日是中华人民共和国第72个国庆日,很多人通过短视频APP 或微信、微博表达了对祖国的祝福.某调查机构为了解通过短视频APP 或微信、微博表达对祖国祝福的人们是否存在年龄差异,将年龄不低于45岁的人称为中老年,低于45岁的人称为青少年.通过不同途径调查了数千个通过短视频APP 或微信、微博表达对祖国祝福的人,并从参与者中随机选出400人.经统计这400人中通过微信、微博表达对祖国祝福的有320人,其中中老年占25,这400人中通过短视频APP 表达对祖国祝福的青少年有28人.(1)完成下列22⨯列联表,并判断是否有99.9%的把握认为通过短视频APP 或微信、微博表达对祖国的祝福与年龄有关?5人,再从这5人中随机抽取2人,求这2人中恰好有一个是青少年的概率. 附:()()()()2n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)列联表答案见解析,有99.9%的把握认为通过短视频APP 或微信、微博表达对祖国的祝福与年龄有关(2)35【解析】 【分析】(1)首先完成22⨯列联表,再计算2K 即可得到答案. (2)根据古典概型公式求解即可. (1)由题意得22⨯列联表:()2400281285219216.16210.82880320220180K ⨯⨯-⨯=≈>⨯⨯⨯,所以有99.9%的把握认为通过短视频APP 或微信、微博表达对祖国的祝福与年龄有关. (2)抽取的5人中,青少年:51923320⨯=人,记为a ,b ,c ; 中老年:51282320⨯=人,记为d ,e . 从这5人中随机抽取2人有(a ,b ),(a ,c ),(a ,d ),(a ,e ),(b ,c ),(b ,d ), (b ,e ),(c ,d ),(c ,e ),(d ,e ),共10种情况.其中恰好有一个是青少年的有(a ,d ),(a ,e ),(b ,d ),(b ,e ),(c ,d ),(c ,e ), 共6种情况.所以这2人中恰好有一个是青少年的概率63105P ==. 12.(2022·河南开封·模拟预测(理))大豆是我国重要的农作物,种植历史悠久.某种子实验基地培育出某大豆新品种,为检验其最佳播种日期,在A ,B 两块试验田上进行实验(两地块的土质等情况一致).6月25日在A 试验田播种该品种大豆,7月10日在B 试验田播种该品种大豆.收获大豆时,从中各随机抽取20份(每份1千粒),并测量出每份的质量(单位:克),按照[)100,150,[)150,200,[]200,250进行分组,得到如下表格:把千粒质量不低于200克的大豆视为籽粒饱满,否则视为籽粒不饱满. (1)判断是否有97.5%的把握认为大豆籽粒饱满与播种日期有关?(2)从A ,B 两块实验田中各抽取一份大豆,求抽取的大豆中至少有一份籽粒饱满的概率;(3)用样本估计总体,从A 试验田随机抽取100份(每份千粒)大豆,记籽粒饱满的份数为X ,求X 的数学期望和方差.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.(2)1625(3)()55E X =,99()4=D X 【解析】 【分析】(1)根据完成列联表,然后根据公式()()()()()22n ad bc K a b c d a c b d -=++++计算2K ,再与临界值表比较可得结论,(2)A ,B 两块实验田中各抽取一份大豆中,籽粒饱满的概率分别为111,,205两份大豆都籽粒不饱满的概率为94920525⨯=,再结合对立事件概率和为1求解即可; (3)根据已知条件,结合二项分布的期望与方差公式,即可求解. (1)22⨯列联表为()()()()()()22240111649 5.227 5.024********n ad bc K a b c d a c b d -⨯⨯-⨯==≈>++++⨯⨯⨯,所以有97.5%的把握认为大豆籽粒饱满与播种日期有关. (2)A ,B 两块实验田中各抽取一份大豆, 抽取的大豆中有一份籽粒饱满的概率分别为1120,15, 两份大豆籽粒都不饱满的概率为111911,20525⎛⎫⎛⎫-⨯-= ⎪ ⎪⎝⎭⎝⎭故抽取的大豆中至少有一份籽粒饱满的概率为91251625-=. (3)从A 试验田的样本中随机抽取1份小麦,抽到饱满的概率为1120, 则11~(100,)20X B ,故11()1005520=⨯=E X , 111199()100(1)20204=⨯⨯-=D X . 13.(2022·山东·德州市教育科学研究院三模)某学校对男女学生是否喜欢长跑进行了调查,调查男女生人数均为()*10n n ∈N ,统计得到以下2×2列联表,经过计算可得2 4.040K ≈.(2)①为弄清学生不喜欢长跑的原因,采用分层抽样的方法从调查的不喜欢长跑的学生中随机抽取9人,再从这9人中抽取3人进行面对面交流,求“至少抽到一名女生”的概率;②将频率视为概率,用样本估计总体,从该校全体学生中随机抽取10人,记其中对长跑喜欢的人数为X ,求X 的数学期望. 附表:附:()()()()2n ad bc K a b c d a c b d -=++++. 【答案】(1)列联表答案见解析,20n =,有95%的把握认为该校学生对长跑喜欢情况与性别有关; (2)①2021;②112. 【解析】 【分析】(1)利用给定数据完善2×2列联表,计算2K 的观测值即可求出n ,再与临界值表比对作答.(2)①利用分层抽样求出抽取的9人中男女生人数,再利用古典概型结合对立事件概率求解作答;②利用二项分布的期望公式计算作答. (1)2×2列联表如下表所示:220(6545)20 4.040101011999n n n n n n K n n n n ⨯⨯-⨯==≈⨯⨯⨯,而*n ∈N ,于是得20n =,又2 4.040 3.841K ≈>,所以有95%的把握认为该校学生对长跑喜欢情况与性别有关. (2)①采用分层抽样的方法从调查的不喜欢长跑的学生中随机抽取9人,这9人中男生的人数为4,女生的人数为5,再从这9人中抽取3人进行面对面交流,“至少抽到一名女生”的概率为3439C 42011C 8421P =-=-=; ②由(1)知,任抽1人喜欢长跑的概率1120p =, 依题意,11~(10,)20X B ,所以X 的数学期望是1111()10202E X =⨯=. 14.(2022·四川省泸县第二中学模拟预测(理))中国探月工程自2004年立项以来,聚焦“自主创新、重点跨越、支撑发展、引领未来”的目标,创造了许多项中国首次.2020年12月17日凌晨,嫦娥五号返回器携带“月壤”着陆地球,又首次实现了我国地外天体无人采样返回.为了了解某中学高三学生对此新闻事件的关注程度,从该校高三学生中随机抽取了50名学生进行调查,调查样本中有20名女生.如图是根据样本的调查结果绘制的等高条形图(阴影区域表示关注“嫦娥五号”的部分).“嫦娥五号”的关注程度与性别有关”?(2)若将频率视为概率,现从该中学高三的女生中随机抽取3人.记被抽取的3名女生中对“嫦娥五号”新闻关注的人数为随机变量X,求X的分布列及数学期望.附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.”关注程度与性别有关(2)分布列见解析,数学期望为9 10【解析】【分析】(1)根据题意中的等高条形图完善22⨯列联表,结合卡方公式计算出2K,比较临界值,利用独立性检验的思想即可得出结论;(2)根据二项分布求出随机变量对应的概率,结合求二项分布数学期望公式计算即可. (1)22⨯列联表如下:所以()()()()()2n ad bc K a b c d a c b d -=++++ ()250151415612001.970 3.84121293020609⨯-⨯==≈<⨯⨯⨯, 所以没有95%的把握认为对“嫦娥五号”关注程度与性别有关. (2)因为随机选一个高三的女生,对此事关注的概率为1234010P ==, 由题意可知随机变量X 满足二项分布,即33,10XB ⎛⎫ ⎪⎝⎭, 所以有()3333C 11010kkk P X k -⎛⎫⎛⎫==- ⎪⎪⎝⎭⎝⎭.所以随机变量X 的分布列为:故()31010E X np ==⨯=. 15.(2022·青海·大通回族土族自治县教学研究室三模(文))如今大家对运动越来越重视,讨论也越来越多,时常听到有人说“有氧运动”和“无氧运动”,有氧运动主要的作用是健身,而无氧运动主要的作用是塑形,一般的健身计划都是有氧运动配合无氧运动以达到强身健体的目的.某健身机构对其60位会员的健身运动进行了一次调查,统计发现有氧运动为主的有42人,30岁以下无氧运动为主的有12人,占30岁以下调查人数的25.(1)根据以上数据完成如下22⨯列联表;附:参考公式:()()()()()2n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【答案】(1)答案见解析(2)没有99%的把握认为运动方式与年龄有关【解析】【分析】(1)根据题干所给数据完善列联表;(2)由(1)中列联表计算出卡方,即可判断;(1)解:依题意可得30岁以下的有212305÷=人,则30岁以上的有603030-=人,所以22⨯列联表如下表所示:(2)由题意,()26024121862.857 6.63542183030K⨯⨯-⨯=≈<⨯⨯⨯,所以没有99%的把握认为运动方式与年龄有关.16.(2022·四川省宜宾市第四中学校模拟预测(文))为了助力北京2022年冬奥会、冬残奥会,某校组织全校学生参与了奥运会项目知识竞赛.为了解学生的竞赛成绩(竞赛成绩都在区间[50,100]内)的情况,随机抽取n名学生的成绩,并将这些成绩按照[50,60),[60,70),[70,80),[80,90),[90,100]分成5组,制成了如图所示的频率分布直方图.其中[50,60),[60,70),[70,80)三组的频率成等比数列,且成绩在[90,100]的有16人.(1)求n 的值;(2)在这n 名学生中,将成绩在[80,100]的学生定义为“冬奥达人”,成绩在[50,80)的学生定义为“非冬奥达人”.请将下面的列联表补充完整,并判断是否有99%的把握认为“是否是冬奥达人与性别有关”?并说明你的理由.参考公式:2()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:(2)列联表见解析,有,理由见解析【解析】【分析】(1)根据题意列出相应的方程,求得公比,即可求得答案;(2)根据题意结合频率分布直方图可得列联表,计算2K 的观测值k ,和临界值表比较,可得答案.(1)由题意知[50,60),[60,70),[70,80)三组的频率成等比数列,设公比为(1)q q >,则20.080.080.080.280.081q q q ++++=,解得2q 或4q =-(舍去),则[90,100]这一组的频率为0.0820.16⨯=,由题意知160.16n=,解得100n =.(2)成绩在[50,80)的人数为(0.080.160.32)10056++⨯=,成绩在[80,100]的人数为44.补充完整的列联表如下:计算得2K 的观测值10.390 6.6355050564477k ==≈>⨯⨯⨯, 故有99%的把握认为“是否是冬奥达人与性别有关”.17.(2022·福建漳州·三模)漳州布袋木偶戏是传统民俗艺术,2006年被列入首批国家非物质文化产保护,据《漳州府志》记载,漳州地区在宋代就已经有布袋木偶戏了,清朝中叶后,布袋木偶戏开始进入兴盛时期,一直到抗日战争前,漳州的龙溪、漳浦、海澄、长泰等县,几乎乡乡都有布袋木偶戏,在传承的基础上,不断创新和发展壮大,走向更广阔的世界,为了了解民众对布袋木偶戏的了解程度,某单位随机抽取了漳州地区男女各100名市民,进行问卷调查根据调查结果绘制出得分条形图,如图所示形图,完成22⨯联表,并根据列联表,判断能否有90%的把握认为对布袋木偶戏的了解程度与性别有关?(2)恰逢三八妇女节,该单位对参与调查问卷的女市民制定如下抽奖方案;得分低于60分的可以获得1次抽奖机会,得分不低于60分的可以获得2次抽奖机会,每次抽奖结果相互独立,在一次抽奖中,获得一个木偶纪念品的概率为13,获得两个木偶纪念品的概率为16,不获得木偶纪念品的概率为12,在这100名女市民中任选一人.记X 为她获得木偶纪念品的个数,求X 的分布列和数学期望.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++ 参考数据.(2)分布列见解析;期望为76【解析】【分析】(1)直接根据题意即可完成表格,计算出2K 的值即可得结果;(2)求出得分低于60分的概率,列出X 的可能取值,分别求出对应的概率,即可得分布列和数学期望.(1)2×2列联表如下:假设0H :对布袋木偶戏的了解程度与性别无关,根据列联表的数据,可以求得 ()222003575256550 2.381 2.7061001006014021K ⨯⨯-⨯===<⨯⨯⨯, 故没有90%的把握认为对布袋木偶戏的了解程度与性别有关,.(2)在这100名女市民中任选一人,得分低于60分的概率为2511004=,得分不低于60分的概率为7531004=,X 的所有取值为0,1,2,3,4,.()1131113504242281616P X ==⨯+⨯⨯=+= ()11311131124343212123P X ==⨯+⨯⨯⨯=+= ()11311311122464334624P X ==⨯+⨯⨯+⨯⨯⨯=()31113246312 P X==⨯⨯⨯= ()3111446648 P X==⨯⨯=所以X的分布列为故()5111111117 0123416341248324126E X=⨯+⨯+⨯+⨯+⨯=+++=.18.(2022·陕西·宝鸡中学模拟预测(理))2020年至今,因为新冠病毒的肆虐,各地不停地按下暂停键,居家隔离期间,人们对社会的依赖,对政府部门的期待也达到了前所未有的高度.某机构对封管区居民对政府部门的态度进行了一项网络调查,并随机抽取了100份问卷进行了成绩统计,得到下表,规定成绩在[]70,100为满意.状相同的4个白球,4个红球的口袋中,一次摸4个球,如果摸到2个红球获得20元话费,摸到3个红球获得50元话费,4个都是红球获得100元话费,某人参加了问卷调查,他获得的话费为X元,求X的分布列及数学期望.附:()()()()()22n ad bcKa b c d a c b d-=++++(2)分布列见解析;数学期望()1627E X =【解析】【分析】 (1)由表格数据补全列联表即可;由列联表计算可得2 3.683 2.706K ≈>,由此可得结论;(2)首先确定X 所有可能的取值,并计算得到每个取值对应的概率,由此可得分布列;利用数学期望公式计算可得期望.(1)由表格数据可得22⨯列联表如下:由列联表计算得:)2210020202535 3.683 2.70655454555K ⨯⨯-⨯=≈>⨯⨯⨯, ∴有90%的把握认为满意度与年龄有关.(2)由题意知:X 所有可能的取值为0,20,50,100;()13444448C C C 170C 70P X +===;()224448C C 361820C 7035P X ====;()314448C C 16850C 7035P X ====;()4448C 1100C 70P X ===; X ∴的分布列为:则数学期望()02050100703535707E X =⨯+⨯+⨯+⨯=. 19.(2022·湖南·长沙县第一中学模拟预测)2021年9月,教育部印发《关于全面加强和改进新时代学校卫生与健康教育工作的意见》中指出:中小学生各项身体素质有所改善,大学生整体下降.某高校为提高学生身体素质,号召全校学生参加体育锻炼运,结合“微信运动”APP 每日统计运动情况,对每日平均运动10000步或以上的学生授予“运动达人”称号,低于10000步称为“参与者”,统计了200名学生在某月的运动数据,结果如下:0.1的前提下认为获得“运动达人”称号与性别有关?(2)从全校运动“参与者”中按性别分层抽取8人,再从8人中选取3人参加特训,将男生人数记为X ,求X 的分布列与期望EX .参考公式:()()()()()22n ad bc X a b c d a c b d -=++++,n a b c d =+++.(2)分布列见解析;期望为158 【解析】【分析】(1)先完善列联表,通过卡方检验中计算2X 与2.706比较大小从而判断在犯错误概率不超过0.1的前提下认为获得“运动达人”称号与性别的相关性;(2)判断X 服从超几何分布概型,得到X 的分布列与期望E (X ).(1)由题意完善23⨯列联表:运动达人参与者合计男生7050[20此时:()2220070305050250.35 2.706120801208072X ⨯⨯-⨯==≈<⨯⨯⨯. 所以:在犯错误概率不超过0.1的前提下不能认为获得“运动达人”称号与性别有关;(2)由题意知:选取的8人运动参与者中男生5人,女生3人则X 服从超几何分布,X 的所有可能情况为:0、1、2、3且()05381056C P X C ===,()31258315156C C P X C ⋅===。

8.3.2独立性检验 课件—高二下数学人教A版(2019)选择性必修第三册

8.3.2独立性检验 课件—高二下数学人教A版(2019)选择性必修第三册

P( x )
2
临界值xα
的方法称为χ2独立性检验,
读作“卡方独立性检验”,
简称独立性检验.
概率值α越小,临界值xα越大.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立
性检验,读作“卡方独立性检验”,简称独立性检验.
犯错误的
概率
例2: 依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据,
甲校
乙校
合计
你认为“两校学生的数
学成绩优秀率存在差异”
这一结论是否有可能是
错误的?
因此,需要找到一种更为合理的推断方法,希望能对出现错误
判断的概率有一定的控制或估算。
本节课给到一个方法:独立性检验
独立性检验是一种“概率反证法”。依据是小概率原理(在一次实
验中几乎不可能发生)
找到了,假设不成立,嫌
疑人有罪。
例4 :为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机
抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,
如下表所示. 依据小概率值α=0.001的独立性检验,分析吸烟是否会增加
患肺癌的风险.
解:零假设为H0: 吸烟与患肺癌之间
无关联,由表中数据可得
9965(7775 49 42 2099)
数学成绩
不优秀
优秀
合计
甲校
乙校
合计
解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优
秀率无差异根据表中的数据,计算得到
2
88

(33

7

10

38)
2
0.837 2.706 x0.1

课件9:§3.2 独立性检验的基本思想及其初步应用

课件9:§3.2 独立性检验的基本思想及其初步应用

解:等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样 本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色 素为阳性的频率差异明显,因此铅中毒病人与尿棕色素 为阳性有关系.
规律方法 (1)判断两个分类变量是否有关系的两种常用方法 ①利用数形结合思想,借助等高条形图来判断两个分类 变量是否相关是判断变量相关的常见方法. ②一般地,在等高条形图中,a+a b与c+c d相差越大, 两个分类变量有关系的可能性就越大.
解:根据题目所给数据得如下 2×2 列联表:
合格品数 次品数 总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1 475
25
1 500
所 以 ad - bc = 982×17 - 8×493=12 750,|ab-bc|比较 大,说明甲在不在生产现场与 产品质量好坏有关系.相应的 等高条形图如图所示: 图中两个阴影部分的高分别表示甲在生产现场和甲不 在生产现场时样本中次品数的频率.
0.708 0.025
1.323 0.01
2.072 0.005
2.706 0.001
k0 A.0.25
3.841 5.024 6.635
B.0.75
C.0.025
7.879 10.828 D.0.975
【解析】因为 P(k>5.024)=0.025,故在犯错误的概率不 超过 0.025 的前提下,认为“X 和 Y 有关系”. 【答案】C
名师点拨
独立性检验的基本思想与反证法的思想的相似之处
反证法
独立性检验
要证明结论 A 要确认“两个分类变量有关系”

8.3.2+独立性检验(教学课件)-高二数学(人教A版2019选修第三册)

8.3.2+独立性检验(教学课件)-高二数学(人教A版2019选修第三册)
人教A版2019必修第三册
第八章成对数据的统计分析
8.3.2 独立性检验
情景引入
山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查 了学生的课外活动方式,结果整理成下表:
问题 如何判定“喜欢体育还是文娱与性别是否有联系”?
提示 可通过表格与图形进行直观分析,也可通过统计分析定量判断.
思考 例1和例2都是基于同一组数据的分析,但却得出了不同的 结论,你能说明其中的原因吗?
事实上,如前所述,例1只是根据一个样本的两个频率间存在差异得出 两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导
致的错误,所以例1的推断依据不太充分,在例2中,我们用χ2独立性检验 对零假设H0进行了检验. 通过计算,发现χ2 ≈0.837小于α=0.1所对应的临界 值2.706,因此认为没有充分证据推断H0不成立,所以接受H0 ,推断出两 校学生的数学成绩优秀率没有显著差异的结论. 这个检验结果意味着,抽 样数据中两个频率的差异很有可能是由样本随机性导致的. 因此,只根据 频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.
625 698 757 566
因此,可以推断玩电脑游戏与注意力集中之间有关系,该推断 犯错误的概率不超过0.1%.
例2 依据小概率值α=0.1的χ2 独立性检验,分析例1中的抽样数 据,能否据此推断两校学生的数学成绩优秀率有差异?
解:零假设为H0: 分类变 量X与Y相互独立,即两校 学生的数学成绩优秀率无 差异. 根据表中的数据,计 算得到
独立性检验的公式及临界值
1.独立性检验的公式 假设H0表示玩电脑游戏与注意力集中没有关系(通常称H0为零假设); 用事件A表示不玩电脑游戏,B表示注意力不集中. 若H0成立↔ 事件A与B独立↔P(AB)=P(A)P(B) .

《独立性检验》2×2列联表

《独立性检验》2×2列联表

根据这些数据能否断定:患呼吸道疾病与 吸烟有关?
列联表
为了调查吸烟是否患呼吸道疾病有影响,某医疗研究 所随机地调查了515人,得到如下结果(单位:人)
吸烟与呼吸道疾病列联表 患病 不患病 总计 吸烟 37 183 220
不吸烟 总计 21 58 274 457 295 515
7.12% 16.82%
nad bc a bc d a cb d
2 2
2×2列联表
y1 x1 x2
总计
a c
y2
b d
总计 a+b c+d
P(
a+c
b+d
a+b+c+d
2
m)
1)如果P(m>10.828)= 0.001表示有99.9%的把握认为”X与Y”有关 系 2); 如果P(x2>7.879)= 0.005表示有99.5%的把握认为”X与Y”有关系;
反证法原理与假设检验原理 反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
例1.在500人身上试验某种血清预防感冒作
用,把他们一年中的感冒记录与另外 500名 未用血清的人的感冒记录作比较,结果如 表所示。问:该种血清能否起到预防感冒 的作用?
安徽桐城第七中学
笪远胜
邮编:231400 Email: ahtcdys@
桐城市第七中学 笪远胜
某医疗机构为了了解呼吸道疾病与吸烟是否 有关,进行了一次抽样调查,共调查了515个 成年人,其中吸烟者220人,不吸烟者295人, 调查结果是:吸烟的220 人中37人患呼吸道 疾病, 183人不患呼吸道疾病;不吸烟的295 人中21人患呼吸道疾病, 274人不患呼吸道 疾病。

独立性检验

独立性检验
(1)根据以上数据建立一个 2×2 的列联表; (2)试判断性别与休闲方式是否有关系.
【解析】 (1)列联表如下:
看电视 运动 总计
男性
21
33
54
女性
43
27
70
总计
64
60 124
(2)法一:作等高条形图 通过等高条形图可以判断性别与休闲方式有关系
法二:提出统计假设 H0:性别与休闲方式没有关系,根据表 中数据,由公式得 K2 的观测值为 k≈6.201 2>3.841.
检查两组工人的皮肤炎患病人数如下:
防护服种类 阳性例数 阴性例数 总计

5
70
75

10
18
28
总计
15
88
103
问这种新防护服对预防工人职业性皮肤炎是否有效?并说
明你的理由.(注:显阴性即未患皮肤炎)
【思路】 解答本题可先结合列联表作出等高条形图并进行 定性分析,再利用随机变量 K2 的值进行定量分析.
果如下表所示:
死亡 存活 合计
第一种剂量 14
11
25
第二种剂量 6
19
25
合计
20 30
50
进行统计分析时的统计假设是____________________.
答案 假设电离辐射的剂量与人体受损程度无关
5.在研究某种药物对“H7N9”病毒的治疗效果时,进行动物 试验,得到以下数据,对 150 只动物服用药物,其中 132 只动物 存活,18 只动物死亡,对照组 150 只动物进行常规治疗,其中 114 只动物存活,36 只动物死亡.
(1)根据以上数据建立一个 2×2 列联表. (2)试问该种药物以治疗“H7N9”病毒是否有效?

生物统计附实验设计(明道绪--第四版)最全资料--复习题、课后思考题、试卷及答案

生物统计附实验设计(明道绪--第四版)最全资料--复习题、课后思考题、试卷及答案

生物统计附实验设计(明道绪-- 第四版)最全资料--复习题、课后思考题、试卷及答案二、填空1、生物统计分描述性统计和分析性统计。

描述性统计是指运用分类、制表、图形以及计算概括性_________ 数据(平均数、标准差等)来描述数据特征的各项活动。

分析性统计是进行数据观察、数据分____________ 以及从中得出统计推断的各项活动。

2、统计分析的基本过程就是由样本推断总体的过程。

该样本是该总体的一部分。

3、由样本获取总体的过程叫抽样。

常用的抽样方法有随机抽样、顺序抽样、分等按比例抽样、整群抽样等。

4、样本平均数与总体平均数的差异叫抽样误差。

常用s/ V N表示。

5、只有降低抽样误差才能提高试验结果的正确性。

试验结果的正确性包括准确性和精确性。

6、试验误差按来源分为系统误差(条件误差)和随机误差(偶然误差)。

系统误差(条件误差)影响试验结果的准确性,随机误差(偶然误差)影响试验结果的精确性。

7、系统误差(条件误差)可以控制,可通过合理的试验设计方法降低或消除。

随机误差(偶然—差)不可控制,可通过理论分布来研究其变异规律,或相对比较其出现的概率的大小。

8、样本推断总体分假设检验和区间估计两大内容。

常用的检验方法有t检验、F检验和卡方检验。

9、置信区间指在一定概率保证下总体平均数的可能范围。

10、t检验是通过样本平均数差值的大小来检验处理效应是否存在,两样本平均数的差值代表了试验的表观效应,它可能由处理效应(真实效应)和误差效应引起,要检验处理效应是否存在,常采用反证法。

此法先建立无效假设:即假设处理效应不存在,样本平均数差值是由误差引起,根据差异在误差分布里出现的概率二即可能性大小的衡量)来判断无效假设是否成立。

11、判断无效假设是否成立的依据是小概率事件实际不可能原理,即假设检验的基本依据。

用来肯定和否定无效假设的小概率,我们称之为显著水平,通常记为a _ 。

12、t检验通常适合两样本连续性(非间断性)随机变量资料的假设检验,当二项分布逼近正态分布时,百分数资料也可用二检验。

人教A版选择性必修83列联表与独立性检验课件_3

人教A版选择性必修83列联表与独立性检验课件_3
事件X=1 发生的概率可估计为__P_(_X___1)___c _n_d___; 事件X=1,Y=0 发生的概率可估计为__P_(X___1,_Y___0_) __nc_. 事件X=1Y=0 发生的概率可估计为__P_(X___1_|Y___0_) __a_c_c__.
3.独立性检验 (1)零假设:设 X 和 Y 为定义在 Ω 上,取值于{0,1}的成对分类变量.由于X=0 和X=1 ,Y=0 和{Y=1}都是互为对立事件,故要判断事件X=1 和{Y=1}
1.辨析记忆(对的打“√”,错的打“×”). (1)2×2列联表只有4个格子.( × ) 提示:2×2列联表核心的数据是中间的4个格子. (2)χ2的大小是判断事件A与B是否相关的统计量.( 提示:根据独立性检验意义可知. (3)当χ2≥3.841时有95%的把握说事件A与B有关.( 提示:由对照表可得.
300 名男性)进行调查,对手机进行评分,评分的频数分布表如下:
分值
[50,
[60,
[70, [80,
[90,
女性
区间
60)
70)
80)
90)
100]
用户
频数
20
40
80
50
10
男性 用户
分值 区间
频数
[580)
90
[80, 90)
60
[90, 100]
X=0 X=1 合计
Y=0 a c
a+c
Y=1 b d
b+d
合计 a+b c+d n=a+b+c+d
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列 联表.
(2)2×2 列联表中随机事件的概率:
如上表,记 n=a+b+c+d,则

独立性检验的基本知识点及习题

独立性检验的基本知识点及习题

独立性检验的基本知识点及习题22⨯列联表 随机变量))()()(()(22d b c a d c b a bc ad n K ++++-=. )(2k K P ≥与k 对应值表:)(2k K P ≥0.10 0.05 0.025 0.010 0.005 0.001k 2.706 3.841 5.024 6.635 7.879 10.828一、基础知识梳理1.独立性检验 利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。

2.判断结论成立的可能性的步骤:(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。

(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。

二、例题选讲例1.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:班级与成绩列联表优秀 不优秀 总计 甲班 10 35 45 乙班 7 38 45 总计 17 73 90独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。

解:列联表的条形图如图所示:由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得K2的观察值为k≈0.653>0.455。

由下表中数据P(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001 k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828从而有50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。

例2.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调患病不患病合计吸烟43162205不吸烟13121134合计56283339解:根据列联表中的数据,得。

因为,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。

列联表与独立性检验

列联表与独立性检验

题型二 用等高堆积条形图分析两变量间的关系 [学透用活]
在等高堆积条形图中展示列联表数据的频率特征,比较图中两个深色条的 高可以发现两者频率不一样而得出结论,这种直观判断的不足之处在于不能给 出推断“两个分类变量有关系”犯错误的概率.
[典例2] 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组 和对照组的尿液作尿棕色素定性检查,结果如下:
[微思考] 有人说:“根据小概率值α=0.01的独立性检验认为吸烟和患肺癌有 关”,是指“每100个吸烟者中就会有1个患肺癌.”你认为这种观点正确吗? 为什么?
提示:观点不正确.“根据小概率值α=0.01”说明的是吸烟与患肺癌有关程度 的概率值,不是患肺癌的百分数.
(二)基本知能小试
1.判断正误
[对点练清]
假设有两个分类变量 X 与 Y,它们的可能取值分别为 X=0, 1
和 Y=01, ,

2×2 列联表为:
X
X=0 X=1 合计
Y
Y=0 Y=1
10 18
m
26
10+m 44
合计
28 m+26 m+54
则当m取下面何值时,X与Y之间没有影响
A.8
B.9
C.14
D.19
()
解析:若 X 与 Y 之间没有影响,则有1288=262+6 m,解得 m≈14.4,所以当 m=14 时,X 与 Y 之间没有影响即 X 与 Y 的关系最弱. 答案:C
a
21
73
女生(X=1)
8
25
33
合计
b
则表中a,b处的值分别为________.
46
106
解析:∵a+21=73,∴a=52.b=a+8=52+8=60.

苏州高新区实验初级中学(新实初中)选修1-2第一章《统计案例》测试题(答案解析)

苏州高新区实验初级中学(新实初中)选修1-2第一章《统计案例》测试题(答案解析)

一、选择题1.如图是九江市2019年4月至2020年3月每月最低气温与最高气温(℃)的折线统计图:已知每月最低气温与最高气温的线性相关系数r=0.83,则下列结论错误的是()A.每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关B.月温差(月最高气温﹣月最低气温)的最大值出现在10月C.9﹣12月的月温差相对于5﹣8月,波动性更大D.每月最高气温与最低气温的平均值在前6个月逐月增加2.某校高二(1)班甲、乙两同学进行投篮比赛,他们进球的概率分别是34和45,现甲、乙各投篮一次,恰有一人进球的概率是()A.120B.320C.15D.7203.“人机大战,柯洁哭了,机器赢了”,2017年5月27日,岁的世界围棋第一人柯洁不敌人工智能系统AlphaGo,落泪离席.许多人认为这场比赛是人类的胜利,也有许多人持反对意见,有网友为此进行了调查.在参与调查的男性中,有人持反对意见,名女性中,有人持反对意见.再运用这些数据说明“性别”对判断“人机大战是人类的胜利”是否有关系时,应采用的统计方法是()A.分层抽样B.回归分析C.独立性检验D.频率分布直方图4.甲、乙两人进行乒乓球比赛,比赛规则为“3局2胜”,即以先赢2局者为胜,根据经验,每局比赛中甲获胜的概率为0.4,则本次比赛甲获胜的概率是()A.0.216 B.0.36 C.0.352 D.0.6485.甲、乙、丙、丁4个人进行网球比赛,首先甲、乙一组,丙、丁一组进行比赛,两组的胜者进入决赛,决赛的胜者为冠军、败者为亚军.4个人相互比赛的胜率如右表所示,表中的数字表示所在行选手击败其所在列选手的概率.甲乙丙丁甲0.30.30.8那么甲得冠军且丙得亚军的概率是( ) A .0.15 B .0.105 C .0.045 D .0.216.通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:由2222()110(40302030),7.8()()()()60506050n ad bc K K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯算得 附表:参照附表,得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”7.某研究型学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如右表,则下列说法正确的是()参考公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:A.有99.9%的把握认为使用智能手机对学习有影响.B.有99.9%的把握认为使用智能手机对学习无影响.C.在犯错误的概率不超过0.005的前提下认为使用智能手机对学习有影响.D.在犯错误的概率不超过0.005的前提下认为使用智能手机对学习无影响.8.若y关于x的线性回归方程0.70.35y x=+是由表中提供的数据求出,那么表中m的值为( )A.3.5B.3C.2.5D.29.在一次独立性检验中,得出列表如下:且最后发现,两个分类变量A 和B 没有任何关系,则a 的可能值是( ) A .720B .360C .180D .9010.通过随机询问100名性别不同的高二学生是否爱吃零食,得到如下的列联表:其中()()()()()22,.n ad bc K n a b c d a b c d a c b d -==+++++++则下列结论正确的是A .在犯错误的概率不超过0.05的前提下,认为“是否爱吃零食与性别有关”B .在犯错误的概率不超过0.05的前提下,认为“是否爱吃零食与性别无关”C .在犯错误的概率不超过0.025的前提下,认为“是否爱吃零食与性别有关”D .在犯错误的概率不超过0.025的前提下,认为“是否爱吃零食与性别无关”11.通过随机询问72名不同性别的学生在购买食物时是否看营养说明,得到如下列联表:女 男 总计 读营养说明 16 28 44 不读营养说明 20 8 28 总计363672参考公式:22()()()()()n ad bc K a b c d a c b d -=++++20()P K k ≥ 0.100.05 0.025 0.010 0.005 0.001 0k 2.7063.8415.0246.6357.87910.828则根据以上数据:A .能够以99.5%的把握认为性别与读营养说明之间无关系;B .能够以99.9%的把握认为性别与读营养说明之间无关系;C .能够以99.5%的把握认为性别与读营养说明之间有关系;D .能够以99.9%的把握认为性别与读营养说明之间有关系;12.为了研究经常使用手机是否对数学学习成绩有影响,某校高二数学研究性学习小组进行了调查,随机抽取高二年级50名学生的一次数学单元测试成绩,并制成下面的2×2列联表:则有( )的把握认为经常使用手机对数学学习成绩有影响.参考公式:()()()()()22=n ad bc K a b c d a c b d -++++,其中n a b c d =+++A .97.5%B .99%C .99.5%D .99.9%二、填空题13.某地区气象台统计,该地区下雨的概率是415,刮风的概率是25,既刮风又下雨的概率为110,设A 为下雨,B 为刮风,那么(|)P B A 等于__________. 14.甲、乙两位同学进行篮球三分球投篮比赛,甲每次投中的概率为13,乙每次投中的概率为12,每人分别进行三次投篮.乙恰好比甲多投进2次的概率是______. 15.下列命题中,正确的命题有__________.①回归直线ˆˆˆy bx a =+恒过样本点的中心(),x y ,且至少过一个样本点;②将一组数据的每个数据都加一个相同的常数后,方差不变;③用相关指数2R 来刻面回归效果;表示预报变量对解释变量变化的贡献率,越接近于1,说明模型的拟合效果越好;④若分类变量X 和Y 的随机变量2K 的观测值K 越大,则“X 与Y 相关”的可信程度越小;⑤.对于自变量x 和因变量y ,当x 取值一定时,y 的取值具有一定的随机性,x ,y 间的这种非确定关系叫做函数关系;⑥.残差图中残差点比较均匀的地落在水平的带状区域中,说明选用的模型比较合适; ⑦.两个模型中残差平方和越小的模型拟合的效果越好. 16.给出下列结论:(1)在回归分析中,可用相关指数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好;(2)某工产加工的某种钢管,内径与规定的内径尺寸之差是离散型随机变量; (3)随机变量的方差和标准差都反映了随机变量的取值偏离于均值的平均程度,它们越小,则随机变量偏离于均值的平均程度越小;(4)若关于x 的不等式2x x a a -+-≥在R 上恒成立,则a 的最大值是1;(5)甲、乙两人向同一目标同时射击一次,事件A :“甲、乙中至少一人击中目标”与事件B :“甲,乙都没有击中目标”是相互独立事件.其中结论正确的是 .(把所有正确结论的序号填上) 17.给出下列四个结论:(1)相关系数r 的取值范围是1r <;(2)用相关系数r 来刻画回归效果,r 的值越大,说明模型的拟合效果越差;(3)一个袋子里装有大小相同的5个白球和5个黑球,从中任取4个,则其中所含白球个数的期望是2;(4) 一个篮球运动员投篮一次得3分的概率为a ,得2分的概率为b ,不得分的概率为c ,且(),,0,1a b c ∈,已知他投篮一次得分的数学期望为2,则213a b+的最小值为163.其中正确结论的序号为______________.18.用线性回归模型求得甲、乙、丙3组不同的数据对应的2R 的值分别为0.81,0.98,0.63,其中__________(填甲、乙、丙中的一个)组数据的线性回归的效果最好.19.把一枚硬币任意抛掷三次,事件A =“至少出现一次反面”,事件B =“恰好出现一次正面”,则(/)P B A =__________.20.某校为了解家长对学校食堂的满意情况,分别从高一、高二年级随机抽取了20位家长的满意度评分,其频数分布表如下:假设两个年级家长的评价结果相互独立,根据所给数据,以事件发生的频率作为相应事件发生的概率.现从高一、高二年级各随机抽取1名家长,记事件A :“高一家长的满意度等级高于高二家长的满意度等级”,则事件A 发生的概率为__________.三、解答题21.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:x的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()ni ix x y yr--=∑()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.临界值表:22.为落实中央“坚持五育并举,全面发展素质教育,强化体育锻炼”的指示精神,小明和小亮两名同学每天利用课余时间进行羽毛球比赛.规定每一局比赛中获胜方记2分,失败方记0分,没有平局,谁先获得10分就获胜,比赛结束.假设每局比赛小明获胜的概率都是23.(1)求比赛结束时恰好打了7局的概率;(2)若现在是小明6:2的比分领先,记X表示结束比赛还需打的局数,求X的分布列及期望.23.在某校组织的一次篮球定点投篮训练中,规定每人最多投3次;在A处每投进一球得3分,在B处每投进一球得2分;如果前两次得分之和超过3分即停止投篮,否则投第三次.同学在A处的命中率1q为0.250,在B处的命中率为2q,该同学选择先在A处投一球,以后都在B处投,用ξ表示该同学投篮训练结束后所得的总分,其分布列为(1)求2q的值;(2)求随机变量ξ的数学期望Eξ;(3)试比较该同学选择都在B处投篮得分超过3分与选择上述方式投篮得分超过3分的概率的大小.24.自然资源部门对某市饮用水厂中的地下水质量进行监测,随机抽查了100眼水井进行监测,得到溶解性总固体浓度(单位:mg L)和硫酸盐浓度(单位:mg L)的分布如下表:(1)估计事件“该市某一水井中溶解性总固体浓度不超过500,且硫酸盐浓度不超过150”的概率;(2)根据所给数据,完成下面的22⨯列联表:(3)根据(2)中的列联表,判断是否有99%的把握认为该市水井中溶解性总固体浓度与硫酸盐浓度有关?附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.()2P K k ≥0.050 0.010 0.001 k 3.8416.63510.82825.个人所得税是国家对本国公民、居住在本国境内的个人的所得和境外个人来源于本国的所得征收的一种所得税我国在1980年9月10日,第五届全国人民代表大会第三次会议通过并公布了《中华人民共和国个人所得税法》公民依法诚信纳税是义务,更是责任现将自2013年至2017年的个人所得税收入统计如下:年份 2013 2014 2015 2016 2017 时间代号x 12 345 个税收入y (千亿元)6.537.388.62 10.0911.97x根据散点图判断,可用①nx y me =与②2y px q =+作为年个人所得税收入y 关于时间代号x 的回归方程,经过数据运算和处理,得到如下数据:xyz w()521ii xx=-∑()521ii w w =-∑38.922.16 1110 374()()51iii x x z z =--∑()()51iii wwy y =--∑1.60 83.83表中ln z y =,2w x =,511ln 5i i z y ==∑,52115i i w x ==∑,参考数据: 1.48 5.37e =,0.96 2.61e =.以下计算过程中四舍五入保留两位小数.(1)根据所给数据,分别求出①、②中y 关于x 的回归方程;(2)已知2018年个人所得税收人为13.87千亿元,用2018年的数据验证(1)中所得两个回归方程,哪个更适宜作为y 关于时间代号x 的回归方程?(3)你还能从统计学哪些角度来进一步确认哪个回归方程更适宜?(只需叙述,不必计算)附:对于一组数据()11,u v 、()22,u v 、、(),n n u v ,其回归直线v a u β=+的斜率和截距的最小二乘估计分别为:()()()121niii nii u u v v u u β==--=-∑∑,v u αβ=-.26.某项比赛中甲、乙两名选手将要进行决赛,比赛实行五局三胜制.已知每局比赛中必决出胜负,若甲先发球,其获胜的概率为12,否则其获胜的概率为13. (1)若在第一局比赛中采用掷硬币的方式决定谁先发球,试求甲在此局获胜的概率; (2)若第一局由乙先发球,以后每局由负方发球规定胜一局得3分,负一局得0分,记X 为比赛结束时甲的总得分,求随机变量X 的分布列和数学期望.【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【分析】根据相关系数的性质判断A ;根据所给折线图,对B ,C ,D 逐项进行判断. 【详解】每月最低气温与最高气温的线性相关系数r =0.83,比较接近于1,则每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关,则A 正确;由所给的折线图可以看出月温差(月最高气温﹣月最低气温)的最大值出现在10月,则B 正确;5﹣8月的月温差分别为18,17,16,16,9﹣12月的月温差分别为20,31,24,21,则9﹣12月的月温差相对于5﹣8月,波动性更大,C 正确;每月的最高气温与最低气温的平均值在前5个月逐月增加,第六个月开始减少,所以A 正确,则D 错误;【点睛】本题主要考查了根据折线图解决实际问题以及相关系数的性质的应用,对于相关系数r ,r 越接近于1,两个变量的线性相关程度越强,属于中档题. 2.D解析:D 【分析】利用相互独立事件的概率乘法公式求得 甲投进而乙没有投进的概率,以及乙投进而甲没有投进的概率,相加即得所求. 【详解】甲投进而乙没有投进的概率为343(1)4520⨯-=,乙投进而甲没有投进的概率为341(1)455-⨯=,故甲、乙各投篮一次,恰有一人投进球的概率是 31720520+=,故选:D 【点睛】本题主要考查了相互独立事件的概率乘法公式的应用,体现了分类讨论的数学思想,属于中档题.3.C解析:C 【解析】 【分析】根据“性别”以及“反对与支持”这两种要素,符合,从而可得出统计方法。

高中数学 《独立性检验》2×2列联表课件 新人教A版选修2

高中数学 《独立性检验》2×2列联表课件 新人教A版选修2

a c+d ≈c a + b ,
ad bc
独立性检验 ad bc 0.
ad - bc 越小,说明吸烟与患肺癌之间的关系越弱, ad - bc 越大,说明吸烟与患肺癌之间的关系越强
引入一个随机变量:卡方统计量

2
nad bc a b c d a c b d 其中n a b c d
类1 类A 类B
总计 a
类2
b
总计 a+b
c
a+c
d
b+d
c+d
a+b+c+d
要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设H0 :Ⅰ和Ⅱ没有关系; (2)根据2× 2列表与公式计算 的值;
2
(3)查对临界值,作出判断。
由于抽样的随机性,由样本得到的推断 2 有可能正确,也有可能错误。利用 进 行独立性检验,可以对推断的正确性的概 率作出估计,样本量n越大,估计越准确。
某医疗机构为了了解呼吸道疾病与吸烟是否 有关,进行了一次抽样调查,共调查了515个 成年人,其中吸烟者220人,不吸烟者295人, 调查结果是:吸烟的220 人中37人患呼吸道 疾病, 183人不患呼吸道疾病;不吸烟的295 人中21人患呼吸道疾病, 274人不患呼吸道 疾病。
根据这些数据能否断定:患呼吸道疾病与 吸烟有关?
H0: 吸烟和患呼吸道疾病之间没有关系
吸烟与呼吸道疾病列联表 患呼吸道疾 不患呼吸道 病 疾病 吸烟 不吸烟 总计 a c a+c b d b+d
总计 a+b c+d a+b+c+d

3.2 独立性检验、独立性检验

3.2 独立性检验、独立性检验

[思每一
类变量都有两个不同的取值,然后算出相应的数据,列表 即可.
[精解详析]
根据题目所给的数据作出如下的列联表: 色盲
性别
患色盲
不患色盲

女 [一点通]
38
6
442
514
分清类别是作列联表的关键步骤,对所
给数据要明确属于那一类.
1.下面是一个2×2列联表,则表中a,b处的值分别为( y1 x1 x2 总计 A.32,40 C.74,82 答案:A a 8 b y2 21 25 46 B.42,50 D.64,72 总计 53 33
因为 9.967>6.635,所以有 99%的把握认为该地区的老年 人是否需要志愿者提供帮助与性别有关. [一点通] 这类问题的解决方法为先确定a,b,c,d,
n的值并求出χ2的值,再与临界值相比较,作出判断,解题
时注意正确运用公式,代入数据准确计算.
3.在一个2×2列联表中,通过数据计算χ2=8.325,则这两
2 n ad - bc 2.求出 χ2= . a+ca+bb+dc+d
3.判断是否有关联,得出事件有关的可能性大小.
95%的把握认为主修统计专业与性别有关.
答案:4.844 95%
5.某聋哑研究机构对聋、哑关系进行抽样调查,在耳聋 的657人中有416人哑,而另外不聋的680人中有249人 哑,你能运用这组数据得出相应的结论吗? 解:根据题目所给数据得到如下列联表: 是否哑 哑 416 不哑 241 总计 657
是否聋

不聋
总计
249
665
431
672
680
1 337
根据列联表中的数据得到:
2 1 337 × 416 × 431 - 249 × 241 χ2= ≈95.29>6.635. 657×680×665×672
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

独立性检验中的列表与用表
224100 江苏省盐城市大丰区南阳中学 潘锦明
独立性检验基本思想中的2×2列联表是考查的重点,其中列表、填表与用表是独立性检验的基本步骤之一。

本文就从以下三方面剖析。

一、列表:
关键理清两个分类变量关系,能合理列出分类变量列联表。

例1、网络对现代人的影响较大,尤其是青少年,为了了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了515人调查,发现其中经常上网的有220人,这220人中有37人期末考试不及格,而另外295人中有21人不及格。

问:能否有99%的把握认为经常上网会影响学习?
分析:通过阅读,本题包括两个变量,一类是娱乐方式,一类是成绩。

假设“上网与是否影响学习无关”,则2
K 应该很小,由公式得2
K 的观测值
863.11220
29558457)3727421183(5152≈⨯⨯⨯⨯-⨯⨯=k ,且01.0)635.6(2≈≥K P .
所以,我们有99%的把握认为“中学生经常上网影响学习”。

点评:在使用2
K 统计量作2×2列联表的独立性检验时,要求表中的4个数据都大于5.
二、填表与用表
这类题首先根据表格数值进行补充,再求解计算。

例2、富士康某生产车间在发年终奖金的时候,为了体现多劳多得的原则,需要对全车
(1)如果随机抽查这个车间的一名工人,那么抽到主动参加车间培训的工人的概率是多少?抽到不太主动参加车间培训的且工作积极性一般的工人的概率是多少?
(2)试运用独立性检验的方法分析:工人的工作积极性与对待车间培训的态度是否有
解:(1)主动参加车间培训的工人有24人,总人数为50人,概率25
50==
P .
不太主动参加车间培训且工作积极性一般的工人有19人,抽到的概率为.50
19=
P (2)由公式得5.1126
242525)761918(502
≈⨯⨯⨯⨯-⨯⨯=
k ,因为828.105.11>≈k , 所以有99.9%的把握说明工人的工作积极性与对待车间培训的态度有关系。

相关文档
最新文档