2020 第2部分 专题3 第2讲 统计与统计案例
2020版高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用学案 新人教A版选修2-3

§3.2 独立性检验的基本思想及其初步应用学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K 2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.知识点一 分类变量及2×2列联表思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:体育 文娱 合计 男生 210 230 440 女生 60 290 350 合计270520790如何判定“喜欢体育还是文娱与性别是否有联系”?答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断. 梳理 (1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表①定义:列出的两个分类变量的频数表,称为列联表. ②2×2列联表一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(也称为2×2列联表)为下表.y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d知识点二 等高条形图1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.2.如果通过直接计算或等高条形图发现aa +b 和cc +d相差很大,就判断两个分类变量之间有关系.知识点三 独立性检验1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.3.独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(2)利用公式计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.1.列联表中的数据是两个分类变量的频数.( √)2.事件A与B的独立性检验无关,即两个事件互不影响.( ×)3.K2的大小是判断事件A与B是否相关的统计量.( √)类型一等高条形图的应用例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?考点定性分析的两类方法题点利用图形定性分析解等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.反思与感悟在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.两个比例的值相差越大,X与Y有关系成立的可能性就越大.跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?考点定性分析的两类方法题点利用图形定性分析解根据题目所给的数据得到如下2×2列联表:经常上网不经常上网总计不及格80120200及格120680800总计200800 1 000得出等高条形图如图所示:比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.类型二独立性检验例2 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.考点独立性检验及其基本思想题点独立性检验的方法解 将2×2列联表中的数据代入公式计算,得K 2的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(60×10-20×10)270×30×80×20=10021≈4.762. 因为4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.反思与感悟 (1)独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad -bc ≈0,因此|ad -bc |越小,关系越弱;|ad -bc |越大,关系越强. (2)独立性检验的具体做法①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k 0.②利用公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算随机变量K 2的观测值k .③如果k ≥k 0,推断“X 与Y 有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够的证据支持结论“X 与Y 有关系”. 跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.(1)根据以上数据建立一个2×2列联表;(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系. 考点 独立性检验及其基本思想 题点 独立性检验的方法 解 (1)2×2列联表如下所示:(2)假设“对新课程教学模式的赞同情况与教师年龄无关”. 由公式得K 2=50×(10×6-24×10)234×16×20×30≈4.963<6.635,所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关. 类型三 独立性检验的综合应用例3 (2017·全国Ⅱ改编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).考点独立性检验思想的应用题点分类变量与统计、概率的综合性问题解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,由P (A )=P (BC )=P (B )P (C ),则旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62,新养殖法的箱产量不低于50 kg 的频率为(0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66,则事件A 的概率估计值为P (A )=P (B )P (C )=0.62×0.66=0.409 2, ∴A 发生的概率为0.409 2.(2)根据箱产量的频率分布直方图得到列联表:则K 2=200×(62×66-38×34)2100×100×96×104≈15.705,由15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. 反思与感悟 两个分类变量相关关系的判断(1)等高条形图法:在等高条形图中,可以估计满足条件X =x 1的个体中具有Y =y 1的个体所占的比例aa +b,也可以估计满足条件X =x 2的个体中具有Y =y 1的个体所占的比例cc +d.两个比例的值相差越大,X 与Y 有关系成立的可能性就越大.(2)观测值法:通过2×2列联表,先计算K 2的观测值k ,然后借助k 的含义判断“两个分类变量有关系”这一结论成立的可信程度.跟踪训练3 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为23.(1)请将上面的2×2列联表补充完整(不用写计算过程);(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X ,求X 的分布列与均值. 考点 独立性检验思想的应用题点 分类变量与统计、概率的综合性问题 解 (1)列联表补充如下:喜爱打篮球不喜爱打篮球合计 男生 22 6 28 女生 10 10 20 合计321648(2)由K 2=48×(220-60)228×20×32×16≈4.286.因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关. (3)喜爱打篮球的女生人数X 的可能取值为0,1,2. 其概率分别为 P (X =0)=C 210C 220=938,P (X =1)=C 110C 110C 220=1019,P (X =2)=C 210C 220=938,故X 的分布列为X 0 1 2 P9381019938X 的均值为E (X )=0+1019+919=1.1.某机构调查中学生的近视情况,了解到某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( ) A .平均数 B .方差 C .回归分析 D .独立性检验 考点 独立性检验及其基本思想 题点 独立性检验的思想 答案 D2.对于分类变量X 与Y 的随机变量K 2的观测值k ,下列说法正确的是( )A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大考点独立性检验及其基本思想题点独立性检验的思想答案 B解析k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.3.用等高条形图粗略估计两个分类变量是否相关,观察下列各图,其中两个分类变量关系最强的是( )考点定性分析的两类方法题点利用图形定性分析答案 D解析由等高条形图易知,D选项两个分类变量关系最强.4.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这个人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有考点独立性检验及其基本思想题点独立性检验的方法答案 D解析独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.总成绩好 总成绩不好 总计 数学成绩好 478 a490 数学成绩不好39924423 总计b c913(1)计算a ,b ,c 的值;(2)文科学生总成绩不好与数学成绩不好有关系吗? 考点 独立性检验及其基本思想 题点 独立性检验的方法解 (1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2的观测值k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,因为P (K 2≥5.024)≈0.025,所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系. 2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K 2的值,如果K 2的值很大,说明假设不合理.K 2越大,两个分类变量有关系的可能性越大.一、选择题1.下面是一个2×2列联表:y 1 y 2总计 x 1 a21 73 x 2825 33 总计b46106则表中a ,b 的值分别为( ) A .94,96 B .52,50 C .52,60D .54,52考点 分类变量与列联表 题点 求列联表中的数据 答案 C2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得K 2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( ) A .0.1% B .1% C .99% D .99.9% 考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 C解析 易知K 2=7.01>6.635,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.3.在独立性检验中,两个分类变量“X 与Y 有关系”的可信度为99%,则随机变量K 2的观测值k 的取值范围是( ) A .[3.841,5.024) B .[5.024,6.635) C .[6.635,7.879) D .[7.879,10.828)考点 分类变量与列联表 题点 求观测值 答案 C4.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:则随机变量K 2的观测值约为( ) A .0.600 B .0.828 C .2.712D .6.004考点 分类变量与列联表 题点 求观测值 答案 A解析 根据列联表中的数据,可得随机变量K 2的观测值k =90×(11×37-34×8)245×45×19×71≈0.600.故选A.5.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为( )A.a a +b 与c c +d B.a c +d 与c a +b C.aa +d 与cb +cD.ab +d 与ca +c考点 定性分析的两类方法 题点 利用图形定性分析 答案 A 解析 由题意,⎪⎪⎪⎪⎪⎪a a +b -c c +d =⎪⎪⎪⎪⎪⎪ac +ad -ac -bc (a +b )(c +d )=⎪⎪⎪⎪⎪⎪ad -bc (a +b )(c +d ),因为|ad -bc |的值越大,两个分类变量有关系的可能性就越大,故选A.6.有两个分类变量X ,Y ,其列联表如下所示,其中a,15-a 均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X ,Y 有关,则a 的值为( ) A .8 B .9 C .8或9D .6或8考点 分类变量与列联表 题点 求列联表中的数据 答案 C解析 根据公式,得K 2的观测值 k =65×[a (30+a )-(15-a )(20-a )]220×45×15×50=13×(13a -60)220×45×3×2>3.841,根据a >5且15-a >5, a ∈Z ,求得当a =8或9时满足题意.7.某班主任对全班50名学生进行了作业量的调查,数据如下表:则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( ) A .0.01 B .0.025 C .0.005 D .0.001 考点 独立性检验及其基本思想 题点 独立性检验的方法答案 B解析 由公式得K 2的观测值k =50×(18×15-8×9)226×24×27×23≈5.059>5.024.∵P (K 2≥5.024)=0.025,∴犯错误的概率不超过0.025. 二、填空题8.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K 2的观测值k >6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________. 考点 独立性检验及其基本思想 题点 独立性检验的思想 答案 ③解析 K 2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确. 9.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为K 2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为__________.考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 5%解析 因为K 2>3.841,所以有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.10.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为35,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 95%解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A ,由已知得P (A )=q +35100=35,所以q =25,p =25,a =40,b =60.K 2=100×(25×35-25×15)240×60×50×50=256≈4.167>3.841.故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关. 三、解答题11.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断. 考点 定性分析的两类方法 题点 利用图形定性分析解 建立性别与态度的2×2列联表如下:根据列联表中所给的数据,可求出男生中作肯定态度的频率为110=0.2,女生中作肯定态度的频率为2260≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.根据列联表中的数据得到K 2的观测值k =170×(22×38-22×88)2110×60×44×126≈5.622>5.024.因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.12.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:喜欢 不喜欢 合计 大于40岁 20 5 25 20岁至40岁10 20 30 合计302555(1)判断是否有99.5%的把握认为喜欢“人文景观”景点与年龄有关?(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6名市民作为一个样本,从中任选2人,求恰有1位大于40岁的市民和1位20岁至40岁的市民的概率. 考点 独立性检验思想的应用题点 分类变量与统计、概率的综合性问题解 (1)由公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )得,观测值k ≈11.978>7.879,所以有99.5%以上的把握认为喜欢“人文景观”景点与年龄有关.(2)由题意知抽取的6人中大于40岁的市民有4个,20岁至40岁的市民有2个,分别记为B 1,B 2,B 3,B 4,C 1,C 2,从中任选2人的基本事件有(B 1,B 2),(B 1,B 3),(B 1,B 4),(B 1,C 1),(B 1,C 2),(B 2,B 3),(B 2,B 4),(B 2,C 1),(B 2,C 2),(B 3,B 4),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),(C 1,C 2),共15个,其中恰有1位大于40岁的市民和1位20岁至40岁的市民的事件有(B 1,C 1),(B 1,C 2),(B 2,C 1),(B 2,C 2),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),共8个,所以恰有1位大于40岁的市民和1位20岁至40岁的市民的概率为815.四、探究与拓展13.假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其中2×2列联表为:y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d对同一样本,以下数据能说明X 与Y 有关的可能性最大的一组是( ) A .a =5,b =4,c =3,d =2 B .a =5,b =3,c =4,d =2 C .a =2,b =3,c =4,d =5 D .a =3,b =2,c =4,d =5考点 分类变量与列联表 题点 求列联表中的数据 答案 D解析 对于同一样本,|ad -bc |越小,说明x 与y 相关性越弱,而|ad -bc |越大,说明x 与y 相关性越强,通过计算知,对于A ,B ,C 都有|ad -bc |=|10-12|=2.对于选项D ,有|ad -bc |=|15-8|=7,显然7>2. 14.2017年世界第一届轮滑运动会(the first edtion of Roller Games)在南京举行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者.调查发现,男、女志愿者分别有10人和6人喜爱轮滑,其余不喜爱.得到2×2列联表如下.(1)根据2×2列联表,判断能否在犯错误的概率不超过0.10的前提下认为性别与喜爱轮滑有关? (2)从女志愿者中抽取2人参加接待工作,若其中喜爱轮滑的人数为ξ,求ξ的分布列和均值. 考点 独立性检验思想的应用题点 独立性检验与线性回归方程、均值的综合应用解 (1)假设:是否喜爱轮滑与性别无关.由已知数据可求得K 2的观测值为 k =30×(10×8-6×6)216×14×16×14≈1.157 5<2.706.因此不能在犯错误的概率不超过0.10的前提下认为喜爱轮滑与性别有关. (2)喜爱轮滑的人数ξ的可能取值为0,1,2, 则P (ξ=0)=C 06C 28C 214=2891=413,P (ξ=1)=C 16C 18C 214=4891,P (ξ=2)=C 26C 08C 214=1591.所以喜爱轮滑的人数ξ的分布列为4 13+1×4891+2×1591=67.所以喜爱轮滑的人数ξ的均值为E(ξ)=0×。
2020学年高中数学第3章统计案例3.2独立性检验的基本思想及其初步应用课件新人教A版选修2_3

返回目录
(2)独立性检验(精确判断) 具体实施步骤如下: ①根据实际问题需要的可信程度确定临界值 k0; ② 根 据 观 测 数 据 计 算 随 机 变 量 K2 = a+bcn+add-ab+cc2b+d的观测值 k,其中 n=a+b+c+ d 为样本容量;
返回目录
③查临界值表(以K2的观测值k的大小作为检验在多 大程度上可以认为“两个变量有关系”的标准),如果 k≥k0,就以(1-P(K2≥k0))×100%的把握认为“两分类 变量有关系”;否则,就认为根据样本数据没有充分的 理由说明“两分类变量有关系”.
返回目录
2.(独立性检验)有人发现,多看电视容易使人变冷 漠,下表是一个调查机构对此现象的调查结果.
冷漠 不冷漠 总计 多看电视 68 42 110 少看电视 20 38 58
总计 88 80 168
返回目录
则大约有多大的把握认为多看电视与人变冷漠有关
系( )
A.99%
B.97.5%
C.95%
D.90%
返回目录
要点三 独立性检验
定义 利用随机变量K2来判断“两个分类变量有关系” 的方法称为独立性检验 nad-bc2
公式 K2=_____a_+__b__c_+__d__a_+__c___b_+__d_____,其中n= ___a_+_b_+__c_+__d___
返回目录
①认真读题,取出相关数据,作出2×2列联表; 具体 ②根据2×2列联表中的数据,计算K2的观测值k; 步骤 ③通过观测值k与临界值k0比较,得出事件有关的
返回目录
P(K2≥k0) 0.100 0.050 0.010 k0 2.706 3.841 6.635
思维导引:根据列联表直接代入K2公式可得南方学 生和北方学生的差异与是否喜欢甜品的相关程度.
第3讲(统计(1))

第3讲统计(1)引子:从2020年高考全国卷Ⅱ说起:1.(2020·全国卷Ⅱ·文理科)在新冠肺炎疫情防控期间,某超市开通网上销售业务,每天能完成1200份订单配货,由于订单量大幅增加,导致订单积压,为解决困难,许多志愿者踊跃报名参加配货工作.已知该超市某日积压500份订单未配货,预计第二天的新订单超过1600份的概率为0.05,志愿者每人每天能完成50份订单的配货,为使第二天完成积压订单及当日订单的配货的概率不小于0.95,则至少需要志愿者A.10名 B.18名 C.24名 D.32名考点1从普查到抽样调查考法1 基本概念1.普查:普查是指一个国家或地区专门组织的一次性大规模的全面调查.普查的两个特点:所取得的资料更加全面、系统;主要调查在特定的时段社会经济现象总体的数量.2.抽样调查:从调查对象中按照一定的方法抽取一部分,进行调查或观察,获取数据,并以此对调查对象的某项指标作出推断,就是抽样调查.调查对象的全体称为,(总体)被抽取的部分称为 .(样本)考法2 概念的理解1.下列调查工作需要采用普查方式的是 BA.医院对病人的血液检查B.银行在收取储户现金时检验有没有假钞C.电视台对某节目收视率的调查D.质检部门对某批次奶粉合格率的调查2.下列问题适用抽样调查的是 . ①④⑤⑥①检测某一批次灯管使用寿命;②调查高一(1)班的男、女同学的比例;③高考体检;④了解炮弹的杀伤力;⑤测定海洋中微生物的含量;⑥了解全国的高三年级学生的体重,掌握学生的发育情况;3.为了了解参加市运动会的300名运动员的身高情况,从中抽取30名运动员进行测量,下列说法正确的是 . ②④⑤⑥①总体是300名运动员;②总体是300名运动员的身高;③个体是每一个运动员;④个体是每一个运动员的身高;⑤30名运动员的身高是样本;⑥样本容量是30.4.(2014·四川卷)在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5000名居民的阅读时间的全体是 AA.总体B.个体C.样本的容量D.从总体中抽取的一个样本5.现从80件产品中随机抽出10件进行长度检验,下面说法正确的是 DA.80件产品是总体B.10件产品是样本C.样本容量是80D.样本容量是10考点2抽样方法考法1简单随机抽样的特点及抽样方法1.如果在抽样过程中,随机抽取一部分个体,然后对抽取的对象进行调查,并且能保证每个个体被抽到的概率,(相等)这样的抽样方法叫做简单随机抽样.2.当总体中的个数比较少时,一般采用简单随机抽样,简单随机抽样的特点是:①总体中的个体有限且N比较少;②逐个不放回的抽取;③抽取的样本数n不超过N;④整个抽样过程中,各个个体被抽到的机会相同,均为 . n N考向1抽签法1.某大学为了支援我国西部教育事业,决定从2018年应届毕业生报名的18名志愿者中,选取6人组成的志愿小组.则每个个体被抽到的可能性是 . 1 3考向2随机数表法1.(2013·江西卷)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法从随机数表第1行的第5列和第6列数字开始A.08B.07C.02D.01考法2分层抽样的特点及抽样方法考向1分层抽样的概念的理解1.将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本,这种抽样方法叫作分层抽样,有时也称为类型抽样. 或者称按比例抽样,整个抽样过程中,各个个体被抽到的机会相同.2.(2013·全国卷Ⅰ)为了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是 CA.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样3.(2008·重庆卷·文科)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查.这种抽样方法是 DA .简单随机抽样法B .抽签法C .随机数表法D .分层抽样法4.(2018·全国卷Ⅲ·文科)某公司有大量客户,且不同年龄段客户对其服务的评价有较大的差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最适合的抽样方法为 .5.(2020·全国卷Ⅱ·文理科)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加,为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(,)i i x y (1i =,2,,20),其中i x 和i y 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得2060i i x ==∑,201200i i y==∑,202()80i i x x =-=∑,202()9000i i y y =-=∑,20()()800i i i x x y y =--=∑. (Ⅰ)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(Ⅱ)求样本的相关系数(精确到0.01);(Ⅲ)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一你认为更合理的抽样方法,说明理由. 分层抽样考向2用分层抽样方法抽样1.(2007·浙江卷·文科)某校有学生2000人,其中高三学生500人.为了解学生的身体素质情况,采用按年级分层抽样的方法,从该校学生中抽取一个200人的样本.则样本中高三学生的人数为 . 502.(2008·陕西卷·文科)某林场有树苗30000棵,其中松树苗4000棵.为调查树苗的生长情况,采用分层抽样的方法抽取一个容量为150的样本,则样本中松树苗的数量为 CA .30B .25C .20D .153.(2007·陕西卷·文科)某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测.若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 CA.4B.5C.6D.74.(2009·陕西卷·文科)某单位共有老、中、青职工430人,其中青年职工160人,中年职工人数是老年职工人数的2倍.为了解职工身体状况,现采用分层抽样方法进行调查,在抽取的样本中有青年职工32人,则该样本中的老年职工人数为 BA.9 B.18 C.27 D.365.(2018·天津卷)已知某校甲、乙、丙三个年级的学生志愿者人数分别为240,160,160.现采用分层抽样的方法从中抽取7名同学去某敬老院参加献爱心活动.(Ⅰ)应从甲、乙、丙三个年级的学生志愿者中分别抽取多少人?3,2,2.6.(2019·天津卷·文科)2019年,我国施行个人所得税专项附加扣除办法,涉及子女教育、继续教育、大病医疗、住房贷款利息或者住房租金、赡养老人等六项专项附加扣除.某单位老、中、青员工分别有72,108,120人,现采用分层抽样的方法,从该单位上述员工中抽取25人调查专项附加扣除的享受情况. 应从老、中、青员工中分别抽取多少人?6,9,10.考法3系统抽样的特点及抽样方法考向1系统抽样的概念的理解1.将总体中的个体进行编号,根据样本数平均分组,在第一组中,按照随机抽样抽取一个样本,然后按相同的间隔(称为抽样距)抽取其他样本,这样的抽样法称为系统抽样法,有时也叫等距抽样或机械抽样.考向2 Nn为整数的系统抽样1.某班共有学生52人,学号分别为1,2,…,51,52,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号的同学在样本中,那么样本中还有一个同学的学号是 BA.10B.16C.32D.532.(2013·陕西卷·理科)某单位有840名职工,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为 BA.11 B.12 C.13 D.14 3.(2019·全国卷Ⅰ·文科)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是 CA.8号学生 B.200号学生 C.616号学生 D.815号学生考向3Nn不是整数的系统抽样1.从总体容量为503的总体中,用系统抽样方法抽取容量为50的样本,首先要剔除的个数是 ,抽样距k 是 . 3,10考法4等可能性1.(2014·湖南卷)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为1p ,2p ,3p ,则 DA.123p p p =<B.231p p p =<C.132p p p =<D.123p p p ==A .11B .12C .13D .14考点3统计图表(统计图的识别与分析)考法1.扇形统计图1.(2015·陕西卷·文理科)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数 BA .167B .137C .123D .932.根据题目中所给的条件回答下列问题. (1)该班的学生共多少名? 45 (2)全班一共捐了多少册书? 405 (3)若该班所捐图书按图12-7所示的比例分,则送给山区学校的书比送给本市兄弟学校的书多多少册?1623.(2018·全国卷Ⅰ·文理科)增加了一倍,实现翻番,为更好地了解高该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:4% 6%30% 60% 养殖收入 其他收入 第三产业收入 种植收入 建设前经济收入构成比例 5% 28% 30% 37% 养殖收入 其他收入 第三产业收入 种植收入 建设后经济收入构成比例(初中部) (高中部)则下面结论中不正确的是 AA.新农村建成后,种植收入减少B.新农村建成后,其他收入增加一倍以上C.新农村建成后,养植收入增加一倍D.新农村建成后,养植收入与第三产业收入的总和超过了经济收入的一半 考法2条形统计图1.(2002·全国卷·文科)据新华社2002年3月12日电,1985年到2000年间.我国农村人均居住面积如图所示,其中,从 年到 年的五年间增长最快.考法3折线统计图1.如图是某地5月1日至5月7日每天最高、最低气温的折线统计图,在这7天中,日温差最大的一天是 .考法4茎叶图1.(2009·福建卷·理科)某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A 给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算的平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x )无法看清.若记分员计算正确,则数字x 应该是 . 1x =2.(2012·陕西卷·文科)从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示),设甲乙两组数据的平均数分别为x 甲,x 乙,中位数分别为m 甲,m 乙,则 B A.x x <甲乙,m 甲>m 乙 B.x x <甲乙,m 甲<m 乙0 1 2 6 5 4 3温度(0c ) 12 13 14 15 16 17 24 25 26 27 14.7 17.8 21.0 24.8 1985年 1990年 1995年 2000年 面积/m 2 作品A 8 8 9 9 9 2 3 x 2 1 4C.x x >甲乙,m 甲>m 乙D.x x >甲乙,m 甲<m 乙考点4数据的数字特征考法1平均数1.(2018·江苏卷)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为 .902.(2015·广东卷·文科)已知样本数据1x ,2x ,⋅⋅⋅,n x 的均值5S =,则样本数据121x +,221x +,⋅⋅⋅,21n x +的均值为 . 11考法2中位数1.(2019·全国卷·理科)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是 AA .中位数B .平均数C .方差D .极差2.(2017·山东卷·文科)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为 AA.3,5B.5,5C.3,7D.5,7考法3方差 是样本数据到平均数的平均距离,一般用2s 表示,通常用公式2222121()()()n s x x x x x x n ⎡⎤=-+-++-⎣⎦来计算.反映了数据的离散程度.方差越大,数据的离散程度越大,方差越小数据的离散程度越小.考法6标准差8 6 5 0 8 8 4 0 0 7 5 2 8 0 0 3 1 1 2 3 4 0 2 8 0 2 3 3 71 2 4 4 8 2 3 8 甲 乙 8 9 9 9 0 1 1甲组 乙组 5 6 7 6 2 5 x 59 1 7 y 8标准差等于方差的正的平方根,即(n s x x =++- 与方差的作用相同,描述一组数据围绕平均数的波动程度的大小,但统计量的单位与观察值的单位一致.1.(2019·江苏卷)已知一组数据6,7,8,9,10,则该组数据的方差是 .2 2.(2009·重庆卷·文科)从一堆苹果中任取5只,称得它们的质量如下(单位:克):125,124,121,123,127,则该样本标准差s = .(克)(用数字作答) 24.(2010·山东卷·文科)在某项体育比赛中一位同学被评委所打出的分数如下:90,89,90,95,93,94,93,去掉一个最高分和一个最低分后,所剩数据的平均分值为和方差分别为 BA.92,2B.92,2.8C.93,2D.93,2.85.(2013·辽宁卷·理科)为了考察某校各班参加课外书法小组的人数,在全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为 . 106.(2010·陕西卷·文科)如图,样本A 和B 分别取自两个不同的总体,它们的样本平均数分别为A x 和B x ,样本标准差分别为A S 和B S ,则 BA.A x >B x ,A S >B SB.A x <B x ,A S >B SC.A x >B x ,A S <B SD.A x <B x ,A S <B S 7.(2014·陕西卷·理科)设样本数据1x ,2x ,,10x 的均值和方差分别为1和4,若i i y x a =+(a 为非零常数,1i =,2,,10)则1y ,2y ,,10y 的均值和方差分别为 AA.1a +,4B.1a +,4a +C.1,4D.1,4a +8.(2012·山东卷·文科)在某次测量中得到的A 样本数据如下:82,84,84,86,86,86,88,88,88,88.若B 样本数据恰好是A 样本数据都加2后所得数据,则A ,B 两样本的下列数字特征对应相同的是 DA.众数B.平均数C.中位数D.标准差。
2020_2021学年高中数学第3章统计案例课件新人教A版选修2_3202103171114

统计案例的学习中,通过案例的分析去认识统计方法的 特点(如统计推断可能犯错误,估计结果的随机性),体会统计 方法应用的广泛性.对于统计案例内容,重点了解回归分析和 独立性检验的基本思想及其初步应用,避免单纯记忆和机械套 用公式进行计算.
本章初步介绍回归分析的基本思想及应用;对独立性检 验进行初步了解和认识,懂得如何利用随机变量K2去判断两个 分类变量有没有关系.在必修课程学习统计的基础上,通过对 典型案例的讨论,了解和使用一些常见的统计方法,进一步体 会运用统计方法解决实际问题的基本思想,认识统计方法在决 策中的作用.
您好,谢谢观看!
统计与统计案例

统计与统计案例第一部分:统计的基本概念和原理统计是一门研究收集、整理、分析和解释数据的学科。
它在各个领域都有广泛的应用,包括科学研究、社会调查、市场分析等等。
统计的基本概念和原理对于理解和应用统计方法非常重要。
1.1 统计的定义统计是通过收集、整理、分析和解释数据来推断总体特征和规律的学科。
它可以帮助我们认识事物的本质和变化规律,从而进行决策和预测。
1.2 数据的类型在统计学中,数据可以分为两大类:定性数据和定量数据。
定性数据是描述事物性质、特征和类别的数据,例如性别、政治取向、产品类型等等。
定性数据常用于描述和推断总体的特征和规律。
定量数据是具有数量意义的数据,可以进行数值计算和比较。
例如身高、体重、销售额等等。
定量数据常用于测量和比较事物的数量差异和变化趋势。
1.3 统计的基本原理统计的基本原理包括随机性、规模效应和抽样误差。
•随机性指的是在统计过程中,数据的选择和变异都是有机会发生的。
通过随机抽取和处理数据,可以将个体特征和规律推广到总体上。
•规模效应指的是样本容量对统计推断的影响。
样本容量越大,假设检验的准确性也越高,结果的可靠性也就越高。
•抽样误差是由于从总体中选取有限的样本而引入的估计误差。
通过使用合适的抽样方法和增加样本容量,可以减小抽样误差。
第二部分:统计案例分析2.1 假设检验假设检验是统计推断的一种方法,用于检验关于总体参数的假设。
主要包括以下几个步骤:1.建立原假设(H0)和备择假设(H1);2.选择适当的统计检验方法;3.根据样本数据计算统计量的值;4.根据显著性水平和自由度确定拒绝域;5.比较统计量的值与拒绝域,得出结论。
假设检验的目的是通过样本数据对总体参数进行推断,判断某种差异是否具有统计学意义。
2.2 方差分析方差分析是一种用于比较多个总体均值差异的统计方法。
它主要包括单因素方差分析和多因素方差分析两种类型。
单因素方差分析用于比较一个因素(如不同治疗方法)对一个响应变量(如疾病治愈率)的影响。
2020版高考数学二轮复习第2部分专题3概率与统计第1讲概率、随机变量及其分布教案理(最新整理)

第1讲概率、随机变量及其分布[做小题——激活思维]1.若随机变量X的分布列如表所示,E(X)=1。
6,则a-b=( )X0123P0。
1a b0。
1A.0.2C.0。
8 D.-0。
8B[由0。
1+a+b+0.1=1,得a+b=0。
8,又由E(X)=0×0.1+1×a+2×b+3×0。
1=1。
6,得a+2b=1.3,解得a=0。
3,b=0.5,则a-b=-0。
2.]2.已知甲在上班途中要经过两个路口,在第一个路口遇到红灯的概率为0。
5,两个路口连续遇到红灯的概率为0。
4,则甲在第一个路口遇到红灯的条件下,第二个路口遇到红灯的概率为( )A.0。
6 B.0.7C.0.8 D.0。
9C[记“第一个路口遇到红灯"为事件A,“第二个路口遇到红灯”为事件B,则P(A)=0.5,P(AB)=0。
4,则P(B|A)=错误!=0.8,故选C。
]3.两个实习生每人加工一个零件,加工为一等品的概率分别为错误!和错误!,两个零件是否加工为一等品相互独立,则这两个零件中恰有一个一等品的概率为( )A。
错误!B。
错误!C。
14D。
错误!B[设事件A:甲实习生加工的零件为一等品;事件B:乙实习生加工的零件为一等品,且A,B相互独立,则P(A)=错误!,P(B)=错误!,所以这两个零件中恰有一个一等品的概率为P(A错误!)+P(错误!B)=P(A)P(错误!)+P(错误!)P(B)=错误!×错误!+错误!×错误!=错误!。
]4.设随机变量X~B(2,p),Y~B(4,p),若P(X≥1)=错误!,则P(Y≥1)=( )A.错误!B。
错误!C。
错误!D.1C[∵X~B(2,p),∴P(X≥1)=1-P(X=0)=1-C错误!(1-p)2=错误!,解得p=错误!,∴P(Y≥1)=1-P(Y=0)=1-C0,4(1-p)4=1-错误!=错误!,故选C.]5.罐中有6个红球和4个白球,从中任取1球,记住颜色后再放回,连续取4次,设X为取得红球的次数,则X的方差D(X)的值为________.错误![因为是有放回地取球,所以每次取球(试验)取得红球(成功)的概率均为错误!,连续取4次(做4次试验),X为取得红球(成功)的次数,则X~B错误!,∴D(X)=4×错误!×错误!=错误!.]6.已知某批零件的长度误差(单位:毫米)服从正态分布N(0,32),从中随机取一件,其长度误差落在区间(3,6)内的概率为________.(附:若随机变量X服从正态分布N(μ,σ2),则P(μ-σ<X<μ+σ)=0。
第二节 变量间的相关关系与统计案例【高考文数专题复习——统计与统计案例】

年龄(x)
23 4
5
6
患病人数(y) 22 22 17 14 10
(1)求 y 关于 x 的线性回归方程; (2)计算变量 x,y 的相关系数 r(计算结果精确到 0.01),并回答是否可以认 为该幼儿园去年春季患流感人数与年龄负相关很强.(若|r|∈[0.75,1],则 x,y 相关性很强;若|r|∈[0.3,0.75),则 x,y 相关性一般;若|r|∈[0,0.3),则 x,y 相关性较弱)
发芽率 y 和温度 x 的回归方程类型的是
()
A.y=a+bx
B.y=a+bx2
C.y=a+bex
D.y=a+bln x
解析:用光滑的曲线把图中各点连接起来,由图象的大致走向判断,此函数应 该是对数函数类型的,故应该选用的函数模型为 y=a+bln x. 答案:D
5.给出下列关系: ①正方形的边长与面积之间的关系; ②某化妆品的销售量与广告宣传费之间的关系; ③人的身高与视力之间的关系; ④雾天的能见度与交通事故的发生率之间的关系; ⑤学生与其学号之间的关系. 其中具有相关关系的是________.
n
xi- x 2
i=1
i=1
^a= y -^b x .
n
(3)通过求Q= yi-bxi-a2的最小值而得到回归直线的方法,即使得样本数据 i=1 的点到回归直线的距离的平方和最小,这一方法叫做 最小二乘法 .
(4)相关系数:r=
n
xi- x yi- y
i=1
.
n
n
xi- x 2 yi- y 2
请思考 y 与 x 是否具有线性相关关系?
10
解:因为 x =159.8, y =172,x2i =265 448,
统计与统计案例PPT课件

走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体 (文)某学校为了调查学生平均每周的上网时间(单 位:h)对学习产生的影响,从高三年级随机抽取了 100 名学生, 将所得数据整理后,画出频率分布直方图(如图),其中频率分 布直方图从左到右前 3 个小矩形的面积之比为 1:3:5,试估 计:
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
疑难误区警示 1.当总体数 N 不能被样本容量整除,用系统抽样法剔除 多余个体时,必须随机抽样. 2.注意中位数与平均数的区别,中位数可能不在样本数 据中.
专题七 第一讲
走向高考 ·二轮专题复习 ·新课工厂甲、乙、丙三个车
间生产了同一种产品,数量分别为 120 件,80 件,60 件,为
了解它们的产品质量是否存在显著差异,用分层抽样方法抽
取了一个容量为 n 的样本进行调查,其中从丙车间的产品中
抽取了 3 件,则 n=( )
A.9
B.10
C.12
D.13
[答案] D
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
某市有大型超市 200 家、中型超市 400 家、小型超市 1400 家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个 容量为 100 的样本,应抽取中型超市________家.
[答案] 20
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
[解析] 属简单题,关键是清楚每一层的抽取比例都一样 是Nn .
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
第2部分 专题4 第1讲 统计与统计案例 课件(共66张PPT)

由题意知
16n 52
-
13n 52
=6,解得n=104,所以选项D正确,故选
D.]
02 考点2 回归分析
高考串讲·找规律
考题变迁·提素养
1.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的 发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种 子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点 图:
2.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原
始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1
个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不
变的数字特征是( )
A.中位数
B.平均数
C.方差
D.极差
A [记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小 到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数, 故不变的数字特征是中位数,故选A.]
样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出
一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=
20
∑ xi- x yi- y
i=1 20
20
, 2≈1.414.
∑ xi- x 2 ∑ yi- y 2
i=1
i=1
[解]
(1)由已知得样本平均数
y
=
1 20
20
y
i=1
i=60,从而该地区这种
D [由饼形图知2050年中国将有约32%的人已经退休,所以选 项A错误;
设46~55岁的人数为16x人,16~25岁的人数为13x人,则46~ 55岁的人数比16~25岁的人数多16x1-3x13x=133≈23%,所以选项B错 误;
2019-2020高中数学第三章统计案例本章整合课件北师大版选修2_3

专题1 专题2 专题3
专题三 独立性检验的基本方法 判断两个变量X和Y是否相关的一般步骤: (1)计算 χ2=(������+������)(������������+(������������������)-(���������������+���)2������)(������+������);
87 777
由题可得������=55,������=91.7.
10
r=
������=∑1xiyi-10x y
=
55 950-10×55×91.7
i1=∑01���������2��� -10������2 ������1=∑01���������2��� -10������2 38 500-10×552· 87 777-10×91.72
专题1 专题2 专题3
应用3一个车间为了规定工时定额,需要确定加工零件所花费的 时间,为此进行了10次试验,测得的数据如下:
零件数 x/个 加工时间 y/分
10 20 30 40 50 60 70 80 90 100 62 68 75 81 89 95 102 108 115 122
(1)y与x是否具有线性相关关系? (2)如果y与x具有线性相关关系,求线性回归方程. 提示:先求出r的值,|r|的值越接近于1,表明两个变量的线性相关 关系越强,在线性相关关系较强,即|r|>0.75时,求线性回归方程.
(1)求
b
时利用公式
b=������=∑1∑n(x(i-������x������)-(���y���)i2-y) i=1
=
������=∑������=∑1���������1���������������������2������ ���-���-������������������������2������,先求出������
2020版高考数学二轮复习第2部分专题3概率与统计第2讲统计与统计案例教案理

第2讲统计与统计案例[做小题——激活思维]1.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A.中位数B.平均数C.方差D.极差A[记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.] 2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,计算得K2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( )C.99.5% D.99.9%C[因为K2=8.01>7.879,观测值同临界值进行比较可知,有99.5%的把握认为“喜欢乡村音乐与性别有关系”,故选C.]3.已知某赛季甲、乙两名篮球运动员每场比赛得分的茎叶图如图所示,则( )A.甲篮球运动员比赛得分更稳定,中位数为26B.甲篮球运动员比赛得分更稳定,中位数为27C.乙篮球运动员比赛得分更稳定,中位数为31D.乙篮球运动员比赛得分更稳定,中位数为36D[由茎叶图可知,乙运动员的得分大部分集中在30~40分之间,而甲运动员的得分相对比较分散,故乙篮球运动员比赛得分更稳定.乙篮球运动员共有13个得分,由茎叶图由小到大排列后处于中间第7位的是36,故选D.]4.已知某地区中小学生人数和近视情况分别如图1和图2所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )图1 图2A.100,20 B.200,20C.200,10 D.100,10B[由题图1可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图2可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选B.]5.已知x,y的取值如下表所示:若y与x呈线性相关,且回归方程为y=b x+2,则b等于________.1 2[由题意,得x=3,y=5.因为线性回归方程必过样本的中心点(3,5),所以5=3b^+72,解得b^=12.]6.数据1,3,5,7的方差为________.5[x=1+3+5+74=4,∴方差s2=14[(1-4)2+(3-4)2+(5-4)2+(7-4)2]=5.][扣要点——查缺补漏] 1.三种抽样方法(1)简单随机抽样;(2)系统抽样(等间隔抽样);(3)分层抽样(按比例抽样).如T4.2.样本数据x1,x2,…,x n的数字特征(1)样本平均数:x =1n(x 1+x 2+x 3+…+x n )=1n ∑ni =1x i ;(2)样本方差:s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]=1n ∑ni =1(x i -x )2=1n(x 21+x 22+x 23+…+x 2n -n x 2);如T 6.(3)样本标准差:s =1nx 1-x 2+x 2-x2+…+x n -x2]=1n ∑ni =1x i -x2;(4)样本数据的性质:若x 1,x 2,…,x n 的平均数为x ,方差为s 2,则ax 1+b ,ax 2+b ,…,ax n +b 的平均数为a x +b ,方差为a 2s 2.3.茎叶图样本数据越集中越稳定,越分散越不稳定,如T 3. 4.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数; (2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.5.线性回归方程y ^=b ^x +a ^一定过样本点的中心(x ,y ).如T 5. 6.独立性检验的关键在于准确求出K 2值,K 2=n ad -bc 2a +bc +d a +cb +d的观测值k 越大,说明“两个分类变量有关系”的可能性越大.如T 2.变量的相关性及回归分析(5年4考)[高考解读] 高考对该点的考查主要立足两点:一是考查学生的数据提取,数据分析能力;二是考查学生的数学建模能力,因此学会从数据中获取有效信息并给予正确的处理是解答此类问题的关键.在备考中,要重视以茎叶图、散点图、折线图、饼状图为载体的题目.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解](1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,答出其中任意一种或其他合理理由均可) [教师备选题](2015·全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i=x i ,w ]=8∑i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为[解](1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.求线性回归直线方程的步骤1.[重视题](结合散点图分析问题)某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如下图所示的散点图和回归直线l .根据图中数据,下列对该样本描述错误的是( )A .根据样本数据估计,该地区青少年身高与年龄成正相关B .所抽取数据中,5 000名青少年平均身高约为145 cmC .直线l 的斜率的值近似等于样本中青少年平均身高每年的增量D .从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l 上D [在给定范围内,随着年龄增加,年龄越大身高越高,故该地区青少年身高与年龄成正相关,故A 项正确;用样本数据估计总体可得平均数大约是145 cm ,故B 项正确;根据直线斜率的意义可知斜率的值近似等于样本中青少年平均身高每年的增量,故C 项正确;各取一人具有随机性,根据数据作出的点只能在直线附近,不一定在直线上,故D 项错误.]2.(回归分析与函数交汇)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:吨)和年利润z (单位:千元)的影响,对近13年的年宣传费x i 和年销售量y i (i =1,2,…,13)数据作了初步处理,得到如下图所示的散点图及一些统计量的值.由散点图知,按y =a +b x ,y =c +d x建立y 关于x 的回归方程是合理的.令s =x ,t =1x, 经计算得如下数据:i i i i 12(1)从以上模型中选择更优的回归方程,并用相关系数加以说明; (2)根据(1)的选择结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =10y -x .根据(2)的结果回答下列问题: ①年宣传费x =20时,年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u i ,v i )(i =1,2,…,n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i v i -n u v∑ni =1u 2i -n u2,α^=v -β^u .[解](1)由于|r 1|<|r 2|<1,故y =c +d x更优.(2)d ^=∑13i =1t i y i -13t y∑13i =1t 2i -13t2=-2.100.21=-10, c ^=y -d ^t =109.94+10×0.16=111.54.则y 关于x 的回归方程为y ^=111.54-10x.(3)由题意,年利润z =10y -x =1 115.4-⎝⎛⎭⎪⎫100x +x ,①当x =20时,年利润的预报值是z ^=1 115.4-⎝ ⎛⎭⎪⎫10020+20=1 090.4.②由基本不等式得,年利润的预报值z ^=1 115.4-⎝ ⎛⎭⎪⎫100x +x ,由于x +100x ≥20,当且仅当x =100x,即x =10时等号成立,此时z ^max =1 115.4-20=1095.4.独立性检验(5年2考)[高考解读] 该类问题常以统计图、表为载体,以生活题材为背景,借助独立性检验中的K 2公式对两类分类变量的相关性作出判断.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:附:K 2=n ad -bc 2a +bc +d a +cb +d,理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(2)由茎叶图知m =79+812=80.列联表如下:(3)由于K 2=20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验的方法步骤(1)根据数据列出2×2列联表; (2)根据公式计算K 2找观测值k ;(3)比较观测值k 与临界值表中相应的检验水平,作出统计判断.1.(柱形图与独立性检验)一家大型超市委托某机构调查该超市的顾客使用移动支付的情况.调查人员从年龄在20至60的顾客中,随机抽取了200人,调查结果如图:(1)为推广移动支付,超市准备对使用移动支付的每位顾客赠送1个环保购物袋.若某日该超市预计有10 000人购物,试根据上述数据估计,该超市当天应准备多少个环保购物袋?(2)填写下面列联表,并根据列联表判断是否有99.9%的把握认为使用移动支付与年龄有关?动支付的顾客为X 人,求X 的分布列.附:K 2=n ad -bc 2a +bc +d a +cb +d率为:20+25+25+15+15+10+8+7200=58,所以超市当天应准备的环保购物袋个数为:10000×58=6 250.(2)由(1)知列联表为:则K 2=125×75×95×105≈56.17,因为56.17>10.828,所以有99.9%的把握认为使用移动支付与年龄有关. (3)X 可能取值为0,1,2,P (X =0)=C 222C 229=3358,P (X =1)=C 122C 17C 229=1129,P (X =2)=C 27C 229=358,所以X 的分布列为:2.(情况,随机在这两条流水线上各抽取100件产品作为样本称出它们的质量(单位:毫克),质量值落在(175,225]的产品为合格品,否则为不合格品.如表是甲流水线样本频数分布表,如图是乙流水线样本的频率分布直方图.(1)由以上统计数据完成下面2×2列联表,能否在犯错误的概率不超过0.15的前提下认为产品的包装合格与两条自动包装流水线的选择有关?附表:(参考公式:K 2=a +ba +cb +dc +d,n =a +b +c +d )(2)由乙流水线的频率分布直方图可以认为乙流水线生产的产品质量指标z 服从正态分布N (200,12.22),求质量指标z 落在(187.8,224.4)上的概率;参考公式:P (μ-σ<z <μ+σ)=0.682 7,P (μ-2σ<z <μ+2σ)=0.954 5. (3)若以频率作为概率,从甲流水线任取2件产品,求至少有一件产品是合格品的概率. [解](1)由甲流水线样本频数分布表可知,合格品的个数为100-(3+5)=92,由乙流水线样本的频率分布直方图可知,合格品的个数为100×(1-0.04)=96,所以,2×2列联表是:所以K 2=100×100×188×12≈1.418<2.072,所以在犯错误的概率不超过0.15的前提下不能认为产品的包装合格与两条自动包装流水线的选择有关.(2)因为乙流水线的产品生产质量指标z 服从正态分布N (200,12.22),P (μ-σ<z <μ+σ)=0.682 7,P (μ-2σ<z <μ+2σ)=0.954 5,所以P (μ-σ<z <μ+2σ)=P (μ-σ<z <0)+P (0≤z <μ+2σ)=12P (μ-σ<z <μ+σ)+12P (μ-2σ<z <μ+2σ)=12×(0.682 7+0.954 5)=0.818 6,即P (200-12.2<z <200+12.2×2)=P (187.8<z <224.4)=0.818 6,所以质量指标落在(187.8,224.4)的概率是0.818 6.(3)若以频率作概率,则从甲流水线任取一件产品是不合格品的概率p =0.08, 设“任取两件产品,至少有一件合格品”为事件A ,则A 为“任取两件产品,两件均为不合格品”,且P (A )=p 2=0.082=0.006 4, 所以P (A )=1-P (A )=1-0.0064=0.993 6,所以任取两件产品至少有一件为合格品的概率为0.993 6.概率与统计的综合问题(5年2考)[高考解读] 以实际问题为背景,以统计图表为载体考查样本数据的数字特征、概率的求法及分布列的相关知识,处理的关键是仔细阅读题目,准确获取信息,将实际问题转化为统计概率问题.(2017·全国卷Ⅲ)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:(1)求六月份这种酸奶一天的需求量X (单位:瓶)的分布列;(2)设六月份一天销售这种酸奶的利润为Y (单位:元).当六月份这种酸奶一天的进货量n (单位:瓶)为多少时,Y 的数学期望达到最大值?切入点:由于n ∈[200,500],对n 分类讨论,且同时计算在不同温度下的期望的表达式. [解](1)由题意知,X 所有可能取值为200,300,500,由表格数据知P (X =200)=2+1690=0.2,P (X =300)=3690=0.4, P (X =500)=25+7+490=0.4. 因此X 的分布列为(2)200≤n ≤500.当300≤n ≤500时,若最高气温不低于25,则Y =6n -4n =2n ;若最高气温位于区间[20,25),则Y =6×300+2(n -300)-4n =1 200-2n ;若最高气温低于20,则Y=6×200+2(n-200)-4n=800-2n.因此E(Y)=2n×0.4+(1 200-2n)×0.4+(800-2n)×0.2=640-0.4n.当200≤n<300时,若最高气温不低于20,则Y=6n-4n=2n;若最高气温低于20,则Y=6×200+2(n-200)-4n=800-2n,因此E(Y)=2n×(0.4+0.4)+(800-2n)×0.2=160+1.2n.所以n=300时,Y的数学期望达到最大值,最大值为520元.[教师备选题](2015·全国卷Ⅱ)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:A地区:62 73 81 92 95 85 74 64 5376 78 86 95 66 97 78 88 8276 89B地区:73 83 62 51 91 46 53 73 6482 93 48 65 81 74 56 54 7665 79(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.[解](1)两地区用户满意度评分的茎叶图如下:通过茎叶图可以看出,A 地区用户满意度评分的平均值高于B 地区用户满意度评分的平均值;A 地区用户满意度评分比较集中,B 地区用户满意度评分比较分散.(2)记C A 1表示事件:“A 地区用户的满意度等级为满意或非常满意”;C A 2表示事件:“A 地区用户的满意度等级为非常满意”; C B1表示事件:“B 地区用户的满意度等级为不满意”; C B2表示事件:“B 地区用户的满意度等级为满意”,则C A 1与C B1独立,C A 2与C B2独立,C B1与C B2互斥,C =C B1C A 1∪C B2C A 2. P (C )=P (C B1C A 1∪C B2C A 2)=P (C B1C A 1)+P (C B2C A 2) =P (C B1)P (C A 1)+P (C B2)P (C A 2).由所给数据得C A 1,C A 2,C B1,C B2发生的频率分别为1620,420,1020,820,故P (C A 1)=1620,P (C A 2)=420,P (C B1)=1020,P (C B2)=820,P (C )=1020×1620+820×420=0.48.解决概率与统计综合问题的一般步骤1.(统计图表与正态分布、期望交汇)(2019·济宁一模)某学校为了了解全校学生的体重情况,从全校学生中随机抽取了100人的体重数据,结果这100人的体重全部介于45公斤到75公斤之间,现将结果按如下方式分为6组:第一组[45,50),第二组[50,55),…,第六组[70,75],得到如图1所示的频率分布直方图,并发现这100人中,其体重低于55公斤的有15人,这15人体重数据的茎叶图如图2所示,以样本的频率作为总体的概率.(1)求频率分布直方图中a ,b ,c 的值;(2)从全校学生中随机抽取3名学生,记X 为体重在[55,65)的人数,求X 的概率分布列和数学期望;(3)由频率分布直方图可以认为,该校学生的体重ξ近似服从正态分布N (μ,σ2),其中μ=60,σ2=25,若P (μ-2σ≤ξ<μ+2σ)>0.954 5,则认为该校学生的体重是正常的.试判断该校学生的体重是否正常?并说明理由.图1 图2[解](1)由题图2知,100名样本中体重低于50公斤的有2人,用样本的频率估计总体的频率,可得体重低于50公斤的概率为2100=0.02,所以a =0.025=0.004.在[50,55)上有13人,该组的频率为0.13,则b =0.135=0.026,所以2c =1-0.02×2-0.13×25=0.14,即c =0.07.(2)用样本的频率估计总体的频率,可知从全校学生中随机抽取1人,体重在[55,65)的概率为0.07×10=0.7,随机抽取3人,相当于3次独立重复实验,随机变量X 服从二项分布B (3,0.7),则P (X =0)=C 03·0.70·0.33=0.027,P (X =1)=C 13·0.7·0.32=0.189, P (X =2)=C 23·0.72·0.3=0.441, P (X =3)=C 33·0.73·0.30=0.343,所以X 的概率分布列为:(3)由题意知ξ服从正态分布N (60,25),其中σ=5,则P (μ-2σ≤ξ<μ+2σ)=P (50≤ξ<70)=0.96>0.954 5, 所以可以认为该校学生的体重是正常的.2.(统计图表与二项分布交汇)某校为了解甲、乙两班学生的学业水平,从两班中各随机抽取20人参加学业水平等级考试,得到学生的学业成绩茎叶图如图:(1)通过茎叶图比较甲、乙两班学生的学业成绩平均值x 甲与x 乙及方差s 2甲与s 2乙的大小;(只需写出结论)(2)根据学生的学业成绩,将学业水平分为三个等级:①从甲、乙两班中各随机抽取1人,记事件C :“抽到的甲班学生的学业水平高于乙班学生的学业水平等级”,求C 发生的概率;②从甲班中随机抽取2人,记X 为学业水平优秀的人数,求X 的分布列和数学期望. [解](1)由茎叶图能得到x 甲>x 乙,s 2甲<s 2乙.(2)①记A 1,A 2,A 3分别表示事件:甲班学生学业水平成绩为一般,良好,优秀; 记B 1,B 2,B 3分别表示事件:乙班学生学业水平成绩为一般,良好,优秀,则P (C )=P (A 2B 1∪A 3B 1∪A 3B 2)=P (A 2B 1)+P (A 3B 1)+P (A 3B 2)=P (A 2)P (B 1)+P (A 3)P (B 1)+P (A 3)P (B 2)=1220×920+520×920+520×920=99200. ②从甲班随机抽取1人,其学业水平优秀的概率为14,所以,随机变量X 的所有可能取值为0,1,2,且X ~B ⎝ ⎛⎭⎪⎫2,14. P (X =0)=C 02⎝ ⎛⎭⎪⎫342=916,P (X =1)=C 12·14·34=38,P (X =2)=C 22⎝ ⎛⎭⎪⎫142=116.随机变量X 的分布列是:数学期望E (X )=2×4=2.。
2020新课标高考数学二轮讲义:第二部分专题四 第2讲 统计与统计案例

第2讲统计与统计案例[做真题]题型一抽样方法与总体分布的估计1.(2019·高考全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()A.中位数B.平均数C.方差D.极差解析:选A.记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.2.(2018·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:选A.法一:设建设前经济收入为a,则建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.法二:因为0.6<0.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.故选A.3.(2019·高考全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解:(1)由已知得0.70=a+0.20+0.15,故a=0.35.b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.题型二变量间的相关关系、统计案例(2018·高考全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式(3)根据(2)附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解:(1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(2)由茎叶图知m =79+812=80.列联表如下:超过m 不超过m第一种生产方式 15 5 第二种生产方式515(3)由于K 2=40×(15×15-5×5)20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[山东省学习指导意见]1.随机抽样理解随机抽样的必要性和重要性,学会用简单随机抽样方法从总体中抽取样本,通过对实例的分析,了解分层抽样和系统抽样方法.2.用样本估计总体(1)在表示样本数据的过程中,学会列频率分布表、画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.(2)理解样本数据标准差的意义和作用,学会计算数字特征(如平均数、标准差),并作出合理的解释.(3)会用样本估计总体的思想,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性.3.统计案例(1)通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程,并能初步应用.(2)通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.用样本估计总体[典型例题](2019·广东六校第一次联考)某市大力推广纯电动汽车,对购买用户依照车辆出厂续驶里程R(单位:千米)的行业标准,予以地方财政补贴,其补贴标准如下表:出厂续驶里程R/千米补贴/(万元/辆)150≤R<250 3250≤R<350 4R≥350 4.52017年底某部门随机调查该市1 000辆纯电动汽车,统计其出厂续驶里程R,得到频率分布直方图如上图所示,用样本估计总体,频率估计概率,解决如下问题:(1)求该市每辆纯电动汽车2017年地方财政补贴的均值;(2)某企业统计2017年其充电站100天中各天充电车辆数,得如下频数分布表:辆数[5 500,6 500)[6 500,7 500)[7 500,8 500)[8 500,9 500] 天数20304010(同一组中的数据用该组区间的中点值作代表)2018年2月,国家出台政策,将纯电动汽车财政补贴逐步转移到充电基础设施建设上来,该企业拟将转移补贴资金用于添置新型充电设备.现有直流、交流两种充电桩可供购置,直流充电桩5万元/台,每台每天最多可以充电30辆车,每天维护费用500元/台;交流充电桩1万元/台,每台每天最多可以充电4辆车,每天维护费用80元/台.该企业现有两种购置方案:方案一,购买100台直流充电桩和900台交流充电桩;方案二,购买200台直流充电桩和400台交流充电桩.假设车辆充电时优先使用新设备,且充电一辆车产生25元的收入,用2017年的统计数据,分别估计该企业在两种方案下新设备产生的日利润(日利润=日收入-日维护费用).【解】(1)依题意可得纯电动汽车地方财政补贴的分布列为补贴/(万元/辆)34 4.5概率0.20.50.3+4×0.5+4.5×0.3=3.95(万元).(2)由频数分布表得每天需要充电车辆数的分布列为辆数 6 0007 0008 0009 000概率0.20.30.40.1若采用方案一,30×100+4×900=6 600,可得实际充电车辆数的分布列为实际充电车辆数 6 000 6 600概率0.20.825×(6 000×0.2+6 600×0.8)-500×100-80×900=40 000(元).若采用方案二,200台直流充电桩和400台交流充电桩每天可充电车辆数为30×200+4×400=7 600,可得实际充电车辆数的分布列为实际充电车辆数 6 0007 0007 600概率0.20.30.525×(6 000×0.2+7 000×0.3+7 600×0.5)-500×200-80×400=45 500(元).(1)统计中的5个数据特征①众数:在样本数据中,出现次数最多的那个数据.②中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.③平均数:样本数据的算术平均数,即x -=1n (x 1+x 2+…+x n ).④方差与标准差:s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2];s =1n[(x 1-)2+(x 2-)2+…+(x n -)2]. (2)从频率分布直方图中得出有关数据的技巧 ①频率:频率分布直方图中横轴表示组数,纵轴表示频率组距,频率=组距×频率组距. ②频率比:频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值.③众数:最高小长方形底边中点的横坐标.④中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. ⑤平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和. ⑥性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和×组距=1,列方程即可求得参数值.[对点训练]1.(2019·武昌区调研考试)对参加某次数学竞赛的1 000名选手的初赛成绩(满分:100分)作统计,得到如图所示的频率分布直方图.(1)根据直方图完成以下表格; 成绩 [50,60)[60,70)[70,80)[80,90)[90,100]频数(3)如果从参加初赛的选手中选取380人参加复赛,那么如何确定进入复赛选手的成绩? 解:(1)填表如下: 成绩 [50,60) [60,70) [70,80) [80,90) [90,100] 频数501503503501000.05+(-13)2×0.15+(-3)2×0.35+72×0.35+172×0.1=101.(3)进入复赛选手的成绩为80+350-(380-100)350×10=82(分),所以初赛成绩为82分及其以上的选手均可进入复赛.(说明:回答82分以上,或82分及其以上均可)2.(2019·昆明市诊断测试)《中国大能手》是央视推出的一档大型职业技能挑战赛类的节目,旨在通过该节目,在全社会传播和弘扬“劳动光劳、技能宝贵、创造伟大”的时代风尚.某公司准备派出选手代表公司参加《中国大能手》职业技能挑战赛.经过层层选拔,最后集中在甲、乙两位选手在一项关键技能的区分上,选手完成该项挑战的时间越少越好.已知这两位选手在15次挑战训练中,完成该项关键技能挑战所用的时间(单位:秒)及挑战失败(用“×”表示)的情况如表1: 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 甲×9693×92×9086××8380787775乙 × 95 × 93 × 92 × 88 83 × 82 80 80 74 73据表1中甲、乙两位选手完成该项关键技能挑战所用时间的数据,应用统计软件得表2:均值/秒 方差 甲 85 50.2 乙84 54(1)在表1中,从选手甲完成挑战用时低于90秒的成绩中,任取2个,求这2个成绩都低于80秒的概率;(2)若该公司只有一个参赛名额,以完成该项关键技能挑战所用时间为标准,根据以上信息,判断哪位选手代表公司参加职业技能挑战赛更合适?请说明你的理由.解:(1)选手甲完成挑战用时低于90秒的成绩共有6个,其中低于80秒的成绩有3个,分别记为A 1,A 2,A 3,其余的3个分别记为B 1,B 2,B 3,从6个成绩中任取2个的所有取法有:A 1A 2,A 1A 3,A 1B 1,A 1B 2,A 1B 3, A 2A 3,A 2B 1,A 2B 2,A 2B 3, A 3B 1,A 3B 2,A 3B 3, B 1B 2,B 1B 3, B 2B 3,共5+4+3+2+1=15(种),其中2个成绩都低于80秒的有A 1A 2,A 1A 3,A 2A 3,共3种,所以所取的2个成绩都低于80秒的概率P =315=15.(2)甲、乙两位选手完成关键技能挑战的次数都为10,挑战失败的次数都为5,所以只需要比较他们完成关键技能挑战的情况即可,其中x -甲=85(秒),x -乙=84(秒),s 2甲=50.2,s 2乙=54.答案①:选手乙代表公司参加职业技能挑战赛比较合适,因为在相同次数的挑战中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,但x -甲>x -乙,乙选手平均用时更短.答案②:选手甲代表公司参加职业技能挑战赛比较合适,因为在相同次数的挑战中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,虽然x -甲>x -乙,但两者相差不大,水平相当,s 2甲<s 2乙,表明甲选手的发挥更稳定.答案③:选手乙代表公司参加职业技能挑战赛比较合适,因为在相同次数的挑战中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,但x 乙<x 甲,乙选手平均用时更短,从表1中的数据整体看,甲、乙的用时都逐步减少,s2乙>s2甲,说明乙选手进步幅度更大,成绩提升趋势更好.(答案不唯一,可酌情给分)回归分析[典型例题]命题角度一线性回归分析某地1~10岁男童年龄x i(单位:岁)与身高的中位数y i(单位:cm)(i=1,2,…,10)如下表:x/岁12345678910 y/cm76.588.596.8104.1111.3117.7124.0130.0135.4140.2x - y -∑10i =1(x -i -x )2 ∑10i =1(y i -y -)2∑10i =1(x i -x -)(y i -y -) 5.5112.4582.503 947.71566.85(1)求y 关于x 的线性回归方程(线性回归方程系数精确到0.01);(2)某同学认为y =px 2+qx +r 更适宜作为y 关于x 的回归方程类型,他求得的回归方程是y ^=-0.30x 2+10.17x +68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?附:回归方程y ^=a ^+b ^x 中的斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (x i -)(y i -)∑ni =1(x i -)2,a ^=y --b ^x -. 【解】 (1)b ^=∑10i =1(x i -)(y i -)∑10i =1 (x i -)2=566.8582.50≈6.871≈6.87, a ^=y --b ^x -=112.45-6.871×5.5≈74.66, 所以y 关于x 的线性回归方程为y ^=6.87x +74.66.(2)若回归方程为y ^=6.87x +74.66,当x =11时,y ^=150.23. 若回归方程为y ^=-0.30x 2+10.17x +68.07,当x =11时,y =143.64. |143.64-145.3|=1.66<|150.23-145.3|=4.93,所以回归方程y ^=-0.30x 2+10.17x +68.07对该地11岁男童身高中位数的拟合效果更好.求回归直线方程的关键及实际应用(1)关键:正确理解计算b ^,a ^的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.命题角度二 非线性回归分析某机构为研究某种图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.x - y -u - ∑8i =1(x i -x -)2∑8i =1(x i -x -)·(y i -y -) ∑8i =1(u i -u -)2∑8i =1(u i -u -)·(y i -y -) 15.253.63 0.2692 085.5-230.30.7877.049表中u i =1x i ,u -=18∑8i =1u i.(1)根据散点图判断:y =a +bx 与y =c +dx 哪一个模型更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(回归系数的结果精确到0.01); (3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出,结果精确到1)附:对于一组数据(w 1,v 1),(w 2,v 2),…,(w n ,v n ),其回归直线v ^=α^+β^w 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (w i -)(v i -)∑ni =1(w i -)2,α^=v --β^w -. 【解】 (1)由散点图判断,y =c +dx 更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程.(2)令u =1x ,先建立y 关于u 的线性回归方程,由于d ^=∑8i =1(u i -)(y i -)∑8i =1 (u i -)2=7.0490.787≈8.957≈8.96, 所以c ^=y --d ^·u -=3.63-8.957×0.269≈1.22,所以y 关于u 的线性回归方程为y ^=1.22+8.96u , 所以y 关于x 的回归方程为y ^=1.22+8.96x.(3)假设印刷x 千册,依题意得10x -⎝⎛⎭⎫1.22+8.96x x ≥78.840, 解得x ≥10,所以至少印刷10 000册才能使销售利润不低于78 840元.求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程. 命题角度三 回归分析与正态分布的综合问题某地一商场记录了12月份某5天当中某商品的销售量y (单位:kg)与该地当日最高气温x (单位:℃)的相关数据,如下表:x 11 9 8 5 2 y7881012(1)试求y 与x 的回归方程y ^=b ^x +a ^;(2)判断y 与x 之间是正相关还是负相关;若该地12月某日的最高气温是6 ℃,试用所求回归方程预测这天该商品的销售量;(3)假定该地12月份的日最高气温X ~N (μ,σ2),其中μ近似取样本平均数x ,σ2近似取样本方差s 2,试求P (3.8<X <13.4).附:参考公式和有关数据 ⎩⎪⎨⎪⎧b ^=∑ni =1x i y i -n ∑n i =1x 2i -nx 2=∑ni =1(x i -)(y i -)∑ni =1(x i -)2a ^=-b^,10≈3.2, 3.2≈1.8,若X ~N (μ,σ2),则P (μ-σ<X <μ+σ)=0.682 7,且P (μ-2σ<X <μ+2σ)=0.954 5.【解】 (1)由题意,x -=7,y -=9,∑ni =1x i y i-n x - y -=287-5×7×9=-28, ∑ni =1x 2i-n x -2=295-5×72=50,b ^=-2850=-0.56,a ^=y --b ^x =9-(-0.56)×7=12.92. 所以所求回归直线方程为y ^=-0.56x +12.92.(2)由b ^=-0.56<0知,y 与x 负相关.将x =6代入回归方程可得, y ^=-0.56×6+12.92=9.56,即可预测当日该商品的销售量为9.56 kg.(3)由(1)知μ≈x -=7,σ≈s 2≈3.2,所以P (3.8<X <13.4)=P (μ-σ<X <μ+2σ)=12P (μ-σ<X <μ+σ)+12P (μ-2σ<X <μ+2σ)=0.818 6.解决与正态分布有关的问题,在理解μ,σ2意义的情况下,记清正态分布的密度曲线是一条关于μ对称的钟形曲线,很多问题都是利用图象的对称性解决的.[对点训练](2019·山东八所重点中学联考)某部门经统计,客户对不同款型理财产品的最满意度百分比和对应的理财总销售量(单位:万元)如下表(最满意度百分比越高时总销售量越高):产品款型 ABCDEFGHIJ最满意度 百分比/% 20342519262019241913总销售量 /万元80898978757165626052据的散点图如图所示.(1)在5份A 款型理财产品的客户满意度调查资料中只有一份是最满意的,从这5份资料中任取2份,求含有最满意客户资料的概率.(2)我们约定:相关系数的绝对值在0.3以下是无线性相关,在0.3以上(含0.3)至0.75是一般线性相关,在0.75以上(含0.75)是较强线性相关,y 与x 是否达到较强线性相关?若达到,请求出线性回归方程;若没有达到较强线性相关,则采取“末位”剔除制度(即总销售量最少的那一款型产品退出理财销售),请求在剔除“末位”款型后的线性回归方程(系数精确到0.1).数据参考计算值:x -y -∑10i =1x 2i -10x -2 ∑10i =1y 2i -102∑10i =1x i y i -10x -·y -288.9参考计算值21.972.1288.9 37.16 452.117.00附:线性相关系数r =∑ni =1x i y i -n ·∑ni =1x 2i -n 2∑ni =1y 2i-n 2,回归直线方程y ^=a ^+b ^x 的斜率和截距的最小二乘法估计分别为b ^=∑n i =1x i y i -n ·∑n i =1x 2i -n 2,a ^=y --b ^x -.解:(1)在5份A 款型理财产品的客户资料中只有1份是最满意的,把最满意客户资料记为a ,其余客户资料记为b ,c ,d ,e .则任取2份资料的基本事件有(a ,b ),(a ,c ),(a ,d ),(a ,e ),(b ,c ),(b ,d ),(b ,e ),(c ,d ),(c ,e ),(d ,e ),共10个.含有a 的基本事件有(a ,b ),(a ,c ),(a ,d ),(a ,e ),共4个.则含有最满意客户资料的概率为410=25.(2)线性相关系数r =∑10i =1x i y i -10·∑10i =1x 2i -102∑10i =1y 2i -102=452.117×37.16≈0.72∈[0.3,0,75), 即y 与x 具有一般线性相关关系,没有达到较强线性相关关系. 由“末位”剔除制度可知,应剔除J 款型理财产品, 重新计算得x ′=10×21.9-139=2069≈22.89,y -′=10×72.1-529=6699≈74.33,∑9i =1x 2i-9x -′2=288.9+10×21.92-132-9×22.892≈200.43, ∑9i =1x i y i -9x -′·y -′=452.1+10×21.9×72.1-13×52-9×22.89×74.33≈253.28. b ^=∑9i =1x i y i -9′·′∑9i =1x 2i -9′2=253.28200.43≈1.26≈1.3.a ^=y -′-b ^x -′=74.33-1.26×22.89≈45.5. 所求线性回归方程为y ^=45.5+1.3x .(注:若用b ^=1.3计算出a ≈44.6,即y ^=44.6+1.3x 不扣分)独立性检验 [典型例题](2019·江西八所重点中学联考)2019年2月25日,第11届罗马尼亚数学大师赛(简称RMM)于罗马尼亚首都布加勒斯特闭幕,最终成绩揭晓,以色列选手排名第一,而中国队无一人获得金牌,最好成绩是获得银牌的第15名,总成绩排名第6.在分量极重的国际数学奥林匹克(IMO)比赛中,过去拿冠军拿到手软的中国队,已经连续4年没有拿到冠军了.人们不禁要问“中国奥数究竟怎么了?”,一时间关于各级教育主管部门是否应该下达“禁奥令”成为社会讨论的热点.某重点高中培优班共50人,现就这50人对“禁奥令”的态度进行问卷调查,得到如下的列联表:不应下“禁奥令”应下“禁奥令”总计男生5女生10总计50其中认为不应下“禁奥令”的同学共有6人.(1)请将上面的列联表补充完整,并判断是否有99%的把握认为对下“禁奥令”的态度与性别有关?说明你的理由;(2)现从这10人中抽出2名男生、2名女生,记此4人中认为不应下“禁奥令”的人数为ξ,求ξ的分布列和数学期望.参考公式与数据:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2≥k0)0.1000.0500.0100.001k0 2.706 3.841 6.63510.828【解】(1)不应下“禁奥令”应下“禁奥令”总计男生 20 5 25 女生 10 15 25 总计302050所以K 2=50×(20×15-5×10)25×25×30×20≈8.333>6.635,所以有99%的把握认为对下“禁奥令”的态度与性别有关.(2)由题意,可知在这10人中,男、女生各5人,其中男生有4人、女生有2人认为不应下“禁奥令”,ξ的所有可能取值有1,2,3,4.P (ξ=1)=C 14C 11C 23C 25C 25=12100;P (ξ=2)=C 24C 23+C 14C 11C 12C 13C 25C 25=42100; P (ξ=3)=C 14C 11C 22+C 24C 12C 13C 25C 25=40100; P (ξ=4)=C 24C 22C 25C 25=6100.所以ξ的分布列是ξ 1 2 3 4 P1210042100401006100所以E (ξ)=12+2×42+3×40+4×6100=2.4.独立性检验的关键(1)根据2×2列联表准确计算K 2,若2×2列联表没有列出来,要先列出此表. (2)K 2的观测值k 越大,对应假设事件H 0成立的概率越小,H 0不成立的概率越大.[对点训练](2019·武汉市调研测试)2019年,在庆祝中华人民共和国成立70周年之际,又迎来了以“创军人荣耀,筑世界和平”为口号的第七届世界军人运动会(以下简称“军运会”).据悉,这次军运会将于2019年10月18日至27日在美丽的江城武汉举行,届时将有来自100多个国家的近万名军人运动员参赛.相对于奥运会、亚运会等大型综合赛事,军运会或许对很多人来说还很陌生,所以武汉某高校为了在学生中更广泛地推介普及军运会相关知识内容,特在网络上组织了一次“我所知晓的武汉军运会”知识问答比赛.为便于对答卷进行对比研究,组委会抽取了1 000名男生和1 000名女生的答卷,他们的成绩(单位:分)频率分布直方图如下:(注:答卷满分100分,成绩≥80的答卷为“优秀”等级)(1)从现有1 000名男生和1 000名女生的答卷中各取一份,分别求答卷成绩为“优秀”等级的概率;(2)求下面列联表中a,b,c,d的值,并根据列联表回答:能否在犯错误的概率不超过0.025的前提下认为“答卷成绩为‘优秀’等级与性别有关”?男女总计优秀 a b a+b非优秀 c d c+d总计 1 000 1 000 2 000(3)附:P(K2≥k0)0.050.0250.010k0 3.841 5.024 6.635K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)男生答卷成绩为“优秀”等级的概率P =(0.058+0.034+0.014+0.010)×5=0.58,女生答卷成绩为“优秀”等级的概率P =(0.046+0.034+0.016+0.010)×5=0.53.(2)男 女 总计 优秀 580 530 1 110 非优秀 420 470 890 总计1 0001 0002 000所以a =580,b =由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )得,K 2=2 000×(580×470-530×420)21 110×890×1 000× 1000≈5.061>5.024,所以在犯错误的概率不超过0.025的前提下认为“答卷成绩为‘优秀’等级与性别有关”.(3)根据男、女生成绩频率分布直方图可得,男、女生成绩的中位数均在80到85之间,但男生的成绩分布集中程度较女生成绩分布集中程度高,因此,可以认为男生的成绩较好且稳定.[A 组 夯基保分专练]一、选择题1.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱 喜爱 一般 不喜欢 4 8007 2006 4001 600为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为( )A .25,25,25,25B .48,72,64,16C .20,40,30,10D .24,36,32,8解析:选D.法一:因为抽样比为10020 000=1200,所以每类人中应抽选出的人数分别为4 800×1200=24,7 200×1200=36,6 400×1200=32,1 600×1200=8.故选D.法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2, 所以每类人中应抽选出的人数分别为66+9+8+2×100=24,96+9+8+2×100=36,86+9+8+2×100=32,26+9+8+2×100=8,故选D.2.(2019·湖南省五市十校联考)在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A .39B .35C .15D .11解析:选D.由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.3.(2019·武汉市调研测试)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A —结伴步行,B —自行乘车,C —家人接送,D —其他方式.并将收集的数据整理绘制成如下两幅不完整的统计图.请根据图中信息,求本次抽查的学生中A 类人数是( )A .30B .40C .42D .48解析:选A.由条形统计图知,B —自行乘车上学的有42人,C —家人接送上学的有30人,D —其他方式上学的有18人,采用B ,C ,D 三种方式上学的共90人,设A —结伴步行上学的有x 人,由扇形统计图知,A —结伴步行上学与B —自行乘车上学的学生占60%,所以x +42x +90=60100,解得x =30,故选A. 4.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y (单位:kW ·h)与气温x (单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:x (单位:℃) 17 14 10 -1 y (单位:kW ·h)243438a由表中数据得线性回归方程y =-2x +60,则a 的值为( ) A .48 B .62 C .64D .68解析:选C.由题意,得x =17+14+10-14=10,y =24+34+38+a 4=96+a4.样本点的中心(x ,y )在回归直线y ^=-2x +60上,代入线性回归方程可得96+a 4=-20+60,解得a =64,故选C.5.(2019·郑州市第二次质量预测)将甲、乙两个篮球队各5场比赛的得分数据整理成如图所示的茎叶图,由图可知以下结论正确的是( )A .甲队平均得分高于乙队的平均得分B .甲队得分的中位数大于乙队得分的中位数C .甲队得分的方差大于乙队得分的方差D .甲、乙两队得分的极差相等解析:选C.由题中茎叶图得,甲队的平均得分x 甲=26+28+29+31+315=29,乙队的平均得分x 乙=28+29+30+31+325=30,x 甲<x 乙,选项A 不正确;甲队得分的中位数为29,乙队得分的中位数为30,甲队得分的中位数小于乙队得分的中位数,选项B 不正确;甲队得分的方差s 2甲=15×[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=185,乙队得分的方差s 2乙=15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2,s 2甲>s 2乙,选项C 正确;甲队得分的极差为31-26=5,乙队得分的极差为32-28=4,两者不相等,选项D 不正确.故选C.6.(多选)CPI 是居民消费价格指数(consumer price index)的简称.居民消费价格指数是一个反映居民家庭一般所购买的消费品和服务项目价格水平变动情况的宏观经济指标.如图是根据国家统计局发布的2017年6月—2018年6月我国CPI 涨跌幅数据绘制的折线图(注:2018年6月与2017年6月相比较,叫同比;2018年6月与2018年5月相比较,叫环比),根据该折线图,则下列结论错误的是 ( )。
高三数学复习专题三统计与案例

专题三统计与案例学校:___________姓名:___________班级:___________考号:___________一、解答题1.某高校数学系为了控制大一学生上课使用手机,针对上课使用手机情况,进行量化比,若发现上课使用手机则扣除其对应的积分,根据调查发现每次被扣分数与本系一大学生每周上课使用手机人数的关系如下表所示:(1)试根据以上数据,建立y 关于x 的回归直线方程(结果保留一位小数);参考公式:线性回归方程y bx a =+中,1221,ni ii nii x ynxy b a y bx xnx==-==--∑∑.(2)根据上述回归直线方程分析:每次扣分为多少时(精确到整数分)该系大一新生被扣分的总数最大; (3)若学校规定,大一新生每学期(按20周上课计算)因为上课使用手机被扣分总数不超过1000分,则该系大一被定为控制手机合格,那么,每周上课使用手机至少扣多少分时(扣分不低于5分,精确到整数),31.6≈)2.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金,现该企业为了解年研发资金投入额x (单位:亿元)对年盈利额y (单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额i x 和年盈利额i y 的数据.通过对比分析,建立了两个函数模型:①2y x αβ=+;②e x t y λ+=,其中,,,tαβλ均为常数,e 为自然对数的底数.令2i i u x =,ln (1,2,,10)i v y i ==,经计算得如下数据:(1)请从相关系数的角度,分析哪一个模型拟合程度更好;(2)根据(1)的选择及表中数据,建立y 关于x 的回归方程(回归系数精确到0.01).附:相关系数()()niix x y y r --=∑线性回归直线方程y bx a =+,其中附:()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-.3.2021年10月16日,搭载“神州十三号”的火箭发射升空,这是一件让全国人民普遍关注的大事,因此每天有很多民众通过手机、电视等方式观看有关新闻.某机构将每天关注这件大事的时间在2小时以上的人称为“天文爱好者”,否则称为“非天文爱好者”,该机构通过调查,并从参与调查的人群中随机抽取了100人进行分析,得到下表(单位:人)(1)将上表中的数据填写完整,并判断能否在犯错误的概率不超过0.005的前提下认为“天文爱好者”或“非天文爱好者”与性别有关?(2)现从抽取的女性人群中,按“天文爱好者”和“非天文爱好者”这两种类型进行分层抽样抽取5人,然后再从这5人中随机选出3人,求其中至少有1人是“天文爱好者”的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.4.COP15大会原定于2020年10月15-28日在昆明举办,受新冠肺炎疫情影响,延迟到今年10月11-24日在云南昆明举办,同期举行《生物安全议定书》、《遗传资源议定书》缔约方会议.为助力COP15的顺利举行,来自全省各单位各部门的青年志愿者们发扬无私奉献精神,用心用情服务,展示青春风采.会议结束后随机抽取了50名志愿者,统计了会议期间每个人14天的志愿服务总时长,得到如图的频率分布直方图:(1)求x的值,估计抽取的志愿者服务时长的中位数;20,40,80,100这两组样本中随机抽取6名志愿者,记录每个人的服务总时长得(2)用分层抽样的方法从[)[)到如图所示的茎叶图:①已知这6名志愿者服务时长的平均数为67,求m的值;80,100这组的概率.②若从这6名志愿者中随机抽取2人,求所抽取的2人恰好都是[)5.为了了解高二学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3;第二小组频数为12.(1)第二小组的频率是多少,样本容量是多少;(2)若次数在110以上(含110次)为达标,试估计该学校全体高二学生的达标率是多少;(3)在这次测试中,估计学生跳绳次数的众数和中位数、平均数各是多少.(结果均保留整数.)6.2021年10月16日,搭载“神州十三号”的火箭发射升空,这是一件让全国人民普遍关注的大事,因此每天有很多民众通过手机、电视等方式观看有关新闻.某机构将每天关注这件大事的时间在2小时以上的人称为“天文爱好者”,否则称为“非天文爱好者”,该机构通过调查,并从参与调查的人群中随机抽取了100人进行分析,得到下表(单位:人):(1)将上表中的数据填写完整,并判断能否在犯错误的概率不超过0.005的前提下认为“天文爱好者”或“非天文爱好者”与性别有关?(2)现从抽取的女性人群中,按“天文爱好者”和“非天文爱好者”这两种类型进行分层抽样抽取5人,然后再从这5人中随机选出3人,记其中“天文爱好者”的人数为X,求X的分布列和数学期望.附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.7.某投资公司2012年至2021年每年的投资金额x (单位:万元)与年利润增量y (单位:万元)的散点图如图:该投资公司为了预测2022年投资金额为20万元时的年利润增量,建立了y 关于x 的两个回归模型;模型①:由最小二乘公式可求得y 与x 的线性回归方程: 2.5020ˆ.5yx =-;模型②:由图中样本点的分布,可以认为样本点集中在由线:ln y b x a =+的附近,对投资金额x 做换元,令ln t x =,则y b t a =⋅+,且有101010102111122.00,230,569.00,50.92ii i i i i i i i ty t y t ========∑∑∑∑,(1)根据所给的统计量,求模型②中y 关于x 的回归方程;(2)分别利用这两个回归模型,预测投资金额为20万元时的年利润增量(结果保留两位小数);附:样本()()1,1,2,,i t y i n =⋯的最小乘估计公式为()()()121ˆˆˆ,niii ni i t t y y bay bt t t ==--==--∑∑;参考数据:ln20.6931,ln5 1.6094≈≈.8.下图是立德学校高二育才班摸底考试数学成绩不低于90分的人数的频率分布直方图,为激励学生的学习热情,班级决定对数学成绩高于110分的同学进行奖励.(1)若图中成绩在[100,110)分数段的人数为12人,求此次考试应奖励的人数;(2)用统计学知识估计数学成绩在90分及以上学生的数学成绩的中位数和平均数.(结果保留整数)9.某城市在进行新冠疫情防控中,为了解居民对新冠疫情防控的满意程度,组织居民给活动打分(分数为40,100内﹒现将这些分整数,满分为100分),从中随机抽取一个容量为180的样本,发现所有数据均在[]数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示﹒观察图形,回答下列问题:60,70的频数;(1)算出第三组[)(2)请根据频率分布直方图,估计样本的众数、中位数和平均数﹒(每组数据以区间的中点值为代表) 10.某生物小组为了研究温度对某种酶的活性的影响进行了一组实验,实验数据经整理得到如下的折线图:由图可以看出,这种酶的活性指标值y 与温度x 具有较强的线性相关关系,请用相关系数加以说明.附:()()6185i ii x xy y =--=∑5.5= 2.65≈,样本相关系数()()niix x y y r --=∑11.新个体经济是中国经济社会数字化转型条件下出现的新生事物,指微商电商,网络直播、职业创作者等,下表是2021年1至4月份某市新增“微商电商”的统计数据:(1)请利用所给数据求新增微商电商个数y 与月份x 之间的线性回归方程ˆˆˆybx a =+,并预测该市2021年5月新增“微商电商”的个数(结果用四舍五入法保留整数);(2)一般认为当||0.9r ≥时,线性回归方程的拟合效果非常好;当0.75|0.9|r <≤时,线性回归方程的拟合效果良好.试问该线性回归方程的拟合效果是非常好还是良好?说明你的理由.1122211()()ˆ()()n ni iiii i nniii i x y nxy x x y x bxn x x x ====---==--∑∑∑∑,()()nni iiix y nxyx x yy r---=∑∑ˆˆ17.0294ay bx =-≈18.1659≈19.2354≈.。
【北京特级教师】2020-2021学年人教A版数学选修2-3辅导讲义:统计案例

统计案例主讲老师:纪荣强 北京四中数学老师重难点易错点解析题一:某高校《统计》课程的老师随机给出了选该课程的一些状况,具体数据如下:非统计专业 统计专业男 13 10 女 720为了推断选修统计专业是否与性别有关,依据表中数据,得K 2≈4.844,所以可以判定选修统计专业与性别有关.那么这种推断出错的可能性为( )A .5%B .95%C .1%D .99%题二:在独立性检验中,统计量χ2有两个临界值:3.841和6.635.当χ2>3.841时,有95%的把握说明两个大事有关,当χ2>6.635时,有99%的把握说明两个大事有关,当χ2≤3.841时,认为两个大事无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算χ2=20.87.依据这一数据分析,认为打鼾与患心脏病之间( ) A .有95%的把握认为两者有关 B .约有95%的打鼾者患心脏病 C .有99%的把握认为两者有关 D .约有99%的打鼾者患心脏病金题精讲题一:设某高校的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,依据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该高校某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该高校某女生身高为170 cm ,则可断定其体重必为58.79 kg题二:两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.96B .模型2的相关指数R 2为0.86C .模型3的相关指数R 2为0.73D .模型4的相关指数R 2为0.66题三:某种产品的广告费支出x 与销售额y (单位:万元)之间有下表关系: x 2 4 5 6 8 y3040605070y 与x 的线性回归方程为6.5y x a∧=+,则a = ;当广告支出5万元时,随机误差的效应(残差)为 .题四:电视传媒公司为了解某地区电视观众对某类体育节目的收视状况,随机抽取了100名观众进行调查.下面是依据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”. (1)依据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计 男 女 10 55 合计(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中.接受随机抽样方法每次抽取1名观众,抽取3次.记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).附:χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2,P (χ2≥k ) 0.05 0.01 k 3.841 6. 635题五:为了考察某种中药预防流感效果,抽样调查40人,得到如下数据:服用中药的有20人,其中患流感的有2人,而未服用中药的20人中,患流感的有8人. (1)依据以上数据建立2×2列联表;(2)能否在犯错误不超过0.05的前提下认为该药物有效? 参考P (K 2≥k ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828(n =a +b +c +d )题六:某高校高等数学老师这学期分别用A ,B 两种不同的教学方式试验甲、乙两个大一新班(人数均为60人,入学数学平均分数和优秀率都相同;勤奋程度和自觉性都一样).现随机抽取甲、乙两班各20名的高等数学期末考试成果,得到茎叶图:(Ⅰ)依茎叶图推断哪个班的平均分高?(Ⅱ)现从甲班高等数学成果不得低于80分的同学中随机抽取两名同学,求成果为86分的同学至少有一个被抽中的概率;(Ⅲ)学校规定:成果不低于85分的为优秀,请填写下面的列联表,并推断“能否在犯错误的概率不超过0.025的前提下认为成果优秀与教学方式有关?”甲班乙班合计优秀不优秀合计下面临界值表仅供参考:P(K2≥k)0.15 0.10 0.05 0.025 0.010 0.005 0.001k 2.072 2.706 3.841 5.024 6.635 7.879 10.828(参考公式:其中)题七:已知三点(3,10),(7,20),(11,24)的横坐标x与纵坐标y具有线性关系,求其线性回归方程.(参考公式:,)统计案例讲义参考答案重难点易错点解析题一:A 题二:C金题精讲题一:D 题二:A 题三:17.5,10题四:(1) 没有理由认为“体育迷”与性别有关(2) X的分布列为X 012 3P27642764964164E(X)=34. D(X)=916.题五:(1)2×2列联表患流感未患流感总计服用中药 2 18 20未服用中药8 12 20总计10 30 40(2)在犯错误不超过0.05的前提下认为该药物有效题六:(Ⅰ)甲班高等数学成果集中于60-90分之间,而乙班数学成果集中于80-100分之间,所以乙班的平均分高. (Ⅱ);(Ⅲ)在犯错误的概率不超过0.025的前提下可以认为成果优秀与教学方式有关.题七:=1.75x+5.75。
统计与统计案例

统计与统计案例一、 完全解读考纲 考点整合1、几个基本概念:(1)总体:;(2)个体:;(3)样本:;(4)样本容量:。
2、简单随机抽样:(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n N ≤),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样;(2)最常用的简单随机抽样的方法:3、系统抽样:(1)定义:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样);(2)步骤:假设要从容量为N 的总体中抽取容量为n 的样本,①先将总体的N 个个体编号;②确定分段间隔k ,对编号进行分段,当N n 是整数时,取Nk n=;③在第1段用确定第一个个体编号l (l k ≤);④按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号l k +,再加k 得到第3个个体编号2l k +,依次进行下去,第 n 个个体编号为,直到获取整个样本。
4、分层抽样:(1)定义:在抽样时,将总体分成互不相交的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样;(2)分层抽样的应用范围:当总体是由差异明显的几部分组成时,往往选用分层抽样。
例1、某次考试有70000名学生参加,为了了解这70000名考生的数学成绩,从中抽取1000名考生的数学成绩进行统计分析,在这个问题中,有以下四种说法:①1000名考生是总体的一个样本;②可用1000名考生数学成绩的平均数区估计总体平均数;③70000名考生的数学成绩是总体;④样本容量是1000。
其中正确的说法有( )A 、1种;B 、2种;C 、3种;D 、4种例2、一个总体中有100个个体,随机编号为0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为1,2,3,…,10。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总计
30
70
100
法
返 首 页
·
9
·
自 主 练
考
附表:
点
整 合
P(K2≥k0)
0.10
0.05
0.025
专
题
k0
2.706
3.841
5.024
限 时
研 考
参照附表,在犯错误的概率不超过________的前提下,认为“小
集 训
题 动物是否被感染与服用疫苗有关”.
举
题
固
法
返 首 页
·
10
·
自
主
练
0.05 [由题意算得,
返 首
页
13
·
自
主
练
考
3.统计案例
点
整 合
(1)线性回归方程问题的两个要点:样本点的中心在回归直线上; 专
题
由线性回归方程求出的数值是估计值.如 T4.
限 时
研 考
(2)独立性检验的关键在于准确求出 K2 值,然后对比临界值表中
集 训
题
举 的数据,最后下结论.如 T5.
题
固
法
返 首 页
·
14
·
自
主
研 考 题 练
考 点
整
专
合
题
限
时
研 考
举题固法
集 训
题
举 题 固 法
返 首 页
·
15
·
自 主 练
考
点
整
抽样方法(5 年 2 考)
专
合
题
限
时
研
集
考
[高考解读] 全国卷对抽样方法的要求较低,很少单独命题考查. 训
题
举 题 固 法
返 首 页
·
16
·
自
1.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其
点
整 合
频数
专
=频率,此关系式的变形为频率=样本容量,样本容量×频率=频数.
题 限
时
研
(2)总体估计的方法:用样本的数字特征估计总体的数字特征. 集
考
训
题
(3)图表判断法:若根据统计图表比较样本数据的大小,可根据数
·
举
题 据的分布情况直观分析,大致判断平均数的范围,并利用数据的波动
固
法
性大小比较方差(标准差)的大小.如 T3.
主 练
服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调
考 点
查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则
整
合 最合适的抽样方法是________.
专 题
切入点:不同年龄段客户对其服务的评价有较大差异.
限 时
研
关键点:正确掌握三种抽样方法的特点及适用条件.
集
考
训
题 分层抽样 [因为不同年龄段的客户对公司的服务评价有较大差
考
点 整 合
K2=100×50×105×0×303-0×207×0 402≈4.762>3.841,
专 题
限
参照附表,可得:
时
研
集
考
在犯错误的概率不超过 0.05 的前提下,认为“小动物是否被感 训
题
举 题
染与服用疫苗有关”.]
固
法
返 首 页
·
11
·
自
主
练
考
[扣要点——查缺补漏]
点
整 合
1.随机抽样
专
题
简单随机抽样的特点是逐个抽取,适用于总体个数较少的情况; 限 时
研 考
系统抽样也称等距抽样,适用总体个数较多的情况,如 T1;分层抽
集 训
题
举 样一定要注意按比例抽取,总体由差异明显的几部分组成,如 T2.
题
固Байду номын сангаас
法
返 首 页
·
12
2.统计图表和样本数字特征
·
自
主 练
考
频数 (1)由频率分布直方图进行相关计算时,需掌握关系式:样本容量
专
合
生中被抽到的是( )
题
限
A.8 号学生
研
B.200 号学生
时 集
考 题
C.616 号学生
D.815 号学生
固
·
法
故所求回归方程为^y=0.3x-0.4.]
返 首
页
8
·
自
5.在西非“埃博拉病毒”的传播速度很快,这已经成为全球性
主
练 考
的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取 100 只小
点
整 鼠进行试验,得到如下列联表:
专
合
题
感染
未感染
总计
限
时
研
服用
10
40
50
集
考
训
题
未服用
20
30
50
举
题 固
专
合
10
题
个)与加工零件所花费时间 yi(单位:小时)的数据资料,算得∑xi=80, 限
i=1
时
研 10
10
10
集
考 题
∑yi=20,∑xiyi=184,∑x2i =720,那么加工零件所花费时间 y 对零
i=1
i=1
i=1
训
举
题 件个数 x 的线性回归方程为________.
固
法
返 首 页
·
7
·
专
合
抽样的方法抽到的号码为 18,在抽到的 40 人中,编号落入区间[1,200]
题 限
研
的人做试卷 A,编号落入区间[201,560]的人做试卷 B,其余的人做试
时 集
考 题
卷 C,则做试卷 C 的人数为(
)
训
举
题
A.10
B.12
C.18
D.28
固
法
[答案] B
返
首
页
·
4
·
自
主
练
2.某校有高级教师 26 人,中级教师 104 人,其他教师若干人,
举
题 异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公
固
法 司服务的客观评价.]
返
首
页
·
17
·
2.(2019·全国卷Ⅰ)某学校为了解 1 000 名新生的身体素质,将
自
主 练
这些学生编号为 1,2,…,1 000,从这些新生中用系统抽样方法等距
考
点 整
抽取 100 名学生进行体质测验.若 46 号学生被抽到,则下面 4 名学
考
点 整
现按分层抽样的方法从该校的所有教师中抽取 56 人进行某项调查,
专
合
已知从其他教师中共抽取了 16 人,则该校共有教师人数为 (
题
)限
时
研
A.81 B.152 C.182 D.202
集
考
训
题
[答案] C
举
题
固
法
返 首 页
·
5
·
自 主 练
考
点
3.为了参加端午节龙舟赛,某龙舟队进行了 6 次
整
专
合 测试,测得最大速度(单位:m/s)的茎叶图如图所示,则
题
限
6 次测试的最大速度的平均数为________m/s,方差为________. 时
研
集
考 题
举
[答案]
33
47 3
训
题
固
法
返 首 页
·
6
·
自
主 练
4.一个车间为了规定工时定额,需要确定加工零件所花费的时
考
点 整
间,为此进行了 10 次试验,收集数据,第 i 次试验零件个数 xi(单位:
自
^y=0.3x-0.4 [由题意知
主 练
考 点
n=10, x =1n∑ i=n1xi=1800=8, y =1ni∑=n1yi=1200=2,
整
n
专
合
又∑x2i -n x 2=720-10×82=80,
题
i=1
限
n
时
研
∑xiyi-n x y =184-10×8×2=24,
考
i=1
集 训
题
举 题
由此得b^=2840=0.3,a^= y -b^ x =2-0.3×8=-0.4,
第二部分 讲练篇
专题三 概率与统计 第2讲 统计与统计案例
2
·
自
主
自 主 练 练
考 点
整
专
合
题
限
时
研 考
考点整合
集 训
题
举 题 固 法
返 首 页
·
3
·
自
[做小题——激活思维]
主
练
1.采用系统抽样的方法从 800 人中抽取 40 人参加某种测试,为
考
点 整
此将 800 人随机编号为 1,2,…,800,分组后在第一组采用简单随机