高考数学二轮复习-统计与统计案例知识点总结
高三统计与统计案例知识点
高三统计与统计案例知识点开头:在高三学习中,统计学是一个重要的学科,它涉及到数据的收集、分析和解释。
学习统计学的目的是使学生能够理解并运用统计方法来解决问题。
下面,我们将介绍一些高三统计学的知识点以及一些统计案例,希望能对大家的学习有所帮助。
1. 数据的收集与整理数据收集是统计学的第一步,它是通过各种方法获取数据的过程。
在收集数据时,我们需要注意数据的准确性和完整性。
无论是实验数据还是调查数据,都需要遵循严谨的方法和标准。
收集到数据后,我们需要对数据进行整理和分类,以便更好地进行后续的分析。
统计案例:某学校为了了解学生的健康状况,进行了一次体质测试。
学生们的体重被测量并记录下来。
这些数据需要被整理成表格或图形,以便分析学生的体重分布情况。
2. 数据的描述与处理在统计学中,我们常常需要对数据进行描述和处理。
一般来说,数据可以用图形和数字来表达。
图形可以帮助我们更直观地了解数据的分布情况,比如频率分布直方图、饼图等。
数字则可以用来对数据进行统计分析,比如平均数、中位数、众数等。
统计案例:某班级进行了一次语文考试,成绩如下:60、65、70、75、80、85、90、95、100。
为了了解学生的整体水平,我们可以计算出平均分,即 (60+65+70+75+80+85+90+95+100)/9=80。
通过计算平均分,我们可以初步判断班级的平均水平。
3. 概率与统计的关系概率是统计学的基础,它是研究随机事件发生的可能性的一门学科。
概率可以帮助我们预测未来事件的发生概率,从而对决策和规划提供参考。
统计案例:某超市想要推销新款产品,他们进行了一次样本调查,来了解顾客购买新产品的可能性。
调查结果显示,有70%的顾客表示愿意尝试新产品。
根据这个调查结果,超市可以对新产品的上市量进行初步规划,以满足顾客的需求。
4. 统计推断与取样调查在实际的统计分析中,由于数据量庞大或成本限制,我们往往无法对整个总体进行数据收集和分析。
2021年高考理科数学二轮复习专题五计数原理、统计与概率
2021年高考理科数学二轮复习专题五计数原理、统计与概率(一)、计数原理一、排列数与组合数1、排列数:计算公式:2、组合数:①计算公式:()()()()()()121!1221!!mm nn mmn n n n mA nCA m m m m n m---+===--⋅-②组合数的性质:性质1:;性质2:(连续两个组合数的和)二、排列组合与两个基本原理的应用(一)、排列问题1、位置限制:解法:①先考虑限制元素,再考虑无限制的元素(加法原理)②多种限制:用二分法或枚举法2、排队限制:元素间排队的方式有限制①相邻:捆绑法(勿忘内部的排列);②互不相邻:插板法(先排无关元素再插入限制元素)③注意分类讨论以及正难则反(二)、组合问题1、分配问题: k个对象所得元素确定,即将n个不同的元素按不同数量分别分给则共有2、分组问题:将元素按一定数量方案分成k组,注意用除法,即,(t为数量一样的堆数)3、先分组再分配问题:k对象所得元素不确定,注意用乘法。
即。
(分给k个人)【典例1】①将6本书分给甲2本,乙3本,丙1本:(分配问题)②将6本书分成3堆,每堆2本:(分组问题)③将6本书分给甲乙丙,一个人4本,其他两人各一本:(先分组再分配)三、二项式定理(一)基本特征1、展开有n+1项,每项中a、b的指数和为n。
2、通项公式:第r+1项(二)常见题型1、求指定项(有理项、常数项等):通项公式2、求所以项二项式系数..的和:①二项式系数;奇数项与偶数项二项式系数之和相等。
.....、系数②系数:常用特值带入法(令x=0或1或-1)3、系数最值问题:①二项式系数:越中间,二项式系数越大。
(n为奇数,展开有偶数个项,中间两项二项式系数最大、n为偶数,展开有奇数个项,中间项二项式系数最大)②系数:写出通项,列出不等式组4、三项式展开式求指定项:组合的应用:每个括号里必须且只能选一个,根据组合得到答案。
5、求余数:将目标数写出接近除数的和或差的形式,然后计算【典例2】设已知均为整数(),若和被除所得的余数相同,则称和对模同余,记为,若,且a≡b(mod10),则b的值可以是(A)A.2011 B.2012 C .xx D.xx(二)、概率一、概率的基本性质与运算1、互斥事件与对立事件:①A 、B 为互斥事件是A 、B 为对立事件的必要不充分条件②若A 、B 为互斥事件则;③若A 、B 为对立事件则()()()()()1,1P A B P A P B P A P B ⋃==+=-即(正难则反)2、独立事件: A 、B 为独立事件,则3、条件概率:在A 事件发生的情况下,B 事件发生的概率为4、几何概型与古典概型:①古典概型:②几何概型:()()()A m P A n ==构成事件的区域的长度角度、面积、体积全部事件构成的区域的长度角度、面积、体积(常与线性规划结合) 二、随机变量及其分布列1、数学期望与方差的计算方法:①数学期望:;方差:②数学期望与方差的性质:;2、常见随机变量的概率分布:(三)、统计一、抽样方法二、用样本估计总体——统计数据的分析与应用1、茎叶图:①图像特征(读图):中间列为数据的十位数,两边为各组数据的个位数②优点:便于看出中位数以及集中程度2、频率分布直方图:①特征:纵轴:;柱形面积:对应的频率;所有柱形面积=1②频率分布直方图中数据信息的获取:A 、众数:最高柱形的中点横坐标B 、中位数:将所有柱形面积平分成一半的点的横坐标C 、平均数:每条柱形的中点×对应柱形的面积(频率)D 、方差:()()2×-每条柱形中点平均数对应柱形面积频率三、统计案例1、连续型随机变量——正态分布①正态分布表示:::数学期望;②图像特征:A 、关于直线对称;B 、越大(小),数据越分散(集中),图像越矮胖(高瘦) ③应用:利用对称性或查表获得对应概率。
高中数学统计案例分析及知识点归纳总结
统计一、知识点归纳1、抽样方法:①简单随机抽样(总体个数较少) ②系统抽样(总体个数较多) ③分层抽样(总体中差异明显)注意:在N 个个体的总体中抽取出n 个个体组成样本,每个个体被抽到的机会(概率)均为Nn 。
2、总体分布的估计: ⑴一表二图:①频率分布表——数据详实 ②频率分布直方图——分布直观③频率分布折线图——便于观察总体分布趋势 注:总体分布的密度曲线与横轴围成的面积为1。
⑵茎叶图:①茎叶图适用于数据较少的情况,从中便于看出数据的分布,以及中位数、众位数等。
②个位数为叶,十位数为茎,右侧数据按照从小到大书写,相同的数据重复写。
3、总体特征数的估计: ⑴平均数:nx x x x x n++++=321;取值为n x x x ,,,21 的频率分别为n p p p ,,,21 ,则其平均数为n n p x p x p x +++ 2211; 注意:频率分布表计算平均数要取组中值。
⑵方差与标准差:一组样本数据n x x x ,,,21方差:212)(1∑=-=ni ix xns ; 标准差:21)(1∑=-=ni ix xns注:方差与标准差越小,说明样本数据越稳定。
平均数反映数据总体水平;方差与标准差反映数据的稳定水平。
⑶线性回归方程①变量之间的两类关系:函数关系与相关关系; ②制作散点图,判断线性相关关系③线性回归方程:a bx y +=∧(最小二乘法)1221ni i i nii x y nx y b x nx a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑ 注意:线性回归直线经过定点),(y x 。
二、典例分析§11.1 抽样方法基础自测1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 .答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 .答案①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 .答案3,9,184.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n= .答案80例1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案.解抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签;第三步:将18个号签放入一个不透明的盒子里,充分搅匀;第四步:从盒子中逐个抽取6个号签,并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员.随机数表法:第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施.解(1)将每个人随机编一个号由0001至1003.(2)利用随机数法找到3个号将这3名工人剔除.(3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k =100001=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l .(6)按编号将l ,100+l ,200+l ,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.解 应采取分层抽样的方法. 3分 过程如下:(1)将3万人分为五层,其中一个乡镇为一层. 5分 (2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人),10分因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. 12分(3)将300人组到一起即得到一个样本.14分练习:一、填空题1.某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 . 答案 15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .答案 系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是 (填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样 ③从某厂生产的2 000个电子元件中随机抽取200个入样 ④从某厂生产的20个电子元件中随机抽取5个入样 答案 ③4.某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 . 答案 分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是 (填序号). ①高一学生被抽到的概率最大 ②高三学生被抽到的概率最大 ③高三学生被抽到的概率最小 ④每名学生被抽到的概率相等 答案 ①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 . 答案 67.一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工 人. 答案 108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 07959.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴510=2,570=14,520=4∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n . 解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n36,分层抽样的比例是36n ,抽取工程师36n ×6=6n (人),抽取技术人员36n ×12=3n (人),抽取技工36n×18=2n (人).所以n 应是6的倍数,36的约数即n =6,12,18,36.当样本容量为(n +1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.总体分布的估计与总体特征数的估计1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 52.右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m ,该组在频率分布直方图的高为h ,则|a -b |= . 答案 hm4.从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .分数 5 4 3 2 1 人数 20 10 30 30 10 答案 51025.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40典型例题:例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方基础自测图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:(1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件? (3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)第三组的频率为1464324+++++=51又因为第三组的频数为12,∴参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下:甲:102, 101, 99, 98, 103, 98, 99; 乙:110, 115, 90, 85, 75, 115, 110. (1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定.解 (1)因为间隔时间相同,故是系统抽样. 2分 (2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6. 9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分 方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分练习:1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n , 则有n =第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内.练习:一、填空题1.下列关于频率分布直方图的说法中不正确的是 . ①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 ①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定. 答案 甲 乙4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分成六组:右图是得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x ,成绩大于等于15秒且小于17秒的学生人数为y ,则从频率分布直方图中可分析出x 和y 分别为 . 答案 0.9, 356.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x 甲、x 乙,则x 甲 x 乙, 比 稳定. 答案 < 乙 甲7.已知总体的各个体的值由小到大依次为2,3,3,7,a ,b ,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a 、b 的取值分别是 . 答案 10.5、10.5二、解答题10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数, 所以样本容量=第二小组频率第二小组频数=08.012=150. (2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.线性回归方程1.下列关系中,是相关关系的为(填序号).①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.答案①②2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t)③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案①3.下列有关线性回归的说法,正确的是(填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=bˆx+aˆ及回归系数bˆ,可以估计和预测变量的取值和变化趋势.其中正确命题的序号是 .答案①②③5.已知回归方程为yˆ=0.50x-0.81,则x=25时,yˆ的估计值为 .答案11.69例1下面是水稻产量与施化肥量的一组观测数据:施化肥量15 20 25 30 35 40 45水稻产量320 330 360 410 460 470 480(1)将上述数据制成散点图;基础自测(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长. 例2(14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程.解(1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系.7分1 (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,(2)x=101(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,y=109分bˆ=∑∑==-•-ni ini i i x n xyx n y x 1221≈0.813 6,a ˆ=1.42-1.74×0.813 6≈0.004 3, 13分∴回归方程yˆ=0.813 6x +0.004 3.14分例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx +a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -•-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ=y -b ˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x +0.35. (3)现在生产100吨甲产品用煤y =0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.年平均气温 12.51 12.84 12.84 13.69 13.33 12.74 13.05 年降雨量748542507813574701432(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系. 2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:温度(x ) 0 10 20 50 70 溶解度(y )66.776.085.0112.3128.0由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =50.1283.1120.850.767.66++++=93.6.bˆ=25125155x xyx yx i ii ii -•-∑∑==≈0.880 9.aˆ=y -b ˆx =93.6-0.880 9×30=67.173. ∴回归方程为yˆ=0.880 9x +67.173.3.(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,∑=61i i x =21,∑=61i i y =426,x =3.5,y =71,∑=612i i x =79,∑=61i i i y x =1 481,bˆ=26126166x xyx yx i ii ii -•-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y -b ˆx =71+1.82×3.5=77.37. 回归方程为yˆ=a ˆ+b ˆx =77.37-1.82x . (2)因为单位成本平均变动bˆ=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有:产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入回归方程:yˆ=77.37-1.82×6=66.45(元) 当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .答案 a ,c ,b2.回归方程yˆ=1.5x -15,则下列说法正确的有 个. ①y =1.5x -15 ②15是回归系数a ③1.5是回归系数a ④x =10时,y =0 答案 13.某地区调查了2~9岁儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模型为yˆ=8.25x +60.13,下列叙述正确的是 .①该地区一个10岁儿童的身高为142.63 cm②该地区2~9岁的儿童每年身高约增加8.25 cm ③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 ②4.三点(3,10),(7,20),(11,24)的回归方程是 .答案 yˆ=1.75x +5.75 5.某人对一地区人均工资x (千元)与该地区人均消费y (千元)进行统计调查,y 与x 有相关关系,得到回归直线方程yˆ=0.66x +1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 .答案 83%6.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=81i i x =52, ∑=81i i y =228, ∑=812i i x =478, ∑=81i i i y x =1 849,则其线性回归方程为 .答案 yˆ=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 . 答案 ①③④8.若y 对x 呈线性相关关系,则回归直线方程yˆ=b ˆx +a ˆ表示的直线一定过定点 .答案 (4,5) 二、解答题9.(1(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点. 解 (1)数学成绩和物理成绩具有相关关系.(2)以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近. 10.(1(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:(2)x =109,y =23.2,∑=512i i x =60 975,∑=51i iiy x=12 952,bˆ=25125155x xyx yx i ii ii -•-∑∑==≈0.196 2aˆ=y -b ˆx ≈1.814 2∴所求回归直线方程为yˆ=0.196 2x +1.814 2. 11.(1(2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:(2)x =71(10+15+17+20+25+28+32)=21,y =71(1+1.3+1.8+2+2.6+2.7+3.3)=2.1, ∑=712i ix=102+152+172+202+252+282+322=3 447,∑=71i iiy x=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,bˆ=27127177x x yx yx i i i ii -•-∑∑===221744731.22173.346⨯-⨯⨯-≈0.104, aˆ=y -b ˆx =2.1-0.104×21=-0.084, ∴yˆ=0.104x-0.084. (3)把x =24(千万元)代入方程得,yˆ=2.412(千万元). ∴估计销售总额为24千万元时,利润为2.412千万元.12.(1)画出散点图;(2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2因此,x =525=5,y =5250 =50,∑=512i i x =145, ∑=512i i y=13 500, ∑=51i i i y x =1 380.于是可得:bˆ=25125155x xyx yx i ii ii -•-∑∑===55514550553801⨯⨯-⨯⨯-=6.5;aˆ=y -b ˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x +17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.§11.4 统计案例1.对有线性相关关系的两个变量建立的回归直线方程yˆ=a ˆ+b ˆx 中,回归系数b ˆ与0的大小关系为 .(填序号)①大于或小于 ②大于 ③小于 ④不小于答案 ①2.如果有90%的把握说事件A 和B 有关系,那么具体计算出的数据χ2 2.706.(用“>”,“<”,“=”填空) 答案 >3.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是 . ①模型Ⅰ的相关系数r 为0.98 ②模型Ⅱ的相关系数r 为0.80 ③模型Ⅲ的相关系数r 为0.50 ④模型Ⅳ的相关系数r 为0.25 答案 ①4.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 . 答案 ①③例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:患慢性气管炎 未患慢性气管炎 总计 吸烟 43 162 205 不吸烟 13 121 134 合计 56 283 339试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到χ2=))()()(()(2c d b d c a b a bc ad n ++++- 2分 =13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A ={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有基础自测1%. 14分例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有 缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内? 解 (1)x =12.5,y =8.25,∑=41i iiy x=438,4x y =412.5,∑=412i i x =660,∑=412i i y =291,所以r =)4)(4(42412241241y yx xyx yx i ii ii ii --•-∑∑∑====)25.272291()625660(5.412438-⨯--=25.6565.25≈62.2550.25≈0.995 4.因为r >r 0.05,所以y 与x 有很强的线性相关关系.(2)yˆ=0.728 6x -0.857 1. (3)要使yˆ≤10⇒0.728 6x -0.857 1≤10, 所以x ≤14.901 3.所以机器的转速应控制在14.901 3转/秒以下.例3 下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的回归 方程y解作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此,y与x之间应是非线性相关关系.与已学函数图象比较,用yˆ=e a x bˆˆ 来刻画题中模型更为合理,令zˆ=ln yˆ,则zˆ=bˆx+aˆ,题可以用线性回归方程拟合.由表中数据可得r≈-0.996.|r|>r0.05.认为x与z之间具有线性相关关系,由表中数据得bˆ≈-0.298,aˆ≈8.165,所以zˆ=-0.298x+8.165,最后回代zˆ=ln yˆ,即yˆ=e-0.298x+8.165为所求.1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.解(1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P1=5024=2512,又因为不太主动参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=5019.(2)由2χ统计量的计算公式得2χ=25252624)761918(502⨯⨯⨯⨯-⨯⨯≈11.538,由于11.538>10.828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.2.某个体服装店经营某种服装,一周内获纯利y (元)与该周每天销售这种服装的件数x 之间的一组数据如下:已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,此时r 0.05=0.754.(1)求x ,y ;(2)判断一周内获纯利润y 与该周每天销售件数x 之间是否线性相关,如果线性相关,求出回归直线方程.解 (1)x =71(3+4+5+6+7+8+9)=6,y =71 (66+69+73+81+89+90+91)≈79.86.(2)根据已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,得相关系数 r =)86.79730945)(67280(86.7967487322⨯-⨯-⨯⨯-≈0.973.由于0.973>0.754,所以纯利润y 与每天销售件数x 之间具有显著线性相关关系. 利用已知数据可求得回归直线方程为 yˆ=4.746x +51.386. 3.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x1之间是否具有线性相关关系,如有,求出y对x 的回归方程.解 首先作变量置换,令u =x1,题目所给数据变成如下表所示的10对数据:。
2021高考数学二轮专题复习专题五第1讲 统计与统计案例
第1讲 统计与统计案例[考情分析] 高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体,线性回归方程的求解与运用,独立性检验问题.常与概率综合考查,中等难度. 考点一 统计图表 核心提炼1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数. 频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例1 (1)(多选)(2020·新高考全国Ⅱ)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )A .这11天复工指数和复产指数均逐日增加B .这11天期间,复产指数增量大于复工指数的增量C .第3天至第11天复工复产指数均增大都超过80%D .第9天至第11天复产指数增量大于复工指数的增量 答案 CD(2)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:将阅读时间不低于30分钟的学生称为“阅读霸”,则下列结论正确的是( )A.抽样表明,该校约有一半学生为阅读霸B.该校只有50名学生不喜欢阅读C.该校只有50名学生喜欢阅读D.抽样表明,该校有50名学生为阅读霸答案 A解析根据频率分布直方图可列下表:阅读时间(分钟)[0,10)[10,20)[20,30)[30,40)[40,50)[50,60]抽样人数(名)1018222520 5抽样100名学生中有50名为阅读霸,占一半,据此可判断该校约有一半学生为阅读霸.易错提醒(1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂.(2)频率分布直方图中纵坐标不要误以为频率.跟踪演练1 (1)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温不低于20 ℃的月份有5个答案 D解析由题中雷达图易知A,C正确.七月份平均最高气温超过20 ℃,平均最低气温约为13 ℃;一月份平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月平均温差大,故B正确.由题图知平均最高气温不低于20 ℃的月份为六、七、八月,有3个.(2)(多选)(2020·重庆模拟)新高考方案规定,普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考),其中“选择考”成绩将计入高考总成绩,即将学生考试时的原始卷面分数由高到低进行排序,评定为A,B,C,D,E五个等级,再转换为分数计入高考总成绩.某试点高中2020年参加“选择考”总人数是2018年参加“选择考”总人数的2倍,为了更好地分析该校学生“选择考”的水平情况,统计了该校2018年和2020年“选择考”成绩等级结果,得到如图所示的统计图.针对该校“选择考”情况,2020年与2018年比较,下列说法正确的是( ) A .获得A 等级的人数增加了 B .获得B 等级的人数增加了1.5倍 C .获得D 等级的人数减少了一半 D .获得E 等级的人数相同 答案 AB解析 设2018年参加“选择考”的总人数为x ,则2020年参加“选择考”的总人数为2x ,根据图表得出2018年和2020年各个等级的人数如表所示.等级年份 AB C D E2018 0.28x 0.32x 0.30x 0.08x 0.02x 20200.48x0.8x0.56x0.12x0.04x由表可知,获得A 等级的人数增加了,故A 正确;获得B 等级的人数增加了0.8x -0.32x0.32x=1.5倍,故B 正确;获得D 等级的人数增加了,故C 错误;获得E 等级的人数不相同,故D 错误.考点二 回归分析 核心提炼在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有相关关系.若具有线性相关关系,则回归直线过样本点的中心(x ,y ),并且可通过线性回归方程估计预报变量的值.例2 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120x i =60,∑i =120y i =1 200,∑i =120(x i -x )2=80,∑i =120(y i -y )2=9 000,∑i =120(x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x )2∑i =1n(y i -y)2,2≈1.414.解 (1)由已知得样本平均数y =120∑i =120y i =60,从而该地区这种野生动物数量的估计值为 60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑i =120(x i -x )(y i -y)∑i =120(x i -x )2∑i =120(y i -y)2=80080×9 000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计. 规律方法 样本数据的相关系数r =∑ni =1 (x i -x )(y i -y )∑n i =1(x i -x )2∑ni =1(y i -y )2,反映样本数据的相关程度,|r |越大,则相关性越强.跟踪演练2 (1)已知某产品的销售额y 与广告费用x 之间的关系如下表:若求得其线性回归方程为y ^=6.5x +a ^,则预计当广告费用为6万元时的销售额为( ) A .42万元 B .45万元 C .48万元 D .51万元 答案 C解析 由题意,根据上表中的数据, 可得x =2,y =22, 即样本点的中心为(2,22),又线性回归方程y ^=6.5x +a ^经过样本点的中心,所以22=6.5×2+a ^,解得a ^=9,所以y ^=6.5x +9,当x =6时,y ^=48.(2)(2020·河北衡水中学月考)有一散点图如图所示,在5个(x ,y )数据中去掉D (3,10)后,下列说法正确的是( )A.残差平方和变小B.相关系数r变小C.相关指数R2变小D.解释变量x与预报变量y的相关性变弱答案 A解析∵从散点图可分析得出:只有D点偏离直线远,去掉D点,解释变量x与预报变量y的线性相关性变强,∴相关系数变大,相关指数变大,残差平方和变小,故选A.考点三独立性检验核心提炼假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).例3 (2020·新高考全国Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:SO2 [0,50](50,150](150,475](1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解(1)由表格可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+6+18+8=64,所以该市一天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(2)由所给数据,可得2×2列联表:(3)根据2×2列联表中的数据可得K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(64×10-16×10)2 80×20×74×26≈7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.规律方法独立性检验的关键(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.(2)K2的观测值k越大,对应的假设H0成立的概率越小,H0不成立的概率越大.跟踪演练3 (1)随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.附表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算得,K 2的观测值k =100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 由题意知,K 2的观测值k ≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.(2)某校团委对“学生性别和喜欢某视频APP 是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢某视频APP 的人数占男生人数的16,女生喜欢某视频APP 的人数占女生人数的23,若有95%的把握认为喜欢某视频APP 和性别有关,则男生至少有( ) 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).A .12人B .6人C .10人D .18人 答案 A解析 设被调查的男生人数为x ,则被调查的女生人数为x2,则2×2列联表为若有95%的把握认为喜欢某视频APP 和性别有关,则K 2≥3.841,即K 2=3x 2⎝ ⎛⎭⎪⎫x 6×x 6-5x 6×x 32x ×x 2×x 2×x=3x8≥3.841,则x ≥3.841×83≈10.243,又x 2,x 3,x6均为整数,所以男生至少有12人. 专题强化练一、单项选择题1.某人5次上班途中所花的时间(单位:分钟)分别为x ,y,10,11,9,已知这组数据的平均数为10,方差为2,则|x -y |的值为( ) A .4 B .3 C .2 D .1 答案 A解析 依题意有x +y +10+11+95=10,(x -10)2+(y -10)2+(10-10)2+(11-10)2+(9-10)2=5×2,解得x =8,y =12或x =12,y =8,故|x -y |=4.2.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7 D .0.8答案 C解析根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7.3.(2020·全国Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图可以看出,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln x答案 D解析由散点图可以看出,点大致分布在对数型函数的图象附近.4.某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85 mm,现分别从他们生产的零件中各随机抽取8件进行检测,其尺寸(单位:mm)用茎叶图表示如图所示,则估计( )A.甲、乙生产的零件尺寸的中位数相等B.甲、乙生产的零件质量相当C.甲生产的零件质量比乙生产的零件质量好D .乙生产的零件质量比甲生产的零件质量好 答案 D解析 甲生产的零件尺寸是93,89,88,85,84,82,79,78;乙生产的零件尺寸是90,88,86,85,85,84,84,78.故甲生产的零件尺寸的中位数是85+842=84.5,乙生产的零件尺寸的中位数是85+852=85,故A 错误;根据数据分析,乙的数据较稳定,故乙生产的零件质量比甲生产的零件质量好,故B ,C 错误.5.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是( )A .得分在[40,60)之间的共有40人B .从这100名参赛者中随机选取1人,其得分在[60,80)之间的概率为0.5C .估计得分的众数为55D .这100名参赛者得分的中位数为65 答案 D解析 根据频率和为1,计算(a +0.035+0.030+0.020+0.010)×10=1,解得a =0.005, 得分在[40,60)之间的频率是0.4,估计得分在[40,60)之间的有100×0.4=40(人),A 正确;得分在[60,80)之间的频率为0.5,可得从这100名参赛者中随机选取1人,得分在[60,80)之间的概率为0.5,B 正确;根据频率分布直方图知,最高的小矩形对应的底边中点为50+602=55,即估计众数为55,C 正确;根据频率分布直方图知,得分低于60分的直方图面积为(0.005+0.035)×10=0.4<0.5,而得分低于70分的直方图面积为(0.005+0.035+0.030)×10=0.7>0.5,所以100名参赛者得分的中位数估计为60+0.5-0.40.030≈63.3,D错误. 二、多项选择题6.(2020·烟台模拟)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下表所示的列联表,经计算K 2的观测值k ≈4.762,则可以推断出( )A.该学校男生对食堂服务满意的概率的估计值为35B .调研结果显示,该学校男生比女生对食堂服务更满意C .有95%的把握认为男、女生对该食堂服务的评价有差异D .有99%的把握认为男、女生对该食堂服务的评价有差异 答案 AC解析 对于选项A ,该学校男生对食堂服务满意的概率的估计值为3030+20=35,故A 正确;对于选项B ,该学校女生对食堂服务满意的概率的估计值为4040+10=45>35,故B 错误;因为k ≈4.762>3.841,所以有95%的把握认为男、女生对该食堂服务的评价有差异,故C 正确,D 错误.7.(2020·河北衡水中学月考)5G 时代已经到来,5G 的发展将直接带动包括运营、制造、服务在内的通信行业经济的快速增长,进而对GDP 增长产生直接贡献,并通过产业间的关联效应和波及效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图是某单位结合近几年数据,对今后几年的5G 经济产出所做的预测.结合上图,下列说法正确的是( )A.5G的发展带动今后几年的总经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.信息服务商与运营商的经济产出的差距有逐步拉大的趋势D.设备制造商在各年的经济产出中一直处于领先地位答案ABC解析由图易知A,B,C正确,而设备制造商的经济产出在2029年和2030年将低于信息服务商的经济产出,故D 错误.8.(2020·青岛模拟)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图,则下列结论正确的是( )注:90后指1990年及以后出生,80后指1980-1989年之间出生,80前指1979年及以前出生.A.互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上B.互联网行业中从事技术岗位的人数超过总人数的20%C.互联网行业中从事运营岗位的人数90后比80前多D.互联网行业中从事技术岗位的人数90后比80后多答案ABC解析选项A,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术和运营岗位的人数占的比分别为39.6%和17%,则“90后”从事技术和运营岗位的人数占总人数的56%×(39.6%+17%)≈31.7%.“80前”和“80后”中必然也有从事技术和运营岗位的人,则总的占比一定超过三成,故选项A 正确;选项B ,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术岗位的人数占的比为39.6%,则“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%.“80前”和“80后”中必然也有从事技术岗位的人,则总的占比一定超过20%,故选项B 正确;选项C ,“90后”从事运营岗位的人数占总人数的比为56%×17%≈9.5%,大于“80前”的总人数所占比3%,故选项C 正确;选项D ,“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%,“80后”的总人数所占比为41%,条件中未给出“80后”从事技术岗位的占比,故不能判断,所以选项D 错误. 三、填空题9.某企业的一种商品的产量与成本数据如下表:若根据表中提供的数据,求出y 关于x 的线性回归方程为y ^=-1.15x +28.1,则a 的值为________. 答案 5解析 由题意知x =14+16+18+20+225=905=18,y =12+10+7+a +35=32+a5,又y =-1.15×18+28.1=7.4, 所以32+a5=7.4,解得a =5.10.已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量为________,抽取的高中生近视人数为________.答案 200 20解析 由题图甲知,总人数为3 500+2 000+4 500=10 000,所以样本容量为10 000×2%=200,抽样比例为150,所以高中生抽取的学生数为40,所以抽取的高中生近视人数为40×50%=20.11.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________.(填序号)答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误.12.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是________.(填序号)①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; ④若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg. 答案 ④解析 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故①正确;因为回归直线必过样本点的中心(x ,y ),所以②正确;由线性回归方程的意义知,某女生的身高增加1 cm ,其体重约增加0.85 kg ,故③正确;当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,这不是确定值,因此④不正确. 四、解答题13.某公司为了了解广告投入对销售收益的影响,在若干地区各投入3.5万元广告费用,并将各地的销售收益绘制成频率分布直方图,如图所示,由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入3.5万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值); (3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入x (单位:万元) 1 2 3 4 5 销售收益y (单位:万元)2327表中的数据显示,x 与y 之间存在线性相关关系,请将(2)中的结果填入空白栏,并计算y 关于x 的线性回归方程.附:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x .解 (1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.10+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5.(3)空白栏中填5.由题意可知,x =1+2+3+4+55=3,y =2+3+2+5+75=3.8,∑5i =1x i y i =1×2+2×3+3×2+4×5+5×7=69,∑5i =1x 2i =12+22+32+42+52=55.根据公式可求得b ^=∑i =15x i y i -5 x y∑i =15x 2i -5x 2=69-5×3×3.855-5×32=1210=1.2, a ^=3.8-1.2×3=0.2,即线性回归方程为y ^=1.2x +0.2.14.(2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由频数分布表可知,该市一天的空气质量等级为1的概率为2+16+25100=0.43,等级为2的概率为5+10+12100=0.27,等级为3的概率为6+7+8100=0.21,等级为4的概率为7+2+0100=0.09.(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100×20+300×35+500×45100=350.(3)2×2列联表如下:K 2=100×(33×8-37×22)255×45×70×30≈5.820>3.841, 因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.。
高考数学二轮复习专题突破—统计与统计案例(含解析)
高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。
数学二轮复习专题限时集训2统计与统计案例随机事件的概率古典概型几何概型含解析文
专题限时集训(二) 统计与统计案例随机事件的概率、古典概型、几何概型1.(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数B[评估这种农作物亩产量稳定程度的指标是标准差或方差,故选B.]2.(2019·全国卷Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为()A.0。
5 B.0。
6 C.0.7 D.0。
8C[由题意得,阅读过《西游记》的学生人数为90-80+60=70,则其与该校学生人数之比为70÷100=0.7.故选C.]3.(2018·全国卷Ⅲ)若某群体中的成员只用现金支付的概率为0.45,既用现金支付也用非现金支付的概率为0.15,则不用现金支付的概率为()A.0.3 B.0。
4 C.0.6 D.0.7B[设“只用现金支付”为事件A,“既用现金支付也用非现金支付”为事件B,“不用现金支付”为事件C,则P(C)=1-P(A)-P(B)=1-0.45-0。
15=0。
4。
故选B.]4.(2016·全国卷Ⅱ)某路口人行横道的信号灯为红灯和绿灯交替出现,红灯持续时间为40秒.若一名行人来到该路口遇到红灯,则至少需要等待15秒才出现绿灯的概率为() A.错误!B.错误!C.错误!D.错误!B[如图,若该行人在时间段AB的某一时刻来到该路口,则该行人至少等待15秒才出现绿灯.AB长度为40-15=25,由几何概型的概率公式知,至少需要等待15秒才出现绿灯的概率为错误!=错误!,故选B.]5.(2020·全国卷Ⅲ)设一组样本数据x1,x2,…,x n的方差为0。
高三数学统计案例知识点
高三数学统计案例知识点统计学是数学的一个分支,是研究数据收集、整理、分析和解释的科学方法和技术。
在高三数学中,统计学是一项重要的内容,本文将介绍高三数学统计案例的知识点。
一、数据的收集与整理1. 可数数据和连续数据:可数数据是指可以一一列举的数据,如人数、成绩等;连续数据是指在一定范围内取值的数据,如身高、体重等。
2. 调查和实验:调查是收集数据的方法之一,通过问卷、观察等方式获取数据;实验是进行有计划的操作来观察和测量,得出定量的数据。
3. 数据的整理与处理:数据整理包括数据的清理、汇总和分类,可以使用表格、图表等形式展示数据。
二、统计指标的计算与分析1. 中心倾向的度量:平均数是一组数据总和除以样本个数,可以衡量数据的中心位置;中位数是将一组数据按从小到大排列后,中间的数值。
2. 数据的离散程度:离差是指观察值与平均数的差值;标准差是离差的平均值的平方根,可以衡量数据的离散情况。
3. 分布的形态:偏态是指数据分布的不对称程度,正偏态表示右侧尾部较长,负偏态表示左侧尾部较长;峰态是指数据分布峰值的陡峭程度,正态分布峰态为3。
三、概率与统计1. 随机事件与概率:随机事件是指在一次试验中可能发生也可能不发生的事件,事件的概率是指事件发生的可能性大小。
2. 概率的计算:频率概率是指事件发生的频率与试验次数的比值;几何概率是指用几何方法计算概率。
3. 概率分布:离散型概率分布是指随机变量可能取值有限且可列的概率分布,如二项分布、泊松分布;连续型概率分布是指随机变量可能取值无限多的概率分布,如正态分布、指数分布。
四、统计推断1. 参数估计:点估计是用样本统计量估计总体参数的值,如样本均值估计总体均值;区间估计是用样本统计量构造总体参数估计的区间。
2. 假设检验:假设检验是根据样本数据对总体参数的假设进行统计推断的方法,包括设置原假设与备择假设、选择显著性水平、计算检验统计量等步骤。
3. 方差分析:方差分析可以判断几个样本均值是否有显著差异,包括单因素方差分析和多因素方差分析。
概率与统计 第三讲 统计与统计案例——2023届高考理科数学大单元二轮复习练重点【新课标全国卷】
专题八 概率与统计 第三讲 统计与统计案例——2023届高考理科数学大单元二轮复习练重点【新课标全国卷】1.在某次赛车中,50名参赛选手的成绩(单位:min )全部介于13到18之间(包括13和18).现将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示.若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A.11B.15C.35D.392.某学校组织学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[)20,40,[)40,60,[)60,80,[]80,100.若低于60分的人数是15人,则参加英语测试的学生人数是( )A.45B.50C.55D.603.我国是一个农业大国,从事农业工作的人员有5.4亿,如图为某县农村从业人员年龄结构图,为了解该县从业人员在从事农业工作中的实际困难,以推进县乡村振兴工作,某调查机构计划从某县的所有从业人员中随机抽取20人展开某项调研,则所抽取的20人中恰有2人的年龄在20岁以下的概率约为( ) (170.90.167≈,180.90.15≈,190.90.135≈,200.90.122≈)A.0.25B.0.29C.0.32D.0.354.某校高一年级在某次数学测验中成绩不低于80分的所有考生的成绩统计表如下:A.在[90,100]内B.在(100,110]内C.在(110,120]内D.在(120,130]内5.若某同学连续3次考试的名次(3次考试均没有出现并列名次的情况)不低于第3名,则称该同学为班级的尖子生.根据甲、乙、丙、丁四位同学过去连续3次考试名次的数据,推断一定是尖子生的是( )A.甲同学:平均数为2,众数为1B.乙同学:平均数为2,方差小于1C.丙同学:中位数为2,众数为2D.丁同学:众数为2,方差大于16.2021年某省高考体育百米测试中,成绩全部介于12秒与18秒之间,抽取其中100个样本,将测试结果按如下方式分成六组:第一组[12,13),第二组[13,14),…,第六组[17,18],得到如下的频率分布直方图.则该100考生的成绩的平均数和中位数(保留一位小数)分别是( )A.15.2 15.3B.15.1 15.4C.15.1 15.3D.15.2 15.37.设样本数据1x ,2x ,…,10x 的平均数和方差分别为1和4,若i i y x a =+(a 为非零常数,1,2,,10i =),则1y ,2y ,…,10y 的平均数和方差分别为( ) A.1a +,4B.1a +,4a +C.1,4D.1,4a +8.已知变量x ,y 之间的一组数据如下表:若y 关于x 的线性回归方程为0.7y x a =+,则a =( ) A.0.1B.0.2C.0.35D.0.459.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得经验回归直线方程0.6754.9y x =+,表中有一个数据模糊不清,请你推断出该数据的值为( )C.68 10.第24届冬季奥林匹克运动会将于2022年在北京举办.为了解某城市居民对冰雪运动的关注情况,随机抽取了该市100人进行调查统计,得到如下22⨯列联表.参考公式:()()()()2n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.附表:A.该市女性居民中大约有5%的人关注冰雪运动B.该市男性届民中大约有95%的人关注冰雪运动C.有95%的把握认为该市居民是否关注冰雪运动与性别有关D.有99%的把握认为该市居民是否关注冰雪运动与性别有关11.一个项目由15个专家评委投票表决,剔除一个最高分96,一个最低分58后所得到的平均分为92,方差为16,那么原始得分的方差为_______.12.经市场调查,某款热销品的销售量y(万件)与广告费用x(万元)之间满足回归直线方程 3.5=+.若样本点中心为(45,35),则当销售量为52.5万件时,可估计投入y bx的广告费用为_________________万元.13.某学校为了制订治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:14.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)8.602.15.某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):1(优) (2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的22⨯列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.附:2()()()()K a b c d a c b d =++++,)2kk答案以及解析1.答案:A解析:由题意可得,成绩在[13,15)内的频率为10.080.320.380.22---=.又本次赛车中,共50名参赛选手,所以这50名选手中获奖的人数为500.2211⨯=.故选A. 2.答案:B解析:根据频率分布直方图的特点可知,低于60分的频率是(0.0050.01)200.3+⨯=,则所求学生人数是15500.3=. 3.答案:B解析:由频率分布直方图可得20岁以下的农村从业人员的概率为0.1,所以从所有从业人员中抽取20人,其中恰有2人的年龄在20岁以下的概率为221820C (0.1)(0.9)0.2850.29≈≈,故选B. 4.答案:B解析:由表可知,及格的考生共有401512105284+++++=人,在[90,100]内有40人,在(100,110]内有15人,故及格的所有考生成绩的中位数在(100,110]内.5.答案:B解析:甲同学:若平均数为2,众数为1,则有一次名次应为4,故排除A ;乙同学:平均数为2,设乙同学3次考试的名次分别为1x ,2x ,3x ,则方差()()()2222123122213s x x x ⎡⎤=-+-+-<⎣⎦,则()()()2221232223x x x -+-+-<,所以1x ,2x ,3x 均不大于3,符合题意;丙同学:中位数为2,众数为2,有可能是2,2,4,不符合题意;丁同学:众数为2,方差大于1,有可能是2,2,6,不符合题意.故选B. 6.答案:C解析:100名考生成绩的平均数12.50.1013.50.1514.50.15x =⨯+⨯+⨯+15.50.3016.50.2517.50.0515.1⨯+⨯+⨯=.因为前三组频率直方图面积和为0.100.150.150.4++=,前四组频率直方图面积和为0.100.150.150.300.7+++=,所以中位数位于第四组内,设中位数为a ,则(15)0.300.1a -⨯=,解得15.3a ≈,故选C.7.答案:A解析:由题意知i i y x a =+,即()1210110110y x x x a x a a =⨯++++=+=+,方差{}222212101()()()10x a x a x s a x a x a x a ⎡⎤⎡⎤⎡⎤=⨯+-+++-++++-+⎣⎦⎣⎦⎣⎦()()()22212101410x x x x x x ⎡⎤=⨯-+-++-=⎢⎥⎣⎦. 故选A. 8.答案:C解析:本题考查线性回归方程截距的求解.因为11(3456) 4.5,(2.534 4.5) 3.544x y =+++==+++=,所以0.7 3.50.7 4.50.35a y x =-=-⨯=,故选C. 9.答案:C解析:设表中模糊看不清的数据为m .由表中数据得30x =, 3075m y +=,将30730,5m x y +==代入经验回归方程0.6754.9y x =+,得68m =.故选C. 10.答案:C解析:由22⨯列联表中的数据可得()22352515251004.167 3.84160405050K ⨯-⨯⨯=≈>⨯⨯⨯,因此,有95%的把握认为该市居民是否关注冰雪运动与性别有关.故选:C.11.答案:88解析:根据题意,设剔除最高分、最低分之后的13个数据为1a ,2a ,3a ,…,13a ,由这13个数据的平均分为92,方差为16, 知()1231319213a a a a ++++=,()()()222121319292921613a a a ⎡⎤-+-++-=⎣⎦, 解得123131196a a a a ++++=,2221213110240a a a +++=,对于原始得分96,58,1a ,2a ,3a ,…,13a , 其平均数()12313196589015a a a a a =++++++=,其方差为()(()22222212131(9690)(5890)9090)908815s a a a ⎤⎡=-+-+-+-++-=⎣⎦. 12.答案:70解析:本题考查线性回归方程.依题意,将(45,35)代入回归直线方程 3.5y bx =+(提示:回归直线必过样本点中心),得3545 3.5b =⨯+,解得0.7b =,所以回归直线方程为0.7 3.5y x =+.令0.7 3.552.5y x =+=,得70x =. 13.答案:99.5%解析:因为2250(2015510)8.33325253020χ⨯⨯-⨯=≈⨯⨯⨯,又()27.8790.0050.5%P χ==≥,所以我们有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.14.答案:(1)产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为20%(2)平均数与标准差的估计值分别为30%,17%解析:(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为1470.21100+=.产值负增长的企业频率为20.02100=. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为20%. (2)1(0.1020.10240.30530.50140.707)0.30100y =⨯-⨯+⨯+⨯+⨯+⨯=, ()52222111(0.40)2(0.20)100100i i i s n y y=⎡=-=⨯-⨯+-⨯⎣∑222240530.20140.4070.0296⎤+⨯+⨯+⨯=⎦,0.020.17s .所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.15.答案:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:1(100203003550045)350100⨯+⨯+⨯=. (3)根据所给数据,可得22⨯列联表:根据列联表得25.82055457030K =≈⨯⨯⨯. 由于5.820 3.841>,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.。
高考数学二轮复习考点知识与解题方法讲解16 统计
高考数学二轮复习考点知识与解题方法讲解考点16 统计一、抽样与统计图表1.获取数据的基本途径获取数据的基本途径包括:统计报表和年鉴、社会调查、试验设计、普查和抽样、互联网等.(1)统计报表是指各级企事业、行政单位按规定的表格形式、内容、时间要求报送程序,自上而下统一布置,提供统计资料的一种统计调查方式.(2)年鉴是以全面、系统、准确地记述上年度事物运动、发展状况为主要内容的资料性工具书.汇辑一年内的重要时事、文献和统计资料,按年度连续出版的工具书.2.总体、样本、样本容量要考察的对象的全体叫做总体,每一个考察对象叫做个体,从总体中被抽取的考察对象的集体叫做总体的一个样本,样本中个体的数目叫做样本容量.3.简单随机抽样(1)定义:从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.(3)应用范围:总体中的个体数较少.4.分层抽样(1)定义:在抽样时,将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.5.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图(如图)横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.6.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.7.样本的数字特征如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数.可表示为:一组n个观测值按数值大小排列.如,处于p%位置的值称第p百分位数.二、统计案例1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归直线方程的求法——最小二乘法.设具有线性相关关系的两个变量x ,y 的一组观察值为(x i ,y i )(i =1,2,…,n ),则回归直线方程y ^=a ^x +b ^的系数为:称为样本点的中心.(3)相关系数①计算相关系数r ,r 有以下性质:|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱;②|r |>r 0.05,表明有95%的把握认为变量x 与y 之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.3.独立性检验(1)2×2列联表1+11122+2122+1=n 11+n 21,n +2=n 12+n 22,n =n 11+n 21+n 12+n 22.(2)χ2统计量χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2. (3)两个临界值:3.841与6.635当χ2>3.841时,有95%的把握说事件A 与B 有关;当χ2>6.635时,有99%的把握说事件A与B有关;当χ2≤3.841时,认为事件A与B是无关的.1.解决分层抽样的常用公式先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽取的个体数.(2)层1的容量∶层2的容量∶层3的容量=样本中层1的容量∶样本中层2的容量∶样本中层3的容量.2.统计图表人类辨识影像的能力要优於辨识文字与数字的能力,因此我们采用图形的方式来展现数据时,常常不我们直接观察数据要来的快.3.平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.4.独立性检验的一般步骤①根据样本数据制成2×2列联表;③查表比较K2与临界值的大小关系,作出统计判断.抽样1.(2023·福建莆田·三模)已知某校有教职工560人,其中女职工240人,现按性别用分层抽样的方法从该校教职工中抽取28人,则抽取的男职工人数与抽取的女职工人数之差是()A.2 B.4 C.6 D.8【答案】B【分析】根据分层抽样的抽取比例计算方法,分别求出抽取人数中的男女职工人数即可求解.【详解】抽取的女职工人数为:2402812 560⨯=人抽取的男职工人数为:281216-=人则抽取的男职工人数与抽取的女职工人数之差为:16124-=人故选:B.2.(2023·安徽·芜湖一中三模(文))某学校对高三年级800名学生进行系统抽样编号分别为001,002,…,800,若样本相邻的两个编号为028,068,则样本中编号最大的为()A.778 B.780 C.782 D.788【答案】D【分析】根据样本中两个相邻编号求出组距和分组数,再根据系统抽样方法即可求出样本编号最大的一个.【详解】∵样本相邻的两个编号为028和068,故组距为68-28=40,由800÷40=20知样本容量为20,系统抽样时分为20组:001-040,041-080,…,760-800,∵从第1组抽出的数据为028,∴从第20组抽出的数据为760+28=788.故选:D.3.(2021北京市通州区高三上期中)某单位有男职工56人,女职工42人,按性别分层,用分层随机抽样的方法从全体职工中抽出一个样本,如果样本按比例分配,男职工抽取的人数为16人,则女职工抽取的人数为()A.12 B.20 C.24 D.28【答案】A【分析】根据题意,结合分层抽样的计算方法,即可求解.【详解】根据题意,设抽取的样本人数为n,因男职工抽取的人数为56165642n=+,所以28n=,因此女职工抽取的人数为281612-=(人).故选:A.4.(多选题)(2023·福建南平·三模)支气管炎患者会咳嗽失眠,给患者日常生活带来严重的影响.某医院老年患者治愈率为20%,中年患者治愈率为30%,青年患者治愈率为40%.该医院共有600名老年患者,500名中年患者,400名青年患者,则()A.若从该医院所有患者中抽取容量为30的样本,老年患者应抽取12人B.该医院青年患者所占的频率为415C.该医院的平均治愈率为28.7%D.该医院的平均治愈率为31.3%【答案】ABC【分析】由分层抽样即可判断A选项;直接计算频率即可判断B选项;直接计算平均治愈率即可判断C、D选项.【详解】对于A ,由分层抽样可得,老年患者应抽取6003012600500400⨯=++人,正确; 对于B ,青年患者所占的频率为400460050040015=++,正确; 对于C ,平均治愈率为60020%50030%40040%28.7%600500400⨯+⨯+⨯≈++,正确; 对于D ,由C 知错误.故选:ABC.统计图表1.(2021广东省广雅中学高三上10月月考)小张一星期的总开支分布如图①所示,一星期的食品开支如图②所示,则以下说法正确的是()A. 储蓄金额为300元B. 日常开支比食品中的其他开支多150元C. 娱乐开支比通信开支多50元D. 肉类开支占总开支的13【答案】ABC 【分析】根据图表信息一一分析可得;【详解】解:由食品开支图,可知食品开支有30401008050300++++=元,所以一星期的总开支30030%1000÷=元,其中储蓄金额为100030%300⨯=元,故A 正确;日常开支为100020%200⨯=元,故日常开支比食品中的其他开支多150元,故B 正确; 娱乐开支比通信开支多()100010%5%50⨯-=元,故C 正确; 肉类开支占总开支的1100100010÷=,故D 错误; 故选:ABC2.(2021四川省资阳市高三第一次诊断)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019年年末全国农村贫困人口数进行了统计,制成如下散点图:据此散点图,下面4个回归方程类型中最适宜作为年末贫困人数y 和年份代码x 的回归方程类型的是()A. y a bx =+B. b y a x =+C. e x y a b =+D. ln y a b x =+【答案】A【分析】结合散点图中点的分布特征即可得出结果.【详解】由散点图可知所有的点几乎分布在一条直线上,结合选项可知选A, 故选:A.3.(2021广东省部分学校高三上11月大联考)中国互联网络信息中心(CNNIC )发布了第46次《中国互联网络发展状况统计报告》,报告公布了截至2020年6月的中国互联网状况数据与对比数据,根据下图,下面结论不正确的是()A. 2020年6月我国网民规模接近9.4亿,相比2020年3月新增网民3625万B. 2020年6月我国互联网普及率达到67%,相比2020年3月增长2.5%C. 2018年12月我国互联网普及率不到60%,经过半年后普及率超过60%D. 2018年6月我国网民规模比2017年6月我国网民规模增加的百分比大于7%【答案】D【分析】结合图表直接判断和计算即可.【详解】对A ,由图可知,新增网民数为:93984903593625-=万,正确;对B ,读图可直接判断正确;对C ,读图可直接判断正确;对D ,2018年6月我国网民规模比2017年6月我国网民规模增加的比例为: 8016675116505050501010.0677%7511675116750001500-=<=≈<,故D 错误. 故选:D4.(2021山西省长治市第八中学高三上阶段性测评)随着2023年北京冬奥会临近,中国冰雪产业快速发展,冰雪运动人数快速上升,冰雪运动市场需求得到释放,将引领相关户外用品行业市场增长.下面是2013年至2020年中国雪场滑雪人次(万人次)与同比增长率(与上一年相比)的统计情况,则下面结论中正确的是()A.2013年至2020年,中国雪场滑雪人次的同比增长率逐年减少B.2013年至2020年,中国雪场滑雪人次逐年增加C.2013年至2020年,中国雪场滑雪人次的年增加量相近D.2013年到2020年,中国雪场滑雪人次在2020年首次出现负增长【答案】D【分析】根据图中条形统计图和折线图的实际意义分析逐个判定即可.【详解】对于A,由折线图可知,2013年至2020年,中国雪场滑雪人次的同比增长率先增长再减小,故A错误;对于B,由条形统计图知,2013年至2019年,中国雪场滑雪人次逐年增加,但2020年减少了,故B错误;对于C,由条形图知,2013年至2020年,中国雪场滑雪人次的年增加量不相近,故C 错误;对于D,由条形图和折线图,明显看出2013年到2020年,中国雪场滑雪人次在2020年首次出现负增长,故D正确.故选:D5.(2021河南省重点中学高三上模拟调研)茶叶源于中国,至今中国仍然是茶叶最大生年全球主要茶叶生产国调查数据.产国,下图为2019202020192020-年全球主要茶叶生产国产量分布根据该图,下列结论中不正确的是()A. 2019年图中5个国家茶叶产量的中位数为45.9B. 2020年图中5个国家茶叶产量比2019年增幅最大的是中国C. 2020年图中5个国家茶叶总产量超过2019年D. 2020年中国茶叶产量超过其他4个国家之和【答案】B【分析】根据统计图表提供的数据判断各选项.【详解】图中,2019年的数据中间的一个是45.9,A正确;2020年图中5个国家茶叶产量比2019年增幅最大的是肯尼亚10100%45.9⨯,B错;2020年图中5个国家茶叶总产量比2019年总产量的差是18.713.4112114.40-+-+=>,C正确;2020年图中125.656.92827.8238.3298.6+++=<,D正确,故选:B.样本的数字特征1.(2021江苏苏州模拟)高铁、扫码支付、共享单车、网购并称中国“新四大发明”,近日对全国100个城市的共享单车和扫码支付的使用人数进行大数据分析,其中共享单车使用的人数分别为x 1,x 2,x 3,…,x 100,它们的平均数为x ,方差为s 2;其中扫码支付使用的人数分别为3x 1+2,3x 2+2,3x 3+2,…,3x 100+2,它们的平均数为,TM xT 方差为s ′2,则,TM xT s ′2分别为()A .3x +2,3s 2+2B .3x ,3s 2C .3x +2,9s 2D .3x +2,9s 2+2 【答案】C【解析】 由平均数的计算公式,可得数据x 1,x 2,…,x 100的平均数为x =1100(x 1+x 2+x 3+…+x 100),数据3x 1+2,3x 2+2,…,3x 100+2的平均数为:1100[(3x 1+2)+(3x 2+2)+…+(3x 100+2)]=1100[3(x 1+x 2+…+x 100)+2×100]=3x +2, 数据x 1,x 2,…,x 100的方差为s 2=1100[(x 1-x )2+(x 2-x )2+…+(x 100-x )2], 数据3x 1+2,3x 2+2,…,3x 100+2的方差为:1100{[(3x 1+2)-(3x +2)]2+[(3x 2+2)-(3x +2)]2+…+[(3x 100+2)-(3x +2)]2} =1100[9(x 1-x )2+9(x 2-x )2+…+9(x 100-x )2]=9s 2,故选C. 2.(2021河南省湘豫名校联盟高三上11月联考)某校为了解学生体能素质,随机抽取了50名学生,进行体能测试.并将这50名学生成绩整理得如下频率分布直方图.根据此频率分布直方图.下列结论中不正确的是()A. 这50名学生中成绩在[]80,100内的人数占比为20%B. 这50名学生中成绩在[)60,80内的人数有26人C. 这50名学生成绩的中位数为70D. 这50名学生的平均成绩68.2x =(同一组中的数据用该组区间的中点值做代表) 【答案】C【分析】利用频率分布直方图求解判断.【详解】根据此频率分布直方图,成绩在[]80,100内的频率为0.0080.0121020(.)0+⨯=,所以A 正确;这50名学生中成绩在[)60,80内的人数为()0.0320.020105026,+⨯⨯=所以B 正确; 根据此频率分布直方图,0.0080.02100.280.5()+⨯=<,0.0080.020.032100.()60.5++⨯=>,可得这50名学生成绩的中位数()60,70∈,所以C 错误﹔ 根据频率分布直方图的平均数的计算公式,可得:450.08550.2650.32750.2850.12950.0868.2,x =⨯+⨯+⨯⨯+⨯+⨯=+所以D 正确.故选:C.线性回归方程1.(多选题)(2021山东师范大学附中高三上期中)已知变量x ,y 之间的经验回归方程为ˆ7.60.4yx =-,且变量x ,y 的数据如表所示,则下列说法正确的是()A. 变量x ,y 之间呈正相关关系B. 变量x ,y 之间呈负相关关系C. m 的值等于5D. 该回归直线必过点()9,4【答案】BCD【分析】将样本点中心代入回归直线方程,得出m 的值,再逐一判断即可. 【详解】681012632119,444m mx y +++++++====因为7.60.4y x =-,所以117.60.49,54mm +=-⨯=,故C 正确; 因为0.40-<,所以变量x ,y 之间呈负相关关系,故A 错误,B 正确; 因为(,)(9,4)x y =,所以该回归直线必过点()9,4,故D 正确; 故选:BCD2.(2021福建省宁德市高三上期中联考)某电子产品的成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本,进行5次试验,收集到的数据如表:【答案】75【分析】根据线性回归方程过样本中心点进行求解即可. 【详解】1020304050305x ++++==,62688189600.25a y a ++++==+,因为线性回归方程过样本中心点, 所以600.20.673054.975a a +=⨯+⇒=, 故答案为:753.(“超级全能生”2023届高三全国卷地区11月联考)自动驾驶汽车依靠5G 、人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让电脑可以在没有任何人类主动的操作下,自动安全地操作机动车辆.近年来全球汽车行业达成共识,认为自动驾驶代表了未来汽车行业的发展方向.实现自动驾驶是一个渐进过程,国际通用的自动驾驶标准根据自动驾驶程度逐步提升可以分为5级.3L 级自动驾驶也是整个自动驾驶技术的分水岭.20162020-年全球3L 渗透率(%)统计表及散点图如下.(1)利用散点图判断,y a bt =+和d y c t =⋅(其中'c ,d 为大于0的常数)哪一个更适合作为渗透率y 和年份t 的回归方程模型(只要给出判断即可,不必说明理由); (2)令2018x t =-,求y 关于x 的回归方程; (3)根据(2)中回归模型回答下列问题: (i )估计2022年全球3L 渗透率是多少?(ii )预计至少要到哪一年,全球3L 渗透率能超过10%? 附:回归直线 中斜率和截距的最小二乘估计公式为()()()1122211n niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.【答案】(1)y a bt =+更适合 (2)0.30.72y x =+ (3)(i )1.92%;(ii )2049【分析】(1)根据散点图,即可得到y a bt =+更适合作为渗透率y 和年份t 的回归方程模型;(2)由2018x t =-,得5组的对应数据,利用公式,求得ˆˆ,b a 的值,即可得到回归方程;(3)(i )2022t =,求得 1.92y =,即可得到2022年全球3L 渗透率; (ii )令0.30.7210y x =+>,即可求得到2049年,全球3L 渗透率能超过10%. 【小问1详解】解:根据散点图,可知y a bt =+更适合作为渗透率y 和年份t 的回归方程模型.【小问2详解】解:由2018x t =-,得5组的对应数据为()2,0.2-,()1,0.4-,()0,0.6,()1,1.0,()2,1.4,所以0=x ,0.72y =,513i i i x y ==∑,52110i i x ==∑,所以5152213500.720.310502i i i ii x y nx yb x nx==--⨯⨯===-⨯-∑∑,则0.720.300.72a y bx =-=-⨯=, 所以y 关于x 的线性回归方程为0.30.72y x =+.【小问3详解】解:(i )令2022t =,可得202220184x =--,此时0.340.72 1.92y =⨯+=, 所以估计2022年全球3L 渗透率是1.92%.(ii )令0.30.7210y x =+>,解得30.931x >≈,3120182049t =+=, 所以预计至少要到2049年,全球3L 渗透率能超过10%.独立性检验1.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到列联表:A .在犯错误概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”【答案】C【分析】作出列联表,求得2K ,再与临界值表对比判断. 【详解】列联表如下:所以210045151030 3.030 2.70675255545K ⨯⨯-⨯=≈>⨯⨯⨯,且()22.7060.10p K ≥≈,所以在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”. 故选:C 2. 单位:人和成绩无关.如果表中所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的关联性,结论还一样吗?请你试着解释其中的原因.附:临界值表:【分析】列出数据扩大10倍的22⨯列联表,计算出2χ的观测值,结合独立性检验的基本思想可出结论.【详解】数据扩大10倍的22⨯列联表为:0由列联表数据得()22880330703801008.365 2.706430450710170χ⨯⨯-⨯=≈>⨯⨯⨯,根据小概率值0.1α=的独立性检验,我们推断假设0H 不成立,即认为学校与数学成绩有关,又因为甲校成绩优秀和不优秀的概率分别为1000.2326430≈,3300.7674430≈, 乙校成绩优秀和不优秀的概率分别为700.1556450≈,3800.8444450≈, 又因为0.23260.1556>,所以,从甲校、乙校各抽取一个学生,甲校学生数学成绩优秀的概率比乙校学生优秀的概率大.所以,结论不一样,不一样的原因在于样本容量,当样本容量越大时,用样本估计总体的准确性会越高.1.(2021年全国高考甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是()A. 该地农户家庭年收入低于4.5万元的农户比率估计为6%B. 该地农户家庭年收入不低于10.5万元的农户比率估计为10%C. 估计该地农户家庭年收入的平均值不超过6.5万元D. 估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间【答案】C【分析】根据直方图的意义直接计算相应范围内的频率,即可判定ABD,以各组的中间值作为代表乘以相应的频率,然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.【详解】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.该地农户家庭年收入低于4.5万元的农户的比率估计值为0.020.040.066%+==,故A 正确;该地农户家庭年收入不低于10.5万元的农户比率估计值为0.040.0230.1010%+⨯==,故B 正确;该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为0.100.140.2020.6464%50%++⨯==>,故D 正确; 该地农户家庭年收入的平均值的估计值为30.0240.0450.1060.1470.2080.2090.10100.10110.04120.02130.02140.027.68⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=(万元),超过6.5万元,故C 错误. 综上,给出结论中不正确的是C. 故选:C.【点睛】本题考查利用样本频率直方图估计总体频率和平均值,属基础题,样本的频率可作为总体的频率的估计值,样本的平均值的估计值是各组的中间值乘以其相应频率然后求和所得值,可以作为总体的平均值的估计值.注意各组的频率等于⨯频率组距组距. 2.(2020年全国统一高考(新课标Ⅰ))某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:°C )的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(,)(1,2,,20)i i x y i =得到下面的散点图:由此散点图,在10°C 至40°C 之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( ) A. y a bx =+ B. 2y a bx =+ C. e x y a b =+ D. ln y a b x =+【答案】D【分析】根据散点图的分布可选择合适的函数模型.【详解】由散点图分布可知,散点图分布在一个对数函数的图象附近, 因此,最适合作为发芽率y 和温度x 的回归方程类型的是ln y a b x =+. 故选:D.【点睛】本题考查函数模型的选择,主要观察散点图的分布,属于基础题.3.(多选题)(2021年全国新高考Ⅰ卷)有一组样本数据1x ,2x ,…,n x ,由这组数据得到新样本数据1y ,2y ,…,n y ,其中i i y x c =+(1,2,,),i n c =⋅⋅⋅为非零常数,则() A. 两组样本数据的样本平均数相同 B. 两组样本数据的样本中位数相同 C. 两组样本数据的样本标准差相同 D. 两组样本数据的样本极差相同 【答案】CD【分析】A 、C 利用两组数据的线性关系有()()E y E x c =+、()()D y D x =,即可判断正误;根据中位数、极差的定义,结合已知线性关系可判断B 、D 的正误. 【详解】A :()()()E y E x c E x c =+=+且0c ≠,故平均数不相同,错误; B :若第一组中位数为i x ,则第二组的中位数为i i y x c =+,显然不相同,错误; C :()()()()D y D x D c D x =+=,故方差相同,正确;D :由极差的定义知:若第一组的极差为max min x x -,则第二组的极差为max min max min max min ()()y y x c x c x x -=+-+=-,故极差相同,正确; 故选:CD4.(2021年全国高考乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:21s 和22s .(1)求x ,y ,21s ,22s ;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y x -≥则不认为有显著提高).【答案】(1)221210,10.3,0.036,0.04x y s s ====;(2)新设备生产产品的该项指标的均值较旧设备有显著提高.【分析】(1)根据平均数和方差的计算方法,计算出平均数和方差. (2)根据题目所给判断依据,结合(1)的结论进行判断. 【详解】(1)9.810.31010.29.99.81010.110.29.71010x +++++++++==,10.110.410.11010.110.310.610.510.410.510.310y +++++++++==,22222222210.20.300.20.10.200.10.20.30.03610s +++++++++==,222222222220.20.10.20.30.200.30.20.10.20.0410s +++++++++==.(2)依题意,0.320.15y x -==⨯==,=y x -≥. 5.(2021年全国高考甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bc K a b c d a c b d -=++++【分析】根据给出公式计算即可【详解】(1)甲机床生产的产品中的一级品的频率为15075%200=, 乙机床生产的产品中的一级品的频率为12060%200=. (2)()22400150801205040010 6.63527013020020039K ⨯-⨯==>>⨯⨯⨯, 故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.6.(2020年全国统一高考(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得20160i i x ==∑,2011200i i y ==∑,2021)80i i x x =-=∑(,2021)9000i iy y =-=∑(,201))800i i i x y x y =--=∑((.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r))niix y x y --∑((,≈1.414.【答案】(1)12000;(2)0.94;(3)详见解析【分析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;(2)利用公式20()()iix x y y r --=∑计算即可;(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.【详解】(1)样区野生动物平均数为201111200602020i i y ==⨯=∑, 地块数为200,该地区这种野生动物的估计值为2006012000⨯= (2)样本(,)i i x y (i =1,2,…,20)的相关系数为20()()0.943iix x y y r --===≈∑(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性, 由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大, 采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,是一道容易题.一、单选题1.(2023·湖南岳阳·三模)已知一组数据:123,,x x x 的平均数是5,方差是4,则由121x +,221x +,321x +和11这四个数据组成的新数据组的方差是( ) A .16 B .14C .12D .11【答案】C【分析】根据平均数、方差公式计算可得;【详解】解:由已知得12315x x x ++=,222123(5)(5)(5)12x x x -+-+-=, 则新数据的平均数为1231232()3111(21212111)1144x x x x x x ++++++++++==,所以方差为22221231[(2111)(2111)(2111)(1111)]4x x x +-++-++-+-,2222221231231[4(5)4(5)4(5)](5)(5)(5)124x x x x x x =-+-+-=-+-+-=, 故选:C .2.(2023·辽宁辽阳·二模)为了解某地高三学生的期末语文考试成绩,研究人员随机抽取了100名学生对其进行调查,根据所得数据制成如图所示的频率分布直方图,已知不低于90分为及格,则这100名学生期末语文成绩的及格率为( )。
(完整版)高中数学统计、统计案例知识点总结和典例
统计一.简单随机抽样:抽签法和随机数法1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。
2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。
抽签法的一般步骤:a、将总体的个体编号。
b、连续抽签获取样本号码。
3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。
随机数表法的步骤:a、将总体的个体编号。
b、在随机数表中选择开始数字。
c、读数获取样本号码。
4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。
二.系统抽样:1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。
系统抽样的一般步骤:(1)采用随机抽样的方法将总体中的N个个编号。
(2)将整体按编号进行分段,确定分段间隔k=N/n。
(k∈N,L≤k).(3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。
(4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。
在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。
三.分层抽样:1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。
统计案例高考知识点
统计案例高考知识点统计学是一门关于收集、整理、分析和解释数据的学科。
在高考中,统计学也是一门重要的考试科目。
了解和掌握统计学的知识点对于高考成绩的提高至关重要。
下面将为大家介绍一些统计案例高考知识点。
一、统计数据的表示和处理1. 数据的获取方法:调查、观察、实验等2. 数据的分类:定性数据和定量数据3. 数据的表示方法:表格、图表、频数分布等4. 数据的中心趋势度量:平均数、中位数、众数5. 数据的离散程度度量:极差、方差、标准差二、概率与统计1. 概率的基本概念:样本空间、随机事件、概率等2. 概率的计算方法:古典概率、频率概率、几何概率3. 事件的关系:互斥事件、相互独立事件、对立事件等4. 随机变量与概率分布:离散型随机变量、连续型随机变量5. 统计推断:参数估计、假设检验、方差分析等三、抽样调查1. 抽样的基本原则:随机性、代表性、独立性等2. 抽样方法:简单随机抽样、系统抽样、分层抽样等3. 抽样误差的估计:抽样误差、置信区间等4. 抽样调查的设计与实施:问卷设计、抽样方案确定等四、业务统计与质量控制1. 统计质量控制的基本原则:PDCA循环、正态分布等2. 过程能力和过程稳定性的判断与分析3. 统计质量控制的方法:控制图、六西格玛等4. 数理统计在质量控制中的应用:正态分布的性质、假设检验等五、统计案例解析1. 统计学在实际问题中的应用:人口统计、市场调研、医学研究等2. 统计案例的分析:问题的提取、数据的处理与分析、结论的得出等3. 统计软件的应用:Excel、SPSS等4. 实际问题中的统计思维与方法:从数据到决策的过程,统计思维的培养六、应试技巧与注意事项1. 熟悉考试要点和考纲:知识点掌握、考点重点把握2. 多做真题和模拟试卷:了解题型、熟悉答题技巧3. 注重练习和思考:通过实践来提高解决实际问题的能力4. 注意解题易错点和常见误区:细心、严谨、逻辑清晰以上是统计案例高考知识点的简要介绍,希望能对广大考生有所帮助。
高中数学知识点-统计与统计案例-抽样方法-收集数据的方法
教学案例系统抽样一、教学目标:1.理解什么是系统抽样;2.会用系统抽样从总体中抽取样本;3.了解系统抽样的实际生活中的应用.二、教学重点:系统抽样的概念及如何用系统抽样获取样本.教学难点:当总体中的个体数不能被样本容量整除时,在整个抽样过程中每个个体被抽取的概率仍然是相等的.三、教学用具:投影仪或计算机四、教学过程1.复习、导课(1)什么是简单随机抽样?(2)结合实例简要说明如何利用抽签法、随机数表法获取样本.(3)什么样的总体适宜用简单随机抽样?由于简单随机抽样适用于个体数不太多的总体,自然地提出当总体中个体数较多时,宜采用什么抽样方法.出示课题:抽样方法(2)——系统抽样.2.出示系统抽样的概念当总体的个体数N较大时,可将总体分成均衡的几个部分,然后按照预先走出的规则,从每一部分抽取1个个体,得到所需要的样本.这种抽样叫做系统抽样.实例1:为了了解参加某种知识竞赛的1000名学生的成绩,应采用什么抽样方法恰当?简述抽样过程.解:适宜选用系统抽样,抽样过程如下:(1)随机地将这1000名学生编号为1,2 ,3, (1000)(2)将总体接编号顺序均分成50部分,每部分包括20个个体.(3)在第一部分的个体编号1,2,3,…,20中,利用简单随机抽样抽取一个号码,比如是18.(4)以18为起始号码,每间隔20抽取一个号码,这样得到一个容量为50的样本:18,38,58,…,978,998.结合实例说明:(1)系统抽样与简单随机抽样一样,每个个体被抽到的概率都等于100050201=;从而说明系统抽样是等概率抽样,它是公平的. (2)系统抽样是建立在简单随机抽样的基础之上的,当将总体均分后对每一部分进行抽样时,采用的是简单随机抽样.3.出示并讲解实例2为了了解参加某种知识竞赛的1003名学生的成绩,请用系统抽样抽取一个容量为50的样本.解:(1)随机地将这1003个个体编号为1,2,3, (1003)(2)利用简单随机抽样,先从总体中剔除3个个体(可利用随机数表),剩下的个体数1000能被样本容量50整除,然后再按系统抽样的方法进行. 结合实例2说明: 总体中的每个个体被剔除的概率相等⎪⎭⎫ ⎝⎛10033,也就是每个个体不被剔除的概率相等⎪⎭⎫ ⎝⎛10031000,采用系统抽样时每个个体被抽取的概率都是100050,所以在整个抽样过程中每个个体被抽取的概率仍然相等,都是10035010005010031000=⨯. 4.由实例1、2,师生共同概括系统抽样的步骤(1)采用随机的方式将总体中的个体编号;(2)为将整个的编号进行分段,要确定分段的间隔k .当nN 是整数时,n N k =;当nN 不是整数时,通过从总体中剔除一些个体使剩下的总体中的个体数N '能被n 整除,这时n N k '=. (3)在第1段用简单随机抽样确定起始的个体编号l .(4)按照事先确定的规则(常将l 加上间隔k )抽取样本: k n l k l k l l )1(,,2,,-+++ .5.课堂练习教科书第49页练习1、2.6.归纳小结通过本节的学习,应明确什么是系统抽样,系统抽样的适用范围,如何用系统抽样获取样本.五、布置作业:教科书习题2.1A组第4、6题.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计与统计案例1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中低档题.1.随机抽样(1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少. (2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成几层,分层进行抽取,适用范围:总体由差异明显的几部分组成. 2.常用的统计图表(1)频率分布直方图 ①小长方形的面积=组距×频率组距=频率; ②各小长方形的面积之和等于1;③小长方形的高=频率组距,所有小长方形的高的和为1组距.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数(2)方差:s 2=n[(x 1-x )2+(x 2-x )2+…+(x n -x )2].标准差:s =1n[ x 1-x 2+ x 2-x 2+…+ x n -x 2].4.变量的相关性与最小二乘法(1)相关关系的概念、正相关和负相关、相关系数.(2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q= i =1n(y i -a -bx i )2最小时,得到线性回归方程y ^=b ^x +a ^的方法叫做最小二乘法.5.独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:则K 2=n a +b c +d a +c b +d(其中n =a +b +c +d 为样本容量).考点一 抽样方法例1 (2012·山东)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15答案 C解析 由系统抽样的特点知:抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人.在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分成几个组,则分段间隔即为Nn(N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值.(1)(2013·江西)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )(2)某单位200名职工的年龄分布情况如图所示,现要从中抽取40名职工作样本.用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.答案(1)D (2)37 20解析(1)从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.(2)由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,即第n组抽取的号码为5n-3,所以第8组抽出的号码为37;40岁以下年龄段的职工数为200×0.5=100,则应抽取的人数为40200×100=20人.考点二用样本估计总体例2 (1)(2013·四川)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )(2)(2013·江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:答案(1)A (2)2解析(1)由于频率分布直方图的组距为5,去掉C、D,又[0,5),[5,10)两组各一人,去掉B ,应选A.(2)x 甲=15(87+91+90+89+93)=90,x 乙=15(89+90+91+88+92)=90,s 2甲=15[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4,s 2乙=15[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2.(1)反映样本数据分布的主要方式有:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.在“2012魅力新安江”青少年才艺表演评比活动中,参赛选手成绩的茎叶图和频率分布直方图都受到不同程度的破坏,可见部分如图,据此回答以下问题:(1)求参赛总人数和频率分布直方图中[80,90)之间的矩形的高,并完成直方图; (2)若要从分数在[80,100]之间任取两份进行分析,在抽取的结果中,求至少有一份分数在[90,100]之间的概率.解 (1)由茎叶图知,分数在[50,60)之间的频数为2. 由频率分布直方图知,分数在[50,60)之间的频率为 0.008×10=0.08.所以参赛总人数为20.08=25(人).分数在[80,90)之间的人数为25-2-7-10-2=4(人), 分数在[80,90)之间的频率为425=0.16, 得频率分布直方图中[80,90)间矩形的高为0.1610=0.016.完成直方图,如图.(2)将[80,90)之间的4个分数编号为1,2,3,4;[90,100]之间的2个分数编号为5和6. 则在[80,100]之间任取两份的基本事件为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6),共15个, 其中至少有一个在[90,100]之间的基本事件为(1,5),(1,6),(2,5),(2,6),(3,5),(3,6),(4,5),(4,6),(5,6),共9个. 故至少有一份分数在[90,100]之间的概率是915=35.考点三 统计案例例3 (2013·重庆)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x2i=720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y =bx +a 中,b =∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a =y -b x ,其中x ,y 为样本平均值,线性回归方程也可写为y ^=b ^x +a ^. 解 (1)由题意知n =10,x =1n ∑i =1nx i =8010=8,y =1n ∑i =1ny i =2010=2,又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b =l xy l xx =2480=0.3, a =y -b x =2-0.3×8=-0.4,故所求线性回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b =0.3>0),故x 与y 之间是正相关.(3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元).(1)对具有线性相关关系的两个变量可以用最小二乘法求线性回归方程,求b ^是关键,其中b ^=∑i =1nx i -xy i -y∑i =1nx i -x 2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2.(2)在利用统计变量K 2(χ2)进行独立性检验时,应该注意数值的准确代入和正确计算,最后把计算的结果与有关临界值相比较.(1)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2(χ2)=a +bc +d a +c b +d算得,K 2(χ2)=110× 40×30-20×20260×50×60×50≈7.8.附表:( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关” (2)已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a 等于 ( )A .1.30B .1.45C .1.65D .1.80 答案 (1)C (2)B解析 (1)根据独立性检验的定义,由K 2(χ2)≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选C. (2)依题意得,x =16×(0+1+4+5+6+8)=4,y =16(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y ^=0.95x +a ^必过样本点中心(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ^,由此解得a ^=1.45.1.用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.(2)众数、中位数及平均数的异同众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量. (3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布. ①总体期望的估计,计算样本平均值x =1n∑n i =1x i . ②总体方差(标准差)的估计:方差=1n∑n i =1(x i -x )2,标准差=方差, 方差(标准差)较小者较稳定.2.线性回归方程y ^=b ^x +a ^过样本点中心(x ,y ),这为求线性回归方程带来很多方便. 3.独立性检验(1)作出2×2列联表. (2)计算随机变量K 2(χ2)的值. (3)查临界值,检验作答.1.经问卷调查,某班学生对摄影分别持“喜欢”、“不喜欢”和“一般”三种态度,其中持“一般”态度的学生比持“不喜欢”的学生多12人,按分层抽样的方法(抽样过程中不需要剔除个体)从全班选出部分学生进行关于摄影的座谈.若抽样得出的9位同学中有5位持“喜欢”态度的同学,1位持“不喜欢”态度的同学和3位持“一般”态度的同学,则全班持“喜欢”态度的同学人数为 ( )A .6B .18C .30D .54答案 C解析 由题意设全班学生为x 人,持“喜欢”、“不喜欢”和“一般”态度的学生分别占全班人数的59、19、13,所以x (13-19)=12,解得x =54,所以全班持“喜欢”态度的人数为54×59=30.故选C.2.某校从参加高三年级期中考试的学生中随机抽取60名学生,将其数学成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后得到如图的频率分布直方图,请你根据频率分布直方图中的信息,估计出本次考试数学成绩的平均分为________.答案 71解析 由频率分布直方图得每一组的频率依次为0.1,0.15,0.15,0.3,0.25,0.05,又由频率分布直方图,得每一组数据的中点值依次为45,55,65,75,85,95.所以本次考试数学成绩的平均分为x =45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71. 故填71.3. 随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图. (1)根据茎叶图判断哪个班的平均身高较高; (2)计算甲班的样本方差;(3)现从乙班这10名同学中随机抽取两名身高不低于173 cm 的同学,求身高为176 cm 的同学被抽中的概率.解 (1)由茎叶图可知:甲班身高集中于160 cm ~179 cm 之间,而乙班身高集中于170 cm ~180 cm 之间,因此乙班平均身高高于甲班,其中x 甲=158+162+163+168+168+170+171+179+179+18210=170,x 乙=159+162+165+168+170+173+176+178+179+18110=171.1.(2)甲班的样本方差为110[(158-170)2+(162-170)2+(163-170)2+(168-170)2+(168-170)2+(170-170)2+(171-170)2+(179-170)2+(179-170)2+(182-170)2]=57.2.(3)设身高为176 cm 的同学被抽中的事件为A .从乙班10名同学中抽取两名身高不低于173 cm 的同学有:(181,173)、(181,176)、(181,178)、(181,179)、(179,173)、(179,176)、(179,178)、(178,173)、(178,176)、(176,173),共10个基本事件,而事件A 含有4个基本事件, ∴P (A )=410=25.(推荐时间:60分钟)一、选择题1.要完成下列两项调查:①从某肉联厂的火腿肠生产线上抽取1 000根火腿肠进行“瘦肉精”检测;②从某中学的15名艺术特长生中选出3人调查学习负担情况.适合采用的抽样方法依次为( )A .①用分层抽样,②用简单随机抽样B .①用系统抽样,②用简单随机抽样C .①②都用系统抽样D .①②都用简单随机抽样 答案 B解析 ①中总体容量较大,且火腿肠之间没有明显差异,故适合采用系统抽样;②中总体容量偏小,故适合采用简单随机抽样.2.(2012·四川)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N ,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N 为( )A .101B .808C .1 212D .2 012 答案 B解析 由题意知抽样比为1296,而四个社区一共抽取的驾驶员人数为12+21+25+43=101,故有1296=101N,解得N =808.3.(2013·福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( )A .588B .480C .450D .120答案 B解析 少于60分的学生人数600×(0.05+0.15)=120(人), ∴不少于60分的学生人数为480人.4.甲、乙两位运动员在5场比赛的得分情况如茎叶图所示,记甲、乙两人的平均得分分别为x 甲,x 乙,则下列判断正确的是( )A.x 甲>x 乙;甲比乙成绩稳定B.x 甲>x 乙;乙比甲成绩稳定C.x 甲<x 乙;甲比乙成绩稳定D.x 甲<x 乙;乙比甲成绩稳定 答案 D解析 由茎叶图可知x 甲=17+16+28+30+345=25,x 乙=15+28+26+28+335=26,∴x 甲<x 乙.又s 2甲=15[(17-25)2+(16-25)2+(28-25)2+(30-25)2+(34-25)2]=52,s 2乙=15[(15-26)2+(28-26)2+(26-26)2+(28-26)2+(33-26)2]=35.6,∴乙比甲成绩稳定.5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{a n },若a 3=8,且a 1,a 3,a 7成等比数列,则此样本的平均数和中位数分别是 ( )A .13,12B .13,13C .12,13D .13,14答案 B解析 设等差数列{a n }的公差为d (d ≠0),a 3=8,a 1a 7=a 23=64,(8-2d )(8+4d )=64,(4-d )(2+d )=8,2d -d 2=0,又d ≠0,故d =2,故样本数据为4,6,8,10,12,14,16,18,20,22,样本的平均数为 4+22 ×510=13,中位数为12+142=13,故选B.6.2011年6月,台湾爆出了食品添加有毒塑化剂的案件,令世人震惊.我国某研究所为此开发了一种用来检测塑化剂的新试剂,把500组添加了该试剂的食品与另外500组未添加该试剂的食品作比较,提出假设H 0:“这种试剂不能起到检测出塑化剂的作用”,并计算出P (K 2≥6.635)≈0.01.对此,四名同学做出了以下的判断:p :有99%的把握认为“这种试剂能起到检测出塑化的作用”; q :随意抽出一组食品,它有99%的可能性添加了塑化剂; r :这种试剂能检测出塑化剂的有效率为99%; s :这种试剂能检测出塑化剂的有效率为1%.则下列命题中为真命题的是( )A .p ∧qB .綈p ∧qC .(綈p ∧綈q )∧(r ∨s )D .(p ∨綈r )∧(綈q ∨s )答案 D解析 提出假设H 0“这种试剂不能起到检测出塑化剂的作用”,并计算出P (K 2≥6.635)≈0.01,因此,在一定程度上说明假设不合理,我们就有99%的把握拒绝假设.由题设可知命题p ,r 为真命题,q ,s 为假命题,依据复合命题的真值表可知D 为真命题. 二、填空题7.(2013·湖北)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示. (1)直方图中x 的值为 __________;(2)在这些用户中,用电量落在区间[100,250)内的户数为________.答案 (1)0.004 4 (2)70解析 (1)(0.002 4+0.003 6+0.006 0+x +0.002 4+0.001 2)×50=1, ∴x =0.004 4.(2)(0.003 6+0.004 4+0.006 0)×50×100=70.8.下表提供了某厂节能减排技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t 的值为________. 答案 3解析 ∵样本点中心为⎝ ⎛⎭⎪⎫4.5,11+t 4, ∴11+t4=0.7×4.5+0.35,解得t =3. 9.某校高三考生参加某高校自主招生面试时,五位评委给分如下:9.0 9.1 8.9 9.2 8.8 则五位评委给分的方差为________. 答案 0.02解析 评委给分的平均数为15×(9.0+9.1+8.9+9.2+8.8)=9.0, 方差为15×[(9.0-9.0)2+(9.1-9.0)2+(8.9-9.0)2+(9.2-9.0)2+(8.8-9.0)2]=0.15=0.02. 10.某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分 后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中 的x )无法看清,若记分员计算无误,则数字x 应该是__________. 答案 1解析 当x ≥4时,89+89+92+93+92+91+947=6407≠91,∴x <4,∴89+89+92+93+92+91+x +907=91,∴x =1. 三、解答题11.(2013·陕西)有7位歌手(1至7号)参加一场歌唱比赛,由500名大众评委现场投票决定歌手名次,根据年龄将大众评委分为五组,各组的人数如下:(1)其中从B组中抽取了6人.请将其余各组抽取的人数填入下表.(2)在(1)的评委中分别任选1人,求这2人都支持1号歌手的概率.解(1)由题设知,分层抽样的抽取比例为6%,所以各组抽取的人数如下表:(2)记从A12312B组抽到的6位评委为b1,b2,b3,b4,b5,b6,其中b1,b2支持1号歌手.从{a1,a2,a3}和{b1,b2,b3,b4,b5,b6}中各抽取1人的所有结果为:由以上树状图知所有结果共18种,其中2人都支持1号歌手的有a1b1,a1b2,a2b1,a2b2共4种,故所求概率P=418=29.12.(2012·辽宁)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:解 (1)25人,从而完成2×2列联表如下:将2×2K 2=100× 30×10-45×15 275×25×45×55=10033≈3.030. 因为3.030<3.841,所以我们没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a 1,a 2),(a 1,a 3),(a 2,a 3),(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2)},其中a i 表示男性,i =1,2,3,b j 表示女性,j =1,2.Ω由10个基本事件组成,而且这些基本事件的出现是等可能的. 用A 表示“任选2人中,至少有1人是女性”这一事件,则A ={(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2)},事件A由7个基本事件组成,因而P (A )=710.。