名校总结-2019年高考数学一轮复习-统计与统计案例专题精练及解析
2019版高考数学(理)高分计划一轮狂刷练:第9章 统计与统计案例 9-1a Word版含解析
[基础送分 提速狂刷练]一、选择题1.在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本答案 A解析 5000名居民的阅读时间的全体是总体,每名居民的阅读时间是个体,200是样本容量,故选A.2.将参加英语口语测试的1000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,若第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个编号为( )A .700B .669C .695D .676答案 C解析 由题意可知,第一组随机抽取的编号l =15,分段间隔k =N n =100050=20,故抽取的第35个编号为15+(35-1)×20=695.故选C.3.某月月底,某商场想通过抽取发票存根的方法估计该月的销售总额.先将该月的全部销售发票的存根进行了编号,1,2,3,…,然后拟采用系统抽样的方法获取一个样本.若从编号为1,2,3,…,10的前10张发票的存根中随机抽取1张,然后再按系统抽样的方法依编号顺序逐次产生第2张、第3张、第4张、……,则抽样中产生的第2张已编号的发票存根,其编号不可能是()A.13 B.17C.19 D.23答案 D解析因为第一组的编号为1,2,3,…,10,所以根据系统抽样的定义可知第二组的编号为11,12,13,…,20,故第2张已编号的发票存根的编号不可能为23.故选D.4.从某500件产品中随机抽取50件进行质检,利用随机数表法抽取样本时,先将这500件产品按001,002,003,…,500进行编号.如果从随机数表的第7行第4列的数2开始,从左往右读数,则依次抽取的第4个个体的编号是()附:随机数表第6行至第8行各数如下:A.217 B.245C.421 D.206答案 D解析产品的编号为3位号码,故每次读数取3位,第一个三位数为217,依次取出符合条件的号码为157,245,206,故第4个个体编号为206.故选D.5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A .7B .9C .10D .15答案 C 解析 由系统抽样的特点,知抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人.故选C.6.(2018·朝阳质检)某工厂有甲、乙、丙、丁四类产品共3000件,且它们的数量成等比数列,现用分层抽样的方法从中抽取150件进行质量检测,其中从乙、丁两类产品中抽取的总数为100件,则甲类产品有( )A .100件B .200件C .300件D .400件 答案 B解析 设从甲、乙、丙、丁四类产品中分别抽取a 1,a 2,a 3,a 4件进行检测,由于四类产品的数量成等比数列且是分层抽样,所以a 1,a 2,a 3,a 4也成等比数列,设此等比数列的公比为q ,由⎩⎨⎧ a 1+a 3=50,a 2+a 4=100,即⎩⎨⎧ a 1(1+q 2)=50,a 1q (1+q 2)=100,解得⎩⎨⎧ a 1=10,q =2.即从甲类产品中抽取10件,则甲类产品的数量为101503000=200(件),故选B.7.福利彩票“双色球”中红色球的号码由编号为01,02,…,33的33个个体组成,某彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第10列和第11列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为( )C .02D .17 答案 C解析 从随机数表第1行的第10列和第11列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.故选C.8.(2018·包头检测)将参加夏令营的600名学生按001,002,…,600进行编号.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分别住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为 ( )A .26,16,8B .25,17,8C .25,16,9D .24,17,9答案 B解析 由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N *)组抽中的号码是3+12(k -1).令3+12(k -1)≤300,得k ≤1034,因此第Ⅰ营区被抽中的人数是25;令300<3+12(k -1)≤495,得1034<k ≤42,因此第Ⅱ营区被抽中的人数是42-25=17;第Ⅲ营区被抽中的人数为50-25-17=8.故选B.9.某单位有老年人28人、中年人54人、青年人81人,为了调查他们的身体状况,从中抽取一个容量为36的样本,则最适合抽取样本的方法是( )A .简单随机抽样B .系统抽样C .分层抽样D .先从老年人中剔除1人,再用分层抽样答案 D解析 因为总体由差异明显的三部分组成,所以考虑用分层抽样.因为总人数为28+54+81=163,样本容量为36,由于按36163抽样,无法得到整数解,因此考虑先剔除1人,将抽样比变为36162=29.若从老年人中随机地剔除1人,则老年人应抽取27×29=6(人),中年人应抽取54×29=12(人),青年人应抽取81×29=18(人),从而组成容量为36的样本.故选D.10.(2017·山西阳泉调研)学校高中部共有学生2000名,高中部各年级男、女生人数如表,已知在高中部学生中随机抽取1名学生,抽到高三年级女生的概率是0.18,现用分层抽样的方法在高中部抽取50名学生,则应在高二年级抽取的学生人数为( )A .14C .16D .17答案 B解析 由已知高三女生数x =2000×0.18=360.故高三年级总共有360+340=700(人).而高一年级共有373+327=700(人).所以高二年级共有2000-700-700=600(人).设高二年级应抽取的学生数为n ,则由分层抽样的特点知,n 50=6002000,解得n =15.故选B.二、填空题11.(2017·郑州期末)已知某商场新进3000袋奶粉,为检查其三聚氰胺是否超标,现采用系统抽样的方法从中抽取150袋检查,若第一组抽出的号码是11,则第六十一组抽出的号码为________.答案 1211解析 由系统抽样,抽样间隔k =3000150=20,由题意知这些号码是以11为首项,20为公差的等差数列,则a 61=11+60×20=1211,故第61组抽取号码为1211.12.(2018·浙江五校模拟)某报社做了一次关于“什么是新时代的雷锋精神”的调查,在A ,B ,C ,D 四个单位回收的问卷数依次成等差数列,且共回收1000份,因报道需要,再从回收的问卷中按单位分层抽取容量为150的样本,若在B 单位抽30份,则在D 单位抽取的问卷是________份.答案 60解析 由题意依次设在A ,B ,C ,D 四个单位回收的问卷数分别为a 1,a 2,a 3,a 4,则30a 2=1501000,∴a 2=200.又a 1+a 2+a 3+a 4=1000,即3a 2+a 4=1000,∴a 4=400.设在D 单位抽取的问卷数为n ,∴n 400=1501000,解得n=60.13.某企业三个分厂生产同一种电子产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取100件做使用寿命的测试,则第一分厂应抽取的件数为________;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为1020小时、980小时、1030小时,估计这个企业所生产的该产品的平均使用寿命为________小时.答案501015解析第一分厂应抽取的件数为100×50%=50;该产品的平均使用寿命为1020×0.5+980×0.2+1030×0.3=1015.14.(2017·临沂期末)某地区有居民100000户,其中普通家庭99000户,高收入家庭1000户.在普通家庭中以简单随机抽样的方式抽取990户,在高收入家庭中以简单随机抽样的方式抽取100户进行调查,发现共有120户家庭拥有3套或3套以上住房,其中普通家庭50户,高收入家庭70户.依据这些数据并结合所掌握的统计知识,你认为该地区拥有3套或3套以上住房的家庭所占比例的合理估计是________.答案 5.7%解析99000户普通家庭中拥有3套或3套以上住房的约有99000×50990=5000(户),1000户高收入家庭中拥有3套或3套以上住房的约有70100×1000=700(户),故该地拥有3套或3套以上住房的家庭所占比例约为5000+700100000×100%=5.7%.三、解答题15.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样和分层抽样方法抽取,不用剔除个体;如果样本容量增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n .解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为36n ,分层抽样的比例是n 36,抽取工程师人数为n 36×6=n 6(人),技术员人数为n 36×12=n 3(人),技工人数为n 36×18=n 2(人),所以n 应是6的倍数,36的约数,即n =6,12,18.当样本容量为(n +1)时,总体容量是35,系统抽样的间隔35n +1,因为35n +1必须是整数,所以n 只能取6,即样本容量n =6.16.某单位有2000名职工,老年、中年、青年分布在管理、技术开发、营销、生产各部门中,如下表所示:(1)(2)若要开一个25人的讨论单位发展与薪金调整方面的座谈会,则应怎样抽选出席人?(3)若要抽20人调查对广州亚运会举办情况的了解,则应怎样抽样?解(1)按老年、中年、青年分层,用分层抽样法抽取,抽取比例为402000=150.故老年人、中年人、青年人各抽取4人、12人、24人.(2)按管理、技术开发、营销、生产分层,用分层抽样法抽取,抽取比例为252000=180,故管理、技术开发、营销、生产各部门抽取2人、4人、6人、13人.(3)用系统抽样,对全部2000人随机编号,号码从0001~2000,每100号分为一组,从第一组中用简单随机抽样抽取一个号码,然后将这个号码分别加100,200,…,1900,共20人组成一个样本.。
2019版高考数学理精准备考一轮全国:第十八单元 统计
第十八单元统计与统计案例教材复习课“统计与统计案例”相关基础知识一课过三种抽样方法1.从一个容量为N的总体中抽取一个容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3解析:选D根据简单随机抽样、系统抽样和分层抽样的定义可知,无论哪种抽样,每个个体被抽中的概率都是相等的,所以p1=p2=p3.2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是() A.10 B.11C.12 D.16解析:选D从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16.3.为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学中抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C学校中应抽取的人数为()A.10 B.12C .18D .24解析:选A 根据分层抽样的特征,从C 学校中应抽取的人数为90180+270+90×60=10.[清易错]1.系统抽样中,易忽视抽取的样本数也就是分段的段数,当Nn 不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列.2.分层抽样中,易忽视每层抽取的个体的比例是相同的,即样本容量n总体个数N.1.从2 018名学生中选取50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从2 018名学生中剔除18名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率( )A .不全相等B .均不相等C .都相等,且为502 018D .都相等,且为140解析:选C 从N 个个体中抽取M 个个体,则每个个体被抽到的概率都等于MN . 2.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取男生人数为( )A .27B .30C .33D .36解析:选B 因为男生与女生的比例为180∶120=3∶2, 所以应该抽取男生人数为50×33+2=30.频率分布直方图和茎叶图 1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差); (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.[小题速通]1.在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x , 依题意有x 80=14⎝⎛⎭⎫1-x 80,解得x =16.2.某学生在8次测试中,数学成绩的茎叶图如图,则这8次成绩的中位数是( ) A .86 B .87 C .87.5D .88.5解析:选A 由茎叶图得到8个数的大小顺序依次是78,79,83,85,87,88,89,96,中间的两个数为85,87,所以中位数为85+872=86. [清易错]1.易把直方图与条形图混淆两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,连续随机变量在某一点上是没有频率的.2.易忽视频率分布直方图中纵轴表示的应为频率组距.3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.1.某校100名学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100],则图中a 的值为 ( )A .0.006B .0.005C .0.004 5D .0.002 5解析:选B 由题意知,a =1-(0.02+0.03+0.04)×102×10=0.005,故选B.2.(2018·郑州检测)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m ,n 的比值mn =________.解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m =3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以20+n +32+34+384=33,解得n =8,所以m n =38.答案:381.众数、中位数、平均数2.标准差、方差(1)标准差:样本数据到平均数的一种平均距离,一般用s 表示,s = 1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. (2)方差:标准差的平方s 2s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数.[小题速通]1.对于一组数据x i (i =1,2,3,…,n ),如果将它们改变为x i +C (i =1,2,3,…,n ),其中C ≠0,则下列结论正确的是( )A .平均数与方差均不变B .平均数变,方差保持不变C .平均数不变,方差变D .平均数与方差均发生变化解析:选B 依题意,记原数据的平均数为x -,方差为s 2,则新数据的平均数为(x 1+C )+(x 2+C )+…+(x n +C )n =x -+C ,即新数据的平均数改变;新数据的方差为1n [(x 1+C )-(x -+C )]2+[(x 2+C )-(x -+C )]2+…+[(x n +C )-(x -+C )]2=s 2,即新数据的方差不变.2.样本中共有五个个体,其值分别为0,1,2,3,m .若该样本的平均值为1,则其方差为( )A.105B.305C. 2 D .2解析:选D 依题意得m =5×1-(0+1+2+3)=-1,样本方差s 2=15(12+02+12+22+22)=2,即所求的样本方差为2.3.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a ,中位数为b ,众数为c ,则a ,b ,c 的大小关系为( )A .a >b >cB .b >c >aC .c >a >bD .c >b >a解析:选D 依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a <15,b =15,c =17,c >b >a .4.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:解析:由数据表可得乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为7,方差s 2=15(1+0+0+1+0)=25.答案:251.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x - y-∑i =1n x 2i -n x -2, a ^=y --b ^x -. (3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).[小题速通]1.如图是根据x ,y 的观测数据(x i ,y i )(i =1,2,…,10)得到的散点图,可以判断变量x ,y 具有线性相关关系的图是( )A .①②B .①④C .②③D .③④解析:选D 若变量x ,y 具有线性相关关系,那么散点就在某条直线附近,从左上到右下,或从左下到右上,故选D.2.已知变量x ,y 取值如表所示:画散点图分析可知:y 与x 线性相关,且求得回归方程为y =x +1,则m 的值(精确到0.1)为( )A .1.5B .1.6C .1.7D .1.8解析:选C 由题意知,x =3.2代入回归方程y ^=x +1可得y =4.2,则4m =4.2×5-(1.3+5.6+7.4)=6.7,解得m =1.675,则精确到0.1后m 的值为1.7.3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%[清易错]1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79kg ,而不是具体值,因此D 不正确.一、选择题1.(2018·邯郸摸底)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n 人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n =( )A .660B .720C .780D .800解析:选B 由已知条件,抽样比为13780=160,从而35600+780+n =160,解得n =720.2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A 、B ,知A 正确.3.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )A .480B .481C .482D .483解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a 1=7,a 2=32,则d =25,所以7+25(n -1)≤500,所以n ≤20,最大编号为7+25×19=482.4.根据如下样本数据:得到的回归方程为y =b x +a ,则( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^ <0,b ^<0解析:选B 根据样本数据画出散点图(图略),可知b ^<0,a ^>0.5.如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )A .84,4.84B .84,1.6C .85,1.6D .85,4解析:选C 依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.6.某时段内共有100辆汽车经过某一雷达测速区域,将测得的汽车的时速绘制成如图所示的频率分布直方图,根据图形推断,该时段时速超过50 km/h 的汽车的辆数为( )A .56B .61C .70D .77解析:选D 由图知,时速超过50 km/h 的汽车的频率为(0.039+0.028+0.010)×10=0.77,所以时速超过50 km/h 的汽车的辆数为100×0.77=77.7.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”解析:选C ∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.8.从甲、乙两个城市分别随机抽取14台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图),设甲、乙两组数据的平均数分别为x 甲,x 乙,中位数分别为m 甲,m 乙,则( )A.x 甲<x 乙,m 甲>m 乙B.x 甲<x 乙,m 甲<m 乙C.x 甲>x 乙,m 甲>m 乙D. x 甲>x 乙,m 甲<m 乙解析:选A 由题意得x 甲=5+6+10+…+4814≈24.3,x 乙=8+8+10+…+4314≈24.4,即x 甲<x 乙;又m 甲=22+252=23.5,m 乙=23,即m 甲>m 乙,故选A. 二、填空题9.某中学采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是________.解析:间隔数k =80050=16,即每16人抽取一个人.由于39=2×16+7,所以第1小组中抽取的数为7.答案:710.某车间需要确定加工零件的加工时间,进行了若干次试验.根据收集到的数据(如表):由最小二乘法求得回归直线方程y =0.67x +a ,则a 的值为________. 解析:∵x =15×(10+20+30+40+50)=30,y =15×(62+68+75+81+89)=75,回归直线方程y ^=0.67x +a ^过样本中心点(x ,y ), ∴a ^=75-0.67×30=54.9. 答案:54.911.已知甲、乙、丙三类产品共有1 200件,且甲、乙、丙三类产品的数量之比为3∶4∶5,现采用分层抽样的方法抽取60件进行质量检测,则乙类产品抽取的件数为________.解析:由题意可知,乙类产品抽取的件数为 60×43+4+5=20.答案:2012.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析:K 2≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:① 三、解答题13.某地区2011年至2017年农村居民家庭人均纯收入y (单位:千元)的数据如表:(2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a^=y -b ^x (其中x ,y 为样本平均值).解:(1)由题意,得x =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(x i -x )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0+1×0.5+2×0.9+3×1.6=14,∑i =17(x i -x )2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,所以b ^=1428=0.5,a ^=y -b ^x =4.3-0.5×4=2.3,所以y 关于x 的线性回归方程为y ^=0.5x +2.3. (2)因为b ^=0.5>0,所以2011年至2017年该地区农村居民家庭人均纯收入逐年增加, 平均每年增加0.5千元,因为2019的年份代号是x =9,所以代入(1)中的回归方程,可得y ^=0.5×9+2.3=6.8, 所以预测该地区2019年农村居民家庭人均纯收入为 6.8千元.14.(2018·唐山统考)为了调查某校学生体质健康达标情况,现采用随机抽样的方法从该校抽取了m 名学生进行体育测试.根据体育测试得到了这m 名学生的各项平均成绩(满足100分),按照以下区间分为七组:[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并得到频率分布直方图(如图).已知测试平均成绩在区间[30,60)内有20人.(1)求m 的值及中位数n ;(2)若该校学生测试平均成绩小于n ,则学校应适当增加体育活动时间.根据以上抽样调查数据,该校是否需要增加体育活动时间?解:(1)由频率分布直方图知第1组,第2组和第3组的频率分别是0.02,0.02和0.06, 则m ×(0.02+0.02+0.06)=20,解得m =200.由直方图可知,中位数n 位于[70,80)内,则0.02+0.02+0.06+0.22+0.04(n -70)=0.5,解得n =74.5.(2)设第i (i =1,2,3,4,5,6,7)组的频率和频数分别为p i 和x i ,由图知,p 1=0.02,p 2=0.02,p 3=0.06,p 4=0.22,p 5=0.40,p 6=0.18,p 7=0.10,则由x i =200×p i ,可得x 1=4,x 2=4,x 3=12,x 4=44,x 5=80,x 6=36,x 7=20, 故该校学生测试平均成绩是 x =1200×(35x 1+45x 2+55x 3+65x 4+75x 5+85x 6+95x 7)=74<74.5, 所以学校应该适当增加体育活动时间. 高考研究课(一) 随机抽样 [全国卷5年命题分析]考点 考查频度 考查角度系统抽样 未考查分层抽样5年1考抽样方法的选择系统抽样[典例] 将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A 营区,从301到495在B 营区,从496到600在C 营区,则三个营区被抽中的人数依次为( )A .26,16,8B .25,17,8C .25,16,9D .24,17,9[解析] 依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N *)组抽中的号码是3+12(k -1).令3+12(k -1)≤300,得k ≤1034,因此A 营区被抽中的人数是25;令300<3+12(k -1)≤495,得1034<k ≤42,因此B 营区被抽中的人数是42-25=17,故C 营区被抽中的人数为50-25-17=8.[答案] B [方法技巧]解决系统抽样问题的2个关键步骤(1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.[即时演练]1.某学校教务处采用系统抽样方法,从学校高三年级全体1 000名学生中抽50名学生做学习状况问卷调查.现将1 000名学生从1到1 000进行编号,求得间隔数k =20,即分50组,每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是( )A .117B .157C .417D .367解析:选B 根据系统抽样法的特点,可知抽取出的号码成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.2.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有被抽出职工的号码为________.解析:由题意,把40名职工分成5组,故组距为405=8,又第一组抽出的号码为2,则抽出的所有号码组成以2为首项,8为公差的等差数列,故抽出的号码为2,10,18,26,34.答案:2,10,18,26,34分层抽样分层抽样是历年高考的重要考点之一,高考中常把分层抽样、频率分布、概率综合起来进行考查,反映了当前高考的命题方向.这类试题难度不大,但考查的知识面较为宽广,在解题中要注意准确使用所学知识,不然在一个点上的错误就会导致整体失误.,常见的命题角度有:(1)与频率分布直方图相结合问题; (2)与概率相结合问题.1.某校从高三年级中随机选取200名学生,将他们的一模数学成绩绘制成频率分布直方图(如图). 由图中数据可知a =________.若要从成绩在[120, 130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从成绩在[130,140) 内的学生中选取的人数应为________.解析:由题意知,(0.020+0.035+a +0.010+0.005)×10=1,解得a =0.030.由分层抽样的原则可知,在[120, 130),[130 ,140),[140 , 150]三组内的学生中,人数比为6∶2∶1.所以从成绩在[130 ,140) 内的学生中选取的人数为18×29=4.答案:0.030 42.从某学校所有高一学生某次计算机笔试成绩中选出40名学生的成绩(单位:分),成绩分组区间为[50,70),[70,90),[90,110),[110,130),[130,150],由此绘制成如图所示的频率分布直方图,规定成绩低于90分为不及格,成绩不低于90分为及格.(1)求频率分布直方图中m 的值; (2)求这40名学生中不及格的学生人数;(3)从不及格的学生中按成绩用分层抽样的方法任选5人,再从这5人中任选2人,求这2人的成绩均在[70,90)内的概率.解:(1)由题中频率分布直方图知,组距为20, 由⎝⎛⎭⎫m +32m +72m +3m +m ×20=1,解得m =0.005. (2)这40名学生中不及格的学生人数为 52×0.005×20×40=10. (3)按成绩分层抽样,则从成绩在[50,70),[70,90)的学生中应选取的人数分别为25×5=2,35×5=3,记成绩在[50,70)内的2人分别为A 1,A 2,成绩在[70,90)内的3人分别为B 1,B 2,B 3,“2人的成绩均在[70,90)内”为事件A ,则从这5人中任选2人的基本事件有(A 1,A 2),(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(B 1,B 2),(B 1,B 3),(B 2,B 3),共10个.其中这2人的成绩都在[70,90)内的基本事件有(B 1,B 2),(B 1,B 3),(B 2,B 3),共3个.故所求概率P (A )=310. 角度二 与概率相结合问题3.由世界自然基金会发起的“地球1小时”活动已发展成为最有影响力的环保活动之一,今年的参与人数再创新高,然而也有部分公众对该活动的实际效果与影响提出了疑问.对此,某新闻媒体进行了网上调查,在所有参与调查的人中,持“支持”、“保留”和“不支持”态度的人数如下表所示:态度年龄支持 保留 不支持 20岁以下 800 450 200 20岁以上(含20岁)100150300(1)在所有参与调查的人中,用分层抽样的方法抽取n 个人,已知从持“支持”态度的人中抽取了45人,求n 的值;(2)在持“不支持”态度的人中,用分层抽样的方法抽取5人看成一个总体,从这5人中任意选取2人,求至少有1人年龄在20岁以下的概率.解:(1)由题意得45800+100=n 800+450+200+100+150+300,解得n =100.(2)设所抽取的人中,有m 人年龄在20岁以下, 则200200+300=m 5,解得m =2.即20岁以下抽取了2人,分别记为A 1,A 2;20岁以上(含20岁)抽取了3人,分别记为B 1,B 2,B 3,则从中任取2人的所有基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),(B 1,B 2),(B 2,B 3),(B 1,B 3),共10个.其中至少有1人年龄在20岁以下的基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),共7个,所以从中任意抽取2人,至少有1人年龄在20岁以下的概率为710.[方法技巧]进行分层抽样的相关计算时,常用到的2个关系(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.1.(2013·全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是() A.简单随机抽样 B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:选C由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.2.(2015·北京高考)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()A.90C.180 D.300解析:选C设该样本中的老年教师人数为x,由题意及分层抽样的特点得x900=3201 600,故x=180.3.(2015·湖南高考)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是()A.3 B.4C.5 D.6解析:选B35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在4个小组中,每组取1人,共取4人.4.(2015·福建高考)某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.解析:设男生抽取x 人,则有45900=x 900-400,解得x =25. 答案:25一、选择题1.某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19解析:选C 设第一组抽取的号码为x ,根据题意可得抽样间隔为1 00040=25,则x +25×(18-1)=443,解得x =18.2.某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区有20个大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②,则完成①②这两项调查宜采用的抽样方法依次是( )A .分层抽样法,系统抽样法B .分层抽样法,简单随机抽样法C .系统抽样法,分层抽样法D .简单随机抽样法,分层抽样法解析:选B 一般甲、乙、丙、丁四个地区会存在差异,采用分层抽样法较好.在丙地区中抽取的样本个数较少,易采用简单随机抽样法.3.《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为( )A .2B .4C .5D .6解析:选B 由茎叶图可知,“诗词达人”有8人,“诗词能手”有16人,“诗词爱好者”有16人,由分层抽样可得, 抽选的学生中获得“诗词能手”称号的人数为1040×16=4.4.某校高一、高二、高三的学生人数之比为2∶3∶5,若用分层抽样的方法抽取容量为200的样本,则应从高三学生中抽取的人数为( )A .40B .60C .80D .100解析:选D ∵高一、高二、高三的学生人数之比为2∶3∶5,∴若用分层抽样的方法抽取容量为200的样本,则应从高三学生中抽取的人数为52+3+5×200=100.5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C ,则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15解析:选C 由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30k +9(k =0,1,…,31).由451≤30k +9≤750,解得44230≤k ≤74130,又k ∈N ,故k =15,16,…,24,共10人.6.一个总体中有600个个体,随机编号为001,002,…,600,利用系统抽样方法抽取容量为24的一个样本,总体分组后在第一组随机抽得的编号为006,则在编号为051~125之间抽得的编号为( )A .056,080,104B .054,078,102C .054,079,104D .056,081,106。
2019版高考数学(理科)一轮复习通用版:第十八单元 统计与统计案例
第十八单元统计与统计案例教材复习课“统计与统计案例”相关基础知识一课过三种抽样方法三种抽样方法类别共同点各自特点相互联系适用范围简单随机抽样是不放回抽样,抽样过程中,每个个体被抽到的机会(概率)相等从总体中逐个抽取总体中的个数较少系统抽样将总体均分成几部分,按事先确定的规则,在各部分抽取在起始部分抽样时,采用简单随机抽样总体中的个数比较多分层抽样将总体分成几层,分层进行抽取各层抽样时,采用简单随机抽样或系统抽样总体由差异明显的几部分组成1.从一个容量为N的总体中抽取一个容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3解析:选D根据简单随机抽样、系统抽样和分层抽样的定义可知,无论哪种抽样,每个个体被抽中的概率都是相等的,所以p1=p2=p3.2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是() A.10 B.11C.12 D.16解析:选D从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16.3.为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学中抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C 学校中应抽取的人数为()A.10 B.12C.18 D.24解析:选A 根据分层抽样的特征,从C 学校中应抽取的人数为90180+270+90×60=10.[清易错]1.系统抽样中,易忽视抽取的样本数也就是分段的段数,当Nn 不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列.2.分层抽样中,易忽视每层抽取的个体的比例是相同的,即样本容量n总体个数N.1.从2 018名学生中选取50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从2 018名学生中剔除18名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率( )A .不全相等B .均不相等C .都相等,且为502 018D .都相等,且为140解析:选C 从N 个个体中抽取M 个个体,则每个个体被抽到的概率都等于MN . 2.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取男生人数为( )A .27B .30C .33D .36解析:选B 因为男生与女生的比例为180∶120=3∶2, 所以应该抽取男生人数为50×33+2=30.频率分布直方图和茎叶图 1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差); (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.[小题速通]1.在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x , 依题意有x 80=14⎝⎛⎭⎫1-x 80,解得x =16.2.某学生在8次测试中,数学成绩的茎叶图如图,则这8次成绩的中位数是( ) A .86 B .87 C .87.5D .88.5解析:选A 由茎叶图得到8个数的大小顺序依次是78,79,83,85,87,88,89,96,中间的两个数为85,87,所以中位数为85+872=86. [清易错]1.易把直方图与条形图混淆两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,连续随机变量在某一点上是没有频率的.2.易忽视频率分布直方图中纵轴表示的应为频率组距.3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.1.某校100名学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100],则图中a 的值为 ( )A .0.006B .0.005C .0.004 5D .0.002 5解析:选B 由题意知,a =1-(0.02+0.03+0.04)×102×10=0.005,故选B.2.(2018·郑州检测)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m ,n 的比值mn=________.解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m =3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以20+n +32+34+384=33,解得n =8,所以m n =38.答案:38样本的数字特征1.众数、中位数、平均数(1)标准差:样本数据到平均数的一种平均距离,一般用s 表示,s = 1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2]. (2)方差:标准差的平方s 2s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数.[小题速通]1.对于一组数据x i (i =1,2,3,…,n ),如果将它们改变为x i +C (i =1,2,3,…,n ),其中C ≠0,则下列结论正确的是( )A .平均数与方差均不变B .平均数变,方差保持不变C .平均数不变,方差变D .平均数与方差均发生变化解析:选B 依题意,记原数据的平均数为x -,方差为s 2,则新数据的平均数为(x 1+C )+(x 2+C )+…+(x n +C )n =x -+C ,即新数据的平均数改变;新数据的方差为1n [(x 1+C )-(x -+C )]2+[(x 2+C )-(x -+C )]2+…+[(x n +C )-(x -+C )]2=s 2,即新数据的方差不变.2.样本中共有五个个体,其值分别为0,1,2,3,m .若该样本的平均值为1,则其方差为( ) A.105B.305C. 2 D .2解析:选D 依题意得m =5×1-(0+1+2+3)=-1,样本方差s 2=15(12+02+12+22+22)=2,即所求的样本方差为2.3.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a ,中位数为b ,众数为c ,则a ,b ,c 的大小关系为( )A .a >b >cB .b >c >aC .c >a >bD .c >b >a解析:选D 依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a <15,b =15,c =17,c >b >a .4.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:学生 1号 2号 3号 4号 5号 甲班 6 7 7 8 7 乙班6767922解析:由数据表可得乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为7,方差s 2=15(1+0+0+1+0)=25.答案:251.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x - y-∑i =1n x 2i -n x -2, a ^=y --b ^x -. (3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +dK 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).[小题速通]1.如图是根据x ,y 的观测数据(x i ,y i )(i =1,2,…,10)得到的散点图,可以判断变量x ,y 具有线性相关关系的图是( )A .①②B .①④C .②③D .③④解析:选D 若变量x ,y 具有线性相关关系,那么散点就在某条直线附近,从左上到右下,或从左下到右上,故选D.2.已知变量x ,y 取值如表所示:x 0 1 4 5 6 y1.3m3m5.67.4画散点图分析可知:y 与x 线性相关,且求得回归方程为y =x +1,则m 的值(精确到0.1)为( )A .1.5B .1.6C .1.7D .1.8解析:选C 由题意知,x =3.2代入回归方程y ^=x +1可得y =4.2,则4m =4.2×5-(1.3+5.6+7.4)=6.7,解得m =1.675,则精确到0.1后m 的值为1.7.3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P 2根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%[清易错]1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79kg ,而不是具体值,因此D 不正确.一、选择题1.(2018·邯郸摸底)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n 人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n =( )A .660B .720C .780D .800解析:选B 由已知条件,抽样比为13780=160,从而35600+780+n =160,解得n =720.2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A 、B ,知A 正确.3.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )A .480B .481C .482D .483解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a 1=7,a 2=32,则d =25,所以7+25(n -1)≤500,所以n ≤20,最大编号为7+25×19=482.4.根据如下样本数据:x 2 3 4 5 6 7 y4.12.5-0.50.5-2.0-3.0得到的回归方程为y =b x +a ,则( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^ <0,b ^<0解析:选B 根据样本数据画出散点图(图略),可知b ^<0,a ^>0.5.如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )A .84,4.84B .84,1.6C .85,1.6D .85,4解析:选C 依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.6.某时段内共有100辆汽车经过某一雷达测速区域,将测得的汽车的时速绘制成如图所示的频率分布直方图,根据图形推断,该时段时速超过50 km/h 的汽车的辆数为( )A .56B .61C .70D .77解析:选D 由图知,时速超过50 km/h 的汽车的频率为(0.039+0.028+0.010)×10=0.77,所以时速超过50 km/h 的汽车的辆数为100×0.77=77.7.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”解析:选C ∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.8.从甲、乙两个城市分别随机抽取14台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图),设甲、乙两组数据的平均数分别为x 甲,x 乙,中位数分别为m 甲,m乙,则( )A.x 甲<x 乙,m 甲>m 乙B.x 甲<x 乙,m 甲<m 乙C.x 甲>x 乙,m 甲>m 乙D. x 甲>x 乙,m 甲<m 乙解析:选A 由题意得x 甲=5+6+10+…+4814≈24.3,x 乙=8+8+10+…+4314≈24.4,即x 甲<x 乙; 又m 甲=22+252=23.5,m 乙=23,即m 甲>m 乙,故选A. 二、填空题9.某中学采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是________.解析:间隔数k =80050=16,即每16人抽取一个人.由于39=2×16+7,所以第1小组中抽取的数为7.答案:710.某车间需要确定加工零件的加工时间,进行了若干次试验.根据收集到的数据(如表):零件数x /个 10 20 30 40 50 加工时间y /分钟6268758189由最小二乘法求得回归直线方程y =0.67x +a ,则a 的值为________. 解析:∵x =15×(10+20+30+40+50)=30,y =15×(62+68+75+81+89)=75,回归直线方程y ^=0.67x +a ^过样本中心点(x ,y ), ∴a ^=75-0.67×30=54.9. 答案:54.911.已知甲、乙、丙三类产品共有1 200件,且甲、乙、丙三类产品的数量之比为3∶4∶5,现采用分层抽样的方法抽取60件进行质量检测,则乙类产品抽取的件数为________.解析:由题意可知,乙类产品抽取的件数为 60×43+4+5=20.答案:2012.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析:K 2≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:① 三、解答题13.某地区2011年至2017年农村居民家庭人均纯收入y (单位:千元)的数据如表:年份 2011 2012 2013 2014 2015 2016 2017 年份代号x 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x (其中x ,y 为样本平均值).解:(1)由题意,得x =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(x i -x )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0+1×0.5+2×0.9+3×1.6=14,∑i =17(x i -x )2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,所以b ^=1428=0.5,a ^=y -b ^x =4.3-0.5×4=2.3,所以y 关于x 的线性回归方程为y ^=0.5x +2.3. (2)因为b ^=0.5>0,所以2011年至2017年该地区农村居民家庭人均纯收入逐年增加, 平均每年增加0.5千元,因为2019的年份代号是x =9,所以代入(1)中的回归方程,可得y ^=0.5×9+2.3=6.8, 所以预测该地区2019年农村居民家庭人均纯收入为 6.8千元.14.(2018·唐山统考)为了调查某校学生体质健康达标情况,现采用随机抽样的方法从该校抽取了m名学生进行体育测试.根据体育测试得到了这m名学生的各项平均成绩(满足100分),按照以下区间分为七组:[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并得到频率分布直方图(如图).已知测试平均成绩在区间[30,60)内有20人.(1)求m的值及中位数n;(2)若该校学生测试平均成绩小于n,则学校应适当增加体育活动时间.根据以上抽样调查数据,该校是否需要增加体育活动时间?解:(1)由频率分布直方图知第1组,第2组和第3组的频率分别是0.02,0.02和0.06,则m×(0.02+0.02+0.06)=20,解得m=200.由直方图可知,中位数n位于[70,80)内,则0.02+0.02+0.06+0.22+0.04(n-70)=0.5,解得n=74.5.(2)设第i(i=1,2,3,4,5,6,7)组的频率和频数分别为p i和x i,由图知,p1=0.02,p2=0.02,p3=0.06,p4=0.22,p5=0.40,p6=0.18,p7=0.10,则由x i=200×p i,可得x1=4,x2=4,x3=12,x4=44,x5=80,x6=36,x7=20,故该校学生测试平均成绩是x=1200×(35x1+45x2+55x3+65x4+75x5+85x6+95x7)=74<74.5,所以学校应该适当增加体育活动时间.高考研究课(一)随机抽样[全国卷5年命题分析]考点考查频度考查角度系统抽样未考查分层抽样5年1考抽样方法的选择[典例]采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,则三个营区被抽中的人数依次为( )A .26,16,8B .25,17,8C .25,16,9D .24,17,9[解析] 依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N *)组抽中的号码是3+12(k -1).令3+12(k -1)≤300,得k ≤1034,因此A 营区被抽中的人数是25;令300<3+12(k -1)≤495,得1034<k ≤42,因此B 营区被抽中的人数是42-25=17,故C 营区被抽中的人数为50-25-17=8.[答案] B [方法技巧]解决系统抽样问题的2个关键步骤(1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.[即时演练]1.某学校教务处采用系统抽样方法,从学校高三年级全体1 000名学生中抽50名学生做学习状况问卷调查.现将1 000名学生从1到1 000进行编号,求得间隔数k =20,即分50组,每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是( )A .117B .157C .417D .367解析:选B 根据系统抽样法的特点,可知抽取出的号码成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.2.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有被抽出职工的号码为________.解析:由题意,把40名职工分成5组,故组距为405=8,又第一组抽出的号码为2,则抽出的所有号码组成以2为首项,8为公差的等差数列,故抽出的号码为2,10,18,26,34.答案:2,10,18,26,34分层抽样分层抽样是历年高考的重要考点之一,高考中常把分层抽样、频率分布、概率综合起来进行考查,反映了当前高考的命题方向.这类试题难度不大,但考查的知识面较为宽广,在解题中要注意准确使用所学知识,不然在一个点上的错误就会导致整体失误.,常见的命题角度有:(1)与频率分布直方图相结合问题; (2)与概率相结合问题.角度一:与频率分布直方图相结合问题1.某校从高三年级中随机选取200名学生,将他们的一模数学成绩绘制成频率分布直方图(如图). 由图中数据可知a =________.若要从成绩在[120, 130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从成绩在[130,140) 内的学生中选取的人数应为________.解析:由题意知,(0.020+0.035+a +0.010+0.005)×10=1,解得a =0.030.由分层抽样的原则可知,在[120, 130),[130 ,140),[140 , 150]三组内的学生中,人数比为6∶2∶1.所以从成绩在[130 ,140) 内的学生中选取的人数为18×29=4.答案:0.030 42.从某学校所有高一学生某次计算机笔试成绩中选出40名学生的成绩(单位:分),成绩分组区间为[50,70),[70,90),[90,110),[110,130),[130,150],由此绘制成如图所示的频率分布直方图,规定成绩低于90分为不及格,成绩不低于90分为及格.(1)求频率分布直方图中m 的值; (2)求这40名学生中不及格的学生人数;(3)从不及格的学生中按成绩用分层抽样的方法任选5人,再从这5人中任选2人,求这2人的成绩均在[70,90)内的概率.解:(1)由题中频率分布直方图知,组距为20, 由⎝⎛⎭⎫m +32m +72m +3m +m ×20=1,解得m =0.005. (2)这40名学生中不及格的学生人数为 52×0.005×20×40=10. (3)按成绩分层抽样,则从成绩在[50,70),[70,90)的学生中应选取的人数分别为25×5=2,35×5=3,记成绩在[50,70)内的2人分别为A 1,A 2,成绩在[70,90)内的3人分别为B 1,B 2,B 3,“2人的成绩均在[70,90)内”为事件A ,则从这5人中任选2人的基本事件有(A 1,A 2),(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(B 1,B 2),(B 1,B 3),(B 2,B 3),共10个.其中这2人的成绩都在[70,90)内的基本事件有(B 1,B 2),(B 1,B 3),(B 2,B 3),共3个. 故所求概率P (A )=310. 角度二 与概率相结合问题3.由世界自然基金会发起的“地球1小时”活动已发展成为最有影响力的环保活动之一,今年的参与人数再创新高,然而也有部分公众对该活动的实际效果与影响提出了疑问.对此,某新闻媒体进行了网上调查,在所有参与调查的人中,持“支持”、“保留”和“不支持”态度的人数如下表所示:态度年龄支持 保留 不支持 20岁以下 800 450 200 20岁以上(含20岁)100150300(1)中抽取了45人,求n 的值;(2)在持“不支持”态度的人中,用分层抽样的方法抽取5人看成一个总体,从这5人中任意选取2人,求至少有1人年龄在20岁以下的概率.解:(1)由题意得45800+100=n 800+450+200+100+150+300,解得n =100.(2)设所抽取的人中,有m 人年龄在20岁以下, 则200200+300=m 5,解得m =2. 即20岁以下抽取了2人,分别记为A 1,A 2;20岁以上(含20岁)抽取了3人,分别记为B 1,B 2,B 3,则从中任取2人的所有基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),(B 1,B 2),(B 2,B 3),(B 1,B 3),共10个.其中至少有1人年龄在20岁以下的基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),共7个,所以从中任意抽取2人,至少有1人年龄在20岁以下的概率为710.[方法技巧]进行分层抽样的相关计算时,常用到的2个关系(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.1.(2013·全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样 B.按性别分层抽样 C.按学段分层抽样D.系统抽样解析:选C 由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A ;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B 和D.故选C.2.(2015·北京高考)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )类别 人数 老年教师 900 中年教师 1 800 青年教师 1 600 合计4 300A.90 C .180D .300解析:选C 设该样本中的老年教师人数为x ,由题意及分层抽样的特点得x 900=3201 600,故x =180.3.(2015·湖南高考)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .6解析:选B 35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在4个小组中,每组取1人,共取4人.4.(2015·福建高考)某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.解析:设男生抽取x人,则有45900=x900-400,解得x=25.答案:25一、选择题1.某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为()A.16B.17C.18 D.19解析:选C设第一组抽取的号码为x,根据题意可得抽样间隔为1 00040=25,则x+25×(18-1)=443,解得x=18.2.某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区有20个大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②,则完成①②这两项调查宜采用的抽样方法依次是()A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法解析:选B一般甲、乙、丙、丁四个地区会存在差异,采用分层抽样法较好.在丙地区中抽取的样本个数较少,易采用简单随机抽样法.3.《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为()。
2019届高考大一轮复习备考资料之数学人教A版全国用讲
§11.3 变量间的相关关系、统计案例1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑ni =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i-n x y ∑n i =1x 2i-n x2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.题组一 思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得线性回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( × )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( √ )题组二 教材改编2.[P97A 组T2]为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 3.[P97练习]下面是2×2列联表:则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,52答案 C解析 ∵a +21=73,∴a =52. 又a +22=b ,∴b =74.4.[P81例1]某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由x =30,得y =0.67×30+54.9=75.设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.题组三 易错自纠5.某医疗机构通过抽样调查(样本容量n =1 000),利用2×2列联表和K 2统计量研究患肺病是否与吸烟有关.计算得K 2=4.453,经查阅临界值表知P (K 2≥3.841)≈0.05,现给出四个结论,其中正确的是( )A .在100个吸烟的人中约有95个人患肺病B .若某人吸烟,那么他有95%的可能性患肺病C .有95%的把握认为“患肺病与吸烟有关”D .只有5%的把握认为“患肺病与吸烟有关” 答案 C解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)现已知其线性回归方程为y ^=0.36x +a ^,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数) 答案 73解析 x =60+65+70+75+805=70,y =62+64+66+68+705=66,所以66=0.36×70+a ^,a ^=40.8,即线性回归方程为y ^=0.36x +40.8.当x =90时,y ^=0.36×90+40.8=73.2≈73.题型一相关关系的判断1.观察下列各图形,其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③答案 C解析由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.2.(2018·广州质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案 D解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;2007年二氧化硫排放量较2006年降低了很多,B选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D.3.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用y =21ec xc 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. 答案 ①②解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =21ec xc 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误. 思维升华 判定两个变量正,负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关. 题型二 线性回归分析典例 (2016·全国Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n(y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .解 (1)由折线图中数据和附注中参考数据得 t =4,∑i =17(t i -t )2=28,∑i =17(y i -y )2=0.55.∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i=40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系. (2)由y =9.327≈1.331及(1)得b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点的中心求系数.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.跟踪训练 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18(w i -w )·(y i -y )∑i =18(w i -w )2=108.81.6=68, c ^=y -d ^ w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.题型三 独立性检验典例 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知,P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.409 2.(2)根据箱产量的频率分布直方图得列联表如下:K 2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35 (kg).思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算K 2的大小判断:K 2越大,两变量有关联的可能性越大.②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤①根据样本数据制成2×2列联表.②根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k .③比较k 与临界值的大小关系,作统计推断.跟踪训练 (2017·石家庄质检)微信是现代生活进行信息交流的重要工具,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中有23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2)根据2×2列表中的数据利用独立性检验的方法判断是否有99.9%的把握认为“经常使用微信与年龄有关”?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由已知可得,该公司员工中使用微信的有200×90%=180(人). 经常使用微信的有180-60=120(人), 其中青年人有120×23=80(人),使用微信的人中青年人有180×75%=135(人), 故2×2列联表如下:(2)将列联表中数据代入公式可得: K 2=180×(80×5-55×40)2120×60×135×45≈13.333,由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y ^=b ^x +a ^; (2)利用(1)中所求出的线性回归方程预测该地2018年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.对处理的数据,容易算得x =0,y =3.2,[4分]b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2.[6分]由上述计算结果,知所求线性回归方程为y ^-257=6.5(x -2010)+3.2,即y ^=6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2018年的粮食需求量大约为 6.5×(2018-2010)+260.2=6.5×8+260.2=312.2(万吨).[12分]1.根据如下样本数据:得到的线性回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0答案 B解析 根据给出的数据可发现:整体上y 与x 呈现负相关,所以b ^<0,由样本点(3,4.0)及(4,2.5)可知a ^>0,故选B.2.(2017·江西南城一中、高安中学等九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,正确的结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 ∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^ ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( )A.116B.18C.14D.12 答案 B解析 依题意可知样本点的中心为⎝⎛⎭⎫34,38,则38=13×34+a ^ ,解得a ^=18. 4.(2017·山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 答案 C解析 ∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160.又b ^=4,∴a ^=y -b ^x =160-4×22.5=70.∴线性回归方程为y ^=4x +70.将x =24代入上式,得y ^=4×24+70=166.故选C.5.(2018·湖南永州模拟)已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y ^=b ^x +a ^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′答案 C解析 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^ =∑6i =1x i y i -6x ·y ∑i =16x 2i -6x2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^ =y-b ^x =136-57×72=-13,所以b ^ <b ′,a ^>a ′.6.某地2009年至2015年中,每年的人口总数y (单位:万)的数据如下表:若t 与y 之间具有线性相关关系,则其回归直线y ^=b ^t +a ^一定过点( )A .(3,9)B .(9,3)C .(6,14)D .(4,11)答案 A解析 t =17(0+1+2+3+4+5+6)=3,y =17(8+8+8+9+9+10+11)=9,所以回归直线y ^=b ^t +a ^一定过点(3,9).7.(2017·遵义联考)某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m 与年销售额t (单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出m 与年销售额t 满足线性回归方程t ^=6.5m +17.5,则p =________. 答案 60解析 由于回归直线过样本点的中心,m =5,t =190+p 5,代入t ^=6.5m +17.5,解得p =60.8.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y 的统计量K 2来说,K 2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,统计量K 2越小,说明两个相关变量有关系的把握程度越小. 9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则有________的把握认为选修文科与性别有关.答案 95%解析 由题意,K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.10.(2017·武邑模拟)对具有线性相关关系的变量x ,y 有10组观测数据(x i ,y i )(i =1,2,…,10),其线性回归方程为y ^=-3+2x ,若∑10i =1x i =17,则∑10i =1y i =________. 答案 4解析 依题意x =1710=1.7,而直线y ^=-3+2x 一定经过(x ,y ),∴y =-3+2x =-3+2×1.7=0.4,∴∑10i =1y i =0.4×10=4. 11.某地区2009年至2015年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y 关于t 的线性回归方程;(2)利用(1)中的线性回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2018年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .解 (1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求线性回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2009年至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2018年的年份代号t =10代入(1)中的线性回归方程,得y ^=0.5×10+2.3=7.3, 故预测该地区2018年农村居民家庭人均纯收入为7.3千元.12.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)“赞成定价者”的月平均收入为x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:K 2=50×(3×11-7×29)210×40×18×32≈6.272<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.13.(2017·通州一模)对两个变量y 和x 进行回归分析,得到一组样本数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则下列说法中不正确的是( )A .由样本数据得到的回归直线y ^=b ^x +a ^必过样本点的中心(x ,y ) B .残差平方和越小的模型,拟合的效果越好C .用相关指数R 2来刻画回归效果,R 2的值越小,说明模型的拟合效果越好D .若变量y 和x 之间的相关系数r =-0.936 2,则变量y 与x 之间具有线性相关关系 答案 C解析 R 2的值越大,说明残差平方和越小,也就是模型的拟合效果越好,故选C.14.(2018·河北保定模拟)中央政府为了应对因人口老龄化而造成的劳动力短缺问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;(2)若以45岁为分界点,从不支持“延迟退休年龄政策”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人,求至少有1人是45岁及45岁以上的概率. 参考数据:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)2×2列联表如下:因为K 2=100×(35×5-45×15)250×50×80×20=254=6.25>3.841,所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)从不支持“延迟退休年龄政策”的人中抽取8人,则45岁以下的应抽6人,45岁及45岁以上的应抽2人.则8人中随机抽2人共有C 28=28种抽法,至少有1人是45岁及45岁以上共有C 16C 12+C 22=13(种)抽法,故所求概率为1328.15.(2018·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.答案 12解析 设男生人数为x ,由题意可得列联表如下:若有95%的把握认为是否喜欢韩剧和性别有关, 则k >3.841,即k =3x 2⎝⎛⎭⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x 8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.16.(2017·包头一模)如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业的污水净化量; (3)请用数据说明回归方程预报的效果.参考数据:y =54,∑7i =1(t i -t )(y i -y )=21,14≈3.74, ∑7i =1(y i -y ^i)2=94. 参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1 (t i -t )2∑ni =1(y i -y )2,线性回归方程y ^=a ^+b ^t ,b ^=∑ni =1(t i -t )(y i -y )∑ni =1(t i -t )2,a ^=y -b ^t . 反映回归效果的公式为:R 2=1-∑n i =1 (y i -y ^i )2∑ni =1(y i -y )2,其中R 2越接近于1,表示回归的效果越好.解 (1)由折线图中的数据得,t =4,∑7i =1(t i -t )2=28,∑7i =1(y i -y )2=18, 所以r =2128×18≈0.935. 因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y =54,b ^=∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51.将2017年对应的t =8代入得y ^ =34×8+51=57,所以预测2017年该企业污水净化量约为57吨.(3)因为R 2=1-∑7i =1 (y i -y ^i )2∑7i =1(y i -y )2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.。
2019年高考数学(文科)一轮分层演练:第10章概率、统计和统计案例第1讲(含答案解析)
[学生用书P273(单独成册)]一、选择题1.设事件A ,B ,已知P (A )=15,P (B )=13,P (A ∪B )=815,则A ,B 之间的关系一定为( )A .两个任意事件B .互斥事件C .非互斥事件D .对立事件解析:选B .因为P (A )+P (B )=15+13=815=P (A ∪B ),所以A ,B 之间的关系一定为互斥事件.故选B .2.某产品分甲、乙、丙三级,其中乙、丙两级均属次品,在正常生产情况下,出现乙级品和丙级品的概率分别是5%和3%,则抽检一件是正品(甲级)的概率为( )A .0.95B .0.97C .0.92D .0.08解析:选C .记抽检的产品是甲级品为事件A ,是乙级品为事件B ,是丙级品为事件C ,这三个事件彼此互斥,因而所求概率为P (A )=1-P (B )-P (C )=1-5%-3%=92%=0.92.3.从3个红球、2个白球中随机取出2个球,则取出的2个球不全是红球的概率是( ) A .110B .310C .710D .35解析:选C .“取出的2个球全是红球”记为事件A ,则P (A )=310.因为“取出的2个球不全是红球”为事件A 的对立事件,所以其概率为P (A )=1-P (A )=1-310=710.4.“微信抢红包”自2015年以来异常火爆,在某个微信群某次进行的抢红包活动中,若所发红包的总金额为9元,被随机分配为1.49元,1.31元,2.19 元,3.40元,0.61元,共5份,供甲、乙等5人抢,每人只能抢一次, 则甲、乙二人抢到的金额之和不低于4元的概率是( )A .12B .25C .34D .56解析:选B .设事件A 为“甲、乙二人抢到的金额之和不低于4元”,甲、乙两人抢到红包的所有结果为{1.49,1.31},{1.49,2.19},{1.49,3.40},{1.49,0.61},{1.31,2.19},{1.31,3.40},{1.31,0.61},{2.19,3.40},{2.19,0.61},{3.40,0.61},共10种情况.其中事件A 的结果一共有4种情况,根据古典概型概率计算公式,得P (A )=410=25,即甲、乙二人抢到的金额之和不低于4元的概率是25.故选B .5.在正六边形的6个顶点中随机选择4个顶点,则构成的四边形是梯形的概率为( ) A .15B .25C .16D .18解析:选B .如图,在正六边形ABCDEF 的6个顶点中随机选择4个顶点,共有15种选法,其中构成的四边形是梯形的有ABEF ,BCDE ,ABCF ,CDEF ,ABCD ,ADEF ,共6种情况,故构成的四边形是梯形的概率P =615=25.6.已知集合M ={1,2,3,4},N ={(a ,b )|a ∈M ,b ∈M },A 是集合N 中任意一点,O 为坐标原点,则直线OA 与y =x 2+1有交点的概率是( )A .12B .13C .14D .18解析:选C .易知过点(0,0)与y =x 2+1相切的直线为y =2x (斜率小于0的无需考虑),集合N 中共有16个元素,其中使OA 斜率不小于2的有(1,2),(1,3),(1,4),(2,4),共4个,由古典概型知概率为416=14.二、填空题7.某城市2017年的空气质量状况如下表所示:轻微污染,则该城市2017年空气质量达到良或优的概率为________.解析:由题意可知2017年空气质量达到良或优的概率为P =110+16+13=35.答案:358.口袋内装有一些除颜色不同之外其他均相同的红球、白球和黑球,从中摸出1个球,摸出红球的概率是0.42,摸出白球的概率是0.28,若红球有21个,则黑球有________个.解析:摸到黑球的概率为1-0.42-0.28=0.3.设黑球有n 个,则0.4221=0.3n ,故n =15.答案:159.从2名男生和2名女生中,任意选择两人在星期六、星期日参加某公益活动,每天一人,则星期六安排一名男生,星期日安排一名女生的概率为________.解析:将2名男生记为A 1,A 2,2名女生记为B 1,B 2,任意选择两人在星期六、星期日参加某公益活动有A 1A 2,A 1B 1,A 1B 2,A 2B 1,A 2B 2,B 1B 2,B 1A 1,B 2A 1,B 1A 2,B 2A 2,B 2B 1,A 2A 1共12种情况,而星期六安排一名男生,星期日安排一名女生共有A 1B 1,A 1B 2,A 2B 1,A 2B 2这4种情况,则其发生的概率为412=13.答案:1310.现有7名数理化成绩优秀者,分别用A 1,A 2,A 3,B 1,B 2,C 1,C 2表示,其中A 1,A 2,A 3的数学成绩优秀,B 1,B 2的物理成绩优秀,C 1,C 2的化学成绩优秀.从中选出数学、物理、化学成绩优秀者各1名,组成一个小组代表学校参加竞赛,则A 1和B 1不全被选中的概率为________.解析:从这7人中选出数学、物理、化学成绩优秀者各1名,所有可能的结果组成的12个基本事件为:(A 1,B 1,C 1),(A 1,B 1,C 2),(A 1,B 2,C 1),(A 1,B 2,C 2),(A 2,B 1,C 1),(A 2,B 1,C 2),(A 2,B 2,C 1),(A 2,B 2,C 2),(A 3,B 1,C 1),(A 3,B 1,C 2),(A 3,B 2,C 1),(A 3,B 2,C 2).设“A 1和B 1不全被选中”为事件N ,则其对立事件N -表示“A 1和B 1全被选中”,由于N -={(A 1,B 1,C 1),(A 1,B 1,C 2)},所以P (N -)=212=16,由对立事件的概率计算公式得P (N )=1-P (N -)=1-16=56.答案:56三、解答题11.如图,从A 地到火车站共有两条路径L 1和L 2,现随机抽取100位从A 地到达火车站的人进行调查,调查结果如下:所用时间(分钟) 10~20 20~30 30~40 40~50 50~60 选择L 1的人数 6 12 18 12 12 选择L 2的人数416164(1)试估计(2)分别求通过路径L 1和L 2所用时间落在上表中各时间段内的频率;(3)现甲、乙两人分别有40分钟和50分钟时间用于赶往火车站,为了尽最大可能在允许的时间内赶到火车站,试通过计算说明,他们应如何选择各自的路径.解:(1)由已知共调查了100人,其中40分钟内不能赶到火车站的有12+12+16+4=44(人), 所以用频率估计相应的概率为44÷100=0.44. (2)选择L 1的有60人,选择L 2的有40人,故由调查结果得频率为(3)设A 1,A 2121,B 2L 1和L 2时,在50分钟内赶到火车站.由(2)知P (A 1)=0.1+0.2+0.3=0.6,P (A 2)=0.1+0.4=0.5,因为P (A 1)>P (A 2),所以甲应选择L 1 . 同理,P (B 1)=0.1+0.2+0.3+0.2=0.8, P (B 2)=0.1+0.4+0.4=0.9, 因为P (B 1)<P (B 2),所以乙应选择L 2.12.根据我国颁布的《环境空气质量指数(AQI)技术规定》:空气质量指数划分为0~50、51~100、101~150、151~200、201~300和大于300六级,对应空气质量指数的六个级别,指数越大,级别越高,说明污染越严重,对人体健康的影响也越明显.专家建议:当空气质量指数小于等于150时,可以进行户外运动;空气质量指数为151及以上时,不适合进行旅游等户外活动,下表是济南市2017年10月上旬的空气质量指数情况:(1)(2)一外地游客在10月上旬来济南旅游,想连续游玩两天,求适合连续旅游两天的概率. 解:(1)该试验的基本事件空间Ω={1,2,3,4,5,6,7,8,9,10},基本事件总数n =10. 设事件A 为“市民不适合进行户外活动”,则A ={3,4,9,10},包含基本事件数m =4.所以P (A )=410=25, 即10月上旬市民不适合进行户外活动的概率为25.(2)该试验的基本事件空间Ω={(1,2),(2,3),(3,4),(4,5),(5,6),(6,7),(7,8),(8,9),(9,10)},基本事件总数n =9,设事件B 为“适合连续旅游两天的日期”,则B ={(1,2),(5,6),(6,7),(7,8)},包含基本事件数m =4, 所以P (B )=49,所以适合连续旅游两天的概率为49.1.某超市随机选取1 000位顾客,记录了他们购买甲、乙、丙、丁四种商品的情况,整理成如下统计表,其中“√”表示购买,“”表示未购买.(1)(2)估计顾客在甲、乙、丙、丁中同时购买3种商品的概率;(3)如果顾客购买了甲,则该顾客同时购买乙、丙、丁中哪种商品的可能性最大?解:(1)从统计表可以看出,在这1 000位顾客中有200位顾客同时购买了乙和丙,所以顾客同时购买乙和丙的概率可以估计为2001 000=0.2.(2)从统计表可以看出,在这1 000位顾客中,有100位顾客同时购买了甲、丙、丁,另有200位顾客同时购买了甲、乙、丙,其他顾客最多购买了2种商品,所以顾客在甲、乙、丙、丁中同时购买3种商品的概率可以估计为100+2001 000=0.3.(3)与(1)同理,可得:顾客同时购买甲和乙的概率可以估计为2001 000=0.2,顾客同时购买甲和丙的概率可以估计为100+200+3001 000=0.6,顾客同时购买甲和丁的概率可以估计为1001 000=0.1,所以,如果顾客购买了甲,则该顾客同时购买丙的可能性最大.2.以青蒿素类药物为主的联合疗法已经成为世界卫生组织推荐的抗疟疾标准疗法,目前,国内青蒿人工种植发展迅速,调查表明,人工种植的青蒿的长势与海拔高度、土壤酸碱度、空气湿度的指标有极强的相关性,现将这三项的指标分别记为x ,y ,z ,并对它们进行量化:0表示不合格,1表示临界合格,2表示合格,再用综合指标ω=x +y +z 评定人工种植的青蒿的长势等级:若ω≥4,则长势为一级;若2≤ω≤3,则长势为二级;若0≤ω≤1,则长势为三级.为了了解目前人工种植的青蒿的长势情况,研究人员随机抽取了10个青蒿人工种植地,得到如下结果:(2)从长势等级为一级的青蒿人工种植地中随机抽取2个,求这2个人工种植地的综合指标ω均为4的概率.解:(1)计算10个青蒿人工种植地的综合指标,可得下表:编号A1A2A3A4A5A6A7A8A9A10综合指标1446245353由上表可知,长势等级为三级的种植地只有A1一个,其频率为110,用样本的频率估计总体的频率,可估计这些种植地中长势等级为三级的个数约为180×110=18.(2)由(1)可知,长势等级是一级的青蒿人工种植地有A2,A3,A4,A6,A7,A9,共6个,从中随机抽取2个,所有的可能结果为(A2,A3),(A2,A4),(A2,A6),(A2,A7),(A2,A9),(A3,A4),(A3,A6),(A3,A7),(A3,A9),(A4,A6),(A4,A7),(A4,A9),(A6,A7),(A6,A9),(A7,A9),共计15个,综合指标ω=4的有A2,A3,A6,共3个,则符合题意的可能结果为(A2,A3),(A2,A6),(A3,A6),共3个,故所求概率P=315=1 5.。
江苏省2019届高三数学一轮复习备考试题:统计(含答案解析)
江苏省2019年高考一轮复习备考试题统计一、填空题 1、(2019年江苏高考)在底部周长]130,80[ 的树木进行研究,频率分布直方图如图所示,则在抽测的60株树木中,有 ▲ 株树木的底部周长小于100cm.2、(2019,结果如下:则成绩较为稳定(方差较小)的那位运动员成绩的方差为 。
3、(2019年江苏高考)某学校高一、高二、高三年级的学生人数之比为334::,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取 ▲ 名学生.4、(2019届江苏南京高三9月调研)某学校高一、高二、高三年级的学生人数之比为4:3:3,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为80的样本,则应从高一年级抽取 ▲ 名学生.5、(2019届江苏南通市直中学高三9月调研)某大学共有学生5600人,其中专科生1300人,本科生3000人,研究生1300人,现采用分层抽样的方法,抽取容量为280的样本,则抽取的本科生人数为 ▲ .6、(南京市2019届高三第三次模拟)某地区对两所高中学校进行学生体质状况抽测,甲校有学生800人,乙校有学生500人,现用分层抽样的方法在这1300名学生中抽取一个样本.已知在甲校抽取了48人,则在乙校应抽取学生人数为 ▲7、(苏锡常镇四市2019届高三5月调研(二))样本容量为100的频率分布直方图如右图所示,由此估计样本数据落在[6,10]内的频数为 ▲8、(南京、盐城市2019届高三第二次模拟(淮安三模))某地区教育主管部门为了对该地区模拟考试成绩进行分析,随机抽取了150分到450分之间的1000名学生的成绩,并根据这1000名学生的成绩画出样本的频率分布直方图(如图),则成绩在[300,350)内的学生人数共有▲.9、(2018江苏百校联考一)一个社会调查机构就某地居民的月收入调查了10 000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10 000人中再用分层抽样方法抽出100人作进一步调查,则在[2500,3000)(元)月收入段应抽出人.10、(2018南通二模)从编号为0,1,2,…,79的80件产品中,采用系统抽样的方法抽取容量是5的样本,若编号为28的产品在样本中,则该样本中产品的最大编号为▲.11、(苏锡常镇四市2019届高三3月调研(一))一个容量为20的样本数据分组后,分组与频数分别10,20,2;如下:(](]60,70,2.则样本在(]50,60,4;(]10,50上的频率是▲.20,30,3;(]40,50,5;(]30,40,4;(]12、(南京、盐城市2019届高三第一次模拟)若一组样本数据2,3,7,8,a的平均数为5,则该组数据的方差2s =13、如图是某青年歌手大奖赛上七位评委为甲、乙两名选手打出的分数的茎叶图(其中m 为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为12,a a ,则12,a a 的大小关系是_____________(填12a a >,21a a >,12a a =).14、甲和乙两个城市去年上半年每月的平均气温(单位:C °)用茎叶图记录如下,根据茎叶图可知,两城市中平均温度较高的城市是_____________,气温波动较大的城市是____________.15、某单位为了了解用电量y 度与气温C x 0之间的关系,随机统计了某4天的用电量与当天气温,并由表中数据得线性回归方程a bx yˆ+=中2b -=,预测当气温为4C - 时,用电量的度数约为____▲____.二、解答题1(1)从(2)对于表中数据,甲、乙两同学给出的拟合直线分别为113y x =+与1122y x =+,试利 用“最小平方法(也称最小二乘法)”判断哪条直线拟合程度更好.2.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y bx a =+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?3.某校从参加高一年级期末考试的学生中抽出60名学生,并统计了他们的物理成绩(成绩均为整数且满分为100分),把其中不低于50分的分成五段[)60,50,[)70,60…[]100,90后画出如下部分..频率分布直方图.观察图形的信息,回答下列问题: (1)求出物理成绩低于50分的学生人数; (2)估计这次考试物理及格率(60分及 以上为及格)(3) 从物理成绩不及格的学生中任选两人, 求他们成绩至少有一个不低于50分的概率.参考答案 一、填空题1、242、25)9092()9088()9091()9090()9089(222222=-+-+-+-+-=S3、154、325、1506、307、328、3009、25 10、76. 11、710 12、26513、21a a > 14、乙,乙 15、68二、解答题1、【解】(1)从x,y 各取一个数组成数对(x ,y),共有25对,……………………………2分 其中满足10≥+y x 的有)5,8(),4,8(),3,8(),2,8(),5,7(),4,7(),3,7(),5,6(),4,6(,共9对…5分 故所求概率为259=P ,所以使10≥+y x 的概率为259.…………………………… 7分 (2)用131+=x y 作为拟合直线时,所得y 值与y 的实际值的差的平方和为 37)5311()4310()33()22()134(222221=-+-+-+-+-=S .………………………10分用2121+=x y 作为拟合直线时,所得y 值与y 的实际值的差的平方和为 21)529()44()327()22()11(222222=-+-+-+-+-=S .………………………12分12S S < ,故用直线2121+=x y 拟合程度更好.……………………………14分2、解:(1)设抽到不相邻两组数据为事件A ,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻两组数据的情况有4种, ………………2分所以 43()1105P A =-=.………………………………………………4分答:略. ………………………………………………………………5分 (2)由数据,求得12,27x y ==.……………………………………………7分由公式,求得52b =,3a y bx =-=-. ………………………………9分所以y 关于x 的线性回归方程为5ˆ32y x =-. …………………………10分 (3)当x=10时,5ˆ103222y =⨯-=,|22-23|<2;………………………12分 同样,当x=8时,5ˆ83172y =⨯-=,|17-16|<2.……………………14分 所以,该研究所得到的线性回归方程是可靠的. ……………………15分3、解: (1)因为各组的频率和等于1,故低于50分的频率为: 1.010)005.0025.003.02015.0(11=⨯+++⨯-=f所以低于50分的人数为61.060=⨯(人)………………………………………….5分 (2)依题意,成绩60及以上的分数所在的第三、四、五、六组(低于50分的为第一组), 频率和为 (0.0150.030.0250.005)100.75+++*=所以,抽样学生成绩的合格率是75%.于是,可以估计这次考试物理及格率约为75%……………………………………9分. (3)“成绩低于50分”及“[50,60)”的人数分别是6,9。
高三数学一轮精品复习学案:第十章 统计、统计案例
高三数学一轮精品复习学案:第十章统计、统计案例【知识特点】1.统计中所学的内容是数理统计中最基本的问题,通过这些内容主要来介绍相关的统计思想和方法,了解一些有关统计学的基本知识,并能够应用几个基本概念、基本公式来处理实际生活中的一些基本问题。
2.统计案例为新课标中新增内容,主要是通过案例体会运用统计方法解决实际问题的思想和方法。
增加了统计和统计案例后,使得高中数学的整个体系更加完善了,有利于开阔数学视野,丰富数学思想和方法。
【重点关注】1.从对新课标高考试题的分析可以发现,主要考查抽样方法、各种统计图表、样本数字特征等。
对这部分的考查主要以选择题和填空题的形式出现。
2.统计案例中的独立性检验和回归分析也会逐步在高考题中出现,难度不会太大,多数情况下是考查两种统计分析方法的简单知识,以选择题和填空题为主。
【地位与作用】《全国新课程标准高考数学考试大纲》中对考生能力要求明确界定为空间想象能力、抽象概括能力、推理论证能力、运算求解能力、数据处理能力以及应用意识和创新意识等六个方面,其中数据处理能力是首次提出的一个能力要求,这定义为:会收集数据、整理数据、分析数据,能从大量数据中抽取对研究问题有用的信息,并作出判断。
数据处理能力主要依据统计(高考考试大纲对知识点要求如下表所示)或统计案例中的方法对数据进行整理、分析,并解决给定的实际问题,对统计的要求已提升到能力的高度。
统计的思想方法广泛应用于自然科学和社会科学的研究中,统计的语言不仅是数学的语言,也是各学科经常引用的大众语言,统计知识是作为一个新时期公民所比备的知识。
统计学就是应用科学的方法收集、整理、分析、描述所要研究的数据资料,然后根据所得到的结果,进行推断或决策的一门实用性很强的科学。
统计这部分内容,在高中数学新课程中,主要分布在必修3第二章(约16课时)与选修2—3第三章(约9课时)。
相对于高中学生的认知水平和生活经历还相对不是很高,所以它只能属于非重点内容,所出的相关题目一般来说都相对比较简单。
2019版高考数学(理)高分计划一轮狂刷练:第9章 统计与统计案例 9-3a Word版含解析
[重点保分 两级优选练]A 级一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 由回归直线方程y ^=b ^x +a ^,知当b ^>0时,y 与x 正相关;当b ^<0时,y 与x 负相关.∴①④一定错误.故选D.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 答案 A解析 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.故选A.3.(2018·辽宁沈阳二中一模)某考察团对全国10大城市居民人均工资水平x (千元)与居民人均消费水平y (千元)进行统计调查,y 与x 具有相关关系,回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )A .83%B .72%C .67%D .66% 答案 A解析 由7.675=0.66x +1.562,得x ≈9.262, 所以7.6759.262×100%≈83%.故选A.4.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t 的精确值为 ( )A .3B .3.15C .3.5D .4.5 答案 A解析 ∵x -=3+4+5+64=4.5,代入y ^=0.7x +0.35,得y ^=3.5,∴t =3.5×4-(2.5+4+4.5)=3.故选A.5.(2018·长春检测)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4 答案 A解析 由变量x 与y 正相关知C 、D 均错误,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A.6.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 D 选项中,若该大学某女生身高为170 cm ,根据回归方程只能近似认为其体重为58.79 kg ,但不是绝对的.故D 不正确.故选D.7.(2018·湖南邵阳调研)假设有两个分类变量X 和Y 的2×2列联表如下:组为( )A .a =45,c =15B .a =40,c =20C .a =35,c =25D .a =30,c =30 答案 A解析 根据2×2列联表与独立性检验可知, 当a a +10与c c +30相差越大时,X 与Y 有关系的可能性越大, 即a 、c 相差越大,a a +10与cc +30相差越大,故选A.8.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y =-4x +a .若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16B.13C.12D.23 答案 B解析 由题意可知x -=4+5+6+7+8+96=132, y -=90+84+83+80+75+686=80. 又点⎝ ⎛⎭⎪⎫132,80在直线y ^=-4x +a 上,故a =106.所以回归方程为y =-4x +106.由线性规划知识可知,点(5,84),(9,68)在直线y =-4x +106的左下方.故所求事件的概率P =26=13.故选B.9.(2018·安徽皖南一模)下列说法错误的是( ) A .回归直线过样本点的中心(x -,y -)B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1C .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^平均增加0.2个单位D .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小答案 D解析 回归直线过样本点的中心(x -,y -),A 正确;两个随机变量相关性越强,则相关系数的绝对值越接近1,B 正确;在线性回归方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报量平均增加0.2个单位,C 正确;对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,因此D 不正确.故选D.10.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′ 答案 C解析 x =216=72,y =136,代入公式求得b ^=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y -b ^x =136-57×72=-13,而b ′=2,a ′=-2,∴b ^<b ′,a ^>a ′,故选C.二、填空题11.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1ec 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. 答案 ①②解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1ec 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.12.(2017·赣州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________.答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y=bt -13,此时t =∑6i =1x 2i6=72,y =∑6i =1y i6=136,代入y =bt -13,得136=b ×72-13,解得b =57.13.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查对临界值表知P (K 2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p :有95%的把握认为“这种血清能起到预防感冒的作用”; q :若某人未使用该血清,则他在一年中有95%的可能性得感冒; r :这种血清预防感冒的有效率为95%; s :这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是________.(把你认为正确的命题的序号都填上)①p ∧(綈q );②(綈p )∧q ;③(綈p ∧綈q )∧(r ∨s ); ④(p ∨綈r )∧(綈q ∨s ). 答案 ①④解析 由题意,得K 2≈3.918,P (K 2≥3.841)≈0.05,所以,只有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.所以p 真,q 假,r 假,s 假.由真值表知①④为真命题.14.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是________.①列联表中c 的值为30,b 的值为35; ②列联表中c 的值为15,b 的值为50;③根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,能认为“成绩与班级有关系”;④根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,不能认为“成绩与班级有关系”.答案 ③解析 由题意知,成绩优秀的学生数是30, 成绩非优秀的学生数是75,所以c =20,b =45, ①②错误;根据列联表中的数据,得到K2=105×(10×30-20×45)255×50×30×75≈6.1>5.024,因此在犯错误的概率不超过0.025的前提下认为“成绩与班级有关系”.故③正确,④错误.B级三、解答题15.(2018·湖南百所重点中学诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高?(2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.相关公式:b=a ^=y --b ^x -.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元), 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.∴b ^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3,∴y ^=0.8x +3,当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.16.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)记B 表示事件“旧养殖法的箱产量低于50 kg ”,C 表示事件“新养殖法的箱产量不低于50 kg ”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.4092. (2)根据箱产量的频率分布直方图得列联表K 2=100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).。
2019版数学(理)高分计划一轮高分讲义:第9章 统计与统计案例 9.3 变量间的相关关系与统计案例
9.3变量间的相关关系与统计案例[知识梳理]1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2。
(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归方程为错误!=错误!x+错误!,则错误!=错误!=错误!,错误!=错误!-错误!错误!.其中,错误!是回归方程的斜率,错误!是在y轴上的截距,错误!=错误!错误!x i,错误!=错误!错误!y i,(错误!,错误!)称为样本点的中心.说明:回归直线错误!=错误!x+错误!必过样本点的中心(错误!,错误!),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r=错误!,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量正相关;②当r<0时,表明两个变量负相关;③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|〉0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K=错误!,其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.[诊断自测]1.概念思辨(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.()(2)通过回归方程错误!=错误!x+错误!可以估计和观测变量的取值和变化趋势.()(3)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()(4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()答案(1)√(2)√(3)√(4)×2.教材衍化(1)(必修A3P94A组T3)某种产品的广告费用支出x(单位:万元)与销售额y(单位:万元)之间有如下的对应数据:错误!错误!错误!,则此直线一定经过点( )A .(5,60)B .(5,50)C .(6,50)D .(8,70) 答案 B解析 回归直线样本点的中心为(x -,错误!),而错误!=错误!×(2+4+5+6+8)=5,错误!=错误!×(30+40+60+50+70)=50,所以回归直线一定经过点(5,50).故选B.(2)(选修A1-2P 96T 2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表:则有________的把握认为性别与是否读生产日期有关. 答案 99.5%解析 由表中数据得k =错误!≈8。
高三数学一轮复习统计与统计案例知识点知识点突破训练含答案解析
第十章⎪⎪⎪统计与统计案例 第一节 统 计突破点(一) 随机抽样基础联通 抓主干知识的“源”与“流”1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.4.三种抽样方法的比较 类别 共同点各自特点 相互联系 适用范围 简单随机抽样均为不放回抽样,且抽样过程中每个个体被抽取的机会相等 从总体中逐个抽取 是后两种方法的基础总体中的个数较少系统抽样将总体均分成几部分,按事先确定的规则在各部分中抽取在起始部分抽样时采用简单随机抽样 元素个数很多且均衡的总体抽样分层抽样将总体分成几层,分层按比例进行抽取各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成本节主要包括2个知识点: 1.随机抽样; 2.用样本估计总体.考点贯通抓高考命题的“形”与“神”简单随机抽样1.抽签法的步骤第一步,将总体中的N个个体编号;第二步,将这N个号码写在形状、大小相同的号签上;第三步,将号签放在同一不透明的箱中,并搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k次;第五步,将总体中与抽取的号签的编号一致的k个个体取出.2.随机数法的步骤第一步,将个体编号;第二步,在随机数表中任选一个数开始;第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的数字就得到样本的号码.[例1](1)以下抽样方法是简单随机抽样的是()A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()7816657208026314070243699728019832049234493582003623486969387481A.08 B.07C.02 D.01[解析](1)选项A、B不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C 不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.(2)由题意知前5个个体的编号为08,02,14,07,01.[答案](1)D(2)D系统抽样系统抽样的步骤(1)先将总体的N 个个体编号;(2)确定分段间隔k (k ∈N *),对编号进行分段.当N n (n 是样本容量)是整数时,取k =Nn ;(3)在第1段用简单随机抽样确定第1个个体编号l (l ≤k );(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.[例2] (1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14(2)中央电视台为了解观众对《中国好歌曲》的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.[解析] (1)由系统抽样定义可知,所分组距为84042=20,每组抽取一人,因为包含整数个组,所以抽取个体在区间[481,720]的数目为(720-480)÷20=12.(2)把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含50050=10个个体.所以需剔除2个个体,抽样间隔为10. [答案] (1)B (2)2 10 [易错提醒]用系统抽样法抽取样本,当Nn 不为整数时,取k =⎣⎡⎦⎤N n ,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性.分层抽样进行分层抽样的相关计算时,常利用以下关系式巧解:(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.[例3](1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()类别人数老年教师900中年教师 1 800青年教师 1 600合计 4 300A.90 B.100C.180 D.300(2)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=() A.54 B.90C.45 D.126(3)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).篮球组书画组乐器组高一4530a高二151020学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.[解析](1)设该样本中的老年教师人数为x,由题意及分层抽样的特点得x900=3201 600,故x=180.(2)依题意得33+5+7×n=18,解得n=90,即样本容量为90.(3)由题意知1245+15=3045+15+30+10+a+20,解得a=30.[答案](1)C(2)B(3)30[方法技巧]分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.(4)抽样比=样本容量总体容量=各层样本数量各层个体数量.能力练通 抓应用体验的“得”与“失”1.[考点一]某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法①1,2,3,…,100; ②001,002,…,100; ③00,01,02,…,99; ④01,02,03,…,100. 其中正确的序号是( ) A .②③④ B .③④ C .②③D .①②解析:选C 根据随机数法编号可知,①④编号位数不统一.2.[考点三]为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A ,B ,C 三所中学抽取60名教师进行调查,已知A ,B ,C 三所学校中分别有180,270,90名教师,则从C 学校中应抽取的人数为( )A .10B .12C .18D .24解析:选A 根据分层抽样的特征,从C 学校中应抽取的人数为90180+270+90×60=10.3.[考点二]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是( )A .10B .11C .12D .16解析:选D 从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.4.[考点三]某市有A 、B 、C 三所学校,共有高三文科学生1 500人,且A 、B 、C 三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B 校学生中抽取________人.解析:设A 、B 、C 三所学校高三文科学生人数分别为x ,y ,z ,由题知x ,y ,z 成等差数列,所以x +z =2y ,又x +y +z =1 500,所以y =500,用分层抽样方法抽取B 校学生人数为1201 500×500=40.答案:405.[考点二]为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.解析:由最小的两个编号为03,09可知,抽取时的分段间隔是6.即抽取10名同学,其编号构成首项为3,公差为6的等差数列,故最大编号为3+9×6=57.答案:57突破点(二)用样本估计总体基础联通抓主干知识的“源”与“流”1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(3)茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.2.样本的数字特征(1)众数、中位数、平均数数字特征定义与求法优点与缺点众数一组数据中重复出现次数最多的数众数体现了样本数据的最大集中点,不受极端值的影响.但显然它对其他数据信息的忽视使得无法客观地反映总体特征中位数把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点平均数如果有n个数据x1,x2,…,xn ,那么这n个数的平均数x=x1+x2+…+x nn 平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低(2)标准差、方差①标准差:样本数据到平均数的一种平均距离,一般用s表示,s=1n[(x1-x)2+(x2-x)2+…+(x n-x)2].②方差:标准差的平方s2=1n[(x1-x)2+(x2-x)2+…+(x n-x)2],其中x i(i=1,2,3,…,n)是样本数据,n 是样本容量,x是样本平均数.③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均数、方差公式的推广若数据x1,x2,…,x n的平均数为x,方差为s2,则数据mx1+a,mx2+a,…,mx n +a的平均数为m x+a,方差为m2s2.考点贯通抓高考命题的“形”与“神”频率分布直方图[例1](1)(2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56 B.60 C.120 D.140(2)某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.[解析] (1)由频率分布直方图知200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.(2)月工资收入落在(30,35](百元)内的频率为1-(0.02+0.04+0.05+0.05+0.01)×5=1-0.85=0.15,所以(30,35](百元)月工资收入段应抽出100×0.15=15(人).[答案] (1)D (2)15 [方法技巧]1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确; (2)频率分布直方图的纵坐标是频率组距,而不是频率.2.与频率分布直方图计算有关的两个关系式 (1)频率组距×组距=频率; (2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.茎叶图1.茎叶图的绘制需注意:(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一; (2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据. 2.茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.[例2] 某良种培育基地正在培育一小麦新品种A ,将其与原有的一个优良品种B 进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下.品种A :357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B :363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,4 15,416,422,430(1)作出数据的茎叶图;(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.[解](1)画出茎叶图如图所示:(2)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A 的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.[方法技巧]茎叶图问题的求解策略(1)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表问题时,要充分对这个图表提供的样本数据进行相关的计算或者是对某些问题作出判断.(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图数据求出样本数据的数字特征,进一步估计总体情况.样本的数字特征1.用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差),分析稳定情况.2.若给出图形,一方面可以由图形得到相应的样本数据,计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性比较方差(标准差)的大小.考法(一)与频率分布直方图交汇命题[例3](2016·北京高考)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.[解](1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27] 频率0.10.150.20.250.150.050.050.05 根据题意,该市居民该月的人均水费估计为4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).[方法技巧]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考法(二)与茎叶图交汇命题[例4](1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x,y的值分别为()甲组乙组9099y6166x629A.7,8 B.5,7 C.8,5 D.7,7(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:8 7 7 941x91则7个剩余分数的方差为________.[解析] (1)甲组数据的中位数为17, 故y =7,乙组数据的平均数为3×10+20+(9+6+6+x +9)5=17.4,解得x =7.(2)由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x =91×7,解得x =4.s 2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.[答案] (1)D (2)367[易错提醒]在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.考法(三) 与优化决策问题交汇[例5] 甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲 乙 丙 丁 平均环数x 8.3 8.8 8.8 8.7 方差s 23.53.62.25.4从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( ) A .甲 B .乙 C .丙D .丁[解析] 由题目表格中数据可知,丙平均环数最高,且方差最小,说明成绩好,且技术稳定,选C.[答案] C [方法技巧]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.能力练通 抓应用体验的“得”与“失”1.[考点一]在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x ,依题意有x 80=14⎝⎛⎭⎫1-x 80,解得x =16. 2.[考点二]在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 131415⎪⎪⎪⎪0 0 3 4 5 6 6 8 8 8 91 1 12 2 23 34 45 5 56 67 80 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .6解析:选B 35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在20÷5=4个小组中,每组取1人,共取4人.3.[考点一]某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x 的值等于( )A .0.12B .0.012C .0.18D .0.018解析:选D 依题意,0.054×10+10×x +0.01×10+0.006×10×3=1,解得 x =0.018. 4.[考点三·考法(二)]如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )7 9 8 4 4 6 4 793A .84,4.84B .84,1.6C .85,1.6D .85,4 解析:选C 依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.5.[考点三·考法(三)]甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):甲 10 8 9 9 9 乙1010799如果甲、乙两人中只有1人入选,则入选的最佳人选应是________.解析:x -甲=x -乙=9,s 2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25, s 2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s 2甲,故甲更稳定. 答案:甲6.[考点三·考法(一)](2016·四川高考)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x (吨),一位居民的月用水量不超过x 的部分按平价收费,超出x 的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a 的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由; (3)若该市政府希望使85%的居民每月的用水量不超过标准x (吨),估计x 的值,并说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a +0.20+0.26+0.5×a +0.06+0.04+0.02=1,解得a =0.30. (2)由(1)知100位居民每人的月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x <3.由0.30×(x -2.5)=0.85-0.73,解得x =2.9.所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准. 7.[考点三·考法(二)]某车间20名工人年龄数据如下表: 年龄(岁) 工人数(人)19 1 28 3 29 3 30 5 31 4 32 3 40 1 合计20(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图; (3)求这20名工人年龄的方差.解:(1)由题可知,这20名工人年龄的众数是30,极差是40-19=21. (2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=120∑20 i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.[全国卷5年真题集中演练——明规律] 1.(2016·全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个解析:选D由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C正确;故D错误.2.(2013·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:选C由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.3.(2014·新课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125) 频数62638228(1)作出这些数据的频率分布直方图(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?解:(1)如图所示:(2)质量指标值的样本平均数为x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.4.(2014·新课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.5.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A 药,B 药)的疗效,随机地选取20位患者服用A 药,20位患者服用B 药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A 药的20位患者日平均增加的睡眠时间: 0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4 服用B 药的20位患者日平均增加的睡眠时间: 3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好? (2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?A 药B 药 0. 1. 2.3.解:(1)设A 药观测数据的平均数为x -,B 药观测数据的平均数为y -.由观测结果可得 x -=120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y -=120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x ->y -,因此可看出A 药的疗效更好. (2)由观测结果可绘制如下茎叶图:A 药B 药 6 0. 5 5 6 8 9 8 5 5 2 2 1. 1 2 2 3 4 6 7 8 9 9 8 7 7 6 5 4 3 3 22.1 4 5 6 7。
2019届高考数学(理科)一轮复习通用版:第十八单元 统计与统计案例
第十八单元统计与统计案例教材复习课“统计与统计案例”相关基础知识一课过三种抽样方法1.从一个容量为N的总体中抽取一个容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3解析:选D根据简单随机抽样、系统抽样和分层抽样的定义可知,无论哪种抽样,每个个体被抽中的概率都是相等的,所以p1=p2=p3.2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是() A.10 B.11C.12 D.16解析:选D从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16.3.为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学中抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C 学校中应抽取的人数为()A .10B .12C .18D .24解析:选A 根据分层抽样的特征,从C 学校中应抽取的人数为90180+270+90×60=10.[清易错]1.系统抽样中,易忽视抽取的样本数也就是分段的段数,当Nn 不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列.2.分层抽样中,易忽视每层抽取的个体的比例是相同的,即样本容量n总体个数N.1.从2 018名学生中选取50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从2 018名学生中剔除18名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率( )A .不全相等B .均不相等C .都相等,且为502 018D .都相等,且为140解析:选C 从N 个个体中抽取M 个个体,则每个个体被抽到的概率都等于MN .2.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取男生人数为( )A .27B .30C .33D .36解析:选B 因为男生与女生的比例为180∶120=3∶2, 所以应该抽取男生人数为50×33+2=30.频率分布直方图和茎叶图[过双基]1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差); (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.[小题速通]1.在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x , 依题意有x 80=14⎝⎛⎭⎫1-x 80,解得x =16.2.某学生在8次测试中,数学成绩的茎叶图如图,则这8次成绩的中位数是( ) A .86 B .87 C .87.5D .88.5解析:选A 由茎叶图得到8个数的大小顺序依次是78,79,83,85,87,88,89,96,中间的两个数为85,87,所以中位数为85+872=86. [清易错]1.易把直方图与条形图混淆两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,连续随机变量在某一点上是没有频率的.2.易忽视频率分布直方图中纵轴表示的应为频率组距.3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.1.某校100名学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100],则图中a 的值为 ( )A .0.006B .0.005C .0.004 5D .0.002 5解析:选B 由题意知,a =1-(0.02+0.03+0.04)×102×10=0.005,故选B.2.(2018·郑州检测)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m ,n 的比值mn =________.解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m =3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以20+n +32+34+384=33,解得n =8,所以m n =38.答案:381.众数、中位数、平均数2.标准差、方差(1)标准差:样本数据到平均数的一种平均距离,一般用s 表示,s = 1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. (2)方差:标准差的平方s 2s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数.[小题速通]1.对于一组数据x i (i =1,2,3,…,n ),如果将它们改变为x i +C (i =1,2,3,…,n ),其中C ≠0,则下列结论正确的是( )A .平均数与方差均不变B .平均数变,方差保持不变C .平均数不变,方差变D .平均数与方差均发生变化解析:选B 依题意,记原数据的平均数为x -,方差为s 2,则新数据的平均数为(x 1+C )+(x 2+C )+…+(x n +C )n =x -+C ,即新数据的平均数改变;新数据的方差为1n [(x 1+C )-(x -+C )]2+[(x 2+C )-(x -+C )]2+…+[(x n +C )-(x -+C )]2=s 2,即新数据的方差不变.2.样本中共有五个个体,其值分别为0,1,2,3,m .若该样本的平均值为1,则其方差为( ) A.105B.305C. 2 D .2解析:选D 依题意得m =5×1-(0+1+2+3)=-1,样本方差s 2=15(12+02+12+22+22)=2,即所求的样本方差为2.3.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a ,中位数为b ,众数为c ,则a ,b ,c 的大小关系为( )A .a >b >cB .b >c >aC .c >a >bD .c >b >a解析:选D 依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a <15,b =15,c =17,c >b >a .4.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:解析:由数据表可得乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为7,方差s 2=15(1+0+0+1+0)=25.答案:251.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2, a ^=y --b ^x -. (3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).[小题速通]1.如图是根据x ,y 的观测数据(x i ,y i )(i =1,2,…,10)得到的散点图,可以判断变量x ,y 具有线性相关关系的图是( )A .①②B .①④C .②③D .③④解析:选D 若变量x ,y 具有线性相关关系,那么散点就在某条直线附近,从左上到右下,或从左下到右上,故选D.2.已知变量x ,y 取值如表所示:画散点图分析可知:y 与x 线性相关,且求得回归方程为y =x +1,则m 的值(精确到0.1)为( )A .1.5B .1.6C .1.7D .1.8解析:选C 由题意知,x =3.2代入回归方程y ^=x +1可得y =4.2,则4m =4.2×5-(1.3+5.6+7.4)=6.7,解得m =1.675,则精确到0.1后m 的值为1.7.3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P 根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%[清易错]1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79kg ,而不是具体值,因此D 不正确.一、选择题1.(2018·邯郸摸底)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n 人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n =( )A .660B .720C .780D .800解析:选B 由已知条件,抽样比为13780=160,从而35600+780+n =160,解得n =720.2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A 、B ,知A 正确.3.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )A .480B .481C .482D .483解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a 1=7,a 2=32,则d =25,所以7+25(n -1)≤500,所以n ≤20,最大编号为7+25×19=482.4.根据如下样本数据:得到的回归方程为y =b x +a ,则( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^ <0,b ^<0解析:选B 根据样本数据画出散点图(图略),可知b ^<0,a ^>0.5.如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )A .84,4.84B .84,1.6C .85,1.6D .85,4解析:选C 依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.6.某时段内共有100辆汽车经过某一雷达测速区域,将测得的汽车的时速绘制成如图所示的频率分布直方图,根据图形推断,该时段时速超过50 km/h的汽车的辆数为()A.56 B.61C.70 D.77解析:选D由图知,时速超过50 km/h的汽车的频率为(0.039+0.028+0.010)×10=0.77,所以时速超过50 km/h的汽车的辆数为100×0.77=77.7.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),得K2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”解析:选C∵K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.8.从甲、乙两个城市分别随机抽取14台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图),设甲、乙两组数据的平均数分别为x 甲,x 乙,中位数分别为m 甲,m乙,则( )A.x 甲<x 乙,m 甲>m 乙B.x 甲<x 乙,m 甲<m 乙C.x 甲>x 乙,m 甲>m 乙D. x 甲>x 乙,m 甲<m 乙解析:选A 由题意得x 甲=5+6+10+…+4814≈24.3,x 乙=8+8+10+…+4314≈24.4,即x 甲<x 乙; 又m 甲=22+252=23.5,m 乙=23, 即m 甲>m 乙,故选A. 二、填空题9.某中学采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是________.解析:间隔数k =80050=16,即每16人抽取一个人.由于39=2×16+7,所以第1小组中抽取的数为7.答案:710.某车间需要确定加工零件的加工时间,进行了若干次试验.根据收集到的数据(如表):由最小二乘法求得回归直线方程y =0.67x +a ,则a 的值为________. 解析:∵x =15×(10+20+30+40+50)=30,y =15×(62+68+75+81+89)=75,回归直线方程y ^=0.67x +a ^过样本中心点(x ,y ),∴a ^=75-0.67×30=54.9. 答案:54.911.已知甲、乙、丙三类产品共有1 200件,且甲、乙、丙三类产品的数量之比为3∶4∶5,现采用分层抽样的方法抽取60件进行质量检测,则乙类产品抽取的件数为________.解析:由题意可知,乙类产品抽取的件数为 60×43+4+5=20.答案:2012.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析:K 2≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:① 三、解答题13.某地区2011年至2017年农村居民家庭人均纯收入y (单位:千元)的数据如表:(2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x (其中x ,y 为样本平均值).解:(1)由题意,得x =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(x i -x )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0+1×0.5+2×0.9+3×1.6=14,∑i =17(x i -x )2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,所以b ^=1428=0.5,a ^=y -b ^x =4.3-0.5×4=2.3,所以y 关于x 的线性回归方程为y ^=0.5x +2.3. (2)因为b ^=0.5>0,所以2011年至2017年该地区农村居民家庭人均纯收入逐年增加, 平均每年增加0.5千元,因为2019的年份代号是x =9,所以代入(1)中的回归方程,可得y ^=0.5×9+2.3=6.8, 所以预测该地区2019年农村居民家庭人均纯收入为 6.8千元.14.(2018·唐山统考)为了调查某校学生体质健康达标情况,现采用随机抽样的方法从该校抽取了m 名学生进行体育测试.根据体育测试得到了这m 名学生的各项平均成绩(满足100分),按照以下区间分为七组:[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并得到频率分布直方图(如图).已知测试平均成绩在区间[30,60)内有20人.(1)求m 的值及中位数n ;(2)若该校学生测试平均成绩小于n ,则学校应适当增加体育活动时间.根据以上抽样调查数据,该校是否需要增加体育活动时间?解:(1)由频率分布直方图知第1组,第2组和第3组的频率分别是0.02,0.02和0.06,则m×(0.02+0.02+0.06)=20,解得m=200.由直方图可知,中位数n位于[70,80)内,则0.02+0.02+0.06+0.22+0.04(n-70)=0.5,解得n=74.5.(2)设第i(i=1,2,3,4,5,6,7)组的频率和频数分别为p i和x i,由图知,p1=0.02,p2=0.02,p3=0.06,p4=0.22,p5=0.40,p6=0.18,p7=0.10,则由x i=200×p i,可得x1=4,x2=4,x3=12,x4=44,x5=80,x6=36,x7=20,故该校学生测试平均成绩是x=1200×(35x1+45x2+55x3+65x4+75x5+85x6+95x7)=74<74.5,所以学校应该适当增加体育活动时间.高考研究课(一)随机抽样[全国卷5年命题分析]考点考查频度考查角度系统抽样未考查分层抽样5年1考抽样方法的选择系统抽样[典例]采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,则三个营区被抽中的人数依次为()A.26,16,8B.25,17,8C.25,16,9 D.24,17,9[解析]依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k(k∈N*)组抽中的号码是3+12(k-1).令3+12(k-1)≤300,得k≤103 4,因此A营区被抽中的人数是25;令300<3+12(k-1)≤495,得1034<k≤42,因此B营区被抽中的人数是42-25=17,故C营区被抽中的人数为50-25-17=8.[答案] B[方法技巧]解决系统抽样问题的2个关键步骤(1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.[即时演练]1.某学校教务处采用系统抽样方法,从学校高三年级全体1 000名学生中抽50名学生做学习状况问卷调查.现将1 000名学生从1到1 000进行编号,求得间隔数k =20,即分50组,每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是( )A .117B .157C .417D .367解析:选B 根据系统抽样法的特点,可知抽取出的号码成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.2.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有被抽出职工的号码为________.解析:由题意,把40名职工分成5组,故组距为405=8,又第一组抽出的号码为2,则抽出的所有号码组成以2为首项,8为公差的等差数列,故抽出的号码为2,10,18,26,34.答案:2,10,18,26,34分层抽样分层抽样是历年高考的重要考点之一,高考中常把分层抽样、频率分布、概率综合起来进行考查,反映了当前高考的命题方向.这类试题难度不大,但考查的知识面较为宽广,在解题中要注意准确使用所学知识,不然在一个点上的错误就会导致整体失误.,常见的命题角度有:(1)与频率分布直方图相结合问题; (2)与概率相结合问题.1.某校从高三年级中随机选取200名学生,将他们的一模数学成绩绘制成频率分布直方图(如图). 由图中数据可知a =________.若要从成绩在[120, 130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从成绩在[130,140) 内的学生中选取的人数应为________.解析:由题意知,(0.020+0.035+a +0.010+0.005)×10=1,解得a =0.030.由分层抽样的原则可知,在[120, 130),[130 ,140),[140 , 150]三组内的学生中,人数比为6∶2∶1.所以从成绩在[130 ,140) 内的学生中选取的人数为18×29=4.答案:0.030 42.从某学校所有高一学生某次计算机笔试成绩中选出40名学生的成绩(单位:分),成绩分组区间为[50,70),[70,90),[90,110),[110,130),[130,150],由此绘制成如图所示的频率分布直方图,规定成绩低于90分为不及格,成绩不低于90分为及格.(1)求频率分布直方图中m 的值; (2)求这40名学生中不及格的学生人数;(3)从不及格的学生中按成绩用分层抽样的方法任选5人,再从这5人中任选2人,求这2人的成绩均在[70,90)内的概率.解:(1)由题中频率分布直方图知,组距为20, 由⎝⎛⎭⎫m +32m +72m +3m +m ×20=1,解得m =0.005. (2)这40名学生中不及格的学生人数为 52×0.005×20×40=10. (3)按成绩分层抽样,则从成绩在[50,70),[70,90)的学生中应选取的人数分别为25×5=2,35×5=3,记成绩在[50,70)内的2人分别为A 1,A 2,成绩在[70,90)内的3人分别为B 1,B 2,B 3,“2人的成绩均在[70,90)内”为事件A ,则从这5人中任选2人的基本事件有(A 1,A 2),(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(B 1,B 2),(B 1,B 3),(B 2,B 3),共10个.其中这2人的成绩都在[70,90)内的基本事件有(B 1,B 2),(B 1,B 3),(B 2,B 3),共3个. 故所求概率P (A )=310. 角度二 与概率相结合问题3.由世界自然基金会发起的“地球1小时”活动已发展成为最有影响力的环保活动之一,今年的参与人数再创新高,然而也有部分公众对该活动的实际效果与影响提出了疑问.对此,某新闻媒体进行了网上调查,在所有参与调查的人中,持“支持”、“保留”和“不支持”态度的人数如下表所示:态度年龄支持 保留 不支持 20岁以下 800 450 200 20岁以上(含20岁)100150300(1)在所有参与调查的人中,用分层抽样的方法抽取n 个人,已知从持“支持”态度的人中抽取了45人,求n 的值;(2)在持“不支持”态度的人中,用分层抽样的方法抽取5人看成一个总体,从这5人中任意选取2人,求至少有1人年龄在20岁以下的概率.解:(1)由题意得45800+100=n 800+450+200+100+150+300,解得n =100.(2)设所抽取的人中,有m 人年龄在20岁以下, 则200200+300=m 5,解得m =2. 即20岁以下抽取了2人,分别记为A 1,A 2;20岁以上(含20岁)抽取了3人,分别记为B 1,B 2,B 3,则从中任取2人的所有基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),(B 1,B 2),(B 2,B 3),(B 1,B 3),共10个.其中至少有1人年龄在20岁以下的基本事件为(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,B 1),(A 2,B 2),(A 2,B 3),(A 1,A 2),共7个,所以从中任意抽取2人,至少有1人年龄在20岁以下的概率为710.[方法技巧]进行分层抽样的相关计算时,常用到的2个关系(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.1.(2013·全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样 B.按性别分层抽样 C.按学段分层抽样D.系统抽样解析:选C 由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A ;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.2.(2015·北京高考)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()A.90C.180 D.300解析:选C设该样本中的老年教师人数为x,由题意及分层抽样的特点得x900=3201 600,故x=180.3.(2015·湖南高考)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是()A.3 B.4C.5 D.6解析:选B35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在4个小组中,每组取1人,共取4人.4.(2015·福建高考)某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.解析:设男生抽取x人,则有45900=x900-400,解得x=25.答案:25一、选择题1.某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19解析:选C 设第一组抽取的号码为x ,根据题意可得抽样间隔为1 00040=25,则x +25×(18-1)=443,解得x =18.2.某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区有20个大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②,则完成①②这两项调查宜采用的抽样方法依次是( )A .分层抽样法,系统抽样法B .分层抽样法,简单随机抽样法C .系统抽样法,分层抽样法D .简单随机抽样法,分层抽样法解析:选B 一般甲、乙、丙、丁四个地区会存在差异,采用分层抽样法较好.在丙地区中抽取的样本个数较少,易采用简单随机抽样法.3.《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为( )A .2B .4C .5D .6解析:选B 由茎叶图可知,“诗词达人”有8人,“诗词能手”有16人,“诗词爱好者”有16人,由分层抽样可得, 抽选的学生中获得“诗词能手”称号的人数为1040×16=4.4.某校高一、高二、高三的学生人数之比为2∶3∶5,若用分层抽样的方法抽取容量为200的样本,则应从高三学生中抽取的人数为( )。
2019年高考数学一轮复习 小题精练系列 专题15 统计与统计案例(含解析)文
2019年高考数学一轮复习 小题精练系列 专题15 统计与统计案例(含解析)文1.已知样本789x y 、、、、的平均数是8,则xy 值为A . 8B . 32C . 60D . 80【答案】C 【解析】由78982x y ++++==得=60xy ,故选C .2.某校高一(1)班共有54人,如图是该班期中考试数学成绩的频率分布直方图,则成绩在[]100,120内的学生人数为A . 36B . 27C . 22 D.11【答案】B3.如图是2014年在某电视节目中七位评委为某民族舞蹈打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为A . 84,4.84B . 84,1.6C . 85,1.6D . 85,4【答案】C【解析】由茎叶图知,去掉一个最高分93和一个最低分79后,所剩数据84,84,86,84,87的平均数为=85,方差为 [(84-85)2+(84-85)2+(86-85)2+(84-85)2+(87-85)2]==1.6.故选C.4.某企业有职工450人,其中高级职工45人,中级职工135人,一般职工270人,现抽30人进行分层抽样,则各职称人数分别为()A.5,10,15 B. 5,9,16 C. 3,10,17 D. 3,9,18【答案】D点睛:进行分层抽样的相关计算时,常利用以下关系式巧解:(1)nN样本容量该层抽取的个体数总体个数该层的个体数;(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.5.具有线性相关关系的两变量满足的一组数据如下表,若与的回归直线方程为,则的值为()A. 4 B. C. 5 D. 6【答案】A【解析】由表中数据得:,根据最小二乘法,将代入回归方程,得,故选A.6.某商场在国庆黄金周的促销活动中,对10月2日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时到12时的销售额为()A. 6万元 B. 8万元 C. 10万元 D. 12万元【答案】C【解析】设11时到12时的销售额为万元,依题意有,,故选C.点睛:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.7.下面对相关系数r描述正确的是()r>表明两个变量负相关 B.r>1表明两个变量正相关A.0C.r只能大于零 D.r越接近于0,两个变量相关关系越弱【答案】D8.下列说法错误的是( )A . 在统计学中,独立性检验是检验两个分类变量是否有关系的一种统计方法B . 在残差图中,残差分布的带状区域的宽度越狭窄,其模拟的效果越好C . 线性回归方程对应的直线ˆˆˆybx a =+至少经过其样本数据点中的一个点 D . 在回归分析中,相关指数2R 越大,模拟的效果越好【答案】C【解析】对于A ,统计学中,独立性检验是检验两个分类变量是否有关系的一种统计方法,正确;对于B ,残差图中,残差分布的带状区域的宽度越狭窄,其模拟的效果越好,正确;对于C ,线性回归方程对应的直线ˆˆˆybx a =+过样本中心点,不一定过样本数据中的点,故C 错误;对于D ,回归分析中,相关指数R 2越大,其模拟的效果就越好,正确.故选C .9.以下四个命题,其中正确的个数有( )①由独立性检验可知,有99%的把握认为物理成绩与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.②两个随机变量相关性越强,则相关系数的绝对值越接近于1; ③在线性回归方程0.212ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说, k 越小,“X 与Y 有关系”的把握程度越大.A . 1B . 2C . 3D . 4【答案】B10.下表是某工厂1—4月份用电量(单位:万度)的一组数据:由散点图可知,用电量y 与月份x 间有较好的线性相关关系,其线性回归直线方程是0.7y x a =-+,则a =( )A .10.5B .5.25C .5.2D .5.15 【答案】B【解析】试题分析:因为1234 4.543 2.52.5, 3.544x y++++++====,所以()2.5,3.5在归直线方程0.7y x a =-+上,即3.50.7 2.5,5.25a a =-⨯+=,故选B .考点:线性回归直线的性质和应用.11.某高中共有学生1000名,其中高一年级共有学生380人,高二年级男生有180人.如果在全校学生中抽取1名学生,抽到高二年级女生的概率为19.0,先采用分层抽样(按年级分层)在全校抽取100人,则应在高三年级中抽取的人数等于 .【答案】25考点:分层抽样方法.12.总体编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为_______.【答案】01【解析】试题分析:从随机数表的第一行的第5列和第6列数字开始由左到右选取两个谁中小于20的编号依次为08,02,14,07,02,01,其中第二个和第四个都是02,重复,所以对应的数值为08,02,14,07,02,01.考点:简单的随机抽样.。
2019版高考文科数学大一轮复习人教A版文档:第十章 统
§10.1 随机抽样1.简单随机抽样(1)定义:一般地,设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样方法有两种——抽签法和随机数法. (3)应用范围:总体个体数较少. 2.系统抽样的步骤一般地,假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体编号;(2)确定分段间隔k ,对编号进行分段.当N n (n 是样本容量)是整数时,取k =Nn ;(3)在第1段用简单随机抽样确定第一个个体编号l (l ≤k );(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本. 3.分层抽样(1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样的方法.题组一思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)简单随机抽样是一种不放回抽样.(√)(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.(×)(3)抽签法中,先抽的人抽中的可能性大.(×)(4)系统抽样在第1段抽样时采用简单随机抽样.(√)(5)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.(×)(6)分层抽样中,每个个体被抽到的可能性与层数及分层有关.(×)题组二教材改编2.[P100A组T1]在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是()A.总体B.个体C.样本的容量D.从总体中抽取的一个样本答案 A解析由题目条件知,5 000名居民的阅读时间的全体是总体;其中1名居民的阅读时间是个体;从5 000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本容量是200.3.[P100A组T2]某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为()A.33,34,33 B.25,56,19C.20,40,30 D.30,50,20答案 B解析因为125∶280∶95=25∶56∶19,所以抽取人数分别为25,56,19.4.[P59T2]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号,29号,42号学生在样本中,那么样本中还有一个学生的学号是() A.10 B.11C.12 D.16答案 D解析从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.题组三易错自纠5.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是() A.5,10,15,20,25 B.3,13,23,33,43C.1,2,3,4,5 D.2,4,6,16,32答案 B解析间隔距离为10,故可能的编号是3,13,23,33,43.6.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取的男生人数为________.答案30解析因为男生与女生的比例为180∶120=3∶2,所以应该抽取的男生人数为50×33+2=30.题型一简单随机抽样1.某班级有男生20人,女生30人,从中抽取10人作为样本,其中一次抽样结果是:抽到了4名男生,6名女生,则下列命题正确的是()A.这次抽样中可能采用的是简单随机抽样B.这次抽样一定没有采用系统抽样C.这次抽样中每个女生被抽到的概率大于每个男生被抽到的概率D.这次抽样中每个女生被抽到的概率小于每个男生被抽到的概率答案 A解析利用排除法求解.这次抽样可能采用的是简单随机抽样,A正确;这次抽样可能采用系统抽样,男生编号为1~20,女生编号为21~50,间隔为5,依次抽取1号,6号,…,46号便可,B错误;这次抽样中每个女生被抽到的概率等于每个男生被抽到的概率,C和D均错误,故选A.2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A.08 B.07 C.02 D.01答案 D解析由题意知前5个个体的编号为08,02,14,07,01.3.下列抽取样本的方式不属于简单随机抽样的个数为()①从无限多个个体中抽取100个个体作为样本;②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;③从20件玩具中一次性抽取3件进行质量检验;④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0 B.1 C.2 D.3答案 A解析①不是简单随机抽样.②不是简单随机抽样.由于它是放回抽样.③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.④不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.思维升华应用简单随机抽样应注意的问题(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.题型二 系统抽样典例 (1)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( ) A .3 B .4 C .5 D .6 答案 B解析 由题意知,将1~35号分成7组,每组5名运动员,成绩落在区间[139,151]内的运动员共有4组,故由系统抽样法知,共抽取4名.故选B.(2)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14 答案 B解析 由84042=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为720-48020=24020=12. 引申探究1.若本例(2)中条件不变,若号码“5”被抽到,那么号码“55”________被抽到.(填“能”或“不能”) 答案 不能解析 若55被抽到,则55=5+20n ,n =2.5,n 不是整数.故不能被抽到.2.若本例(2)中条件不变,若在编号为[481,720]中抽取8人,则样本容量为________. 答案 28解析 因为在编号[481,720]中共有720-480=240人,又在[481,720]中抽取8人, 所以抽样比应为240∶8=30∶1,又因为单位职工共有840人,所以应抽取的样本容量为84030=28.思维升华 (1)系统抽样适用的条件是总体容量较大,样本容量也较大.(2)使用系统抽样时,若总体容量不能被样本容量整除,可以先从总体中随机地剔除几个个体,从而确定分段间隔.(3)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定. 跟踪训练 将参加夏令营的600名学生按001,002,…,600进行编号.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分别住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,则三个营区被抽中的人数依次为( ) A .26,16,8 B .25,17,8 C .25,16,9 D .24,17,9答案 B解析 由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N *)组抽中的号码是3+12(k -1).令3+12(k -1)≤300,得k ≤1034,因此第Ⅰ营区被抽中的人数是25;令300<3+12(k -1)≤495,得1034<k ≤42,因此第Ⅱ营区被抽中的人数是42-25=17;第Ⅲ营区被抽中的人数为50-25-17=8.题型三 分层抽样命题点1 求总体或样本容量典例 (1)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n 等于( ) A .9 B .10 C .12 D .13 答案 D解析 ∵360=n 120+80+60,∴n =13.(2)某市电视台为调查节目收视率,想从全市3个区按人口数用分层抽样的方法抽取一个容量为n 的样本.已知3个区人口数之比为2∶3∶5,如果最多的一个区抽出的个体数是60,那么这个样本的容量为( ) A .96 B .120 C .180 D .240 答案 B解析 设样本容量为n ,则52+3+5=60n,解得n =120.命题点2 求某层入样的个体数典例 (1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师的人数为( )A.90 B .100 C .180 D .300 答案 C解析 由题意得抽样比为3201 600=15,∴该样本中的老年教师的人数为900×15=180.(2)(2017·重庆一诊)我国古代数学专著《九章算术》中有一衰分问题:今有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣( ) A .104人 B .108人 C .112人 D .120人答案 B解析 由题意可知,这是一个分层抽样的问题,其中北乡可抽取的人数为300×8 1008 100+7 488+6 912=300×8 10022 500=108,故选B.思维升华 分层抽样问题类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之:根据分层抽样就是按比例抽样,列比例式进行计算.(3)确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况.跟踪训练 (1)(2017·南昌一模)某校为了了解学生学习的情况,采用分层抽样的方法从高一 1 000人,高二1 200人,高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n 等于( ) A .860 B .720 C .1 020 D .1 040 答案 D解析 分层抽样是按比例抽样的,所以81×1 2001 000+1 200+n=30,解得n=1 040.(2)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为________.答案200,20解析该地区中小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20.五审图表找规律典例(12分)某单位有2 000名职工,老年、中年、青年分布在管理、技术开发、营销、生产各部门中,如下表所示:(1)若要抽取40人调查身体状况,则应怎样抽样?(2)若要开一个25人的讨论单位发展与薪金调整方面的座谈会,则应怎样抽选出席人?(3)若要抽20人调查对天津全运会举办情况的了解,则应怎样抽样?抽取40人调查身体状况↓(观察图表中的人数分类统计情况)样本人群应受年龄影响↓(表中老、中、青分类清楚,人数确定)要以老、中、青分层,用分层抽样↓要开一个25人的座谈会↓(讨论单位发展与薪金调整)样本人群应受管理、技术开发、营销、生产方面的影响↓(表中管理、技术开发、营销、生产分类清楚,人数确定)要以管理、技术开发、营销、生产人员分层,用分层抽样↓要抽20人调查对天津全运会举办情况的了解↓(可认为全运会是大众体育盛会,一个单位人员对情况了解相当)将单位人员看作一个整体↓(从表中数据看总人数为2 000)人员较多,可采用系统抽样规范解答解(1)按老年、中年、青年分层用分层抽样法抽取,[1分]抽取比例为402 000=150.[2分]故老年人、中年人、青年人各抽取4人,12人,24人.[4分] (2)按管理、技术开发、营销、生产分层用分层抽样法抽取,[5分]抽取比例为252 000=180,[6分]故管理、技术开发、营销、生产各部门分别抽取2人,4人,6人,13人.[8分](3)用系统抽样,对全部2 000人随机编号,号码从0001~2000,每100号分为一组,从第一组中用简单随机抽样抽取一个号码,然后将这个号码分别加100,200,…,1 900,共20人组成一个样本.[12分]1.某工厂平均每天生产某种机器零件10 000件,要求产品检验员每天抽取50件零件,检查其质量状况,采用系统抽样方法抽取,将零件编号为0000,0001,0002,…,9999,若抽取的第一组中的号码为0010,则第三组抽取的号码为()A.0210 B.0410C .0610D .0810答案 B解析 将零件分成50段,分段间隔为200,因此,第三组抽取的号码为0010+2×200=0410,故选B.2.打桥牌时,将洗好的扑克牌(52张)随机确定一张为起始牌后,开始按次序搬牌,对任何一家来说,都是从52张总体中抽取一个13张的样本,则这种抽样方法是( ) A .系统抽样 B .分层抽样C .简单随机抽样D .非以上三种抽样方法答案 A解析 符合系统抽样的特点,故选A.3.用简单随机抽样的方法从含有10个个体的总体中抽取一个容量为3的样本,其中某一个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( ) A.110,110 B.310,15 C.15,310 D.310,310 答案 A解析 在抽样过程中,个体a 每一次被抽中的概率是相等的,因为总体容量为10,故个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性均为110,故选A.4.(2017·长沙一中测试)某中学有高中生3 500人,初中生1 500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( ) A .100 B .150 C .200 D .250 答案 A解析 方法一 由题意可得70n -70=3 5001 500,解得n =100.方法二 由题意,得抽样比为703 500=150,总体容量为3 500+1 500=5 000,故n =5 000×150=100.5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( ) A .7 B .9 C .10 D .15解析 由系统抽样的特点知,抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人. 6.福利彩票“双色球”中红色球的号码由编号为01,02,…,33的33个个体组成,某彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为( )A.23 B .09 C .02 D .17 答案 C解析 从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.7.(2017·雅礼中学月考)某中学教务处采用系统抽样方法,从学校高三年级全体1 000名学生中抽50名学生做学习状况问卷调查.现将1 000名学生从1到1000进行编号,求得间隔数k =20,即分50组每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是( ) A .177 B .157 C .417 D .367答案 B解析 根据系统抽样的特点可知,抽取出的编号成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.8.将某班的60名学生编号为01,02,…,60,采用系统抽样方法抽取一个容量为5的样本,且随机抽得的一个号码为04,则剩下的四个号码依次是______________. 答案 16,28,40,52解析 编号组数为5,间隔为605=12,因为在第一组抽得04号:4+12=16,16+12=28,28+12=40,40+12=52, 所以其余4个号码依次为16,28,40,52.9.(2017·江苏)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.解析 ∵样本容量总体个数=60200+400+300+100=350,∴应从丙种型号的产品中抽取350×300=18(件).10.(2017·潍坊模拟)某高中在校学生有2 000人.为了响应“阳光体育运动”的号召,学校开展了跑步和登山的比赛活动.每人都参与而且只能参与其中一项比赛,各年级参与比赛的人数情况如下表:其中a ∶b ∶c =2∶3∶5,全校参与登山的人数占总人数的25.为了了解学生对本次活动的满意程度,从中抽取一个200人的样本进行调查,则从高二年级参与跑步的学生中应抽取的人数为________. 答案 36解析 根据题意可知,样本中参与跑步的人数为200×35=120,所以从高二年级参与跑步的学生中应抽取的人数为120×32+3+5=36.11.200名职工年龄分布如图所示,从中随机抽取40名职工作样本,采用系统抽样方法,按1~200编号,分为40组,分别为1~5,6~10,…,196~200,若第5组抽取号码为22,则第8组抽取号码为________.若采用分层抽样,40岁以下年龄段应抽取________人.答案 37 20解析 将1~200编号分为40组,则每组的间隔为5,其中第5组抽取号码为22,则第8组抽取的号码应为22+3×5=37;由已知条件得,200名职工中40岁以下的职工人数为200×50%=100,设在40岁以下年龄段中应抽取x 人,则40200=x100,解得x =20.12.一个总体中有100个个体,随机编号为0,1,2,…,99.依编号顺序平均分成10个小组,组号依次为1,2,…,10.现用系统抽样的方法抽取一个容量为10的样本,规定如果在第1组中随机抽取的号码为m ,那么在第k 组中抽取的号码的个位数字与m +k 的个位数字相同.若m =6,则在第7组中抽取的号码是________. 答案 63解析 m =6,则在第7组中抽取的号码的个位数字与13的个位数字相同,而第7组中数字编号依次为60,61,62,63,…,69,故在第7组中抽取的号码是63.13.(2017·宁夏中卫二模)某市教育主管部门为了全面了解2017届高三学生的学习情况,决定对该市参加2017年高三第一次全省统一考试(后称统考)的32所学校进行抽样调查.将参加统考的32所学校进行编号,依次为1到32,现用系统抽样法抽取8所学校进行调查,若抽到的最大编号为31,则最小编号是( ) A .3 B .1 C .4 D .2 答案 A解析 根据系统抽样的特点可知,总体分成8组,组距为328=4,若抽到的最大编号为31,则最小编号是3.14.为调查德克士各分店的经营状况,某统计机构用分层抽样的方法,从A ,B ,C 三个城市中抽取若干家德克士分店组成样本进行深入研究,有关数据见下表:(单位:个)则样本容量为________. 答案 6解析 设所求的样本容量为n ,由题意得 n 26+13+39=226,解得n =6.15.(2018·泉州质检)某公司员工对户外运动分别持“喜欢”“不喜欢”和“一般”三种态度,其中持“一般”态度的比持“不喜欢”态度的多12人,按分层抽样方法从该公司全体员工中选出部分员工座谈户外运动,如果选出的人有6人对户外运动持“喜欢”态度,有1人对户外运动持“不喜欢”态度,有3人对户外运动持“一般”态度,那么这个公司全体员工中对户外运动持“喜欢”态度的有( ) A .36人 B .30人 C .24人 D .18人 答案 A解析 设持“喜欢”“不喜欢”“一般”态度的人数分别为6x ,x,3x ,由题意可得3x -x =12,x =6,∴持“喜欢”态度的有6x =36(人).16.(2017·开封模拟)某公路设计院有工程师6人,技术员12人,技工18人,要从这些人中抽取n 个人参加市里召开的科学技术大会.如果采用系统抽样和分层抽样的方法抽取,不用剔除个体,如果参会人数增加1人,则在采用系统抽样时,需要在总体中先剔除1个个体,求n .解 总体容量为6+12+18=36.当样本容量为n 时,由题意知,系统抽样的间隔为36n,分层抽样的比例是n 36,抽取的工程师人数为n 36×6=n 6,技术员人数为n 36×12=n3,技工人数为n 36×18=n2, 所以n 应是6的倍数,36的约数,即n =6,12,18.当样本容量为(n +1)时,总体容量剔除以后是35人,系统抽样的间隔为35n +1,因为35n +1必须是整数,所以n 只能取6,即样本容量n =6.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高考数学小题精练+B 卷及解析:专题(15)统计与统计案例及解析专题(15)统计与统计案例1.已知样本789x y 、、、、的平均数是8,则xy 值为 A . 8 B . 32 C . 60 D . 80 【答案】C【解析】由78982x y++++==得=60xy ,故选C .2.某校高一()班共有54人,如图是该班期中考试数学成绩的频率分布直方图,则成绩在[]100,120内的学生人数为A . 36B . 27 C. 22 D . 11 【答案】B3.如图是2014年在某电视节目中七位评委为某民族舞蹈打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为A.84,4.84 B.84,1.6 C.85,1.6 D.85,4【答案】C【解析】由茎叶图知,去掉一个最高分93和一个最低分79后,所剩数据84,84,86,84,87的平均数为=85,方差为[(84-85)2+(84-85)2+(86-85)2+(84-85)2+(87-85)2]==1.6.故选C.4.某企业有职工450人,其中高级职工45人,中级职工135人,一般职工270人,现抽30人进行分层抽样,则各职称人数分别为()A.5,10,15 B.5,9,16 C.3,10,17 D.3,9,18【答案】D点睛:进行分层抽样的相关计算时,常利用以下关系式巧解:(1)nN样本容量该层抽取的个体数总体个数该层的个体数;(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.5.具有线性相关关系的两变量满足的一组数据如下表,若与的回归直线方程为,则的值为()A.4 B.C.5 D.6【答案】A【解析】由表中数据得:,根据最小二乘法,将代入回归方程,得,故选A.6.某商场在国庆黄金周的促销活动中,对10月2日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时到12时的销售额为()A.6万元B.8万元C.10万元D.12万元【答案】C【解析】设11时到12时的销售额为万元,依题意有,,故选C.点睛:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.7.下面对相关系数r描述正确的是()A . 0r >表明两个变量负相关B . r >1表明两个变量正相关C . r 只能大于零D . r 越接近于0,两个变量相关关系越弱 【答案】D8.下列说法错误的是( )A . 在统计学中,独立性检验是检验两个分类变量是否有关系的一种统计方法B . 在残差图中,残差分布的带状区域的宽度越狭窄,其模拟的效果越好C . 线性回归方程对应的直线ˆˆˆybx a =+至少经过其样本数据点中的一个点 D . 在回归分析中,相关指数2R 越大,模拟的效果越好 【答案】C【解析】对于A ,统计学中,独立性检验是检验两个分类变量是否有关系的一种统计方法,正确;对于B ,残差图中,残差分布的带状区域的宽度越狭窄,其模拟的效果越好,正确;对于C ,线性回归方程对应的直线ˆˆˆybx a =+过样本中心点,不一定过样本数据中的点,故C 错误;对于D ,回归分析中,相关指数R 2越大,其模拟的效果就越好,正确.故选C . 9.以下四个命题,其中正确的个数有( )①由独立性检验可知,有99%的把握认为物理成绩与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程0.212ˆy x =+中,当解释变量x 每增加一个单位时,预报变量ˆy 平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说, k 越小,“X 与Y 有关系”的把握程度越大.A . 1B . 2C . 3D . 4 【答案】B10.下表是某工厂1—4月份用电量(单位:万度)的一组数据:由散点图可知,用电量y 与月份x 间有较好的线性相关关系,其线性回归直线方程是0.7y x a =-+,则a =( )A .10.5B .5.25C .5.2D .5.15【答案】B 【解析】试题分析:因为1234 4.543 2.52.5,3.544x y ++++++====,所以()2.5,3.5在归直线方程0.7y x a =-+上,即3.50.7 2.5, 5.25a a =-⨯+=,故选B .考点:线性回归直线的性质和应用.11.某高中共有学生1000名,其中高一年级共有学生380人,高二年级男生有180人.如果在全校学生中抽取1名学生,抽到高二年级女生的概率为19.0,先采用分层抽样(按年级分层)在全校抽取100人,则应在高三年级中抽取的人数等于 . 【答案】25考点:分层抽样方法.12.总体编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为_______.【答案】01【解析】试题分析:从随机数表的第一行的第5列和第6列数字开始由左到右选取两个谁中小于20的编号依次为08,02,14,07,02,01,其中第二个和第四个都是02,重复,所以对应的数值为08,02,14,07,02,01.考点:简单的随机抽样.专题18 统计与统计案例1.如图是2014年在某电视节目中七位评委为某民族舞蹈打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为A.84,4.84 B.84,1.6 C.85,1.6 D.85,4【答案】C2.某中学高一年级从甲、乙两个班各选出7名学生参加国防知识竞赛,他们取得的成绩(满分100分)的茎叶图如图,其中甲班学生的平均分是85,乙班学生成绩的中位数是83,则x y +的值为( )A . 8B . 168C . 9D . 169 【答案】C【解析】∵甲班学生成绩的平均分是85,∴79+78+80+80+x+85+92+95=85×7,即x=6. ∵乙班学生成绩的中位数是83,甲班学生成绩的中位数是80+x=83,得x=3; ∴若1≤y ,则中位数为81,不成立.若y>1,则中位数为80+y=83,解得y=3. ∴x+y=6+3=9,本题选择C 选项.点睛:茎叶图的绘制需注意:(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置的数据.3.某商场在国庆黄金周的促销活动中,对10月2日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时到12时的销售额为( )A . 6万元B . 8万元C . 10万元D . 12万元 【答案】C点睛:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.4.如果个数的平均数为,则的平均数为( )A.3 B.4 C.5 D.6【答案】A【解析】的平均数为1,,,的平均数为,故选A.【思路点睛】本题主要考查平均数的求法,属于中档题.要解答本题首先根据个数的平均数为得到,从而可得的平均数为.5.某中学初中部共有120名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为()A.128 B.144 C.174 D.167【解析】女教师人数为: 120*0.7150*0.4144+=. 6.下列说法中正确的是( )①相关系数r 用来衡量两个变量之间线性关系的强弱, r 越接近于,相关性越弱; ②回归直线y bx a =+一定经过样本点的中心(),x y ;③随机误差e 满足()0E e =,其方差()D e 的大小用来衡量预报的精确度; ④相关指数2R 用来刻画回归的效果, 2R 越小,说明模型的拟合效果越好. A . ①② B . ③④ C . ①④ D . ②③ 【答案】D7.下面是22⨯列联表:则表中a b ,的值分别为( )A . 84,60B . 42,64C . 42, 74D . 74, 42【解析】因2163a +=,故42a =,又22a b +=,则64b =,应选答案B .8.在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是( )A .频率分布直方图B .回归分析C . 独立性检验D . 用样本估计总体 【答案】C【解析】根据题意,结合题目中的数据,列出2×2列联表,求出观测值K 2,对照数表可得出概率结论,这种分析数据的方法是独立性检验.本题选择C 选项. 9.下列说法错误的是( )A . 10xy ≠是5x ≠或2y ≠的充分不必要条件B . 若命题2:,10p x R x x ∀∈++≠,则2:,10p x R x x ⌝∃∈++= C . 线性相关系数r 的绝对值越接近1,表示两变量的相关性越强D . 用频率分布直方图估计平均数,可以用每个小矩形的高乘以底边中点横坐标之和 【答案】D10.某公司为确定明年投入某产品的广告支出,对近5年的广告支出m 与销售额(单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出m 与年销售额满足线性回归方程 6.517.5t m =+,则p 的值为( )A .45B .50C .55D .60 【答案】D考点:回归分析.11.当今人口政策受到人们的广泛关注,下表是某大学人口预测课题组通过研究预测的1564岁人口所占比例的结果:已知所占比例y 关于年份代号的线性回归方程为 1.7y t m =-+,则m =( )A .67.8B .68C .68.5D .68.7 【答案】D 【解析】 试题分析:因6.6356162626568,3554321=++++==++++=y t ,故m +⨯-=37.16.63,即7.68=m ,应选D .考点:线性回归方程及运用. 12.下列命题中正确的有( )①设有一个回归方程ˆ23yx =-,变量x 增加一个单位时,y 平均增加3个单位; ②命题:p “0x R ∃∈,20010x x -->”的否定p ⌝“x R ∀∈,210x x --≤”; ③“命题p 或q 为真”是“命题p 且q 为真”必要不充分条件;④在一个22⨯列联表中,由计算得2 6.679k =,则有99.9%的把握确认这两个变量间有关系.A .1个B .2个C .3个D .4个 本题可以参考独立性检验临界值表【答案】B 【解析】考点:命题的真假.。