高三数学一轮复习章节练习:统计与统计案例
新课标2023版高考数学一轮总复习第9章统计与统计案例第1节随机抽样教师用书
第一节 随机抽样考试要求:了解简单随机抽样和分层随机抽样的必要性,掌握分层随机抽样的样本平均数,知道获取数据的基本途径.一、教材概念·结论·性质重现1.简单随机抽样(1)定义:一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.(2)最常用的简单随机抽样方法有两种——抽签法和随机数法.(3)应用范围:总体个体数较少.2.分层随机抽样一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样.(1)每一个子总体称为层.在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.(2)如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,则2层的样本平均数分别为,,2层的总体平均数分别为,,总体平均数为,样本平均数为两种抽样方法的特点、联系及适用范围类别简单随机抽样分层随机抽样共同点抽样过程中每个个体被抽到的可能性相等各自特点从总体中逐个抽取将总体分成几层,分层进行抽取联系各层抽样时,采用简单随机抽样适用范围总体个数较少总体由差异明显的几部分组成二、基本技能·思想·活动经验1.判断下列说法的正误,对的打“√”,错的打“×”.(1)简单随机抽样的每个个体被抽到的机会不一样,与先后有关.( × )(2)在抽签法中,先抽的人抽中的可能性大.( × )(3)在分层随机抽样中,每个个体被抽到的可能性与层数及分层有关.( × ) 2.现有以下两项调查:①从10台冰箱中抽取3台进行质量检查;②某社区有600户家庭,其中高收入家庭180户,中等收入家庭360户,低收入家庭60户,为了调查家庭购买力的某项指标,拟抽取一个容量为30的样本.则完成这两项调查最适宜采用的抽样方法分别是( )A.①②都采用简单随机抽样B.①②都采用分层随机抽样C.①采用简单随机抽样,②采用分层随机抽样D.①采用分层随机抽样,②采用简单随机抽样C 解析:对于①,“从10台冰箱中抽取3台进行质量检查”,总体容量比较少,应采用简单随机抽样法;对于②,总体容量较多,且样本差异比较明显,应采用分层随机抽样法.3.在“世界读书日”前夕,为了了解某地5 000名居民的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A.总体B.个体C.样本量D.从总体中抽取的一个样本A 解析:由题目条件知,5 000名居民的阅读时间的全体是总体;其中每1名居民的阅读时间是个体;从5 000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本量是200.4.某学校高二年级选择“史政地”“史政生”和“史地生”这三种组合的学生人数分别为210,90和60.若采用分层随机抽样的方法从中随机抽取12名学生,则从“史政生”组合中抽取的学生人数为( )A.7 B.6C.3 D.2C 解析:由题意可知,“史政地”“史政生”和“史地生”这三种组合的学生人数分别为210,90和60,故“史政生”所占的比例为=.由于分层随机抽样是按比例抽取,可得“史政生”组合中抽取的学生人数为12×=3.5.下列情况适合用全面调查的是( )A.了解一批玉米种子的发芽率B.了解某城市居民的食品消费结构C.调查一个县各村的粮食播种面积D.调查一条河的水质C 解析:A.了解一批玉米种子的发芽率适合抽样调查,故不符合题意;B.了解某城市居民的食品消费结构适合抽样调查,故不符合题意;C.调查一个县各村的粮食播种面积适合全面调查,故符合题意;D.调查一条河的水质适合抽样调查,故不符合题意.故选C.6.某班60名同学中选出4人参加户外活动,利用随机数法抽取样本时,先将60名同学按01,02,…,60进行编号,然后从随机数表第1行的第5列数字开始从左往右依次选取两个数字,则选出的第4个同学的编号为( )0347 4373 8636 9647 3661 46986371 62977424 6292 4281 1457 2042 53323732 1676(注:表中的数据为随机数表的第1行和第2行)A.24 B.36C.46 D.47C 解析:由题知从随机数表的第1行的第5列和第6列数字开始,由表可知依次选取43,36,47,46.故选出的第4个同学的编号为46.7.要完成下列三项调查:①某商城从10台同款平板电脑中抽取4台作为商城促销的奖品;②某市从老、中、青三代市民中抽取100人调查他们网络购物的情况.适合采用的抽样方法依次为_______.①抽签法;②分层随机抽样 解析:对于①,所收集的数据没有明显差异,且数量较少,应用抽签法;对于②,所收集的数据差异明显,应用分层随机抽样.考点1 统计中的基本概念、数据获取——基础性1.为了了解某省高考数学考试的情况,抽取2 000名考生的数学试卷进行分析,2 000叫作( )A.个体 B.样本C.样本量 D.总体C 解析:2 000是个数字,没有单位,由样本量的定义可知2 000是样本量.故选C.2.某中学进行了该学年度期末统一考试,该校为了了解高一年级1 000名学生的考试成绩,从中随机抽取了100名学生的考试成绩,就这个问题来说,下面说法正确的是( )A.1 000名学生是总体B.每个学生是个体C.1 000名学生的考试成绩是一个个体D.样本量是100D 解析:根据题意得,本题的总体、个体与样本考查的对象都是学生成绩,而不是学生,选项A,B表达的对象都是学生,不是成绩,A,B都错误;C中1 000名学生的成绩是总体,不是个体,所以C错误;D中样本量是100,所以D正确.考点2 简单随机抽样及其应用——综合性(1)下列抽取样本的方式属于简单随机抽样的个数为( )①从无限多个个体中抽取100个个体作为样本;②从20件玩具中一次性抽取3件进行质量检验;③某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0 B.1C.2 D.3A 解析:①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样,因为这是“一次性”抽取,而不是“逐个”抽取;③不是简单随机抽样,因为不是等可能抽样.故选A.简单随机抽样适合总体中个数较少.(2)总体由编号为01,02,03,…,50的50个个体组成,利用随机数表从中抽取5个个体,下面提供随机数表的第5行到第7行:9312 4779 5737 8918 4550 39946111 6098 4965 7350 9847 30309837 2310 4476 9146 0679 2662若从表中第6行的第6列数字开始向右依次读取,则抽取的第3个个体的编号是( )A.09 B.03C.35 D.37B 解析:利用随机数表从第6行第6列开始向右读取,依次为09,84(舍弃),96(舍弃),57(舍弃),35,09(重复,舍弃),84(舍弃),73(舍弃),03,所以抽取的第3个个体的编号是03.在使用随机数法时,如(2021·郑州期末)某工厂利用随机数表对生产的600个零件进行抽样测试,先将600个零件进行编号,编号分别为001,002,…,599,600,从中抽取60个样本,现提供随机数表的第4行到第6行:第4行:32 21 18 34 29 78 64 54 07 32 52 42 0644 38 12 23 43 56 77 35 78 90 56 42第5行:84 42 12 53 31 34 57 86 07 36 25 30 0732 86 23 45 78 89 07 23 68 96 08 04第6行:32 56 78 08 43 67 89 53 55 77 34 89 9483 75 22 53 55 78 32 45 77 89 23 45若从表中第6行第6列开始向右依次读取3个数据,则得到的第7个样本编号为( )A.522 B.324C.535 D.578B 解析:第6行第6列的数开始的数为808(舍弃),436,789(舍弃),535,577,348,994(舍弃),837(舍弃),522,535(重复舍弃),578,324.所以抽取的7个编号为436,535,577,348,522,578,324.即第7个样本编号为324.考点3 分层随机抽样——综合性考向1 求总体或样本量(1)近年来,很多学生因为手机的缘故其视力受到了很大的伤害,中小学生的近视率也呈明显的上升趋势.某区为了了解中小学生的视力健康状况,决定从城区的几所学校随机抽取一个样本进行调查.已知这几所学校的小学生、初中生、高中生的人数比为5∶6∶7,现用分层随机抽样的方法抽取一个样本量为n的样本,样本中初中生的人数比小学生人数多50,则n=( )A.250 B.300C.800 D.900D 解析:这几所学校的小学生、初中生、高中生的人数比为5∶6∶7,现用分层随机抽样的方法抽取一个样本量为n的样本,样本中初中生的人数比小学生人数多50,则n=50,解得n=900.故选D.(2)(2022·宝鸡模拟)我国古代数学名著《九章算术》有一抽样问题:“今有北乡若干人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,而北乡需遣一百零八人,问北乡人数几何?”其意思为:今有某地北面若干人,西面有7 488人,南面有6 912人,这三面要征调300人,而北面共征调108人(用分层随机抽样的方法),则北面共有( )A.8 000人 B.8 100人C.8 200人 D.8 300人B 解析:设北面人数为x,根据题意知,=,解得x=8 100,所以北面共有8 100人.故选B.考向2 分层随机抽样的均值某市的3个区共有高中学生20 000人,且3个区的高中学生人数之比为2∶3∶5.现要从所有学生中抽取一个容量为200的样本,调查该市高中学生的视力情况.(1)试写出抽样过程;(2)若样本中3个区的高中学生的平均视力分别为4.8,4.8,4.6,试估计该市高中学生的平均视力.解:(1)①由于该市高中学生的视力有差异,按3个区分成三层,用分层随机抽样法抽取样本.②确定每层抽取的个体数,在3个区分别抽取的学生人数之比也是2∶3∶5,所以抽取的学生人数分别是200×=40,200×=60,200×=100.③在各层分别按简单随机抽样法抽取样本.④综合每层抽样,组成容量为200的样本.(2)样本中高中学生的平均视力为×4.8+×4.8+×4.6=4.7.所以估计该市高中学生的平均视力约为4.7.某校高二年级“化生史”组合只有2个班,且每班50人.在一次数学测试中,从两个班抽取了20名学生的数学成绩进行分析,统计得在该次测试中,两班中各抽取的20名学生的平均成绩分别为110分和106分,则该组合学生的平均成绩约为________分.108 解析:样本中40名学生的平均分为×110+×106=108(分),所以估计该组合学生的平均分为108分.。
北师版高考理科数学一轮总复习课时练习题 第10章 算法初步、 统计与统计案例 算法初步
课时规范练53 算法初步基础巩固组1.如图,若依次输入的x 分别为5π6,π6,相应输出的y 分别为y 1,y 2,则y 1,y 2的大小关系是( )A.y 1=y 2B.y 1>y 2C.y 1<y 2D.无法确定 答案:C解析:由算法框图可知,当输入的x 为5π6时,sin 5π6>cos 5π6成立,所以输出的y 1=sin5π6=12;当输入的x 为π6时,sin π6>cos π6不成立,所以输出的y 2=cos π6=√32,所以y 1<y 2.2.(河南六市一模)已知[x]表示不超过x的最大整数.执行如图所示的算法框图,若输入x的值为2.4,则输出z的值为( )A.1.2B.0.6C.0.4D.-0.4答案:D解析:执行该算法框图,输入x=2.4,y=2.4,x=[2.4]-1=1,满足x≥0,x=1.2,y=1.2,x=[1.2]-1=0,满足x≥0,x=0.6,y=0.6,x=[0.6]-1=-1,不满足x≥0,终止循环,z=-1+0.6=-0.4,输出z的值为-0.4.3.(河北石家庄四模)如图是计算1+13+15+…+131的值的算法框图,则图中①②处可以填写的语句分别是( )A.n=n+2,i>16B.n=n+2,i≥16C.n=n+1,i>16D.n=n+1,i≥16答案:A解析:式子1+13+15+…+131中所有项的分母构成公差为2的等差数列1,3,5,…,31,则①处填n=n+2.令31=1+(k-1)×2,k=16,共16项,而1到129共15项,需执行最后一次循环,此时i=16,所以②中应填“i>16”.故选A.4.秦九韶算法是南宋时期数学家秦九韶提出的一种多项式简化算法,即使在现代,它依然是利用计算机解决多项式问题的最优算法,其算法的算法框图如图所示,若输入的a0,a1,a2,…,a n分别为0,1,2,…,n.若n=5,根据该算法计算当x=2时多项式的值,则输出的结果为( )A.248B.258C.268D.278答案:B解析:该算法框图是计算多项式f(x)=5x5+4x4+3x3+2x2+x当x=2时的值,f(2)=258,故选B.5.某算法框图如图所示,运行该程序后输出S=( )A.53B.74C.95D.116答案:D解析:根据算法框图可知其功能为计算:S=1+11×2+12×3+…+1n(n+1)=1+1-12+12−13+…+1n−1n+1=1+1-1n+1=2n+1n+1,初始值为n=1,当n=6时,输出S,可知最终赋值S时n=5,所以S=2×5+15+1=116,故选D.6.(湖北武汉模拟)元朝时期数学名著《算学启蒙》中有关于“松竹并生”的问题:松长五尺,竹长两尺,松日自半,竹日自倍,松竹何日而长等.如图是源于其思想的一个算法框图,若输入的a,b 分别为5,2,则输出的n=( )A.2B.3C.4D.5 答案:C解析:执行算法框图得n=1,a=152,b=4,a≤b 不成立;n=2,a=454,b=8,a≤b 不成立;n=3,a=1358,b=16,a≤b 不成立;n=4,a=40516,b=32,a≤b 成立.故输出的n=4,故选C.综合提升组7.执行如图的算法框图,如果输入的x ∈-π4,π,则输出y 的取值范围是( )A.[-1,0]B.[-1,√2]C.[1,2]D.[-1,1]答案:B解析:流程图计算的输出值为分段函数: y={2cos 2x +sin2x -1,x <π2,cos 2x +2sinx -1,x ≥π2,原问题即求解函数在区间[-π4,π]上的值域.当-π4≤x<π2时,y=2cos 2x+sin2x-1=cos2x+1+sin2x-1=√2sin (2x +π4),-π4≤x<π2,则-14π≤2x+π4<54π,此时函数的值域为[-1,√2]. 当π2≤x≤π时,y=cos 2x+2sinx-1=-sin 2x+2sinx,π2≤x≤π,则0≤sinx≤1,此时函数的值域为[0,1].综上可得,函数的值域为[-1,√2]∪[0,1],即[-1,√2]. 即输出y 的取值范围是[-1,√2].故选B.8.(河南开封一模)我国古代名著《庄子·天下篇》中有一句名言“一尺之棰,日取其半,万世不竭”,其意思:一尺的木棍,每天截取一半,永远都截不完.现将该木棍依此规律截取,如图所示的算法框图的功能就是计算截取7天后所剩木棍的长度(单位:尺),则①②③处可分别填入的语句是( )A.i<7,s=s-1i ,i=2iB.i≤7,s=s -1i,i=2iC.i<7,s=s2,i=i+1D.i≤7,s=s2,i=i+1答案:D解析:由题意可知第一天后剩下12,第二天后剩下122……由此得出第7天后剩下127,结合选项分析得,①应为i≤7,②应为s=s2,③应为i=i+1,故选D.9.如图所示的程序,若最终输出的结果为6364,则在程序中“ ”处应填入的语句为( )A.i>=8B.i>=7C.i<7D.i<8答案:B解析:S=0,n=2,i=1,执行S=12,n=4,i=2;S=12+14=34,n=8,i=3;S=34+18=78,n=16,i=4;S=78+116=1516,n=32,i=5;S=1516+132=3132,n=64,i=6;S=3132+164=6364,n=128,i=7.此时满足题目条件输出的S=6364,∴“ ”处应填上i>=7.故选B.10.根据某校10位高一同学的身高(单位:cm)画出的茎叶图(图1),其中左边的数字从左到右分别表示学生身高的百位数字和十位数字,右边的数字表示学生身高的个位数字,设计一个算法框图(图2),用A i(i=1,2, (10)表示第i个同学的身高,计算这些同学身高的方差,则算法框图①中要补充的语句是( )图1图2A.B=B+A iB.B=B+A i2C.B=(B+A i-A)2D.B=B2+A i2答案:B解析:由s2=(x1-x)2+(x2-x)2+…+(xn-x)2n=x 12+x 22+…+x n 2-2(x 1+x 2+…+x n )x+nx 2n =x 12+x 22+…+x n 2-2nx 2+nx 2n =x 12+x 22+…+x n 2n −x 2,循环退出时i=11,知x 2=(Ai -1)2. 所以B=A 12+A 22+…+A 102,故算法框图①中要补充的语句是B=B+A i 2.故选B.11.执行如图所示的算法框图,若输入的m,n 分别为385,105(图中“m MOD n”表示m 除以n 的余数),则输出的m= .答案:35解析:执行算法框图,可得m=385,n=105,r=70,m=105,n=70,不满足条件r=0;r=35,m=70,n=35,不满足条件r=0;r=0,m=35,n=0,满足条件r=0,退出循环,输出的m 值为35.创新应用组12.(河南郑州二模)执行如图的算法框图,如果输入的ε为0.01,则输出s 的值为( )A.2-124B.2-125C.2-126D.2-127答案:C解析:执行算法框图,s=1,x=12,不满足条件x<0.01; s=1+12,x=122,不满足条件x<0.01; s=1+12+122,x=123,不满足条件x<0.01; ……由于126>0.01,而127<0.01,可得当s=1+12+122+…+126,x=127时,满足条件x<0.01,输出s=1+12+122+…+126=2-126.故选C. 13.(河南郑州模拟)我们可以用随机数法估计π的值,如图所示的算法框图表示其基本步骤(函数RAND 是产生随机数的函数,它能随机产生(0,1)内的任何一个实数),若输出的结果为521,则由此可估计π的近似值为( )A.3.119B.3.126C.3.132D.3.151答案:B解析:在空间直角坐标系O-xyz 中,不等式组{0<x <1,0<y <1,0<z <1表示的区域是棱长为1的正方体区域,相应区域的体积为13=1;不等式组{0<x <1,0<y <1,0<z <1,x 2+y 2+z 2<1表示的区域是棱长为1的正方体区域内的18球形区域,相应区域的体积为18×43π×13=π6,因此π6≈5211000,即π≈3.126,故选B.。
高三数学一轮复习讲义统计案例学生
课题:统计案例知识点一、统计案例1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1a b a+bx2c d c+d总计a+c b+d a+b+c+d构造一个随机变量22Kn ad bca b c d a c b d-=++++()()()()(),其中n=a+b+c+d为样本容量.3.独立性检验利用随机变量2K来判断“两个分类变量有关系”的方法称为独立性检验.4.独立性检验的步骤(1)计算随机变量2K的观测值k,查表确定临界值k0:P(2K≥k0)k0 0.455P(2K≥k0)k0(2)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(2K≥k0);否则,就认为在犯错误的概率不超过P(2K≥k0)的前提下不能推断“X与Y有关系”.5.独立性检验的方法(1)独立性检验的步骤:①根据样本数据制成2×2列联表;②根据公式22Kn ad bca b c d a c b d-=++++()()()()(),计算2K的观测值;③比较2K与临界值的大小关系作统计推断.(2)独立性检验得出的结论带有概率性质,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值,和就是两个常用的临界值,一般认为当2K时,则有95%的把握说事件A与B有关;当2K时,则有99%的把握说事件A与B有关.【典型例题】【例1】通过随机询问110名性别不同的大学生是否爱好某项运动,得到列联表:男女总计爱好40 20 60不爱好20 30 50总计60 50 110由22Kn ad bca b c d a c b d-=++++()()()()(),计算得2211040302020K7.860506050⨯⨯-⨯=≈⨯⨯⨯()附表:P(K2≥k0)k0参照附表,得到的正确结论是()A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”【例2】某班学生数学、外语成绩得到2×2列联表如:数优数差总计外优34 17 51外差15 19 34总计49 36 85χ等于________.那么,随机变量2【例3】某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计50岁以下50岁以上合计(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.【举一反三】1.随着的发展,“微信”越来越成为人们交流的一种方式.某机构对“使用微信交流”的态度进行调查,随机抽取了50人,他们年龄的频数分布及对“使用微信交流”赞成人数如下表.年龄(单位:岁)[15,25)[25,35)[35,45)[45,55)[55,65)[65,75)频数 5 10 15 10 5 5赞成人数 5 10 12 7 2 12⨯列联表,并判断是否有99%的把握认为“使(1)若以“年龄45岁为分界点”,由以上统计数据完成下面2用微信交流”的态度与人的年龄有关;合年龄不低于45岁的人数年龄低于45岁的人数计赞成不赞成合计(2)若从年龄在[55,65)的被调查人中随机选取2人进行追踪调查,求2人中至少有1人不赞成“使用微信交流”的概率.参考数据如下:2.假设某地有男驾驶员300名,女驾驶员200名.为了研究驾驶员日平均开车速度是否与性别有关,现采用分层抽样的方法,从中抽取了100名驾驶员,先统计了他们某月的日平均开车速度,然后按“男驾驶员”和“女驾驶员”分为两组,再将两组驾驶员的日平均开车速度(千米/小时)分成5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均开车速度不足60(千米/小时)的驾驶员中随机抽取2人,求至少抽到一名“女驾驶员”的概率.(2)如果一般认为日平均开车速度不少于80(千米/小时)者为“危险驾驶”.请你根据已知条件完成2×2联表,并判断是否有90%的把握认为“危险驾驶与驾驶员性别组有关”?附:22()()()()()n ad bc K a b c d a c b d -=++++【课堂巩固】1. 某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下22⨯列联表:则可以说其亲属的饮食习惯与年龄有关的把握为( ) A .90% B .95% C .99% D .99.9% 附:参考公式和临界值表22()()()()()n ad bc K a b c d a c b d -=++++2.下面是2×2列联表:则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,523.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是( )A .有99%的人认为该电视栏目优秀B .有99%的人认为该电视栏目是否优秀与改革有关系C .有99%的把握认为该电视栏目是否优秀与改革有关系D .没有理由认为该电视栏目是否优秀与改革有关系4.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表: 甲厂:频数12 63 86 182 92 61 4乙厂:分组 [29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10, 30.14) 频数297185159766218(1)试分别估计两个分厂生产零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附 22K n ad bc a b c d a c b d -=++++()()()()(),P (K 2≥k ) k5.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附: 22K n ad bc a b c d a c b d -=++++()()()()()P(χ2≥k)0.010 k6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下列表:喜爱打篮球不喜爱打篮球合计 男生 5 女生 10 合计50已知在全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35.(1)请将上表补充完整(不用写计算过程);(2)能否有99.5%的把握认为喜爱打篮球与性别有关?说明你的理由.下面的临界值表供参考:甲 厂 乙 厂 合 计 优质品 非优质品 合 计(参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【课后练习】正确率:1.为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘”能做到“光盘”男 45 10 女 3015附:P (K 2≥k ) 0.10 0.05 0.025k2.706 3.841 5.024参照附表,得到的正确结论是( )A .在犯错误的概率不超过l %的前提下,认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过l %的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”2.在独立性检验中,统计量2χ有两个临界值:3.841和6.635.当2 3.841χ>时,有95%的把握说明两个事件有关,当2 6.635χ>时,有99%的把握说明两个事件有关,当2 3.841χ≤时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算220.87χ=.根据这一数据分析,认为打鼾与患心脏病之间( )A.有95%的把握认为两者有关B.约有95%的打鼾者患心脏病C.有99%的把握认为两者有关D.约有99%的打鼾者患心脏病3.为了调查某高中学生每天的睡眠时间,现随机对20名男生和20名女生进行问卷调查,结果如下: 女生:睡眠时间(小时) [)4,5[)5,6[)6,7 [)7,8 []8,9人数24842男生:(1)现把睡眠时间不足5小时的定义为“严重睡眠不足”,从睡眠时间不足6小时的女生中随机抽取3人,求此3人中恰有一人为“严重睡眠不足”的概率;(2)完成下面2×2列联表,并回答是否有90%的把握认为“睡眠时间与性别有关”?(22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++)4.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:乙厂:(1)(2)由以上统计数据填下面2×2列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?附。
高三一轮复习专题训练:统计、统计案例(最新题,14页)
2 分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,求解此类问
------ 珍贵文档 ! 值得收藏! ------
------ 精品文档 ! 值得拥有! ------
题需先求出抽样比 —— 样本容量与总体容量的比, 则各层所抽取的样本容量等于该层个体总 数与抽样比的乘积 .
三、预测押题不能少
解析: 由题意知, 0.15(x+ 1)+ 0.2- 0.15 x- 0.2= 0.15. 答案: 0.15
统计与概率的交汇
统计与统计案例的主要内容是随机抽样、 样本估计总体、 变量的相关性、 回归分析和独 立性检验, 该部分内容在高考中占有一定的位置, 近两年高考中由单纯考查统计及统计案例 转化为与概率交汇命题且背景贴近生活,角度新颖,试题多为解答题,难度中档.
D. b^<b′, a^<a′
[解析 ] 由 (1,0), (2,2) 求 b′ , a′,则
2- 0 b′ = = 2,a′ = 0-2× 1=- 2.
2- 1 由上表数据求 b^, a^,
6
xiyi= 0+ 4+ 3+12+ 15+24= 58,
i=1
13 x = 3.5, y = 6 ,
6
x2i = 1+Βιβλιοθήκη 4+ 9+ 16+ 25+ 36= 91,
3n 60= 260,解得 n=13.
(2)将某班的 60 名学生编号为: 01,02,…, 60,采用系统抽样方法抽取一个容量为 5 的 样本,且随机抽得的一个号码为 04,则剩下的四个号码依次是 ________.
解析: 依据系统抽样方法的定义知,将这 60 名学生依次按编号每 12 人作为一组,即
1. (1) 某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为
高考数学冲刺一轮复习(文理)第十六章 统计与统计案例
第十六章、统计与统计案例第1节 随机抽样和样本估计总体考纲要求考纲研读1.随机抽样. (1)理解随机抽样的必要性和重要性. (2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.2.总体估计. (1)了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点. (2)理解样本数据标准差的意义和作用,会计算数据标准差. (3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释. (4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想. (5)会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.用样本估计总体是统计学的重要想.从总体中如何抽取样本,以及如何研究样本数据是本节需要掌握的主要内容.根据总体的特点可采取合适的抽样方式,然后从列表,画图途径来体现样本数据特征,而样本的数字特征则是其客观体现,从而进一步去估计总体特征.1.总体、个体、样本把所考察对象的某一个数值指标的全体构成的集合看成总体,构成总体的每一个元素为个体,从总体中随机抽取若干个个体构成的集合叫做总体的一个样本. 2.随机抽样抽样时保证每一个个体都可能被抽到,每一个个体被抽到的机会是 ,满足这样的条件的抽样是随机抽样.3.简单随机抽样设一个总体含有 N 个个体,从中逐个不放回地抽取 n 个个体作为样本(n ≤N),如果每次抽取时总体内的各个个体被抽到的机会都 ,就把这种抽样方法叫做简单随机抽样.最常用的简单随机抽样方法有两种—— 和 . 4.系统抽样(1)当总体元素个数很大时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方式叫做系统抽样. (2)步骤:①编号.采用随机的方式将总体中的个体编号,编号的方式可酌情处理;② .先确定分段的间隔k .当N n (N 为总体中的个体数,n 为样本容量)是整数时,k =N n ;当Nn 不是整数时,通过从总体中随机剔除一些个体使剩下的总体中个体总数N ′能被n 整除,这时k =N ′n;③确定起始个体编号.在第 1 段用 确定起始的个体编号 S ;④按照事先确定的规则抽取样本.通常是将 S 加上间隔 k ,得到第 2 个个体编号 S +k ,再将(S +k)加上 k ,得到第 3 个个体编号S +2k ,这样继续下去,获得容量为 n 的样本.其样本编号依次是:S ,S +k ,S +2k ,…,S +(n -1)k. 5.分层抽样当总体由的几部分组成时,按某种特征在抽样时将总体中的各个个体分成互不交叉的层,然后按照一定的比例,从各层中独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫做分层抽样.6.频率分布直方图(1)求极差:极差是一组数据的最大值与最小值的差.(2)决定组距和组数:当样本容量不超过100 时,常分成5~12 组.组距=.(3)将数据分组:通常对组内数值所在区间取左闭右开区间.最后一组取闭区间.也可以将样本数据多取一位小数分组.(4)列频率分布表:登记频数,计算频率,列出频率分布表.将样本数据分成若干个小组,每个小组内的样本个数称作频数,频数与样本容量的比值叫做这一小组的.频率反映这组数据在样本所占比例的大小.(5)绘制频率分布直方图:把横轴分成若干段,每一段对应一个组距,然后以线段为底作一矩形,它的高等于该组的,这样得到一系列的矩形,每个矩形的面积恰好是该组上的频率.这些矩形就构成了频率分布直方图.7.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的,就得到频率分布折线图.(2)总体密度曲线:随着的增加,作图时所分的组数增加,减小,相应的频率折线图会接近于一条光滑的曲线,即总体密度曲线.8.茎叶图在样本数据较少、较为集中,且位数不多时,用茎叶图表示数据的效果较好,它较好的保留了原始数据信息,方便记录与表示.茎是中间的一列数,叶是从茎的旁边生长出来的数.9.样本数字特征(1)众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.(2)中位数:将一组数据按大小依次排列,把处在位置的一个数据(或最中间两个数据的平均数)叫做这组数据的.(3)平均数:样本数据的算术平均数,即x=.(4)方差:s2=.(5)标准差:s=.1.从2 004 名学生中选取50 名组成参观团,若采用下面的方法选取:先用简单随机抽样从2 004 人中剔除 4 人,剩下的2 000人再按系统抽样的方法进行.则每人入选的概率( )A.不全相等B.均不相等C.都相等,且为251002D.都相等,且为1402.甲、乙、丙、丁四人参加奥运会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲乙丙丁平均环数x8.6 8.9 8.9 8.2方差s2 3.5 3.5 2.1 5.6从这四个人中选择一人参加奥运会射击项目比赛,最佳人选是( )A.甲B.乙C.丙D.丁3.在广雅中学“十佳学生”评选的演讲比赛中,如图所示,是七位评委为某学生打出的分数的茎叶图,去掉一个最高分和一个最低分后,所剩数据的众数和中位数分别为( )A.85,85 B.84,86 C.84,85 D.85,864.(上海)课题组进行城市空气质量调查,按地域把24个城市分成甲、乙、丙三组,对应城市数分别为4,12,8.若用分层抽样抽取6 个城市,则丙组中应抽取的城市数为.5.某个容量为100 的样本的频率分布直方图如图所示,则在区间[4,5)上的数据的频数为.1.某小区有800 个家庭,其中高收入家庭200 户,中等收入家庭480 户,低收入家庭120 户,为了了解有关家用轿车购买力的某个指标,要从中抽取一个容量为100 户的样本;②从10 名同学中抽取 3 个参加座谈会.Ⅰ.简单随机抽样方法;Ⅱ.系统抽样方法;Ⅲ.分层抽样方法.问题和方法配对正确的是( ) A.①Ⅰ②ⅡB.①Ⅲ②ⅠC.①Ⅱ②Ⅲ D. ①Ⅲ②Ⅱ2.一个单位有职工800 人,其中具有高级职称的160 人,具有中级职称的320 人,具有初级职称的200 人,其余人员120 人.为了解职工收入情况,决定采用分层抽样的方法,从中抽取容量为40 的样本.则从上述各层中依次抽取的人数分别是( )A.12,24,15,9 B.9,12,12,7 C.8,15,12,5 D.8,16,10,63.为提高山西中小学生的健康素质和体能水平,山西省教育厅要求广东各级各类中小学每年都要在体育教学中实施“体能素质测试”,测试总成绩满分为100 分.根据山西省标准,体能素质测试成绩在[85,100]之间为优秀;在[75,85)之间为良好;在[65,75)之间为合格;在(0,60)之间,体能素质为不合格.现从佛山市某校高一年级的900 名学生中随机抽取30 名学生的测试成绩如下:65,84,76,70,56,81,87,83,91,75,81,88,80,82,93,85,90,77,86,81,83,82,82,64,79,86,68,71,89,96.(1)完成频率分布表和频率分布直方图,并估计该校高一年级体能素质为优秀的学生人数;(2)【理】在上述抽取的30名学生中任取2名,设ξ为体能素质为优秀的学生人数,求ξ的分布列和数学期望(结果用分数表示);(2)【文】现用分层抽样的方法在该校高一年级共900 名学生中抽取6 名学生,在上述抽取的6 名学生中任取2 名,求恰好抽到1 名体能素质为优秀的学生的概率;(3)请你依据所给数据和上述山西省标准,对该校高一学生的体能素质给出一个简短评价.4.甲、乙两名同学在5 次数学考试中,成绩统计用茎叶图表示如图所示,若甲、乙两人的平均成绩分别用x 甲, x 乙表示,则下列结论正确的是()A. x 甲< x 乙,且甲比乙成绩稳定B. x 甲<x 乙,且乙比甲成绩稳定C. x 甲> x 乙,且甲比乙成绩稳定D.x 甲> x 乙,且乙比甲成绩稳定5.【文】某校从参加高一年级期中考试的学生中随机抽取 60 名学生,将其数学成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后得到如图所示的部分频率分布直方图.观察图形的信息,回答下列问题:(1)求分数在[70,80)内的频率,并补全这个频率分布直方图;(2)统计方法中,同一组数据常用该组区间的中点值作为代表,据此估计本次考试的平均分;(3)用分层抽样的方法在分数段为[60,80)的学生中抽取一个容量为 6 的样本,将该样本看成一个总体,从中任取 2 人,求至多有 1 人在分数段[70,80)的概率.1.根据总体的情况采取适当的抽样方式,无论采用哪种抽样方式,必须保证在整个过程中每个个体被抽到的机会相等.而系统抽样和分层抽样在高考中考得比较多.2.对于每个个体所取不同数值较少的总体时,常用条形图表示其样本分布,而对于每个个体所取不同数值较多或无限的总体,常用频率分布直方图表示其样本分布.3.描述数据的数字特征——平均数、众数、中位数、方差,其中平均数、众数、中位数描述其集中趋势,方差反映各个数据与平均数的离散程度.4.近年来高考题倾向于以统计为载体来考察概率的相关知识.认真听讲,做好笔记(模板):考纲要求考纲研读1.会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.高考中主要的考点(1)正相关与负相关.(2)线性回归方程必过样本中心点.(3)线性回归方程的求法.1.变量间的相关关系 (1)散点图将样本中 n 个数据点(x i ,y i )(i =1,2,…,n)描在平面直角坐标系中,表示两个变量关系的一组数据的图形叫做散点图.(2)正相关、负相关①散点图中各点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大,这种关系称为 ;②散点图中各点散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值却由大变小,这种关系称为 . 2.两个变量的线性相关 (1)线性相关关系观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. (2)回归直线的求法设具有线性相关关系的两个变量x ,y 的一组观察值为(x i ,y i )(i =1,2,…,n ),则回归直线方程y ^=b ^x +a ^的系数为:其中11n i x x n =∑,11n i y y n =∑,(x -,y -)称作 .(3)最小二乘法通过求21ni i i Q y bx a =⎛⎫=-- ⎪⎝⎭∑的最小值而得到回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.(4)线性相关强度的检验叫做 y 与 x 的相关系数,简称相关系数.r 具有以下性质:|r|≤1,并且|r|越接近 1,线性相关程度越强;|r|越接近 0,线性相关程度越弱.r>0 表明两变量正相关,r<0 表明两变量负相关.当|r|>0.75 时,认为两个变量有很 的线性相关关系. (5)相关指数相关指数()12211n i i i nii y y R y y ==⎛⎫- ⎪⎝⎭=--∑∑,R 2 越接近 1,模型的拟合效果越好.1.下列两个变量之间的关系哪个不是函数关系( )A .角度和它的余弦值B .正方形边长和面积C .正 n 边形的边数和它的内角和D .人的年龄和身高2.有关线性回归的说法,不正确的是( ) A .相关关系的两个变量是非确定关系 B .散点图能直观地反映数据的相关程度C .回归直线最能代表线性相关的两个变量之间的关系D .散点图中的点越集中,两个变量的相关性越强3.回归直线方程的系数a ^,b ^的最小二乘估计a ^,b ^,使函数Q (a ^,b ^)最小,Q 函数指( )A. 21ni ii y bx a =⎛⎫-- ⎪⎝⎭∑ B. 1nii i ybx a =--∑C .(y i -b ^x i -a ^)2D .y i -b ^x i -a ^4.(辽宁)调查某地若干户家庭的年收入 x(单位:万元)和年饮食支出 y(单位:万元),调查显示年收入 x 与年饮食支出 y 具有线性相关关系,并由调查数据得到 y 对 x 的回归直线方程:=0.254x +0.321.由回归直线方程可知,家庭年收入每增加 1 万元,年饮食支出平均增加 万元. 5.已知 x ,y 之间的一组数据如下:x 0 1 2 3 y 8 2 6 4则线性回归方程y ^=b ^x +a ^所表示的直线必经过点 .1.在 7 块并排、形状大小相同的试验田上进行施化肥量对水稻产量影响的试验,得到如下表所示的一组数据(单位:kg): 施化肥量 x 15 20 25 30 35 40 45 水稻产量330 345 365 405 445 450 455(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增加吗?2.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量 x(吨)与相应的生产能耗 y(吨标准煤)的几组对照数据: x 3 4 5 6 y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出 y 关于 x 的线性回归方程a x b yˆˆˆ+=; (3)已知该厂技改前 100 吨甲产品的生产能耗为 90 吨标准煤.试根据(2)求出的线性回归方程,预测生产100 吨甲产品的生产能耗比技改前降低多少吨标准煤(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)?3.为考虑广告费用 x 与销售额 y 之间的关系,抽取了 5 家餐厅,得到如下数据: 广告费用 x (千元) 1.04.0 6.0 10.0 14.0 销售额 y (千元)19.044.040.052.053.0现要使销售额达到 60 万元,则需广告费用为________(保留两位有效数字).4.为了解儿子身高与其父亲身高的关系,随机抽取 5 对父子身高数据如下:则 y 对 x 的线性回归方程为( )A.yˆ=x -1 B.y ˆ=x +1 C.y ˆ=88+12x D.y ˆ=176 父亲身高 x (cm) 174 176 176 176 178 儿子身高 y (cm) 175 175 176 177 1771.相关关系与函数关系不同,函数关系中的两个变量间是一种确定关系,相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.两个变量具有相关关系是回归分析的前提.2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出回归直线方程.第3节 回归分析与独立性检验考纲要求考纲研读1.了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.2.独立检验 了解独立性检验(只要求 2×2 列联表)的基本思想、方法及其简单应用.3.回归分析了解回归的基本思想、方法及其简单应用.在回归分析与独立性检验中:(1)利用最小二乘法求出线性回归直线 (2)利用独立性检验判断两个变量是否有关1.回归分析(1)定义:对具有 的两个变量进行统计分析的方法. (2)回归分析的步骤:①确定研究对象,明确解释变量和预报变量;②画出散点图,观察它们是否存在相关关系(如线性相关关系); ③确定回归方程的类型(如线性回归方程y ^=b ^x +a ^);④按一般规则估计回归方程中的参数(如最小二乘法);⑤得出结果后分析残差图是否异常,若存在异常,则检验数据是否有误,模型是否恰当. 2.独立性检验(1)假设 H 0:两个分类变量 X 和 Y ;(2)利用公式,计算出随机变量 K 2= .其中用到两个分类变量 X 和 Y 的频数表,即 2×2 列联表:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d总计a +cb +da +b +c +d(3)用 K 2 的大小通过查表可以决定是否拒绝原来的统计假设H 0,若 K 2 的值较大,就拒绝 H 0,即拒绝 X认真听讲,做好笔记(模板):和Y 无关.P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828例如:当K2≥3.841 时,则有95%的把握说X 和Y 有关.当K2≥6.635 时,则有99%的把握说X 和Y 有关.1.在两个变量的回归分析中,作散点图是为了( )A.直接求出回归直线方程B.直接求出回归方程C.根据经验选定回归方程的类型D.估计回归方程的参数2.在画两个变量的散点图时,下面哪个叙述是正确的( )A.预报变量在x 轴上,解释变量在y 轴上B.解释变量在x 轴上,预报变量在y 轴上C.可以选择两个变量中任意一个变量在x 轴上D.可以选择两个变量中任意一个变量在y 轴上3.对于事件A 和事件B,通过计算得到K2的观测值k≈4.325,下列说法正确的是( )A.有99%以上的把握说事件A 和事件B 有关B.有95%以上的把握说事件A 和事件B 有关C.有99%以上的把握说事件A 和事件B 无关D.有95%以上的把握说事件A 和事件B 无关4.下面是一个2×2 列联表:y1y2总计x1 a 4555x2203050总计 b 75则表中a,b 的值分别为.5.已知x 与y 之间的一组数据:x 0 1 2 3y 1 3 5 7则y 与x 的线性回归方程为yˆ=bˆx+aˆ必过点.1.下表提供了某厂节能降耗技术改造后生产A 产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据.根据下表提供的数据,求出y 关于x 的线性回归方程为^y=0.7x+0.35,那么表中t 的值为( )x 3 4 5 6y 2.5 t 4 4.5A.3B.3.15C.3.5D.4.52.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示:杂质高杂质低旧设备37 121新设备22 202根据以上数据试判断含杂质的高低与设备改造有无关系?3.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠不冷漠总计多看电视68 42 110少看电视20 38 58总计88 80 168则大约有多大的把握认为多看电视与人变冷漠有关系( )A.99.9%B.97.5%C.95%D.90%4.某学校课题组为了研究学生的数学成绩与物理成绩之间的关系,随机抽取高二年级20 名学生某次考试成绩(满分100 分)如下表:序号 1 2 3 4 5 6 7 8 9 10数学成绩95 75 80 94 92 65 67 84 98 71物理成绩90 63 72 87 91 71 58 82 93 81序号11 12 13 14 15 16 17 18 19 20数学成绩67 93 64 78 77 90 57 83 72 83物理成绩77 82 48 85 69 91 61 84 78 86若单科成绩85 分以上(含85 分),则该科成绩为优秀.(1)根据上表完成下面的2×2 列联表(单位:人):数学成绩优秀数学成绩不优秀合计物理成绩优秀物理成绩不优秀合计20(2)根据题(1)中表格的数据计算,有多大的把握,认为学生的数学成绩与物理成绩之间有关系?(3)若从这20 个人中抽出1 人来了解有关情况,求抽到的学生数学成绩与物理成绩至少有一门不优秀的概率.参考数据:①假设有两个分类变量X 和Y,它们的值域分别为(x1,x2)和(y1,y2),其样本频数列联表(称为2×2 列联表)为:y1y2合计x 1a b a +b x 2c d c +d 合计a +cb +d a +b +c +d 则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量 ②独立检验随机变量K 2 临界值参考表:P (K 2 ≥k 0)0.50 0.40 0.25 0.150.10 0.05 0.025 0.010 0.005 0.001 k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.8281.独立性检验的思想来自于统计上的假设检验思想,它与反证法类似,它们都是先假设结论不成立,然后根据是否能推出“矛盾”来判定结论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指不符合逻辑的事件发生;而假设检验中的“矛盾”是指不符合逻辑的小概率事件发生,即在结论不成立的假设下推出有利于结论成立的小概率事件的发生.2.独立事件没有直观性,必须依靠 K 2 的观测值 k 作判断.认真听讲,做好笔记(模板):其他:。
高中数学一轮复习 第10章 统计与统计案例
第十章 ⎪⎪⎪统计与统计案例第一节 统 计突破点(一) 随机抽样1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样). 3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样. 4.三种抽样方法的比较1.抽签法的步骤第一步,将总体中的N 个个体编号; 第二步,将这N 个号码写在形状、大小相同的号签上; 第三步,将号签放在同一不透明的箱中,搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k 次; 第五步,将总体中与抽取的号签的编号一致的k 个个体取出. 2.随机数法的步骤第一步,将个体编号; 第二步,在随机数表中任选一个数开始;第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的数字就得到样本的号码.1、(1)以下抽样方法是简单随机抽样的是( )A .在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B .某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C .某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D .用抽签方法从10件产品中选取3件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )A.08系统抽样的步骤(1)先将总体的N 个个体编号;(2)确定分段间隔k (k ∈N *),对编号进行分段.当N n (n 是样本容量)是整数时,取k =Nn ;(3)在第1段用简单随机抽样确定第1个个体编号l (l ≤k );(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.2、(1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14(2)中央电视台为了解观众对《中国好歌曲》的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.用系统抽样法抽取样本,当Nn 不为整数时,取k =N n ⎡⎤⎢⎥⎣⎦,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性.进行分层抽样的相关计算时,常利用以下关系式巧解: (1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.3、(1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) A .90 B .100 C .180D .300(2)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n 的样本,其中甲种产品有18件,则样本容量n =( ) A .54 B .90 C .45D .126(3)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).篮球组 书画组 乐器组 高一 45 30 a 高二151020生中抽取30人,结果篮球组被抽出12人,则a 的值为________.分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同. (3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样. (4)抽样比=样本容量总体容量=各层样本数量各层个体数量.4、[考点一]某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法①1,2,3,…,100; ②001,002,…,100; ③00,01,02,…,99; ④01,02,03,…,100. 其中正确的序号是( )A .②③④B .③④C .②③D .①②5、[考点三]为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A ,B ,C 三所中学抽取60名教师进行调查,已知A ,B ,C 三所学校中分别有180,270,90名教师,则从C 学校中应抽取的人数为( ) A .10 B .12 C .18 D .246、[考点二]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是( )A .10B .11C .12D .167、[考点三]某市有A 、B 、C 三所学校,共有高三文科学生1 500人,且A 、B 、C 三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B 校学生中抽取________人.8、[考点二]为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.突破点(二) 用样本估计总体1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(3)茎叶图的优点:茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便. 2.样本的数字特征 (1)众数、中位数、平均数(2)①标准差:样本数据到平均数的一种平均距离,(n s x x =++-②方差:标准差的平方s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数.③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均数、方差公式的推广:若数据x 1,x 2,…,x n 的平均数为x ,方差为s 2,则数据mx 1+a ,mx 2+a ,…,mx n +a 的平均数为m x +a ,方差为m 2s 2.9、(1)(2016·山东高考),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A .56B .60C .120D .140(2)某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确; (2)频率分布直方图的纵坐标是频率组距,而不是频率.2.与频率分布直方图计算有关的两个关系式 (1)频率组距×组距=频率; ( 2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.10、B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下.品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出数据的茎叶图;(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.11、(2016·北京高考)w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.12、(1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x ,y 的值分别为( )A.7,8 B .5,7 D .7,7(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:则713、甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:A .甲B .乙C .丙D .丁14、[考点一]在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16 15、[考点二]在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.131415⎪⎪⎪⎪0 0 3 4 5 6 6 8 8 8 91 1 12 2 23 34 45 5 56 67 80 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .616、[考点一]某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x 的值等于( )A .0.12B .0.012C .0.18D .0.01817、[考点三·考法二]如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为()7984464793A.84,4.84 B.84,1.6 C.85,1.6 D.85,418、[考点三·考法三]甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):甲108999乙1010799如果甲、乙两人中只有1人入选,则入选的最佳人选应是________.19、[考点三·考法一](2016·四川高考)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.20、[考点三·考法二]某车间20名工人年龄数据如下表:(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.[全国卷5年真题集中演练——明规律]21、(2016·全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个22、(2013·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样23、(2014·新课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125)频数62638228(1)(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?24、(2014·新课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.25.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4服用B药的20位患者日平均增加的睡眠时间:3.2 1.7 1.90.80.9 2.4 1.2 2.6 1.3 1.4 1.60.5 1.80.6 2.1 1.1 2.5 1.2 2.70.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?[课时达标检测五十] 统计[练基础小题——强化运算能力]1.某学校为了了解某年高考数学的考试成绩,在高考后对该校1 200名考生进行抽样调查,其中有400名文科考生,600名理科考生,200名艺术和体育类考生,从中抽取120名考生作为样本,记这项调查为①;从10名家长中随机抽取3名参加座谈会,记这项调查为②,则完成①,②这两项调查宜采用的抽样方法依次是()A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法2.某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n 人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n=()A.660 B.720 C.780 D.8003.某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为()A.93 B.123 C.137 D.1674.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为()A.①③B.①④C.②③D.②④5.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1)直方图中x的值为________;(2)在这些用户中,用电量落在区间[100,250)内的户数为________.[练常考题点——检验高考能力]6.从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲、乙两组数据的平均数分别为x甲、x乙,中位数分别为m甲、m乙,则()A.x甲<x乙,m甲>m乙B.x甲<x乙,m甲<m乙C.x甲>x乙,m甲>m乙D.x甲>x乙,m甲<m乙7.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为()A.7 B.9 C.10 D.158.如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45]的网民人数成递减的等差数列,则年龄在[35,40)的网民出现的频率为()A.0.04 B.0.06 C.0.2 D.0.39.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有()A.a>b>c B.b>c>a C.c>a>b D.c>b>a 10.(2016·九江二模)已知一组数据x1,x2,…,x n的方差为2,若数据ax1+b,ax2+b,…,ax n+b(a>0)的方差为8,则a的值为()A.1 B. 2 C.2 D.411.(2017·邢台模拟)样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均值为1,则其方差为()A.105 B.305 C. 2 D.212.某中学高三从甲、乙两个班中各选出7名学生参加数学竞赛,他们取得的成绩(满分100分)的茎叶图如图所示,其中甲班学生成绩的众数是85,乙班学生成绩的中位数是83,则x+y的值为________.13.某公司300名员工2016年年薪情况的频率分布直方图如图所示,由图可知,员工中年薪在1.4~1.6万元的共有________人.14.某学校共有教师300人,其中中级教师有192人,高级教师与初级教师的人数比为5∶4.为了解教师专业发展需求,现采用分层抽样的方法进行调查,在抽取的样本中有中级教师64人,则该样本中的高级教师人数为________.15.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如表:学生1号2号3号4号5号甲班67787乙班676792216.为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单位:小时)如下:248256232243188268278266289312274296288302295228287217329283(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计8 万台电风扇中有多少台无故障连续使用时限不低于280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.17.随着移动互联网的发展,与餐饮美食相关的手机应用软件层出不穷.现从使用A和B两款订餐软件的商家中分别随机抽取50个商家,对它们的“平均送达时间”进行统计,得到频率分布直方图如下:(1)试估计使用A款订餐软件的50个商家的“平均送达时间”的众数及平均数;(2)根据以上抽样调查数据,将频率视为概率,回答下列问题:①能否认为使用B款订餐软件“平均送达时间”不超过40分钟的商家达到75%?②如果你要从A和B两款订餐软件中选择一款订餐,你会选择哪款?说明理由.第二节统计案例突破点(一)回归分析1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关. 2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线. (2)回归方程为y ^=b ^x +a ^,其中, a ^=y --b ^x -.(3)相关系数:当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.1、(1))(2)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r |越趋近于1相关性越强.1.求回归直线方程的步骤2.利用回归直线方程进行预测是对总体的估计,此估计值不是准确值.进行预测时,把自变量代入回归直线方程即可对因变量进行估计.2、(2017·山西四校联考)某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1:年份x 2011 2012 2013 2014 2015 储蓄存款y (千亿元)5678102:时间代号t1 2 3 4 5 z1235(1)求z 关于t (2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少? (附:对于线性回归方程, a ^=y --b ^x -)2、[考点一]两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A .℃℃℃B .℃℃℃C .℃℃℃D .℃℃℃ 4、[考点一]为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴,y 轴的单位长度相同),用回归直线方程y ^=b ^x +a ^近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b ^的值为1.25B .线性相关关系较强,b ^的值为0.83 C .线性相关关系较强,b ^的值为-0.87 D .线性相关关系较弱,无研究价值5、[考点一]四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( )A .℃℃B .℃℃C .℃℃D .℃℃6、[考点二]已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,则实数a ^的值为________.7、[考点二]为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y =b x +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)突破点(二) 独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +dK 2=2()()()()()n ad bc a b c d a c b d -++++(其中n =a +b +c +d 为样本容量),可利用独立性检验判断表来判断“X与Y 的关系”.独立性检验的实际应用8、(2017·沈阳模拟)未发病 发病 总计 未注射疫苗 20 x A 注射疫苗 30 y B 总计5050100现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值;(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率? (3)能够有多大把握认为疫苗有效? 附:K 2=2()()()()()n ad bc a b c d a c b d -++++(其中n =a +b +c +d )P (K 2≥k 0) 0.05 0.01 0.005 0.001 k 03.8416.6357.87910.8289、通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下所示的2×2列联表:男女总计走天桥402060走斑马线203050总计6050110由K2=2()()()()()n ad bca b c d a c b d-++++≈7.8 附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828A.有99%以上的把握认为“选择过马路的方式与性别有关”B.有99%以上的把握认为“选择过马路的方式与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”10、已知某班n名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在[90,100]内的有6人.(1)求n的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:P(K2≥k0)0.100.050.0100.005k0 2.706 3.841 6.6357.879K2=()()()()()n ad bca b c d a c b d-++++[全国卷5年真题集中演练——明规律]。
高三数学一轮精品复习学案:第十章 统计、统计案例
高三数学一轮精品复习学案:第十章统计、统计案例【知识特点】1.统计中所学的内容是数理统计中最基本的问题,通过这些内容主要来介绍相关的统计思想和方法,了解一些有关统计学的基本知识,并能够应用几个基本概念、基本公式来处理实际生活中的一些基本问题。
2.统计案例为新课标中新增内容,主要是通过案例体会运用统计方法解决实际问题的思想和方法。
增加了统计和统计案例后,使得高中数学的整个体系更加完善了,有利于开阔数学视野,丰富数学思想和方法。
【重点关注】1.从对新课标高考试题的分析可以发现,主要考查抽样方法、各种统计图表、样本数字特征等。
对这部分的考查主要以选择题和填空题的形式出现。
2.统计案例中的独立性检验和回归分析也会逐步在高考题中出现,难度不会太大,多数情况下是考查两种统计分析方法的简单知识,以选择题和填空题为主。
【地位与作用】《全国新课程标准高考数学考试大纲》中对考生能力要求明确界定为空间想象能力、抽象概括能力、推理论证能力、运算求解能力、数据处理能力以及应用意识和创新意识等六个方面,其中数据处理能力是首次提出的一个能力要求,这定义为:会收集数据、整理数据、分析数据,能从大量数据中抽取对研究问题有用的信息,并作出判断。
数据处理能力主要依据统计(高考考试大纲对知识点要求如下表所示)或统计案例中的方法对数据进行整理、分析,并解决给定的实际问题,对统计的要求已提升到能力的高度。
统计的思想方法广泛应用于自然科学和社会科学的研究中,统计的语言不仅是数学的语言,也是各学科经常引用的大众语言,统计知识是作为一个新时期公民所比备的知识。
统计学就是应用科学的方法收集、整理、分析、描述所要研究的数据资料,然后根据所得到的结果,进行推断或决策的一门实用性很强的科学。
统计这部分内容,在高中数学新课程中,主要分布在必修3第二章(约16课时)与选修2—3第三章(约9课时)。
相对于高中学生的认知水平和生活经历还相对不是很高,所以它只能属于非重点内容,所出的相关题目一般来说都相对比较简单。
2023年高考数学(理科)一轮复习——变量间的相关关系与统计案例
索引
角度2 非线性回归方程及应用
例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB =1 024 GB)级别跃升到PB(1 PB=1 024 TB),EB(1 EB=1 024 PB)乃至ZB(1 ZB=1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数 据量为0.49 ZB,2009年数据量为0.8 ZB,2010年增长到1.2 ZB,2011年数据 量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的 数据量(单位:ZB)及相关统计量的值:
(1)“ 名 师 出 高 徒 ” 可 以 解 释 为 教 师 的 教 学 水 平 与 学 生 的 水 平 成 正 相 关 关
系.( √ ) (2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ ) (4)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大.( √ )
索引
4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度 x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数 据(xi,yi)(i=1,2,…,20)得到下面的散点图: 由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发
人教A版高中数学 高三一轮 第十章统计、统计案例及算
随机抽样一、选择题1.为了了解所加工一批零件的长度,抽测了其中200个零件的长度,在这个问题中,200个零件的长度是( ). A .总体B .个体是每一个零件C .总体的一个样本D .样本容量2. 采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,……,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C.则抽到的人中,做问卷B 的人数为( )A.7B. 9C. 10D.153.甲校有3 600名学生,乙校有5 400名学生,丙校有1 800名学生.为统计三校学生某方面的情况,计划采用分层抽样法,抽取一个容量为90的样本,应该在这三校分别抽取的学生人数是( ). A .30,30,30 B .30,45,15 C .20,30,10D .30,50,104.某林场有树苗30000棵,其中松树苗4000棵,为调查树苗的生长情况,采用分层抽样的方法抽取一个容量为150的样本,则样本中松树苗的数量为( ) A .25棵 B .30棵 C .15棵 D .20棵5.在100个零件中,有一级品20个,二级品30个,三级品50个,从中抽取20个作为样本:①采用随机抽样法,将零件编号为00,01,02,…,99,抽出20个;②采用系统抽样法,将所有零件分成20组,每组5个,然后每组中随机抽取1个; ③采用分层抽样法,随机从一级品中抽取4个,二级品中抽取6个,三级品中抽取10个.则( )A .不论采取哪种抽样方法,这100个零件中每个被抽到的概率都是15B .①②两种抽样方法,这100个零件中每个被抽到的概率都是15,③并非如此C .①③两种抽样方法,这100个零件中每个被抽到的概率都是15,②并非如此D .采用不同的抽样方法,这100个零件中每个被抽到的概率各不相同6.某校共有学生2 000名,各年级男、女生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为( ).A.24 B.7.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( ).A.5,10,15,20,25 B.2,4,8,16,32C.1,2,3,4,5 D.7,17,27,37,47二、填空题8.体育彩票000001~100000编号中,凡彩票号码最后三位数为345的中一等奖,采用的抽样方法是________.9. 某学校高一、高二、高三年级的学生人数之比为334::,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取_______名学生.10.某校对全校男女学生共 1 600名进行健康调查,选用分层抽样法抽取一个容量为200的样本.已知女生抽了95人,则该校的女生人数应是________人.11.为了了解某校高中学生的近视眼发病率,在该校学生中进行分层抽样调查,已知该校高一、高二、高三分别有学生800名、600名、500名,若高三学生共抽取25名,则高一年级每一位学生被抽到的概率是________.12.某高中共有学生2 000名,已知在全校学生中随机抽取1名,抽到高三年级男生的概率是0.1现用分层抽样的方法在全校抽取若干名学生参加社区服务,相关信息如下表:则x=________.三、解答题13.某企业共有3 200名职工,其中中、青、老年职工的比例为5∶3∶2,从所有职工中抽取一个容量为400的样本,应采用哪种抽样方法更合理?中、青、老年职工应分别抽取多少人?14.某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工至多参加其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%.登山组的职工占参加活动总人数的14,且该组中,青年人占50%,中年人占40%,老年人占10%.为了了15.某公路设计院有工程师6人,技术员12人,技工18人,要从这些人中抽取n 个人参加市里召开的科学技术大会.如果采用系统抽样和分层抽样的方法抽取,不用剔除个体,如果参会人数增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,求n . 16.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率.。
人教A版高中数学 高三一轮 第十章统计、统计案例及算
1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.(3)在两个变量x 和y 的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. 2.线性回归方程 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (2)线性回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数. ⎩⎪⎨⎪⎧b =∑ni =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i-n x y∑n i =1x 2i -n x 2,a =y -b x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n)中,(x,y)称为样本点的中心.(3)相关系数①r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2=∑ni=1x i y i-n x y(∑ni=1x2i-n x2)(∑ni=1y2i-n y2);②当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;当r=0时,表明两个变量线性不相关.r的绝对值越接近于1,表明两个变量之间的线性相关程度越高.r的绝对值越接近于0,表明两个变量之间的线性相关程度越低.4.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1;2×2列联表:构造一个随机变量χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B没有关联的;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ2>3.841时,有95%的把握判定变量A,B有关联;当χ2>6.635时,有99%的把握判定变量A,B有关联.【思考辨析】判断下面结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(√)(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.(√)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得线性回归方程y=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.(×)(5)变量A、B关系越密切,则由观测数据计算得到的χ2的值越大.(√)(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)1.(2015·湖北)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案 C解析因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=ay+b(a>0),所以z=-0.1ax+a+b,-0.1a<0,所以x与z负相关.故选C.2.下面是2×2列联表:则表中a,b的值分别为(A.94,72 B.52,50 C.52,74 D.74,52答案 C解析∵a+21=73,∴a=52.又a+22=b,∴b=74.3.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是()A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C.有99%的把握认为该电视栏目是否优秀与改革有关系D.没有理由认为该电视栏目是否优秀与改革有关系答案 D解析只有χ2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使χ2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D 正确.4.某产品在某零售摊位的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得线性回归方程y 15元时,每天的销售量为( )A .51个B .50个C .49个D .48个 答案 C解析 由题意知x =17.5,y =39,代入线性回归方程得a =109,109-15×4=49,故选C.5.(教材改编)在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(填“有关”或“无关”). 答案 有关题型一 相关关系的判断例1 (1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1B .0C.12D .1(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关系数的平方为r 21,用y =bx +a 拟合时的相关系数的平方为r 22,则r 21>r 22;③x 、y 之间不能建立线性回归方程.答案(1)D(2)①②解析(1)所有点均在直线上,则样本相关系数最大即为1,故选D.(2)①显然正确;由散点图知,用y=c1e c2x拟合的效果比用y=bx+a拟合的效果要好,故②正确;x,y之间能建立线性回归方程,只不过预报精度不高,故③不正确.思维升华判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归方程中:b>0时,正相关;b<0时,负相关.(1)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y与x负相关且y=2.347x-6.423;②y与x负相关且y=-3.476x+5.648;③y与x正相关且y=5.437x+8.493;④y与x正相关且y=-4.326x-4.578.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④(2)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1答案(1)D(2)C解析(1)由线性回归方程y=bx+a知当b>0时,y与x正相关,当b<0时,y与x负相关,∴①④一定错误.(2)对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V 与U而言,V随U的增大而减小,故V与U负相关,即r2<0,所以选C.题型二线性回归分析例2(2015·课标全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α=v -β u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d =∑i =18(w i -w )·(y i -y )∑i =18(w i -w )2=108.81.6=68, c =y -d w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w , 因此y 关于x 的回归方程为y =100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值 y =100.6+6849=576.6,年利润z 的预报值z =576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z =0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.思维升华 (1)回归直线y =bx +a 必过样本点的中心(x ,y ).(2)正确运用计算b ,a 的公式和准确的计算,是求线性回归方程的关键.(3)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:(1)(2)求出y 关于x 的线性回归方程y =bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时?(注:b =∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a =y -b x )解 (1)散点图如图.(2)由表中数据得:∑i =14x i y i =52.5,x =3.5,y =3.5,∑i =14x 2i =54,∴b =0.7,∴a =1.05,∴y =0.7x +1.05,回归直线如图所示.(3)将x =10代入线性回归方程, 得y =0.7×10+1.05=8.05,故预测加工10个零件约需要8.05小时. 题型三 独立性检验例3 (2015·南昌模拟)大家知道,莫言是中国首位获得诺贝尔奖的文学家,国人欢欣鼓舞.某高校文学社从男女生中各抽取50名同学调查他们对莫言作品的了解程度,结果如下:(2)对莫言作品阅读超过75篇的则称为“对莫言作品非常了解”,否则为“一般了解”.根据题意完成下表,并判断能否有75%的把握认为对莫言作品非常了解与性别有关?附:χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解 (1)由抽样调查得阅读莫言作品在50篇以上的频率为11+18+12+13+15+1050+50=79100,据此估计该校学生阅读莫言作品超过50篇的概率约为79100.(2)根据列联表数据得χ2=100×(30×25-20×25)250×50×55×45≈1.010<1.323,所以没有75%的把握认为对莫言作品非常了解与性别有关.思维升华 (1)独立性检验的关键是正确列出2×2列联表,并计算出χ2的值.(2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:(2)能否有99% 解 (1)2×2列联表如下:(2)因为χ2=30×(4×2-16×8)12×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.20.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)(2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量. 规范解答解 (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求线性回归方程,先将数据处理如下:对处理的数据,容易算得x =0,y =3.2,[4分]b =(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5, a =y -b x =3.2.[6分]由上述计算结果,知所求线性回归方程为 y -257=6.5(x -2010)+3.2, 即y =6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[12分]温馨提醒 求线性回归方程时,重点考查的是计算能力.若本题用一般法去解,计算更烦琐(如年份、需求量,不做如上处理),所以平时训练时遇到数据较大的题目时,要考虑有没有更简便的方法解决.[方法与技巧]1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.根据χ2的值可以判断两个分类变量有关的可信程度.[失误与防范]1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量χ2的值的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.A组专项基础训练(时间:45分钟)1.已知x,y的取值如下表:时,y等于() A.1.45 B.13.8 C.13 D.12.8答案 B解析由题意,x=16×(0+1+4+5+6+8)=4,y=16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25,∵y与x线性相关,且y=0.95x+a,∴5.25=0.95×4+a,∴a=1.45,从而当x=13时,有y=13.8.故选B.2.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的χ2≈3.918,经查临界值表知P(χ2≥3.841)≈0.05.则下列表述中正确的是()A.有95%的把握认为“这种血清能起到预防感冒的作用B.若有人未使用该血清,那么他在一年中有95%的可能性得感冒C.这种血清预防感冒的有效率为95%D .这种血清预防感冒的有效率为5% 答案 A解析 由题意可知,在假设H 成立的情况下,P (χ2≥3.841)的概率约为0.05,即在犯错的概率不超过0.05的前提下认为“血清起预防感冒的作用”,即有95%的把握认为“这种血清能起到预防感冒的作用”.这里的95%是我们判断H 不成立的概率量度而非预测血清与感冒的概率的量度,故B 错误.C ,D 也犯有B 中的错误.故选A.3.某工厂为了新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:直线左下方的概率为( ) A.16 B.13 C.12 D.23 答案 B解析 由表中数据得x =6.5,y =80,由点(x ,y )在直线y =-4x +a 上,得a =106,即线性回归方程为y =-4x +106,经过计算只有点(9,68)和(5,84)在直线的左下方,故所求概率为26=13.4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 ∵0.85>0,∴y 与x 正相关,∴A 正确; ∵回归直线经过样本点的中心(x ,y ),∴B 正确; ∵Δy =0.85(x +1)-85.71-(0.85x -85.71)=0.85, ∴C 正确.故选D.5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:以下结论正确的是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 答案 A解析 根据独立性检验的定义,由χ2≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.6.已知x 与y 之间的几组数据如下表:(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( ) A .b >b ′,a >a ′ B .b >b ′,a <a ′ C .b <b ′,a >a ′ D .b <b ′,a <a ′ 答案 C解析 b ′=2,a ′=-2,由公式b =∑i =16(x i -x )(y i -y )∑i =16(x i -x )2求得,b =57,a =y -b x =136-57×72=-13,∴b <b ′,a >a ′. 7.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y =0.2x +12中,当解释变量x 每增加一个单位时,预报变量y 平均增加0.2个单位;④对分类变量X 与Y 的随机变量χ2来说,χ2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,随机变量χ2越小,说明两个相关变量有关系的把握程度越小.8.(2015·延安模拟)某班班主任对全班30名男生进行了“认为作业量多少”的调查,数据如下表:过________. 答案 0.050解析 χ2=30×(12×8-2×8)214×16×20×10≈4.286>3.841,则推断犯错误的概率不超过0.050.9.假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有如下表的统计资料:若由资料可知(1)线性回归方程;(2)根据线性回归方程,估计使用年限为12年时,维修费用是多少? 解 (1)列表b =∑i =1x i y i -5x y ∑5i =1x 2i -5x 2=112.3-5×4×590-5×42=1.23, 于是a =y -b x =5-1.23×4=0.08. 所以线性回归方程为y =1.23x +0.08.(2)当x =12时,y =1.23×12+0.08=14.84(万元), 即估计使用12年时,维修费用是14.84万元.10.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表: 甲厂:(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?附解 (1)甲厂抽查的500360500×100%=72%; 乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为320500×100%=64%.(2)完成的2×2列联表如下:由表中数据计算得,χ2=1 000×(360×180-320×140)2500×500×680×320=7.352>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.B 组 专项能力提升 (时间:30分钟)11.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程y =3-5x ,变量x 增加1个单位时,y 平均增加5个单位; ③设具有相关关系的两个变量x ,y 的相关系数为r ,则|r |越接近于0,x 和y 之间的线性相关程度越强;④在一个2×2列联表中,由计算得χ2的值,则χ2的值越大,判断两个变量间有关联的把握就越大.以上,错误结论的个数为( ) A .0 B .1 C .2 D .3 答案 C解析 方差反应一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差不变,故①正确;在线性回归方程y =3-5x 中,变量x 增加1个单位时,y 平均减小5个单位,故②不正确;根据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r ,|r |越接近于1,相关程度越强,故③不正确;对分类变量x 与y 的随机变量χ2来说,χ2越大,“x 与y 有关系”的可信程度越大,故④正确.综上所述,错误结论的个数为2,故选C.12.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y =13x +a ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a 的值是( )A.116B.18C.14D.12 答案 B解析 依题意可知样本点的中心为⎝⎛⎭⎫34,38,则38=13×34+a ,解得a =18. 13.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误. 根据列联表中的数据,得到χ2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.14.某百货公司1~6月份的销售量x 与利润y 的统计数据如下表:(1)根据2~5a ; (2)若由线性回归方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回归方程是否理想? 解 (1)根据表中2~5月份的数据作出散点图,如图所示:计算得x =11,y =24,∑5i =2x i y i =11×25+13×29+12×26+8×16=1 092,∑5i =2x 2i =112+132+122+82=498, 则b =∑5i =2x i y i -4x y∑5i =2x 2i -4x2=1 092-4×11×24498-4×112=187,a =y -b x =24-187×11=-307.故y 关于x 的线性回归方程为y =187x -307.(2)当x =10时,y =187×10-307=1507,此时|1507-22|<2;当x =6时,y =187×6-307=787,此时|787-12|<2.故所得的线性回归方程是理想的.15.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”? 解 (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名. 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A 1,A 2,A 3;25周岁以下组工人有40×0.05=2(人),记为B 1,B 2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2). 故所求的概率P =710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:所以得χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )=100×(15×25-15×45)260×40×30×70=2514≈1.786.因为1.786<2.706.所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.。
福建省高考数学一轮基础复习:专题6 统计与统计案例
福建省高考数学一轮基础复习:专题6 统计与统计案例姓名:________ 班级:________ 成绩:________一、单选题 (共12题;共24分)1. (2分)(2018·景县模拟) 下列说法中错误的是①命题“ ,有”的否定是“ ,都有”;②若一个命题的逆命题为真命题,则它的否命题也一定为真命题;③已知为假命题,则实数的取值范围是;④我市某校高一有学生人,高二有学生人,高三有学生人,现采用分层抽样的方法从该校抽取个学生作为样本进行某项调查,则高三被抽取的学生个数为人.A . ①④B . ①③④C . ②④D . ①②2. (2分) (2020高二下·赣县月考) 甲、乙两班在我校举行的“勿忘国耻,振兴中华”合唱比赛中,7位评委的评分情况如茎叶图所示,其中甲班成绩的中位数是81,乙班成绩的平均数是86,若正实数a、b满足:a , G ,b成等差数列且x , G , y成等比数列,则的最小值为()A .B . 2C . 8D .3. (2分) (2018高二下·集宁期末) 在吸烟与患肺病这两个分类变量的计算中,下说法正确的是()A . 若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;B . 从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;C . 若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;D . 以上三种说法都不正确.4. (2分) (2015高二下·会宁期中) 在两个变量y与x的回归模型中,分别选择了四个不同的模型,它的相关指数R2如下,其中拟合效果最好的模型是()A . 模型1的相关指数R2为0.87B . 模型2的相关指数R2为0.97C . 模型3的相关指数R2为0.50D . 模型4的相关指数R2为0.255. (2分)在一次模拟考试后,从高三某班随机抽取了20位学生的数学成绩,其分布如下:分组[90,100][100,110)[110,120)[120,130)[130,140)[140,150)频数126731分数在130分(包括130分)以上者为优秀,据此估计该班的优秀率约为()A . 10%B . 20%C . 30%D . 40%6. (2分) (2020高二上·沧县月考) 已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取的学生进行调查,则样本容量和抽取的初中生近视人数分别为()A . 100,90B . 200,27C . 200,20D . 200,907. (2分) (2018高二上·齐齐哈尔月考) 已知的取值如下表所示:若与线性相关,且,则()01342.2 4.3 4.8 6.7A .B .C .D .8. (2分)用样本频率分布估计总体频率分布的过程中,下列说法正确的是()A . 总体容量越大,估计越精确B . 总体容量越小,估计越精确C . 样本容量越大,估计越精确D . 样本容量越小,估计越精确9. (2分)(2018·衡水模拟) 某教育局为了解“跑团”每月跑步的平均里程,收集并整理了2017年1月至2017年11月期间“跑团”每月跑步的平均里程(单位:公里)的数据,绘制了下面的折线图.根据折线图,下列结论正确的是()A . 月跑步平均里程的中位数为6月份对应的里程数B . 月跑步平均里程逐月增加C . 月跑步平均里程高峰期大致在8、9月D . 1月至5月的月跑步平均里程相对于6月至11月,波动性更小,变化比较平稳10. (2分)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程 =,其中,,据此估计,该社区一户收入为15万元家庭年支出为()A . 11.4万元B . 11.8万元C . 12.0万元D . 12.2万元11. (2分)问题:①某地区10000名中小学生,其中高中生2000名,初中生4500名,小学生3500名,现从中抽取容量为200的样本;②从1002件同一生产线生产的产品中抽取20件产品进行质量检查.方法:Ⅰ、随机抽样法Ⅱ、分层抽样法Ⅲ、系统抽样法.其中问题与方法配对较适宜的是()A . ①Ⅰ,②ⅡB . ①Ⅲ,②ⅠC . ①Ⅱ,②ⅢD . ①Ⅲ,②Ⅱ12. (2分)(2020·江门模拟) 下列四个命题:①在回归模型中,预报变量y的值不能由解释变量x唯一确定;②若变量x,y满足关系,且变量y与z正相关,则x与z也正相关;③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;④以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,.其中真命题的个数为()A . 1个B . 2个C . 3个D . 4个二、填空题 (共4题;共4分)13. (1分)下列命题:①线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱;②残差平方和越小的模型,拟合效果越好;③用相关指数R2来刻画回归效果,R2越小,说明模型拟合效果越好;④随机误差e是衡量预报精确度的一个量,它满足E(e)=0.其中正确的是________ (填序号).14. (1分)(2017·青州模拟) 某工厂生产A、B、C三种不同型号的产品,产品的数量之比依次为2:3:4,现用分层抽样方法抽出一个容量为n的样本,样本中A种型号产品有18件,那么此样本的容量n=________.15. (1分)(2020·南京模拟) 某次测验,将20名学生平均分为两组,测验结果两组学生成绩的平均分和标准差分别为90,6;80,4.则这20名学生成绩的方差为________.16. (1分)已知一组数据4.6,4.9,5.1,5.3,5.6,则该组数据的方差是________.三、综合题 (共6题;共56分)17. (5分)某中学为了了解全校学生的上网情况,在全校采用随机抽样的方法抽取了40名学生(其中男女生人数恰好各占一半)进行问卷调查,并进行了统计,按男女分为两组,再将每组学生的月上网次数分为5组:[0,5),[5,10),[10,15),[15,20),[20,25],得到如图所示的频率分布直方图:(Ⅰ)写出a的值;(Ⅱ)求在抽取的40名学生中月上网次数不少于15次的学生人数;(Ⅲ)在抽取的40名学生中,从月上网次数不少于20次的学生中随机抽取2人,求至少抽到1名女生的概率.18. (11分) (2017高二下·新乡期末) 为了调查喜欢旅游是否与性别有关,调查人员就“是否喜欢旅游”这个问题,在火车站分别随机调研了50名女性和50名男性,根据调研结果得到如图所示的等高条形图(1)完成下列2×2列联表:喜欢旅游不喜欢旅游合计女性男性合计(2)能否在犯错率不超过0.025的前提下认为“喜欢旅游与性别有关”附:P(K2≥k0)0.150.100.050.0250.0100.0050.001k0 2.072 2.706 3.841 5.024 6.6357.87910.828(参考公式:K2= ,其中n=a+b+c+d)19. (5分)(2017·衡水模拟) 4月23人是“世界读书日”,某中学在此期间开展了一系列的读书教育活动,为了解本校学生课外阅读情况,学校随机抽取了100名学生对其课外阅读时间进行调查,下面是根据调查结果绘制的学生日均课外阅读时间(单位:分钟)的频率分布直方图,若将日均课外阅读时间不低于60分钟的学生称为“读书谜”,低于60分钟的学生称为“非读书谜”(1)根据已知条件完成下面2×2的列联表,并据此判断是否有99%的把握认为“读书谜”与性别有关?非读书迷读书迷合计男15女45合计(2)将频率视为概率,现在从该校大量学生中,用随机抽样的方法每次抽取1人,共抽取3次,记被抽取的3人中的“读书谜”的人数为X,若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方程D(X)附:K2= n=a+b+c+dP(K2≥k0)0.1000.0500.0250.0100.001 k0 2.706 3.841 5.024 6.63510.82820. (15分) (2015高二上·黄石期末) 甲、乙两艘轮船驶向一个不能同时停泊两艘轮船的码头,它们在一昼夜内任何时刻到达是等可能的.(1)已知甲船上有男女乘客各3名,现从中任选3人出来做某件事情,求所选出的人中恰有一位女乘客的概率;(2)如果甲船的停泊时间为4小时,乙船的停泊时间为2小时,求它们中的任何一条船不需要等待码头空出的概率.21. (15分) (2016高一下·龙岩期末) 国Ⅳ标准规定:轻型汽车的屡氧化物排放量不得超过80mg/km.根据这个标准,检测单位从某出租车公司运营的A、B两种型号的出租车中分别抽取5辆,对其氮氧化物的排放量进行检测,检测结果记录如表(单位:mg/km)A8580856090B70x95y75由于表格被污损,数据x,y看不清,统计员只记得A、B两种出租车的氮氧化物排放量的平均值相等,方差也相等.(1)求表格中x与y的值;(2)从被检测的5辆B种型号的出租车中任取2辆,记“氮氧化物排放量超过80mg/km”的车辆数为X,求X=1时的概率.22. (5分)(2020·厦门模拟) 近年来,政府相关部门引导乡村发展旅游的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲,乙两同学一起收集6家农户的数据,进行回归分折,得到两个回归摸型:模型①:,模型②:,对以上两个回归方程进行残差分析,得到下表:种植面积 (亩)234579每亩种植管理成本252421221614(百元)估计值25.2723.6221.9717.0213.72模型①残差-0.270.38-0.97-1.020.2826.8420.1718.8317.3116.46模型②-1.840.83 3.17-1.31-2.46(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;(2)视残差的绝对值超过1.5的数据视为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求回归方程.附:,;参考答案一、单选题 (共12题;共24分)答案:1-1、考点:解析:答案:2-1、考点:解析:答案:3-1、考点:解析:答案:4-1、考点:解析:答案:5-1、考点:解析:答案:6-1、考点:解析:答案:7-1、考点:解析:答案:8-1、考点:解析:答案:9-1、考点:解析:答案:10-1、考点:解析:答案:11-1、考点:解析:答案:12-1、考点:解析:二、填空题 (共4题;共4分)答案:13-1、考点:解析:答案:14-1、考点:解析:答案:15-1、考点:解析:答案:16-1、考点:解析:三、综合题 (共6题;共56分)考点:解析:答案:18-1、答案:18-2、考点:解析:答案:19-1、答案:19-2、考点:解析:答案:20-1、答案:20-2、考点:解析:答案:21-1、答案:21-2、考点:解析:答案:22-1、答案:22-2、考点:解析:。
高考数学一轮复习第9章统计与统计案例第2讲课后作业理含解析0419170.doc
第9章 统计与统计案例 第2讲A 组 基础关1.(2018·榆林模拟)一个频数分布表(样本容量为30)不小心被损坏了一部分,只记得样本中数据在[20,60)上的频率为0.8,则估计样本在[40,60)内的数据个数为( )A .14B .15C .16D .17答案 B解析 由频数分布表可知,样本中数据在[20,40)上的频率为4+530=0.3,又因为样本数据在[20,60)上的频率为0.8,所以样本在[40,60)内的频率为0.8-0.3=0.5,数据个数为30×0.5=15.2.甲、乙、丙、丁四人参加国际奥林匹克数学竞赛选拔赛,四人的平均成绩和方差如表:从这四人中选择一人参加国际奥林匹克数学竞赛,最佳人选是( )A .甲B .乙C .丙D .丁答案 C解析 丙平均成绩高,方差s 2小(稳定),故最佳人选是丙.3.(2018·牡丹江模拟)某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为( )A.117 B.118 C.118.5 D.119.5 答案 B解析由茎叶图可知,此学生该门功课考试分数的极差为98-56=42,中位数是12×(76+76)=76,极差与中位数之和为42+76=118.4.(2019·钦州模拟)某仪器厂从新生产的一批零件中随机抽取40个检测,如图是根据抽样检测后零件的质量(单位:克)绘制的频率分布直方图,样本数据分8组,分别为[80,82),[82,84),[84,86),[86,88),[88,90),[90,92),[92,94),[94,96],则样本的中位数在( )A.第三组 B.第四组 C.第五组 D.第六组答案 B解析由图可得,前四组的频率为(0.0375+0.0625+0.075+0.1)×2=0.55,则其频数为40×0.55=22,且第四组的频数为40×0.1×2=8,故中位数落在第四组,所以B正确.5.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以5为组距将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )答案 A解析 解法一:由茎叶图知,各组频数统计如表:此表对应的频率分布直方图为选项A .故选A .解法二:选项C ,D 组距为10与题意不符,舍去,又由茎叶图知落在区间[0,5)与[5,10)上的频数相等,故频率、频率/组距也分别相等,比较A 、B 两个选项知A 正确.故选A .6.如图所示,样本A 和B 分别取自两个不同的总体,它们的样本平均数分别为x -A 和x-B ,样本标准差分别为s A 和s B ,则( )A.x -A >x -B ,s A >s BB.x -A <x -B ,s A >s BC.x -A >x -B ,s A <s BD.x -A <x -B ,s A <s B答案 B 解析 由图可知A 组的6个数为 2.5,10,5,7.5,2.5,10,B 组的6个数为15,10,12.5,10,12.5,10,所以x -A =2.5+10+5+7.5+2.5+106=37.56, x -B =15+10+12.5+10+12.5+106=706. 显然x -A <x -B .又由图形可知,B 组的数据分布比A 均匀,变化幅度不大,故B 组数据比较稳定,方差较小,从而标准差较小,所以s A >s B ,故选B .7.如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45]的网民人数成递减的等差数列,则年龄在[35,40)的网民出现的频率为( )A .0.04B .0.06C .0.2D .0.3答案 C解析 由题意得,年龄在[20,25)的网民出现的频率为0.01×5=0.05,[25,30)的网民出现的频率为0.07×5=0.35,又[30,35),[35,40),[40,45]的网民人数成递减的等差数列,则其频率也成等差数列,又[30,45]的频率为1-0.05-0.35=0.6,则年龄在[35,40)的网民出现的频率为0.2.8.(2019·长沙模拟)空气质量指数(Air Quality Index ,简称AQI )是定量描述空气质量状况的指数,空气质量按照AQI 大小分为六级:0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.一环保人士从当地某年的AQI 记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI 大于100的天数为________.(该年为365天)答案 146解析 该样本中AQI 大于100的频数为4,频率为25,以此估计此地全年AQI 大于100的频率为25,故此地该年AQI 大于100的天数约为365×25=146. 9.某班有50名学生,一次数学测试平均成绩是92,如果学员为1号到30号学生的平均成绩为90,则学号为31号到50号学生的平均成绩为________.答案 95解析 设学号为31号到50号学生的平均成绩为x .由题意得50×92=30×90+20x ,解得x =95.10.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1)直方图中x 的值为________;(2)在这些用户中,用电量落在区间[100,250)内的户数为________.答案 (1)0.0044 (2)70解析 (1)由频率分布直方图知[200,250)小组的频率为1-(0.0024+0.0036+0.0060+0.0024+0.0012)×50=0.22,于是x =0.2250=0.0044. (2)∵数据落在[100,250)内的频率为(0.0036+0.0060+0.0044)×50=0.7,∴所求户数为100×0.7=70.B 组 能力关1.(2018·西宁一模)某校高二(1)班一次阶段考试数学成绩的茎叶图和频率分布直方图可见部分如图,根据图中的信息,可确定被抽测的人数及分数在[90,100]内的人数分别为( )A .20,2B .24,4C .25,2D .25,4答案 C解析 由频率分布直方图可知,组距为10,[50,60)的频率为0.008×10=0.08,由茎叶图可知[50,60)的人数为2,设参加本次考试的总人数为N ,则N =20.08=25,根据频率分布直方图可知[90,100]内的人数与[50,60)的人数一样,都是2.故选C .2.一组数据共有7个数,记得其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数的平均数、中位数、众数依次成等差数列,则这个数的所有可能值的和为( )A .-11B .3C .9D .17答案 C解析 设这个数是x ,则平均数为25+x 7,众数是2.若x≤2,则中位数为2,此时x =-11;若2<x<4,则中位数为x ,此时2x =25+x 7+2,解得x =3;若x≥4,则中位数为4,则2×4=25+x 7+2,解得x =17,∴x 的所有可能值分别为-11,3,17,和为9.故选C. 3.一组样本数据的频率分布直方图如图所示,试估计此样本数据的中位数为________.答案 1009解析 由频率分布直方图可得第一组的频率是0.08,第二组的频率是0.32,第三组的频率是0.36,则中位数在第三组内,估计样本数据的中位数为10+0.10.36×4=1009. 4.(2018·郑州模拟)某车间将10名技工平均分成甲、乙两组加工某种零件,在单位时间内每个技工加工的合格零件数的统计数据的茎叶图如图所示,已知两组技工在单位时间内加工的合格零件的平均数都为10.(1)求出m ,n 的值.(2)求出甲、乙两组技工在单位时间内加工的合格零件的方差s 2甲和s 2乙,并由此分析两组技工的加工水平.解 (1)根据题意可知:x 甲=15×(7+8+10+12+10+m)=10,x 乙=15×(9+n +10+11+12)=10,所以m =3,n =8.(2)s 2甲=15[(7-10)2+(8-10)2+(10-10)2+(12-10)2+(13-10)2]=5.2, s 2乙=15[(8-10)2+(9-10)2+(10-10)2+(11-10)2+(12-10)2]=2,因为x 甲=x 乙,s 2甲>s 2乙,所以甲、乙两组的整体水平相当,乙组更稳定一些.C 组 素养关共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100名同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如下表:(1)已知该校大一学生有2400人,求抽取的100名学生中大一学生的人数;(2)作出这些数据的频率分布直方图;(3)估计该校大学生每周使用共享单车的平均时间t (同一组中的数据用该组区间的中点值作代表).解 (1)设抽取的100名学生中大一学生有x 人,则x 2400=1008000,解得x =30. 所以抽取的100名学生中大一学生有30人.(2)频率分布直方图如图所示.(3)由题意可得t=1×0.050×2+3×0.200×2+5×0.125×2+7×0.100×2+9×0.025×2=4.4(小时).所以该校大学生每周使用共享单车的平均时间大约为4.4小时.精美句子1、善思则能“从无字句处读书”。
(江苏版)高考数学一轮复习 专题10.2 统计与统计案例(讲)-人教版高三全册数学试题
专题10.2 统计与统计案例【最新考纲解读】【考点深度剖析】1. 统计均是以填空题的形式进行考查,题目多为中低档题,着重考查学生运算求解能力、数据处理及分析问题解决问题的能力.统计一般不与其它章节知识结合考查,常单独设置题目.2.统计是高考中的常考题,统计考查的难度中等偏简单,复习时应以基础题为主.复习中,要在全面掌握的基础上理解相关概念,如分层抽样、频率分布直方图、方差等.要务实统计的基础知识,熟悉统计问题的基本解法,从而提高应用统计知识去分析问题和解决问题的能力.【课前检测训练】【判一判】判断下面结论是否正确(请在括号中打“√”或“×”)(1)简单随机抽样是一种不放回抽样.()(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.()(3)系统抽样在起始部分抽样时采用简单随机抽样.()(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.()(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.()(6)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.()(7)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.()(8)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.() (9)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.() (10)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.() (11)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.() 1.√2.×3.√4.×5.×6.√7.×8.√9.×10.√11.× 【练一练】1.某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为() A.33人,34人,33人 B.25人,56人,19人 C.20人,40人,30人 D.30人,50人,20人【答案】B2.某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是() A.抽签法 B.系统抽样法 C.分层抽样法 D.随机数法【答案】C【解析】根据年级不同产生差异及按人数比例抽取易知应为分层抽样法.3.将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个编号为() A.700B.669C.695D.676【答案】C4.某公司共有1 000名员工,下设若干部门,现采用分层抽样方法,从全体员工中抽取一个样本容量为80的样本,已告知广告部门被抽取了4个员工,则广告部门的员工人数为________. 【答案】50【解析】1 00080=x 4,x =50.5.某大学为了了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查,已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生. 【答案】60【解析】根据题意,应从一年级本科生中抽取的人数为44+5+5+6×300=60.6.某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为()A.93B.123C.137D.167【答案】C【解析】由题干扇形统计图可得该校女教师人数为:110×70%+150×(1-60%)=137.故选C.7.若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是()和和92 C.91和91.5 D.92和92【答案】A【解析】∵这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数为12×(91+92)=91.5.平均数为18×(87+89+90+91+92+93+94+96)=91.5.8.一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5)2[15.5,19.5)4[19.5,23.5)9[23.5,27.5)18[27.5,31.5)11[31.5,35.5)12 [35.5,39.5)7[39.5,43.5)3根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是() A.16 B.13 C.12 D.23 【答案】B【解析】由已知,样本容量为66,而落在[31.5,43.5)内的样本数为12+7+3=22,故所求概率为2266=13.9.某赛季,甲、乙两名篮球运动员都参加了11场比赛,他们每场比赛得分的情况用如图所示的茎叶图表示,则甲、乙两名运动员得分的中位数分别为________.【答案】19,1310.甲、乙两人在相同条件下各射靶10次,每次命中环数如下:甲47109568688乙7868678759试问10次射靶的情况较稳定的是________.【答案】乙【题根精选精析】考点1 简单随机抽样【1-1】下列抽取样本的方式不属于简单随机抽样的有________.①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.【答案】①②③④【1-2】总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为.7816 6572 0802 6314 0702 4369 9728 01983204 9234 4935 8200 3623 4869 6938 7481【答案】01【解析】从左到右第1行的第5列和第6列数字是65,依次选取符合条件的数字分别是08,02,14,07,01,故选出来的第5个个体的编号为01.【基础知识】1.简单随机抽样定义:设一个总体含有N个个体,从中逐个不放回抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.2.简单随机抽样方法:抽签法和随机数法.3.简单随机抽样的特点:(1)被抽取样本的总体个数N是有限的;(2)样本是从总体中逐个抽取的;(3)是一种不放回抽样;(4)是等可能抽取.【思想方法】当总体个数较少时,应用此法简便可行;当总体个数较多时,采用其它抽样方法.【温馨提醒】简单随机抽样是等概率抽样,即抽样过程中,每个个体被抽到的概率相等.若样本容量是n,总体个数是N,则用这种方法抽样时,每个个体被抽到的概率都是n N考点2 系统抽样【2-1】为了了解1000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为.【答案】25【解析】由题意知,分段间隔为10002540=,故选C.【2-2】某班级有50名学生,现要采取系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号1~50号,并分组,第一组1~5号,第二组6~10号,……,第十组46~50号,若在第三组中抽得为12的学生,则在第八组中抽得为________的学生.【答案】37【解析】易知组距为5,因为在第三组中抽得为12,所以在第八组中抽得为12+(8-3)×5=37.【基础知识】1.系统抽样系统抽样是指当总体中个数较多时,将总体分成均衡的几部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本的抽样方法.2.假设要从容量为N的总体中抽取容量为n的样本,系统抽样的步骤为:(1)采用随机的方式将总体中的N个个体编号;(2)将编号按间隔k分段,当Nn是整数时,取k=Nn;当Nn不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数N′能被n整除,这时取k=Nn,并将剩下的总体重新编号;(3)在第一段中用简单随机抽样确定起始的个体编号l;(4)按照一定的规则抽取样本,通常将编号为l,l+k,l+2k,…,l+(n-1)k的个体抽出.【思想方法】系统抽样:将总体编号按间隔k分段,若在第一段中用简单随机抽样确定起始的个体编号l,那么抽取样本的编号为l,l+k,l+2k,…,l+(n-1)k.【温馨提醒】(1)系统抽样中各段入样的个体编号成等差数列,公差即分段间隔;(2)系统抽样的最大特点是“等距”,利用此特点可以很方便地判断一种抽样方法是否是系统抽样.考点3 分层抽样【2-1】【2015高考数学一轮配套特训】某工厂生产A,B,C三种不同型号的产品,产品的数量之比依次为3∶4∶7,现用分层抽样的方法抽出容量为n的样本,样本中A型产品有15件,那么样本容量n为.【答案】70【解析】n⨯3347++15=,解得70n=.【3-2】【2014某某模拟】某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名.现用分层抽样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为. 【答案】8【基础知识】 1.分层抽样在抽样时,当总体由有明显差别的几部分组成时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样. 2.三种抽样方法的比较 类别共同点各自特点相互联系适用X 围简单随机抽样 均为不放回抽样,且抽样过程中每个个体被抽取的机会相等从总体中逐个抽取总体中的个体数较少系统 抽样将总体均分成几部分,按事先确定的规则在各部分抽取在起始部分抽样时采用简单随机抽样 总体中的个体数较多分层 抽样 将总体分成几层,分层进行抽取各层抽样时采用简单随机抽样或系统抽样 总体由差异明显的几部分组成【思想方法】在分层抽样中,各层都要按相同的比例抽取样本,这一比例即为抽样比= 样本容量各层样本容量个体总量各层个体数量考点4 频率分布直方图【4-1】某市某年4月1日~4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒): 61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45. (1)作出频率分布表; (2)作出频率分布直方图;(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.【答案】见解析.【解析】(1)频率分布表:(2)频率分布直方图:(3)答对下述两条中的一条即可:①该市一个月中空气污染指数有2天处于优的水平,占当月天数的115;有26天处于良的水平,占当月天数的1315;处于优或良的天数共有28天,占当月天数的1415,说明该市空气质量基本良好.②轻微污染有2天,占当月天数的115;污染指数在80以上的接近轻微污染的天数有15天,加上处于轻微污染的天数,共有17天,占当月天数的1730,超过50%.说明该市空气质量有待进一步改善.【4-2】【2014某某一模】某校从参加高二年级学业水平测试的学生中抽出100名学生,其数学成绩的频率分布直方图如图所示.其中成绩分组区间是[40,50),[50,60),[60,70),[70,80),[80,90),[90,100].则成绩在[80,100]上的人数为_______.【答案】30【解析】由题知成绩在[80,100]的人数为(0.025×10+0.005×10)×100=30. 【基础知识】 1.频率分布直方图(1)通常我们对总体作出的估计一般分成两种,一种是用样本的频率分布估计总体的频率分布,另一种是用样本的特征数估计总体的特征数.(2)在频率分布直方图中,纵轴表示频率组距,数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.2.频率分布折线图和总体密度曲线 (1)频率分布折线图连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图. (2)总体密度曲线随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.统计中称之为总体分布的密度曲线,它能够更加精细的反映出总体在各个X 围内取值的百分比. 【思想方法】1. 频率分布条形图的纵轴(矩形的高)表示频率;频率分布直方图的纵轴(矩形的高)表示频率与组距的比值,其各小组的频率等于该小组上的矩形的面积.2. 作频率分布直方图的步骤:【温馨提醒】.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和..考点5 茎叶图【5-1】某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验.两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出茎叶图;(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.【答案】(1)见解析;(2)品种A的亩产稳定性较差.【解析】(1)【5-2】某中学高三年级从甲、乙两个班级各选出8名学生参加数学竞赛,他们取得的成绩(满分100分)的茎叶图如图所示,其中甲班学生成绩的平均分是86,乙班学生成绩的中位数是83,则x y +的值为_______.【答案】13【解析】观察茎叶图,甲班学生成绩的平均分是86,故8=x ,乙班学生成绩的中位数是83,故5=y ,∴x +y 13=. 【基础知识】 茎叶图:定义是统计中用来表示数据的一种图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数画法对于样本数据较少,且分布较为集中的一组数据:若数据是两位整数,则将十位数字作茎,个位数字作叶;若数据是三位整数,则将百位、十位数字作茎,个位数字作叶.样本数据为小数时做类似处理.对于样本数据较少,且分布较为集中的两组数据,关键是找到两组数据共有的茎优缺点用茎叶图表示数据的优点是:(1)所有的信息都可以从茎叶图中得到;(2)便于记录和读取,能够展示数据的分布情况.缺点是:当样本数据较多或数据位数较多时,茎叶图就显得不太方便【思想方法】1.茎叶图的优点是保留了原始数据,便于记录及表示,能反映数据在各段上的分布情况.2.茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图给出的数据求出数据的数字特征,进一步估计总体情况.3.当样本数据较少时,用茎叶图表示数据的效果较好,而样本数据较多时,则不方便记录【温馨提醒】1.当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有信息,而且可以随时记录,给数据的记录和表示都带来方便.2.由茎叶图由小到大排列可以找到中间一个数或中间两个数,由此得到中位数,由其数据可以得到众数.3.由数据集中情况可以估计平均数大小,再根据其分散程度可以估测方差大小.考点6 用样本的数字特征估计总体的数字特征【6-1】对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是_______.【答案】46,45,56【6-2】【2014年全国普通高等学校招生统一考试(新课标Ⅰ)文科】.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量表得如下频数分布表:质量指标值分组[75,85) [85,95) [95,105) [105,115) [115,125)频数 6 26 38 22 8(I)在答题卡上作出这些数据的频率分布直方图:(II)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(III)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?【答案】(1)(2)质量指标值的样本平均数为100,质量指标值的样本方差为104(3)不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定. 【解析】(1)0.380.220.080.68++=,由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定. 【基础知识】1.用样本的特征数估计总体的特征数 (1)众数、中位数、平均数众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.平均数:样本数据的算术平均数,即12n 1(x +x +...+x )x n=. 在频率分布直方图中,中位数左边和右边的直方图的面积应该相等. (2)样本方差、标准差 样本方差2222121[()()...()]n s x x x x x x n=-+-++- 标准差222121[()()...()]n s x x x x x x n=-+-++-其中x n 是样本数据的第n 项,n 是样本容量,x 是平均数.2.标准差是反映总体波动大小的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差. 【思想方法】1.在频率分布直方图中,纵轴表示频率组距,数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.2.平均数与方差都是重要的特征数,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,掌握公式不难求出,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.【温馨提示】数据的离散程度越大,越不稳定;反之离散程度越小,越稳定.【易错问题大揭秘】[失误与防X]1.进行分层抽样时应注意以下几点:(1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.2.用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.在计数和计算时一定要准确,在绘制小矩形时,宽窄要一致.通过频率分布表和频率分布直方图可以对总体作出估计.3.茎叶图、频率分布表和频率分布直方图都是用来描述样本数据的分布情况的.茎叶图由所有样本数据构成,没有损失任何样本信息,可以随时记录;而频率分布表和频率分布直方图则损失了样本的一些信息,必须在完成抽样后才能制作.4.若取值x1,x2,…,x n的频率分别为p1,p2,…,p n,则其平均值为x1p1+x2p2+…+x n p n;若x1,x2,…,x n的平均数为x,方差为s2,则ax1+b,ax2+b,…,ax n+b的平均数为a x+b,方差为a2s2.。
高三数学一轮复习统计与统计案例专题训练(2021学年)
河北省邢台市高三数学一轮复习统计与统计案例专题训练编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(河北省邢台市高三数学一轮复习统计与统计案例专题训练)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为河北省邢台市高三数学一轮复习统计与统计案例专题训练的全部内容。
《统计与统计案例》专题练习一、选择题1.【高考四川,文3】某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )(A)抽签法(B)系统抽样法(C)分层抽样法 (D)随机数法2.【高考北京,文4】某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本的老年教师人数为()A.90 B.100 C.180D.3003.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图。
图中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃。
下面叙述不正确的是(A)各月的平均最低气温都在0℃以上(B)七月的平均温差比一月的平均温差大(C)三月和十一月的平均最高气温基本相同(D)平均气温高于20℃的月份有5个4.【高考湖北,文4】已知变量x和y满足关系0.11y x=-+,变量y与z正相关.下列结论中正确的是( )A.x与y负相关,x与z负相关B.x与y正相关,x与z正相关C.x与y正相关,x与z负相关 D.x与y负相关,x与z正相关二、填空题5.某校高一、高二、高三分别有学生1600名、1200名、800名,为了解该校高中学生的牙齿健康状况,按各年级的学生数进行分层抽样,若高三抽取20名学生,则高一、高二共抽取的学生数为。
高考数学一轮基础复习:专题6 统计与统计案例
高考数学一轮基础复习:专题6 统计与统计案例姓名:________ 班级:________ 成绩:________一、单选题 (共12题;共24分)1. (2分)某高校有甲、乙、丙三个数学建模兴趣班,甲、乙两班各有45人,丙班有60人,为了解该校数学建模成果,采用分层抽样从中抽取一个容量为10的样本,则在乙班抽取的人数为(()A . 2B . 3C . 4D . 52. (2分) (2017高二上·南宁月考) 以下茎叶图记录了甲,乙两组各五名学生在一次英语听力测试中的成绩(单位:分)甲组乙组90921587424已知甲组数据的中位数为 ,乙组数据的平均数为 ,则 ,的值分别为()A . 2,5B . 5,5C . 5,8D . 8,83. (2分) (2016高二下·曲靖期末) 已知X和Y是两个分类变量,由公式K2= 算出K2的观测值k约为7.822根据下面的临界值表可推断()P(K2≥k0)0.100.050.0250.0100.0050.001k0 2.706 3.841 5.024 6.6357.87910.828A . 推断“分类变量X和Y没有关系”犯错误的概率上界为0.010B . 推断“分类变量X和Y有关系”犯错误的概率上界为0.010C . 有至少99%的把握认为分类变量X和Y没有关系D . 有至多99%的把握认为分类变量X和Y有关系4. (2分) (2019高二下·宁夏月考) 给出以下四个说法:①残差点分布的带状区域的宽度越窄相关指数越小②在刻画回归模型的拟合效果时,相关指数的值越大,说明拟合的效果越好;③在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加个单位;④对分类变量与,若它们的随机变量的观测值越小,则判断“ 与有关系”的把握程度越大.其中正确的说法是A . ①④B . ②④C . ①③D . ②③5. (2分)一组样本数据,容量为150,按从小到大的顺序分成5个组,其频数如下表:组号12345频数28322832x那么,第5组的频率为()B . 30C . 0.8D . 0.26. (2分)对某班60名同学的一次数学测验成绩进行统计,如果频数分布直方图中80.5~90.5分这一组的频数是18,那么这个班的学生这次数学测验成绩在80.5~90.5分之间的频率是()A . 0.8B . 0.4C . 0.35D . 0.37. (2分)(2017·自贡模拟) 某企业节能降耗技术改造后,在生产某产品过程中几录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据如表所示:x3456y 2.534a若根据表中数据得出y关于x的线性回归方程为 =0.7x+0.35,则表中a的值为()A . 3B . 3.15C . 3.5D . 4.58. (2分)从一群学生中抽取一个一定容量的样本对他们的学习成绩进行分析,已知不超过70分的人数为8人,其累计频率为0.4,则这样的样本容量是()B . 40人C . 70人D . 80人9. (2分) (2015高三上·安庆期末) 已知样本x1 , x2 ,…xm的平均数为,样本y1 , y2 ,…yn 的平均数,若样本x1 , x2 ,…xm , y1 , y2 ,…yn的平均数=α +(1﹣α),其中0<α≤ ,则m,n的大小关系为()A . m<nB . m>nC . m≤nD . m≥n10. (2分) (2018高二下·石家庄期末) 某产品的广告费支出与销售额(单位:万元)之间有如下数据,根据表中提供的全部数据,用最小二乘法得出与的线性回归方程为,则表中的的值为()24681015214554A . 28B . 30C . 31D . 3811. (2分)问题:①某地区10000名中小学生,其中高中生2000名,初中生4500名,小学生3500名,现从中抽取容量为200的样本;②从1002件同一生产线生产的产品中抽取20件产品进行质量检查.方法:Ⅰ、随机抽样法Ⅱ、分层抽样法Ⅲ、系统抽样法.其中问题与方法配对较适宜的是()A . ①Ⅰ,②ⅡB . ①Ⅲ,②ⅠC . ①Ⅱ,②ⅢD . ①Ⅲ,②Ⅱ12. (2分) (2017高二下·和平期末) 在一次实验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x之间的线性回归方程为()A . =x﹣1B . =x+2C . =2x+1D . =x+1二、填空题 (共4题;共4分)13. (1分)下列命题:①线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱;②残差平方和越小的模型,拟合效果越好;③用相关指数R2来刻画回归效果,R2越小,说明模型拟合效果越好;④随机误差e是衡量预报精确度的一个量,它满足E(e)=0.其中正确的是________ (填序号).14. (1分)某学校高一、高二、高三年级的学生人数分别为900、900、1200人,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高三年级抽取的学生人数为________.15. (1分)已知样本2,3,x,6,8的平均数是5,则此样本的方差为________.16. (1分) (2016高二上·赣州期中) 如图,茎叶图记录了甲、乙两组各3名同学在期末考试中的数学成绩,则方差较小的那组同学成绩的方差为________.三、综合题 (共6题;共56分)17. (5分) (2016高二下·金堂开学考) 高二某班50名学生在一次百米测试中,成绩全部都介于13秒到18秒之间,将测试结果按如下方式分成五组,第一组[13,14),第二组[14,15),…,第五组[17,18],如图是按上述分组方法得到的频率分布直方图.(1)若成绩在区间[14,16)内规定为良好,求该班在这次百米测试中成绩为良好的人数;(2)请根据频率分布直方图估计样本数据的众数和中位数(精确到0.01).18. (11分)(2017·山西模拟) 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷“与性别有关?非体育迷体育迷合计男女1055合计19. (5分)(2016·太原模拟) 现有4人去旅游,旅游地点有A,B两个地方可以选择,但4人都不知道去哪里玩,于是决定通过掷一枚质地均匀的骰子决定自己去哪里玩,掷出能被3整除的数时去A地,掷出其他的则去B 地.(1)求这4个人恰好有1个人去A地的概率;(2)用X,Y分别表示这4个人中去A,B两地的人数,记ξ=X•Y,求随机变量ξ的分布列与数学期望E(ξ).20. (15分)某中学为了了解全校学生的上网情况,在全校采用随机抽样的方法抽取了40名学生(其中男女生人数恰好各占一半)进行问卷调查,并进行了统计,按男女分为两组,再将每组学生的月上网次数分为5组:[0,5),[5,10),[10,15),[15,20),[20,25],得到如图所示的频率分布直方图:(Ⅰ)写出a的值;(Ⅱ)求在抽取的40名学生中月上网次数不少于15次的学生人数;(Ⅲ)在抽取的40名学生中,从月上网次数不少于20次的学生中随机抽取2人,求至少抽到1名女生的概率.21. (15分)某军区新兵50m步枪射击个人平均成绩X(单位:环)服从正态分布N(μ,σ2),从这些个人平均成绩中随机抽取,得到如下频率分布表:X456789频数122640292(1)求μ和σ2的值(用样本书序期望、方差代替总数数学期望、方差);(2)如果这个军区有新兵10000名,试估计这个军区新兵步枪射击个人平均成绩在区间(7.9,8.8]上的人数.22. (5分) (2018高二下·中山月考) 我校的课外综合实践研究小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到市气象观测站与市博爱医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:日期1月10日2月10日3月10日4月10日5月10日6月10日昼夜温差(°C)1011131286就诊人数(个)222529261612该综合实践研究小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.参考数据:;.参考公式:回归直线,其中 .(1)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出关于的线性回归方程.(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?参考答案一、单选题 (共12题;共24分)1-1、2-1、3-1、4-1、5-1、6-1、7-1、8-1、9-1、10-1、11-1、12-1、二、填空题 (共4题;共4分)13-1、14-1、15-1、16-1、三、综合题 (共6题;共56分) 17-1、17-2、18-1、19-1、19-2、第11 页共13 页第12 页共13 页20-1、21-1、21-2、22-1、22-2、第13 页共13 页。
2024年高考数学一轮复习通用版第十五单元统计与统计案例
第一节统计
统计学是一门深入研究社会发展现象、收集各种信息有关经济、社会
等方面的现象,而综合运用几何学,概率论,统计学原理建立的科学模型,使数据进行统计分析的一门科学。
主要用于分析和收集各种信息,由此产
生的规律和趋势,调查统计现象和情况,发现其背后的规律和趋势,从而
研究社会上多种现象的变化规律。
统计学主要解决四个方面问题:
1.收集数据,概括和引申数据,以表示其中一社会现象的特征;
2.运用各种统计方法,对数据进行描述,以探索其中一社会现象的规律;
3.建立统计模型,用来估算、预测其中一社会现象的发展趋势;
4.根据统计分析结果,作出科学的决定,改善社会环境和生活质量。
第二节统计案例
1.调查学生上网时间
一所中学要开展学生上网时间的调查。
方法如下:
先在学校开展一次上网时间调查问卷调查,要求学生填写上网时间的
长短,有无违背规定的行为,网络上的活动,以及是否有不良信息等;
其次,定期对学生的上网行为进行监视,及时发现学生在上网时是否
有违背规定的行为;。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高三数学章节训练题24 《统计与统计案例》
时量:60分钟 满分:80分 班级: 姓名: 计分:
个人目标:□优秀(70’~80’) □良好(60’~69’) □合格(50’~59’) 一、选择题(本大题共6小题,每小题5分,满分30分)
1.10名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,16,14,12,设其平均数为a ,中位数为b ,众数为c ,则有( )
A.c b a >>
B.a c b >>
C.b a c >>
D.a b c >> 2.下列说法错误的是 ( )
A.在统计里,把所需考察对象的全体叫作总体
B.一组数据的平均数一定大于这组数据中的每个数据
C.平均数、众数与中位数从不同的角度描述了一组数据的集中趋势
D.一组数据的方差越大,说明这组数据的波动越大
3.某同学使用计算器求30个数据的平均数时,错将其中一个数据105输入为15,那么由此求出的平均数与实际平均数的差是( )A.3.5 B.3- C.3 D.5.0-
4.要了解全市高一学生身高在某一范围的学生所占比例的大小,需知道相应样本的( )A.平均数 B.方差 C.众数 D.频率分布
5.要从已编号(1
60)的60枚最新研制的某型导弹中随机抽取6枚来进行发射试验,用
每部分选取的号码间隔一样的系统抽样方法确定所选取的6枚导弹的编号可能是( )A.
5,10,15,20,25,30
B.
3,13,23,33,43,53
C.
1,2,3,4,5,6
D.2,4,8,16,32,48
6.容量为100的样本数据,按从小到大的顺序分为8组,如下表:
第三组的频数和频率分别是 ( )A.14和0.14 B.0.14和14 C.
141和0.14 D.31和141
二、填空题(本大题共5小题,每小题5分,其中第4题每问5分,满分30分) 1.为了了解参加运动会的2000名运动员的年龄情况,从中抽取100名运动员;就这个问题,下列说法中正确的有;
①2000名运动员是总体;②每个运动员是个体;③所抽取的100名运动员是一个样本;
④样本容量为100;⑤这个抽样方法可采用按年龄进行分层抽样;⑥每个运动员被抽到的概率相等.
2.经问卷调查,某班学生对摄影分别执“喜欢”、“不喜欢”和“一般”三种态度,其中执“一般”态度的比“不喜欢”态度的多12人,按分层抽样方法从全班选出部分学生座谈摄影,如果选出的2位“喜欢”摄影的同学、1位“不喜欢”摄影的同学和3位执“一般”态度的同学,那么全班学生中“喜欢”摄影的比全班人数的一半还多人.
3.数据70,71,72,73的标准差是.
4.已知关于某设备的使用年限x 与所支出的维修费用y(万元),有如下统计资料:
若y 对x 呈线性相关关系,相关信息列表如下:
22.0 则①线性回归方程y=bx+a 的回归系数a =b =. ②估计使用年限为10年时,维修费用是.
5.数据123,,,...,n a a a a 的方差为2
σ,平均数为μ,则(1)数据
123,,,...,,(0)n ka b ka b ka b ka b kb ++++≠的标准差为,平均数为.(2)数据123(),(),(),...,(),(0)n k a b k a b k a b k a b kb ++++≠的标准差为,平均数为.
三、解答题(本大题共1题,满分20分)
1.某工厂有工人1000名, 其中250名工人参加过短期培训(称为A 类工人),另外750名工人参加过长期培训(称为B 类工人),现用分层抽样方法(按A 类、B 类分二层)从该工厂的工人中共抽查100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数)。
(I )求甲、乙两工人都被抽到的概率,其中甲为A 类工人,乙为B 类工人; (II )从A 类工人中的抽查结果和从B 类工人中的抽插结果分别如下表1和表2.
言,中个体间的差异程度与B 类工人中个体间的差异程度哪个更小?(不用计算,可通过观察直方图直接回答结论)
(ii )分别估计A 类工人和B 类工人生产能力的平均数,并估计该工厂工人的生产能力的平均数,同一组中的数据用该组区间的中点值作代表) 高三数学章节训练题24 《统计与统计案例》参考答案 一、选择题
1.D 总和为147,14.7a =;样本数据17分布最广,即频率最大,为众数,17c =; 从小到大排列,中间一位,或中间二位的平均数,即15b =
2.B 平均数不大于最大值,不小于最小值
3.B 少输入90
90,3,30
=平均数少3,求出的平均数减去实际的平均数等于3- 4.D 5.B
60
106
=,间隔应为10 6.A 频数为100(1013141513129)14-++++++=;频率为
14
0.14100
= 二、填空题
1.④,⑤,⑥2000名运动员的年龄情况是总体;每个运动员的年龄是个体;
2.33位执“一般”对应1位“不喜欢”,即“一般”是“不喜欢”的3倍,而他们的差为12
人,即“一般”有18人,“不喜欢”的有6人,且“喜欢”是“不喜欢”的6倍,
即30人,全班有54人,1
305432
-
⨯=
7071727371.5,4X +++==
s =
=
4.(1)b =2
45905453.112⨯-⨯⨯-=
10
3
.12=1.23; a =y -b x =5-1.23×4=0.08. (2)回归直线方程为y =1.23x +0.08,
当x =10年时,y =1.23×10+0.08=12.3+0.08=12.38(万元), 即估计使用10年时,维修费用是12.38万元. 5. (1)k
σ,k b μ+(2)k σ,k kb μ+
(1)1212......n n
ka b ka b ka b a a a X k b k b n n
μ+++++++++=
=⋅+=+
s k σ===(2)1212()()...()...n n
k a b k a b k a b a a a X k nb k nb
n n μ+++++++++=
=⋅+=+
s k σ===
三、解答题
解:(Ⅰ)甲、乙被抽到的概率均为
1
10
,且事件“甲工人被抽到”与事件“乙工人被抽到”相互独立,故甲、乙两工人都被抽到的概率为
1111010100
p =
⨯= . (Ⅱ)(i )由题意知A 类工人中应抽查25名,B 类工人中应抽查75名. 故 48525x +++=,得5x =,
6361875y +++=,得15y = .
频率分布直方图如下
从直方图可以判断:B 类工人中个体间的关异程度更小 .
(ii ) 48553
1051151251351451232525252525
A x =
⨯+⨯+⨯+⨯+⨯=, 6153618
115125135145133.875757575
B x =⨯+⨯+⨯+⨯=,
2575
123133.8131.1
x=⨯+⨯=
100100
A类工人生产能力的平均数,B类工人生产能力的平均数以及全工厂工人生产能力的平均数的会计值分别为123,133.8和131.1 .。