高三数学统计习题精选精讲
(完整)高一数学必修三《统计》知识点+练习+答案,推荐文档
必修三统计知识点二、统计初步有关概念和公式:1、频数——落在各个小组的数据的个数叫~。
2、频率——每一个小组频数与数据的比值叫做这一组的~。
3、总体——所要考察对象的全体叫做~。
4、个体——每一个考察对象~。
5、样本——从总体中所抽取的一部分个体叫做总体的一个样本。
6、样本容量——样本中个体的数目叫做~。
7、众数——在一组数据中,出现次数最多的数据叫做这组数据的众数。
8、中位数——将一组数据按从小到大排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数。
9、总体分布——总体取值的概率分布规律通常称为~。
10、连续型总体——可以在实数区间取值的总体叫~。
11、累积频率——样本数据小于某一数值的频率,叫做~。
计算最大值与最小值的差决定组距与数据列法决定分点列表12、频率分布表试验结果频数频率表的行式分组个数累计频数频率累积频率(有时可省略)(有时可省略)横轴——实验结果纵轴频率条形图用高度表示各取值的频率适用于个体取不同值较少横轴——产品尺寸纵轴——频率/组距13、直方图用图形面积的大小表示在各个区间内取值的概率适用于个体在区间内取值横轴——产品尺寸累积频率分布图纵轴——累计频率反映一组数据的分布情况14、总体分布曲线——当样本容量无限增大、分组的组距无缩限小时、频率分布直方图就会无限趋近于一条光滑曲线,这条曲线叫总体密度曲线。
以这条曲线为图象的函数叫做总体的概率密度函数。
总体密度函数反映了总体分布,即反映总体在各个范围内取值的概率。
P(a<ξ<b)的值等于直线 x=a,x=b 与曲线、x 轴围成的图形面积。
15、累积分布曲线——当样本容量无限增大、分组的组距无缩限小时,累积频率分布图就会无限趋近于一条光滑曲线,这条曲线叫累积分布曲线。
它反映了总体的累积分布规律,即曲线上任意一点 P(a,b)纵坐标 b,表示总体取小于 a 的值的概率。
1①正态总体的概率密度函数f(x)-(x - )22 2, ∈R(其中 总体的平均数, 总体的标准差,N(μ,σ2)—正态总体,有时记作 N(μ,σ2)1)曲线在轴上方,并且关于直线 x=对称:②正态曲线的性质2)曲线在x=μ时处于最高点,由这一点向左、右两边延伸时,曲线逐渐下降:3)曲线的对称轴位置由μ确定:直线的形状由σ确定,σ越大,曲线的形状越“矮胖”反过来曲线越“高瘦”③正态曲线在几个区间上的取值:区间取值概率(μ-σ,μ+σ)68.3%(μ-2σ,μ+2σ)95.44%(μ-3σ,μ+3σ)99.7%16、质控图④小概率事件——通常指发生的概率小于5%的事件。
(完整版)高三复习高中数学统计案例习题(有详细答案)
2015年高三复习高中数学统计案例习题(有详细答案)一.选择题(共15小题)1.(2014•四川模拟)为了解某地区中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已经了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是()A.简单的随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样2.(2014•湖北模拟)某社区现有480个住户,其中中等收入家庭200户、低收入家庭160户,其他为高收入家庭.在建设幸福广东的某次分层抽样调查中,高收入家庭被抽取了6户,则该社区本次被抽取的总户数为()A.20 B.24 C.30 D.363.(2014•湖南一模)从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是()A.5,10,15,20,25 B.3,13,23,33,43 C.1,2,3,4,5 D.2,4,8,16,324.(2014•锦州一模)为了研究一片大约一万株树木的生长情况,随机测量了其中100株树木的底部周长(单位:cm),根据所得数据画出的样本频率分布直方图如图,那么在这片树木中底部周长大于100cm的株树大约中()A.3000 B.6000 C.7000 D.80005.(2014•许昌二模)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{a n}.已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为()A.100 B.120 C.150 D.2006.(2014•云南模拟)已知一组数据如图所示,则这组数据的中位数是()A.27.5 B.28.5 C.27 D.287.(2014•青浦区三模)已知图1、图2分别表示A、B两城市某月1日至6日当天最低气温的数据折线图(其中横轴n表示日期,纵轴x表示气温),记A、B两城市这6天的最低气温平均数分别为和,标准差分别为s A和s B,则它们的大小关系是()A.>,sA>s B B.>,sA<s BC.<,sA<s BD.<,sA>s B8.(2014•天门模拟)如图是根据变量x,y的观测数据(x i,y i)(i=1,2,…10)得到的散点图,由这些散点图可以判断变量x,y具有相关关系的图是()A.①②B.①④C.②③D.③④9.(2014•邯郸二模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程,利用下表中数据推断a的值为()零件数x(个)10 20 30 40 50加工时间y(min)62 a 75 81 89A.68.2 B.68 C.69 D.6710.(2013•福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A.588 B.480 C.450 D.12011.(2013•陕西)对一批产品的长度(单位:mm)进行抽样检测,下图为检测结果的频率分布直方图.根据标准,产品长度在区间[20,25)上的为一等品,在区间[15,20)和区间[25,30)上的为二等品,在区间[10,15)和[30,35)上的为三等品.用频率估计概率,现从该批产品中随机抽取一件,则其为二等品的概率为()A.0.09 B.0.20 C.0.25 D.0.4512.(2013•辽宁)某学校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组一次为[20,40),[40,60),[60,80),[80,100).若低于60分的人数是15人,则该班的学生人数是()A.45 B.50 C.55 D.6013.(2012•成都一模)某小区有125户高收入家庭、280户中等收入家庭、95户低收人家庭.现采用分层抽样的方法从中抽取100户,对这些家庭社会购买力的某项指标进行调查,则中等收入家庭中应抽选出的户数为()A.70 户B.17 户C.56 户D.25 户14.(2012•泸州一模)某校高三680名学生(其中男生360名、女生320名)在学术报告厅听了应考心理讲座,为了解有关情况,学校用分层抽样的方法抽取了一个样本,已知该样本中的女生人数为16名,那么该样本中的男生人数为()A.15 B.16 C.17 D.1815.(2012•绵阳二模)要从60人中抽取6人进行身体健康检查,现釆用分层抽样方法进行抽取,若这60人中老年人和中年人分别是40人,20人,则老年人中被抽取到参加健康检查的人数是()A.2人B.3人C.4人D.5人二.解答题(共15小题)16.为了了解学生的身体发育情况,某校对年满16周岁的60名男生的身高进行测量,其结果如下:身高(m)1.57 1.59 1.60 1.62 1.63 1.64 1.65 1.66 1.68人数 2 1 4 2 3 4 2 7 6身高(m)1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77人数8 7 4 3 2 1 2 1 1(1)根据上表,估计这所学校,年满16周岁的男生中,身高不低于1.65m且不高于1.71m的约占多少?不低于1.63m 的约占多少?(2)将测量数据分布6组,画出样本频率分布直方图;(3)根据图形说出该校年满16周岁的男生在哪一范围内的人数所占的比例最大?如果年满16周岁的男生有360人,那么在这个范围的人数估计约有多少人?17.改革开放以来,我国高等教育事业有了突飞猛进的发展,有人记录了某村2001到2005年五年间每年考入大学的人数,为了方便计算,2001年编号为1,2002年编号为2,…,2005年编号为5,数据如下:年份(x) 1 2 3 4 5人数(y) 3 5 8 11 13求y关于x的回归方程=x+所表示的直线必经的点.18.甲、乙两位同学参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取4次,绘制成茎叶图如图:甲乙9 7 78 1 2 8 535(Ⅰ)从甲、乙两人的成绩中各随机抽取一个,求甲的成绩比乙高的概率;(Ⅱ)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由.19.下表是某单位在2013年1﹣5月份用水量(单位:百吨)的一组数据:月份x 1 2 3 4 5用水量y 4.5 4 3 2.5 1.8(Ⅰ)若由线性回归方程得到的预测数据与实际检验数据的误差不超过0.05,视为“预测可靠”,通过公式得,那么由该单位前4个月的数据中所得到的线性回归方程预测5月份的用水量是否可靠?说明理由;(Ⅱ)从这5个月中任取2个月的用水量,求所取2个月的用水量之和小于7(单位:百吨)的概率.参考公式:回归直线方程是:,.20.某校高三数学竞赛初赛考试后,对考生的成绩进行统计(考生成绩均不低于90分,满分为150分),将成绩按如下方式分成六组,第一组[90,100)、第二组[100,110)…,第六组[140,150],如图为其频率分布直方图的一部分,若第四、五、六组的人数依次成等差数列,且第六组有4人.(Ⅰ)求第四和第五组频率,并补全频率分布直方图;(Ⅱ)若不低于120分的同学进入决赛,不低于140分的同学为种子选手,完成下面2×2列联表(即填写空格处的数据),并判断是否有99%的把握认为“进入决赛的同学成为种子选手与专家培训有关”.[120,140)[140,150]合计参加培训8 8未参加培训合计 4附:K2=P(K2≥k0)0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001K0 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.82821.为了了解某中学高二女生的身高情况,该校对高二女生的身高进行了一次随机抽样测量,所得数据整理后列出了频率分布表如下:(单位:cm)(1)表中m、n、M、N所表示的数分别是多少?(2)绘制频率分布直方图;(3)估计该校女生身高小于162.5cm的百分比.22.某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100].(1)求x值;(2)(理科)从成绩不低于80分的学生中随机的选取2人,该2人中成绩在90以上(含90分)的人数记为ξ,求ξ的概率分布列及数学期望Eξ.(文)从从成绩不低于80分的学生中随机的选取3人,该3人中至少有2人成绩在90以上(含90分)的概率.23.某网站针对2014年中国好声音歌手A,B,C三人进行网上投票,结果如下观众年龄支持A 支持B 支持C20岁以下200 400 80020岁以上(含20岁)100 100 400(1)在所有参与该活动的人中,用分层抽样的方法抽取n人,其中有6人支持A,求n的值.(2)在支持C的人中,用分层抽样的方法抽取6人作为一个总体,从这6人中任意选取2人,求恰有1人在20岁以下的概率.24.某校100名学生期中考试数学成绩的频率分布直方图如图,其中成绩分组区间如下:组号第一组第二组第三组第四组第五组分组[50,60)[60,70)[70,80)[80,90)[90,100](Ⅰ)求图中a的值;(Ⅱ)根据频率分布直方图,估计这100名学生期中考试数学成绩的平均分;(Ⅲ)现用分层抽样的方法从第3、4、5组中随机抽取6名学生,将该样本看成一个总体,从中随机抽取2名,求其中恰有1人的分数不低于90分的概率?25.从某实验中,得到一组样本容量为60的数据,分组情况如下:(Ⅰ)求出表中m,a的值;分组5~15 15~25 25~35 35~45频数 6 2l m频率 a 0.05(Ⅱ)估计这组数据的平均数.26.某校高三文科分为四个班.高三数学调研测试后,随机地在各班抽取部分学生进行测试成绩统计,各班被抽取的学生人数恰好成等差数列,人数最少的班被抽取了22人.抽取出来的所有学生的测试成绩统计结果的频率分布条形图如图所示,其中120~130(包括120分但不包括130分)的频率为0.05,此分数段的人数为5人.(1)问各班被抽取的学生人数各为多少人?(2)求平均成绩;(3)在抽取的所有学生中,任取一名学生,求分数不小于90分的概率.27.在参加世界杯足球赛的32支球队中,随机抽取20名队员,调查其年龄为25,21,23,25,27,29,25,28,30,29,26,24,25,27,26,22,24,25,26,28.(1)填写下面的频率分布表(2)并画出频率分布直方图.(3)据此估计全体队员在哪个年龄段的人数最多?占总数的百分之几?分组频数频率20.5~22.522.5~24.524.5~26.526.5~28.528.5~30.5合计28.如图是调查某地某公司1000名员工的月收入后制作的直方图.(1)求该公司员工的月平均收入及员工月收入的中位数;(2)在收入为1000至1500元和收入为3500至4000元的员工中用分层抽样的方法抽取一个容量15的样本,员工甲、乙的月收入分别为1200元、3800元,求甲乙同时被抽到的概率.29.某市为了解全市居民日常用水量的分布情况,现采用抽样调查的方式,获得了n位居民某年的月均用水量(单位:t),样本统计结果如图表:(Ⅰ)分别求出x,n,y的值;(Ⅱ)若从样本中月均用水量在[5,6]内的5位居民a,b,c,d,e中任选2人作进一步的调查研究,求居民a被选中的概率.分组频数频率[0,1)25 y[1,2)0.19[2,3)50 x[3,4)0.23[4,5)0.18[5,6] 530.为了分析某次考试数学成绩情况,用简单随机抽样从某班中抽取25名学生的成绩(百分制)作为样本,得到频率分布表如下:分数[50,60)[60,70)[70,80)[80,90)[90,100]频数2 3 9 a 1频率0.08 0.12 0.36 b 0.04(Ⅰ)求样本频率分布表中a,b的值,并根据上述频率分布表,在下表中作出样本频率分布直方图;(Ⅱ)计算这25名学生的平均数及方差(同一组中的数据用该组区间的中点值作代表);(Ⅲ)从成绩在[50,70)的学生中任选2人,求至少有1人的成绩在[60,70)中的概率.参考答案与试题解析一.选择题(共15小题)1.(2014•四川模拟)为了解某地区中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已经了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是()A.简单的随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样考点:分层抽样方法.专题:阅读型.分析:若总体由差异明显的几部分组成时,经常采用分层抽样的方法进行抽样解答:解:我们常用的抽样方法有:简单随机抽样、分层抽样和系统抽样,而事先已经了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.了解某地区中小学生的视力情况,按学段分层抽样,这种方式具有代表性,比较合理.故选C.点评:本小题考查抽样方法,主要考查抽样方法,属基本题.2.(2014•湖北模拟)某社区现有480个住户,其中中等收入家庭200户、低收入家庭160户,其他为高收入家庭.在建设幸福广东的某次分层抽样调查中,高收入家庭被抽取了6户,则该社区本次被抽取的总户数为()A.20 B.24 C.30 D.36考点:分层抽样方法.专题:计算题.分析:根据社区里的高收入家庭户和高收入家庭户要抽取的户数,得到每个个体被抽到的概率,用求到的概率乘以低收入家庭户的户数,得到结果.解答:解:∵区现有480个住户,高收入家庭120户,抽取了6户∴每个个体被抽到的概率是∴该社区本次被抽取的总户数为=24,故选B.点评:本题考查分层抽样方法,这种题目类型是高考题目中一定会出现的题目,运算量不大,是一个必得分题目.3.(2014•湖南一模)从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是()A.5,10,15,20,25 B.3,13,23,33,43 C.1,2,3,4,5 D.2,4,8,16,32考点:系统抽样方法.专题:计算题.分析:由系统抽样的特点知,将总体分成均衡的若干部分指的是将总体分段,分段的间隔要求相等,这时间隔一般为总体的个数除以样本容量.从所给的四个选项中可以看出间隔相等且组距为10的一组数据是由系统抽样得到的.解答:解:从50枚某型导弹中随机抽取5枚,采用系统抽样间隔应为=10,只有B答案中导弹的编号间隔为10,故选B.点评:一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本.4.(2014•锦州一模)为了研究一片大约一万株树木的生长情况,随机测量了其中100株树木的底部周长(单位:cm),根据所得数据画出的样本频率分布直方图如图,那么在这片树木中底部周长大于100cm的株树大约中()A.3000 B.6000 C.7000 D.8000考点:频率分布直方图.专题:概率与统计.分析:在频率分布表中,频数的和等于样本容量,频率的和等于1,每一小组的频率等于这一组的频数除以样本容量.频率分布直方图中,小矩形的面积等于这一组的频率.底部周长小于100cm的矩形的面积求和乘以样本容量即可.解答:解:由图可知:底部周长小于100cm段的频率为(0.01+0.02)×10=0.3,则底部周长大于100cm的段的频率为1﹣0.3=0.7那么在这片树木中底部周长大于100cm的株树大约10000×0.7=7000人.故选C.点评:本小题主要考查样本的频率分布直方图的知识和分析问题以及解决问题的能力.统计初步在近两年高考中每年都以小题的形式出现,基本上是低起点题.5.(2014•许昌二模)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{a n}.已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为()A.100 B.120 C.150 D.200考点:频率分布直方图.专题:概率与统计.分析:根据直方图中的各个矩形的面积代表了频率,各个矩形面积之和为1,求出小长方形面积最大的一组的频率,再根据频数=频率×样本容量,求出频数即可.解答:解:∵直方图中的各个矩形的面积代表了频率,这5个小方形的面积由小到大构成等差数列{a n},a2=2a1,∴d=a1,a3=3a1,a4=4a1,a5=5a1根据各个矩形面积之和为1,则a1+a2+a3+a4+a5=15a1=1∴a1=,小长方形面积最大的一组的频率为a5=5×=根据频率=可求出频数=300×=100故选:A.点评:本题考查了频率、频数的应用问题,各小组频数之和等于样本容量,各小组频率之和等于1.6.(2014•云南模拟)已知一组数据如图所示,则这组数据的中位数是()A.27.5 B.28.5 C.27 D.28考点:众数、中位数、平均数.专题:概率与统计.分析:利用中位数的定义即可得出.解答:解:这组数据为16,17,19,22,25,27,28,30,30,32,36,40的中位数是=27.5.故选:A.点评:本题考查了中位数的定义及其计算方法,属于基础题.7.(2014•青浦区三模)已知图1、图2分别表示A、B两城市某月1日至6日当天最低气温的数据折线图(其中横轴n表示日期,纵轴x表示气温),记A、B两城市这6天的最低气温平均数分别为和,标准差分别为s A和s B,则它们的大小关系是()A.>,sA>s B B.>,sA<s BC.<,sA<s BD.<,sA>s B考点:众数、中位数、平均数.专题:概率与统计.分析:本题可以由折线图上的数据做出两个城市的平均气温和方差,也可以根据两个折线图的高低和变化的趋势即波动的大小,得到结果.解答:解:由折线图可知A市的平均气温是,B市的平均气温是=11.7,由折线图也可以看出B市的气温较高,可以看出B市的气温的变化不大,方差较小;故选D.点评:本题考查了折线图以及平均数和方差的求法;求两组数据的平均值和方差是研究数据常做的两件事,平均值反映数据的平均水平,而方差反映数据的波动大小,从两个方面可以准确的把握数据的情况.8.(2014•天门模拟)如图是根据变量x,y的观测数据(x i,y i)(i=1,2,…10)得到的散点图,由这些散点图可以判断变量x,y具有相关关系的图是()A.①②B.①④C.②③D.③④考点:散点图.专题:计算题.分析:通过观察散点图可以知道,y随x的增大而减小,各点整体呈下降趋势,x与y负相关,u随v的增大而增大,各点整体呈上升趋势,u与v正相关.解答:解:由题图③可知,y随x的增大而减小,各点整体呈下降趋势,x与y负相关,由题图④可知,u随v的增大而增大,各点整体呈上升趋势,u与v正相关.故选D.点评:本题考查散点图,是通过读图来解决问题,考查读图能力,粗略的反应两个变量之间的关系,是不是线性相关,是正相关还是负相关.9.(2014•邯郸二模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程,利用下表中数据推断a的值为()零件数x(个)10 20 30 40 50加工时间y(min)62 a 75 81 89A.68.2 B.68 C.69 D.67考点:线性回归方程.专题:计算题;概率与统计.分析:由题意,将20代入可得68.2,故可能值为68.解答:解:由题意,y=0.68×20+54.6=68.2,又由表可知加工时间y(min)都是以整数记,故a可能为68,故选B.点评:本题考查了线性回归方程的应用及数学问题与实际问题的转化,属于基础题.10.(2013•福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A.588 B.480 C.450 D.120考点:频率分布直方图.专题:图表型.分析:根据频率分布直方图,成绩不低于60分的频率,然后根据频数=频率×总数可求出所求.解答:解:根据频率分布直方图,成绩不低于60(分)的频率为1﹣10×(0.005+0.015)=0.8.由于该校高一年级共有学生600人,利用样本估计总体的思想,可估计该校高一年级模块测试成绩不低于60(分)的人数为600×0.8=480人.故选B.点评:本小题主要考查频率、频数、统计和概率等知识,考查数形结合、化归与转化的数学思想方法,以及运算求解能力.11.(2013•陕西)对一批产品的长度(单位:mm)进行抽样检测,下图为检测结果的频率分布直方图.根据标准,产品长度在区间[20,25)上的为一等品,在区间[15,20)和区间[25,30)上的为二等品,在区间[10,15)和[30,35)上的为三等品.用频率估计概率,现从该批产品中随机抽取一件,则其为二等品的概率为()A.0.09 B.0.20 C.0.25 D.0.45考点:频率分布直方图.分析:在频率分布表中,频数的和等于样本容量,频率的和等于1,小矩形的面积等于这一组的频率,则所以面积和为1,建立等量关系即可求得长度在[25,30)内的频率即得.解答:解:设长度在[25,30)内的频率为a,根据频率分布直方图得:a+5×0.02+5×0.06+5×0.03=1⇒a=0.45.则根据频率分布直方图估计从该批产品中随机抽取一件,则其为二等品的概率为0.45.故选D.点评:本小题主要考查样本的频率分布直方图的知识和分析问题以及解决问题的能力.统计初步在近两年高考中每年都以小题的形式出现,基本上是低起点题.12.(2013•辽宁)某学校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组一次为[20,40),[40,60),[60,80),[80,100).若低于60分的人数是15人,则该班的学生人数是()A.45 B.50 C.55 D.60考点:频率分布直方图.专题:概率与统计.分析:由已知中的频率分布直方图,我们可以求出成绩低于60分的频率,结合已知中的低于60分的人数是15人,结合频数=频率×总体容量,即可得到总体容量.解答:解:∵成绩低于60分有第一、二组数据,在频率分布直方图中,对应矩形的高分别为0.005,0.01,每组数据的组距为20则成绩低于60分的频率P=(0.005+0.010)×20=0.3,又∵低于60分的人数是15人,则该班的学生人数是=50.故选B.点评:本题考查的知识点是频率分布直方图,结合已知中的频率分布直方图,结合频率=矩形的高×组距,求出满足条件的事件发生的频率是解答本题的关键.13.(2012•成都一模)某小区有125户高收入家庭、280户中等收入家庭、95户低收人家庭.现采用分层抽样的方法从中抽取100户,对这些家庭社会购买力的某项指标进行调查,则中等收入家庭中应抽选出的户数为()A.70 户B.17 户C.56 户D.25 户考点:分层抽样方法.专题:概率与统计.分析:由分层抽样的计算方法:中等收入家庭的户数占总户数的比例再乘以要抽取的户数,即可得出答案.解答:解:由已知可得中等收入家庭中应抽选出的户数==56.故选C.点评:本题考查了分层抽样,掌握分层抽样的计算方法是解决问题的关键.14.(2012•泸州一模)某校高三680名学生(其中男生360名、女生320名)在学术报告厅听了应考心理讲座,为了解有关情况,学校用分层抽样的方法抽取了一个样本,已知该样本中的女生人数为16名,那么该样本中的男生人数为()A.15 B.16 C.17 D.18考点:分层抽样方法.专题:计算题.分析:设该样本中的男生人数为x,则由分层抽样的定义和方法可得=,由此解得x 的值.解答:解:设该样本中的男生人数为x,则由分层抽样的定义和方法可得=,解得x=18,故选D.点评:本题主要考查分层抽样的定义和方法,利用了总体中各层的个体数之比等于样本中对应各层的样本数之比,属于基础题.15.(2012•绵阳二模)要从60人中抽取6人进行身体健康检查,现釆用分层抽样方法进行抽取,若这60人中老年人和中年人分别是40人,20人,则老年人中被抽取到参加健康检查的人数是()A.2人B.3人C.4人D.5人考点:分层抽样方法.专题:计算题.分析:先求出每个个体被抽到的概率,用该层的个体数乘以每个个体被抽到的概率,就等于该层应抽取的个体数.解答:解:每个个体被抽到的概率等于=,老年人中被抽取到参加健康检查的人数是40×=4,故选C.点评:本题主要考查分层抽样的定义和方法,用每层的个体数乘以每个个体被抽到的概率等于该层应抽取的个体数,属于基础题.二.解答题(共15小题)16.为了了解学生的身体发育情况,某校对年满16周岁的60名男生的身高进行测量,其结果如下:身高(m)1.57 1.59 1.60 1.62 1.63 1.64 1.65 1.66 1.68人数 2 1 4 2 3 4 2 7 6身高(m)1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77人数8 7 4 3 2 1 2 1 1(1)根据上表,估计这所学校,年满16周岁的男生中,身高不低于1.65m且不高于1.71m的约占多少?不低于1.63m 的约占多少?(2)将测量数据分布6组,画出样本频率分布直方图;(3)根据图形说出该校年满16周岁的男生在哪一范围内的人数所占的比例最大?如果年满16周岁的男生有360人,那么在这个范围的人数估计约有多少人?考点:频率分布直方图;频率分布表.专题:概率与统计.分析:(1)根据上表求出身高不低于1.65m且不高于1.71m的频率与不低于1.63m的频率;(2)将测量数据分组,求频数与频率,列出频率分布表,画出频率分布直方图;(3)根据图形得出正确的结论以及估计结果.解答:解:(1)根据上表得,身高不低于1.65m且不高于1.71m的频率是=≈0.567,∴约占总体的56.7%;不低于1.63m的频率是1﹣=1﹣0.15=0.85,约占总体的85%;(2)将测量数据分布6组,∴=0.033,∴组距是0.04,计算频数与频率,列出频率分布表,如下;分组频数频率156.5﹣160.5 7 0.11160.5﹣164.5 9 0.15164.5﹣168.5 15 0.25168.5﹣172.5 22 0.37172.5﹣176.5 6 0.10176.5﹣180.5 1 0.02合计60 1.00画出样本频率分布直方图,如图所示;(3)根据图形知,该校年满16周岁的男生在168.5﹣172.5内的人数所占的比例最大,如果年满16周岁的男生有360人,那么在这个范围的人数估计约为360×0.37=133人.点评:本题考查了频率分布直方图的应用问题,也考查了列表和画图的能力,解题时应根据图中数据进行有关的计算,是基础题.17.改革开放以来,我国高等教育事业有了突飞猛进的发展,有人记录了某村2001到2005年五年间每年考入大学的人数,为了方便计算,2001年编号为1,2002年编号为2,…,2005年编号为5,数据如下:年份(x) 1 2 3 4 5人数(y) 3 5 8 11 13求y关于x的回归方程=x+所表示的直线必经的点.考点:回归分析的初步应用.专题:计算题;概率与统计.分析:求平均值,回归直线必过样本点的中心.解答:解:==3,==8,故回归方程=x+所表示的直线必经过点(3,8).点评:本题考查了回归分析,回归直线必过样本点的中心,同时考查了平均数的求法,属于基础题.18.甲、乙两位同学参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取4次,绘制成茎叶图如图:甲乙9 7 78 1 2 8 535(Ⅰ)从甲、乙两人的成绩中各随机抽取一个,求甲的成绩比乙高的概率;(Ⅱ)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由.考点:茎叶图;众数、中位数、平均数;极差、方差与标准差.专题:概率与统计.分析:(I)由茎叶图知甲乙两同学的成绩分别为:甲:82 81 79 88 乙:85 77 83 85.利用“列举法”及其古典概型的概率计算公式即可得出.(II)分别计算出甲乙的平均成绩及其方差即可得出.。
高中数学必修3复习-统计的讲义与习题(含答案及详细解答过程)
【知识点:统计】一.简单随机抽样1.总体和样本总体:在统计学中 , 把研究对象的全体叫做总体.个体:把每个研究对象叫做个体.总体容量:把总体中个体的总数叫做总体容量.为了研究总体的有关性质,一般从总体中随机抽取一部分:,,,研究,我们称它为样本...其中个体的个数称为样本容量....。
2.简单随机抽样,也叫纯随机抽样。
就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。
特点是:每个样本单位被抽中的可能性相同(概率相等),样本的每个单位完全独立,彼此间无一定的关联性和排斥性。
简单随机抽样是其它各种抽样形式的基础。
通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
3.简单随机抽样常用的方法:(1)抽签法;⑵随机数表法;⑶计算机模拟法;⑷使用统计软件直接抽取。
在简单随机抽样的样本容量设计中,主要考虑:①总体变异情况;②允许误差围;③概率保证程度。
4.抽签法:(1)给调查对象群体中的每一个对象编号;(2)准备抽签的工具,实施抽签(3)对样本中的每一个个体进行测量或调查例:请调查你所在的学校的学生做喜欢的体育活动情况。
5.随机数表法:例:利用随机数表在所在的班级中抽取10位同学参加某项活动。
二.系统抽样1.系统抽样(等距抽样或机械抽样):把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。
第一个样本采用简单随机抽样的办法抽取。
d(抽样距离)=N(总体规模)/n(样本规模)三.分层抽样1.分层抽样(类型抽样):先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。
2.分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。
3.分层的比例问题:(1)按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。
2020-2021学年北师大版数学必修3课后习题:习题课1 统计含解析
攀上山峰,见识险峰,你的人生中,也许你就会有苍松不惧风吹和不惧雨打的大无畏精神,也许就会有腊梅的凌寒独自开的气魄,也许就会有春天的百花争艳的画卷,也许就会有钢铁般的意志。
祝:学子考试顺利,学业有成习题课——统计课后篇巩固提升A组1.2018年的世界无烟日(5月31日)之前,某学习小组为了了解本地区大约有多少成年人吸烟,随机调查了100个成年人,结果其中有15个成年人吸烟.对于这个关于数据收集与处理的问题,下列说法正确的是()A.调查的方式是普查B.本地区约有15%的成年人吸烟C.样本是15个吸烟的成年人D.本地区只有85个成年人不吸烟答案B2.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学,初中,高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样,初中,高中三个学段学生的视力情况有较大差异”,故应按学段分层抽样,选C.3.已知数据x1,x2,x3的中位数为k,众数为m,平均数为n,方差为p,则下列说法中,错误的是()A.数据2x1,2x2,2x3的中位数为2kB.数据2x1,2x2,2x3的众数为2mC.数据2x1,2x2,2x3的平均数为2nD.数据2x1,2x2,2x3的方差为2p4.在样本的频率分布直方图中,共有11个小长方形,若最中间一个小长方形的面积等于其他10个小长方形面积和的14,且样本容量为160,则最中间一组的频数为()A.32B.0.2C.40D.0.25解析最中间一组的频率为1414+1=15,所以最中间一组的频数为160×15=32.故A正确.5.对2 000名学生进行身体健康检查,用分层抽样的办法抽取容量为200的样本,已知样本中女生比男生少6人,则该校共有男生() A.1 030人 B.970人C.97人D.103人200名学生中男生有103人,女生有97人.所以该校共有男生人数为2000×103200=1030,故选A.6.已知x,y的取值如下表所示,且线性回归方程为y=bx+132,则b等于()A.13B.12C.-13D.-12解析由题表可得。
高中数学第二章统计习题课省公开课一等奖新优质课获奖课件
.
44/45
1234
解析:(1)由题意知被抽出职员号码为2,10,18,26,34. 答案:(1)2,10,18,26,34 (2)62
45/45
探究一
探究二
探究三
规范解答
解析:(1)采取系统抽样方法从600人中抽取50人,需将这600人分 成50组,每组12人,即l=12,第k组号码为3+12(k-1).令496≤3+12(k1)≤600,且k∈Z,解得43≤k≤50,而满足43≤k≤50整数k有8个.
答案:(1)8 (2)20
16/45
5/45
5.样本数字特征
6/45
7/45
6.散点图 假如散点图中点分布从整体上看大致在一条直线附近,就称这两 个变量之间含有线性相关关系,这条直线叫做回归直线.从散点图 上看,点分布在从左下角到右上角区域内,两个变量这种相关关系 称为正相关;点分布在左上角到右下角区域内,两个变量相关关系 为负相关.
习题课 统计与回归分析
1/45
2/45
填空: 1.三种抽样方法比较
3/45
2.作频率分布直方图步骤
3.频率分布折线图 把频率分布直方图中各个长方形上边中点用线段连接起来,就得 到频率分布折线图.
4/45
4.茎叶图是统计中用来表示数据一个图,茎是指中间一列数,叶就 是从茎旁边生长出来数.对于样本数据较少,且分布较为集中一组 数据:若数据是两位整数,则将十位数字作茎,个位数字作叶;若数据 是三位整数,则将百位、十位数字作茎,个位数字作叶.样本数据为 小数时做类似处理.对于样本数据较少,且分布较为集中两组数据, 关键是找到两组数据共有茎.
2.能够借助于统计图表,依据公式求解数据众数、中位数、平均 数和方差等.注意由样本数据预计总体时,样本方差越小,数据越稳 定,波动越小.
新版高中数学北师大版必修3习题第一章统计1.2.2.2含解析
第2课时系统抽样课时过关·能力提升1.从N个编号中抽取n个号码入样,若采用系统抽样方法进行抽取,则分段间隔应为()AC答案:C2.有40件产品,编号为1~40,现在从中抽取4件检验,用系统抽样的方法确定所抽取的编号可能为()A.5,10,15,20B.2,12,22,32C.2,14,26,38D.5,8,31,36解析:由系统抽样的定义知抽样距为可以在第一组1~10号样本中取k号,1≤k≤10,则抽取到的样本编号为k,k+10,k+20,k+30.答案:B3.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为()A.480B.481C.482D.483解析:由样本中编号最小的两个编号分别为007,032,得抽样距为32-7=25,则样本容量为每组中应抽取的号码数x=7+25(n-1)(1≤n≤20,n∈Z),当n=20时,x取得最大值为x=7+25×19=482.答案:C4.总体容量为524,采用系统抽样法抽样,若想不剔除个体,则抽样间隔可以为()A.3B.4C.5D.6解析:因为系统抽样的间隔需要能整除总体个数.故选B.答案:B5.某初级中学有学生270人,其中七年级108人,八年级、九年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按七年级、八年级、九年级依次统一编号为1,2,…,270;使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段.如果抽得号码有下列四种情况:①7,34,61,88,115,142,169,196,223,250;②5,9,100,107,111,121,180,195,200,265;③11,38,65,92,119,146,173,200,227,254;④30,57,84,111,138,165,192,219,246,270.那么关于上述样本的下列结论,正确的是()A.②③都不能为系统抽样B.②④都不能为分层抽样C.①④都可能为系统抽样D.①③都可能为分层抽样解析:由定义可知,①③可能为分层抽样也可能为系统抽样;②可能为分层抽样;④可能为简单随机抽样.故选D.答案:D6.将高三(1)班参加体检的36名学生,编号为:1,2,3,…,36,若采用系统抽样的方法抽取一个容量为4的样本,已知样本中含有编号为6号、24号、33号的学生,则样本中剩余一名学生的编号是.答案:157.某单位200名职工的年龄分布情况如图,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,……,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是.若用分层抽样方法,则40岁以下年龄段应抽取人.解析:由题意可知,系统抽样时共分成40组,抽样间隔为5,第5组的号码为22,则第8组的号码为22+5×3=37.在分层抽样时,由于40岁以下年龄段人数占总数的50%,故40岁以下年龄段应抽取40×50%=20(人).答案:37208.一个总体中有100个个体,随机编号为0,1,2,…,99.依编号顺序平均分成10个小组,组号依次为1,2,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是.解析:由题设知,若m=6,则在第7组中抽取的号码个位数字与13的个位数字相同,而第7组中的编号依次为60,61,62,63,…,69.故在第7组中抽取的号码是63.答案:639.某学校有学生3 000人,现在要抽取100人组成夏令营,应该怎样抽取样本?分析:因为总体中个体数较多,且无差异,所以按系统抽样的步骤来进行抽样.解:按系统抽样抽取样本,其步骤如下.第一步:把这些学生分成100个组,因为所以每个组30名学生,这时,抽样距就是30.第二步:将3 000名学生随机编号为1,2, (3000)第三步:在第1组用简单随机抽样确定起始个体的编号l(0<l≤30).第四步:按照一定的规则抽取样本,通常是将起始编号l加上分段间隔30得到第2个个体编号l+30,再加上30得到第3个个体编号l+60,这样继续下去,直到获取整个样本.比如l=15,则抽取的编号为15,45,75,105,…,2985.这些号码对应的学生组成样本.10.为了考察某校的教学水平,将抽取这个学校本学年高三年级部分学生的考试成绩,为了全面地反映实际情况,采取以下三种方式进行抽样(已知该校高三年级共有20个教学班,并且每个班的学生都已经按随机方式编好了学号,假定该校每个班的学生人数都相同).①从全年级20个班中任意抽取一个班,再从该班中任意抽取20人,考察他们的考试成绩;②每个班都抽取1人,共计20人,考察这20个学生的考试成绩;③把学生按成绩分成优秀、良好、普通三个级别,从其中抽取100名学生进行考察(已知若按成绩分,该校高三学生中优秀生共有150人,良好生共有600人,普通生共有250人).根据上面的叙述,试回答下列问题:(1)上面三种抽取方式中,其总体、个体、样本分别指什么?每一种抽取方式所抽取的样本中,其样本容量分别是多少?(2)上面三种抽取方式中各自采用何种方法抽取样本?(3)试分别写出上面三种抽取方式各自抽取样本的步骤.解:(1)在这三种抽取方式中,其总体都是该校本学年高三全体学生的考试成绩,个体都是本学年高三年级每个学生的考试成绩.其中第一种抽取方式中样本为所抽取的本学年20名学生的考试成绩,样本容量为20;第二种抽取方式中样本为所抽取的本学年20名学生的考试成绩,样本容量为20;第三种抽取方式中样本为所抽取的本学年100名学生的考试成绩,样本容量为100.(2)在上面三种抽取方式中,第一种方式采用的是简单随机抽样;第二种方式采用的是系统抽样和简单随机抽样;第三种方式采用的是分层抽样和简单随机抽样.(3)第一种方式抽取样本的步骤如下:首先在这20个班中用抽签法任意抽取一个班,然后从这个班中按学号用随机数法或抽签法抽取20个学生,考察其考试成绩.第二种方式抽取样本的步骤如下:首先在第一个班中,用简单随机抽样法任意抽取一个学生,记其学号为a.然后在其余的19个班中,选取学号为a的学生,共计20人.第三种方式抽取样本的步骤如下:首先分层.因为若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人,所以在抽取样本时,应该把全体学生分成三层.然后确定各层抽取的人数.因为样本容量与总体的个体数之比为100∶1 000=1∶10,所以在每层抽取的个体数依次为即15,60,25.最后按层分别抽取.在优秀生中用简单随机抽样抽取15人,在良好生中用简单随机抽样抽取60人,在普通生中用简单随机抽样抽取25人.。
2023年高考数学一轮复习精讲精练第31练 统计与统计模型(解析版)
第31练 统计与统计模型学校____________ 姓名____________ 班级____________一、单选题1.2022年2月4日至2月20日春节期间,第24届冬奥会在北京市和张家口市联合举行.共有3个冬奥村供运动员和代表队官员入住,其中北京冬奥村的容量约为2250人,延庆冬奥村的容量约1440人,张家口冬奥村的容量约2610人.为了解各冬奥村服务质量,现共准备了140份调查问卷,采用分层抽样的方法,则需在延庆冬奥村投放的问卷数量是( ) A .58份 B .50份C .32份D .19份【答案】C 【详解】在延庆冬奥村投放的问卷数量是144014032225014402610⨯=++份.故选:C.2.从某小区随机抽取100户居民用户进行月用电量调查,发现他们的月用电量都在50~300kw ·h 之间,适当分组(每组为左闭右开区间)后绘制成如图所示的频率分布直方图.则直方图中x 的值以及在被调查的用户中月用电量落在区间[)100,250内的户数分别为( )A .0.0046,72B .0.0046,70C .0.0042,72D .0.0042,70【答案】A 【详解】根据频率分布直方图的面积和为1,得()0.00240.00380.0060.0032501x ++++⨯=,解得0.0046x =,月用电量落在区间[)100,250内的频率为()0.00380.0060.0046500.72f =++⨯=,所以在被调查的用户中月用电量落在区间[)100,250内的户数为1000.7272⨯=户.故选:A. 3.某市有11名选手参加了田径男子100米赛的选拔比赛,前5名可以参加省举办的田径赛,如果各个选手的选拔赛成绩均不相同,选手小强已经知道了自己的成绩,为了判断自己能否参加省举办的田径赛,他还需要知道这11名选手成绩的()A.平均数B.中位数C.众数D.方差【答案】B【详解】因为11名选手成绩的中位数恰好是第6名,知道了第6名的成绩,小强就可以判断自己是否能参加省举办的田径赛了,其余数字特征不能反映名次.故选:B.4.在2022北京冬奥会单板滑雪U型场地技巧比赛中,6名评委给A选手打出了6个各不相同的原始分,经过“去掉其中一个最高分和一个最低分”处理后,得到4个有效分.则经处理后的4个有效分与6个原始分相比,一定会变小的数字特征是()A.平均数B.中位数C.众数D.方差【答案】D【详解】去掉最大值与最小值这组数的平均值大小不确定,中位数不变,众数大小不确定,根据方差的定义,去掉最高分,最低分后,剩余四个数据的波动性小于原来六个数据的波动性,故方差一定会变小.故选:D5.某地教育局为了解“双减”政策的落实情况,在辖区内高三年级在校学生中抽取100名学生,调查他们课后完成作业的时间,根据调查结果绘制如下频率直方图.根据此频率直方图,下列结论中不正确的是()A.所抽取的学生中有25人在2小时至2.5小时之间完成作业B.该地高三年级学生完成作业的时间超过3小时的概率估计为35%C.估计该地高三年级学生的平均做作业的时间超过2.7小时D.估计该地高三年级有一半以上的学生做作业的时间在2小时至3小时之间【答案】D【详解】对A ,直方图中2小时至2.5小时之间的频率为()2.520.50.25-⨯=,故所抽取的学生中有1000.25⨯=25人在2小时至2.5小时之间完成作业,故A 正确;对B ,由直方图得超过3小时的频率为0.5(0.30.20.10.1)0.35⨯+++=,所以B 正确; 对C ,直方图可计算学生做作业的时间的平均数为:1.250.05 1.750.152.250.25 2.750.203.250.15⨯+⨯+⨯+⨯+⨯3.750.10 4.250.05 4.750.05+⨯+⨯+⨯ 2.75 2.7=>,所以C 正确;对D ,做作业的时间在2小时至3小时之间的频率为0.5(0.50.4)0.450.5⨯+=<,所以D 错误. 故选:D .6.某电脑公司有3名产品推销员,其工作年限与年推销金额数据如下表所示:由表中数据算出线性回归方程y bx a =+中的726b =.若第4名推销员的工作年限为6年,则估计他的年推销金额为( )A .2万元 B .3万元 C .3.3万元 D .3.5万元【答案】B 【详解】 由题意,得351063x ++==,23433y ++==, 所以718362613a y bx =-=-⨯=,即7182613y x =+. 当6x =时,718632613y =⨯+=. 故选:B .7.为了保证乘客的安全,某市要对该市出租车司机的年龄进行调查,现从中随机抽出100名司机,已知抽到的司机年龄都在[)20,45岁之间,根据调查结果,得出司机的年龄情况残缺的频率分布直方图如图所示,利用这个残缺的频率分布直方图估计该市出租车司机年龄的中位数大约是( )A .31.6岁B .32.6岁C .33.6岁D .36.6岁【答案】C 【详解】设第二组矩形的高为h ,则()0.010.070.060.0251h ++++⨯=,解得0.04h =. 设中位数为a ,前2个矩形的面积之和为()0.010.0450.25+⨯=,前3个矩形的面积之和为()0.010.040.0750.6++⨯=,所以,()30,35a ∈, 所以,()0.0150.0450.07300.5a ⨯+⨯+⨯-=,得0.253033.60.07a =+≈. 故选:C .8.在一项调查中有两个变量x 和y ,如图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y 关于x 的回归方程的函数类型是( )A .y a bx =+B .y c d x=+C .2y m nx =+D .x y p qc =+()0q >【答案】B 【详解】解:散点图呈曲线,A 中函数为线性函数,不合题意,排除A 选项; 由散点图可知整体呈增长态势,且增长速度变慢,对B 选项中函数,当0d >时,函数为单调递增函数,且增长速度逐渐变慢,符合题意,故B 正确;对于C 选项,当0n >时,函数为开口向上的二次函数,增长先慢后快,不合题意,当0n <时,函数为开口向下的二次函数,增长先慢后快,不合题意,排除选项C ; 对于D 选项,函数为指数型函数,当1c >时单调递增,且越增越快,不合题意, 当01c <<时为单调递减函数,不合题意,故排除D ;故选:B9.《电信条例》规定任何单位和个人未经电信用户同意,不得向其发送商业信息.某调研小组对某社区居民持有的35部手机在某特定时间段内接收的商业信息进行统计,绘制了如下所示的茎叶图,现按照接收的商业信息由少到多对手机进行编号为1~35号,再用系统抽样方法从中依次抽取7部手机,若被抽取的第一部手机接收商业信息的条数是133,则第4部手机接收的商业信息的条数是( )A .141B .143C .145D .148【答案】B 【详解】由题,根据系统抽样方法定义,抽取的手机编号间隔为3557=,第一部手机编号为3号,故第四部手机编号为35318+⨯=号,即143, 故选:B10.在发生某公共卫生事件期间,有专业机构认为该事件在一段事件内没有发生大规模群体感染的标志是“连续10日,每天新增疑似病例不超过7人”.过去10日,甲、乙、丙、丁四地新增疑似病例数据信息如下: 甲地:总体平均数为3,中位数为4; 乙地:总体平均数为1,总体方差大于0; 丙地:中位数为2,众数为3; 丁地:总体平均数为2,总体方差为3.则甲、乙、丙、丁四地中,一定没有发生大规模群体感染的是( ) A .甲地 B .乙地C .丙地D .丁地【答案】D 【详解】对于甲地,若连续10日的数据为0,0,0,0,4,4,4,4,4,10,则满足平均数为3,中位数为4,但不符合没有发生大规模群体感染的标志,A 错误;对于乙地,若连续10日的数据为0,0,0,0,0,0,0,0,0,10,则满足平均数为1,方差大于0,但不符合没有发生大规模群体感染的标志,B 错误;对于丙地,若连续10日的数据为0,0,1,1,2,2,3,3,3,10,则满足中位数为2,众数为3,但不符合没有发生大规模群体感染的标志,C 错误;对于丁地,若总体平均数为2,假设有一天数据为8人,则方差()22182 4.538s >⨯-=>,不可能总体方差为3,则不可能有一天数据超过7人,符合没有发生大规模群体感染的标志,D正确.故选:D.二、多选题11.某市商品房调查机构随机抽取n名市民,针对其居住的户型结构和满意度进行了调查,如图1调查的所有市民中四居室共300户,所占比例为13,二居室住户占16.如图2是用分层抽样的方法从所有调查的市民的满意度问卷中,抽取10%的调查结果绘制成的统计图,则下列说法错误的是()A.样本容量为90B.样本中三居室住户共抽取了35户C.据样本可估计对四居室满意的住户有110户D.样本中对二居室满意的有3户【答案】BC【详解】解:如图1调查的所有市民中四居室共300户,所占比例为13,二居室住户占16,∴30090013=,二居室有19001506⨯=户,三居室有450户,由图1和图2得:在A中,样本容量为:90010%90n=⨯=,故A正确;在B中,样本中三居室住户共抽取了45010%45⨯=户,故B错误;在C中,根据样本可估计对四居室满意的住户有30040%120⨯=户,故C错误;在D中,样本中对二居室满意的有15010%20%3⨯⨯=户,故D正确.故选:BC.12.某校举行“永远跟党走、唱响青春梦”歌唱比赛,在歌唱比赛中,由9名专业人士和9名观众代表各组成一个评委小组给参赛选手打分.根据两个评委小组(记为小组A、小组B)对同一名选手打分的分值绘制成折线图如图所示,则()A.小组A打分的分值的众数为47B.小组B打分的分值第80百分位数为69C.小组A是由专业人士组成的可能性较大D.小组B打分的分值的方差小于小组A打分的分值的方差【答案】AC【详解】由折线图知,小组A打分的9个分值排序为:42,45,46,47,47,47,50,50,55,小组B打分的9个分值排序为:36,55,58,62,66,68,68,70,75;对于A:小组A打分的分值的众数为47,故选项A正确;对于B:小组B打分的分值第80百分位数为980%7.2⨯=,所以应排序第8,所以小组B打分的分值第80百分位数为70,故选项B不正确;对于C:小组A打分的分值比较均匀,即对同一个选手水平对评估相对波动较小,故小组A更像是由专业人士组成,故选项C正确;对于D:小组A打分的分值的均值约47.7,小组B打分的分值均值为62,根据数据的离散程度可知小组B波动较大,方差较大,选项D不正确;故选:AC三、解答题13.网购是现代年轻人重要的购物方式,截止:2021年12月,我国网络购物用户规模达8.42亿,较2020年12月增长5968万,占网民整体的81.6%.某电商对其旗下的一家专营店近五年来每年的利润额i y(单位:万元)与时间第i t年进行了统计得如下数据:(1)依据表中给出的数据,是否可用线性回归模型拟合y 与t 的关系?请计算相关系数r 并加以说明(计算结果精确到0.01).(若0.75r ≥,则线性相关程度很高,可用线性回归模型拟合)(2)试用最小二乘法求出利润y 与时间t 的回归方程,并预测当7t =时的利润额.附:()()nnii i itt y y t yntyr ---∑∑,()()()1122211ˆnnii i i i i nniii i tty y t y ntybtttnt ====---==--∑∑∑∑,ˆˆay bt =-. 参考数据:5189.5ii i t y==∑14.785≈.【答案】(1)0.98,y 与t 的线性相关程度很高,可以用线性回归模型拟合. (2)ˆ 1.450.65yt =+,10.8万元. 【解析】(1)由题表,()11234535t =⨯++++=,()1 2.6 3.1 4.5 6.88.055y =⨯++++=因为5189.5i i i t y==∑所以5514.50.980.7514.785i it y tyr -==≈≈>∑. 故y 与t 的线性相关程度很高,可以用线性回归模型拟合. (2) 515221514.5ˆ 1.45105i ii ii t y tybtt ==-===-∑∑,ˆˆ5 1.4530.65a y bt =-=-⨯=, 所以ˆ 1.450.65yt =+.当7t =时,ˆ 1.4570.6510.8y =⨯+=. 预测该专营店在7t =时的利润为10.8万元.14.2021年4月22日,一则“清华大学要求从2019级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响.游泳作为一项重要的求生技能和运动项目受到很多人的喜爱.其实,已有不少高校将游泳列为必修内容.某中学为了解2020届高三学生的性别和喜爱游泳是否有关,对100名高三学生进行了问卷调查,得到如下列联表:已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为35.(1)请将上述列联表补充完整;(2)判断是否有99.9%的把握认为喜欢游泳与性别有关.附:22()()()()()n ad bc K a b c d a c b d -=++++,【解析】(1)(1)因为在100人中随机抽取1人抽到喜欢游泳的学生的概率为35,所以喜欢游泳的学生人数为3100605⨯=.其中女生有20人,男生有40人,列联表补充如下:(2)因为222()100(40302010)16.66710.828()()()()60405050n ad bc K a b c d a c b d -⨯⨯-⨯==≈>++++⨯⨯⨯, 所以有99.9%的把握认为喜欢游泳与性别有关.15.在某生态系统中,有甲、乙两个种群,两种群之间为竞争关系.设t 时刻甲、乙种群的数量分别为()f t ,()g t (起始时刻为0t =).由数学家Lotka 和Volterra 提出的模型是函数()f t ,()g t 满足方程()()()()f t af t bf t g t '=-,()()()()g t cg t df t g t '=-,其中a ,b ,c ,d 均为非负实数.(1)下图为没有乙种群时,一段时间内甲种群数量与时间的关系折线图.为预测甲种群的数量变化趋势,研究人员提出了两种可能的数学模型:①()f t n =;①()tf t m n =⋅,其中m ,n 均为大于1的正数.根据折线图判断,应选用哪种模型进行预测,并说明理由.(2)设0.08a c ==,20.008d b ==.①函数()()()0.08e2tF t f t g t -⎡⎤=-⎣⎦的单调性;①根据①中的结论说明:在绝大多数情况下,经过充分长的时间后,或者甲种群灭绝,或者乙种群灭绝.注:在题设条件下,各种群数量均有上限值.【答案】(1)应选用模型①预测甲种群数量的变化趋势;理由见解析 (2)①()F t 为常函数;①答案见解析 【解析】(1)由折线图知,甲种群数量的增长速度随着时间的推移而加快.而增长速度大致对应种群数量对时间的导数. 如选用模型①,()f t '=,()f t '是关于时间的减函数,不符合折线图; 如选用模型①,()ln t f t mn n '=,()f t '是关于时间的增函数,符合折线图. 所以应选用模型①预测甲种群数量的变化趋势 (2)由题设知()0.08()0.004()()f t f t f t g t '=-,()0.08()0.008()()g t g t f t g t '=-.(i )0.08()e [2()()]t F t f t g t -=-,[]0.08()e0.16()0.08()2()()tF t f t g t f t g t -'''=-++-. 消去条件中的()()f t g t 得[]()0.08()2()0.08()g t g t f t f t ''-=-,所以()0F t '=.所以()F t 为常函数.(ii )由(i ),()(0)2(0)(0)F t F f g ==-,0.082()()[2(0)(0)]e tf tg t f g -=-.由于各种群数量均有上限值,不妨设甲乙种群数量的上限值分别为1M ,2M . ①若()()020g f >,()()2g t f t >. 则当2225ln 2(0)2(0)M t g f ->-时,0.081()()(2(0)(0))e 12t f t g t f g ⎡⎤=--<⎣⎦,此时可以近似认为甲种群灭绝;①若()()020g f <,()()2g t f t <. 则当1225ln 22(0)(0)M t f g >-时,0.08()2()(2(0)(0))e 1t g t f t f g =--<,此时可以近似认为乙种群灭绝;①若()()020g f =,()()2g t f t =,甲乙种群数量之比保持恒定,可能不出现灭绝的情况. 综上所述,对所有(0)2(0)g f ≠的情况,经过充分长的时间后,或者甲种群灭绝,或者乙种群灭绝。
高三数学第一轮复习:统计(二)(理)知识精讲人教实验版(B)
高三数学第一轮复习:统计(二)(理)人教实验版(B )【本讲教育信息】一. 教学内容:高三复习专题:统计(二)二. 考纲要求(1)变量的相关性①会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系.②了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.(2)统计案例:了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. ①独立检验:了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. ②回归分析:了解回归的基本思想、方法及其简单应用.三. 知识分析 【知识梳理】(一)变量的相关性1、变量与变量之间的关系常见的有两类:一类是确定的函数关系;另一类是变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的.2、如果一个变量的值由小变大,另一个变量的值也由小变大,这种相关称为正相关,如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关。
3、在平面直角坐标系中,用描点的方法得到具有相关关系的两个变量的图形叫散点图.4、回归直线方程$y bx a =+,其中a y bx=-$。
(二)统计案例1、当23.841χ>时,有95%的把握说事件A 与B 有关; 当2 6.635χ>时,有99%的把握说事件A 与B 有关; 当2 3.841χ≤时,认为事件A 与B 是无关的。
2、$121()()()ni i i n i i x x y y b x x a y bx==⎧--⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑$$,其中1111,,n n i i i i x x y y n n ====∑∑,则直线$$y a bx =+$就成为此直线的线性回归方程,其中$,a b$分别为a ,b 的估计值。
3、相关系数()()nniii ix x y y x y nx yr ---==∑∑,用它来衡量两个变量之间的线性相关程度。
高三数学一轮总复习 专题十五 统计含解析 试题
创作人:历恰面日期:2020年1月1日专题十五、统计抓住2个高考重点重点1 抽样方法1. 随机抽样的方法(1)简单随机抽样的方法有:抽签法和随机数表法.抽签法的步骤:①将总体中的个体随机编号,并把号码写在形状、大小一样的号签上;②将这些号签放在同一个容器里,均匀搅拌;③每次从中抽取一个号签,连续抽取,获取样本号码.随机数表法的步骤:①将总体中的个体随机编号;②在随机数表中选择开场的数字;③获取样本号码.(2)系统抽样的步骤:①将总体中的个体随机编号;②将编号分段;③在第1段中用简单随机抽样确定起始的个体编号;④按照事先研究的规那么抽取样本.(3)分层抽样的步骤:①分层;②按比例确定每层抽取个体的个数;③各层抽样〔方法可以不同〕;④集合成样本.2.三种抽样方法的比拟[高考常考角度]角度1一支田径队有男运发动48人,女运发动36人,假设用分层抽样的方法从该队的全体运发动中抽取一个容量为21的样本,那么抽取男运发动的人数为___________. 解析:设抽取男运发动人数为n ,那么36482148+=n ,解之得12=n . 或者者: 4821124836n =⨯=+角度2将参加夏令营的600名学生编号为:001,002,……600,采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495住在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数一次为〔 〕A .26, 16, 8,B .25,17,8C .25,16,9D .24,17,9解析:依题意可知,在随机抽样中,首次抽到003号,以后每隔12个号抽到一个人,那么分别是003、015、027、039⋅⋅⋅⋅⋅⋅构成以3为首项,12为公差的等差数列,3(1)12129n a n n =+-⨯=-,故可分别求出在001到300中有25人,在301至495号中一共有17人,那么496到600中有8人, 应选B 。
高中数学必修3(人教B版)第二章统计2.2知识点总结含同步练习题及答案
4. 某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方 图,其中产品净重的范围是 [96, 106] ,样本数据分组为 [96, 98) , [98, 100) , [100, 102) ,
[102, 104) , [104, 106] ,已知样本中产品净重小于 100 克的个数是 36 ,则样本中净重大于或等于 98 克
并且小于 104 克的产品的个数是 (
).
A.90
答案: A 解析: 产品净重小于
B.75
C.60
D.45
100 克的概率为 (0.050 + 0.100) × 2 = 0.300 , 已知样本中产品净重小于 100 克的个数是 36 ,设样本容量为 n , 36 则 ,所以 n = 120 ,净重大于或等于 98 克并且小于 n 104 克的产品的概率为 (0.100 + 0.150 + 0.125) × 2 = 0.75 ,所以样本 中净重大于或等于 98 克并且小于 104 克的产品的个数是 120 × 0.75 = 90 .
).
A.2, 5
答案: C
B.5, 5
C.5, 8
D.8, 8
3. 样本中共有五个个体,其值分别为 a, 0, 1, 2, 3 ,若该样本的平均值为 1 ,则样本方差为 (
− − 6 A.√ 5
答案: D 解析:
)
B.
6 5
C.√2
D.2
a+0+1+2+3 = 1 ,得 a = −1 . 5 1 所以 s2 = [(−1 − 1)2 + (0 − 1)2 + (1 − 1)2 + (2 − 1)2 + (3 − 1)2 ] = 2 . 5
高考数学真题分类汇编第二章统计含解析新人教版必修3
统计1. (2012·陕西高考卷·T6·5分) 从甲乙两个城市别离随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示),设甲乙两组数据的平均数别离为x 甲,x 乙,中位数别离为m 甲,m 乙,则( )A.x x <甲乙,m 甲>m 乙B.x x <甲乙,m 甲<m 乙C.x x >甲乙,m 甲>m 乙D.x x >甲乙,m 甲<m 乙【解析】从茎叶图来看乙中数据集中,甲比较分散,所以18+2227+31==20==29..22x x m m B <<∴甲乙甲乙,又选 【答案】B【点评】该题主要考查统计图表和样本数据特征和数据处置能力. 2. (2012·山东高考卷·T4·5分)采用系统抽样方式从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,……,960,分组后在第一组采用简单随机抽样的方式抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C.则抽到的人中,做问卷B 的人数为(A )7 (B ) 9 (C ) 10 (D )15 【答案】C【解析】采用系统抽样方式从960人中抽取32人,将整体分成32组,每组30人,即30=l ,第k 组的号码为930)1(+-k ,令750930)1(451≤+-≤k ,而z k ∈,解得2516≤≤k ,则知足2516≤≤k 的整数k 有10个,故答案应选C 。
【点评】本题考查了抽样方式,注意到系统抽样原则的应用,是对学生推理能力的考查。
分层抽样也是重要考点,明年可能考分层抽样。
3. (2012·江西高考卷·T9·5分) 样本(12,,,n x x x )的平均数为x ,样本(12,,m y y y )的平均数为()y x y ≠,若样本(12,,,n x x x ,12,,m y y y )的平均数(1)z x y αα=+-,其中102α<<,则,n m 的大小关系为 A .n m < B .n m > C .n m = D .不能肯定【答案】A【解析】本题考查统计中的平均数,作差法比较大小和整体思想.由统计学知识,可得1212,n m x x x nx y y y my +++=+++=,()()()12121n m x x x y y y m n z m n x y αα⎡⎤+++++++=+=++-⎣⎦.()()()1m n x m n y αα=+++-,所以()()()1nx my m n x m n y αα+=+++-.所以()()(),1.n m n m m n αα=+⎧⎪⎨=+-⎪⎩故()[(1)]()(21)n m m n m n ααα-=+--=+-. 因为102α<<,所以210α-<.所以0n m -<.即n m <. 【点评】要牢固掌握统计学中一些大体特征:如平均数,中位数,方差,标准差等的求法. 表现考纲中要求会用样本的大体数字特征估量整体的大体数字特征.来年需要注意频率散布直方图中平均值,标准差等的求解等. 4. (2012·安徽高考卷·T5·5分) 甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则(A )甲的成绩的平均数小于乙的成绩的平均数 (B )甲的成绩的中位数等于乙的成绩的中位数 (C )甲的成绩的方差小于乙的成绩的方差 (D )甲的成绩的极差小于乙的成绩的极差 【答案】C【解析】由条形图易知甲的平均数为4567865x ++++==甲,中位数为6,方差为()()2222222101225s-+-+++==甲,极差为844-=;乙的平均数为35682955x ⨯++==乙,中位数为5,方差为222241163257+4830561555==2512512525s ⎛⎫⎛⎫⎛⎫⨯-++ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭==>乙,极差为954-=,故x x >甲乙,甲乙中位数不相等且22s s >乙甲.【易错警示】本题学生很容易选择D 选项,把极差误看成频数的极差,造成误判.5. (2012·湖南高考卷·T4·5分)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,按照一组样本数据(x i ,y i )(i=1,2,…,n ),用最小二乘法成立的回归方程为y =,则下列结论中不正确的是与x 具有正的线性相关关系B.回归直线过样本点的中心(x ,y )C.若该大学某女生身高增加1cm ,则其体重约增加0.85kgD.若该大学某女生身高为170cm ,则可判定其体重比为58.79kg 【答案】D【解析】【解析】由回归方程为y =知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法成立的回归方程得进程知ˆ()ybx a bx y bx a y bx =+=+-=-,所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估量整体,所以D 不正确. 【点评】本题组要考查两个变量间的相关性、最小二乘法及正相关、负相关的概念,而且是找不正确的答案,易错.6.(2011年四川)有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5) 2 [15.5,19.5) 4 [19.5,23.5) 9 [23.5,27.5) 18 [27.5,31.5) 1l [31.5,35.5) 12 [35.5.39.5) 7 [39.5,43.5) 3 按照样本的频率散布估量,数据落在[31.5,43.5)的概率约是A .16 B .13C .12 D .23【答案】B【解析】从31.5到43.5共有22,所以221663P ==。
苏教版高中数学必修3第2章 统计 全章复习讲义设计(含答案解析)
【知识梳理】知识点一:抽样方法从调查的对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项指标做出推断,这就是抽样调查.调查对象的全体称为总体,被抽取的一部分称为样本.1.简单的随机抽样简单随机抽样的概念:设一个总体的个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.①用简单随机抽样从含有N个个体的总体中抽取一个容量为n的样本时,每次抽取一个个体时,任一个体被抽到的概率为1N ;在整个抽样过程中各个个体被抽到的概率为nN;②简单随机抽样的特点是:不放回抽样,逐个地进行抽取,各个个体被抽到的概率相等;③简单随机抽样方法体现了抽样的客观性与公平性,是其他更复杂抽样方法的基础.简单抽样常用方法:①抽签法:先将总体中的所有个体(共有N个)编号(号码可从1到N),并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌,抽签时每次从中抽一个号签,连续抽取n次,就得到一个容量为n的样本.适用范围:总体的个体数不多.优点:抽签法简便易行,当总体的个体数不太多时适宜采用抽签法.②随机数表法:随机数表抽样“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码.【解析】由题意可得1011910,5x y ++++=22222(10)(10)(1010)(1110)(910)25x y -+-+-+-+-=,解得12,8.||4x y x y ==-=,故选D .例3. 对某电子元件进行寿命追踪调查,情况如下:寿命(h ) 100~200 200~300300~400400~500500~600个 数2030804030(1)列出频率分布表;(2)画出频率分布直方图和累积频率分布图; (3)估计电子元件寿命在100~400 h 以内的概率; (4)估计电子元件寿命在400 h 以上的概率.【思路点拨】 通过本题可掌握总体分布估计的各种方法和步骤. 【解析】(1)频率分布表如下:寿命(h ) 频 数 频 率 累积频率 100~200 20 0.10 0.10 200~300 30 0.15 0.25 300~400 80 0.40 0.65 400~500 40 0.20 0.85 500~600 30 0.15 1 合 计2001(2)频率分布直方图如下:(3)由累积频率分布图可以看出,寿命在100~400 h内的电子元件出现的频率为0.65,所以我们估计电子元件寿命在100~400 h内的概率为0.65.(4)由频率分布表可知,寿命在400 h以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400 h以上的概率为0.35.【总结升华】画频率分布条形图、直方图时要注意纵、横坐标轴的意义.举一反三:【变式1】为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁-18岁的男生体重(kg) ,得到频率分布直方图如下:根据上图可得这100名学生中体重在〔56.5,64.5〕的学生人数是()(A)20 (B)30 (C)40 (D)50【答案】C;【解析】根据运算的算式:体重在〔56.5,64.5〕学生的累积频率为2×0.03+2×0.05+2×0.05+2×0.07=0.4,则体重在〔56.5,64.5〕学生的人数为0.4×100=40.【变式2】某班学生在一次数学考试中成绩分布如下表:分数段[0,80)[80,90)[90,100)人数 2 5 6)分数段[100,110)[110,120 [120,130)人数8 12 6分数段[130,140)[140,150)人数 4 2那么分数在[100,110)中的频率和分数不满110分的累积频率分别是_______、_______(精确到0.01). 【答案】0.18 0.47【解析】由频率计算方法知:总人数=45.分数在[100,110)中的频率为458=0.178≈0.18. 分数不满110分的累积频率为458652+++=4521≈0.47【变式3】为检测某种产品的质量,抽取了一个容量为30的样本,检测结果为一级品5件,二级品8件,三级品为13件,次品4件 (1)列出样本频率分布表;(2)画出表示样本频率分布的条形图;(3)根据上述结果,估计商品为二级品或三级品的概率约是多少? 【解析】(1)样本的频率分布表为产品频数频率 一级品 5 0.17 二级品 8 0.27 三级品 13 0.43 次品40.13(2)样本频率分布的条形图为:(3)此种产品为二级品或三级品的概率约为0.27+0.43=0.7.例4.甲、乙两小组各10名学生的英语口语测试成绩如下:(单位:分) 甲组 76 90 84 86 81 87 86 82 85 83 乙组 82 84 85 89 79 80 91 89 79 74 用茎叶图表示两小组的成绩,并判断哪个小组的成绩更整齐一些?【思路点拨】学会用茎叶图表示数据的方法;并会进行统计推断.【解析】用茎叶图表示两小组的成绩如图:由图可知甲组成绩较集中,即甲组成绩更整齐一些.【总结升华】对各数据是二、三位数,且数据量不是很大时,用茎叶图表示较为方便,也便于进行统计推断,否则,应改用其他方法.举一反三:【变式1】甲、乙两个学习小组各有10名同学,他们在一次数学测验中成绩的茎叶图如图所示,则他们在这次测验中成绩较好的是组.【答案】甲小组类型三:变量的相关性和回归分析例5.某产品的广告支出x(单位:万元)与销售收入y(单位:万元)之间有下表所对应的数据:广告支出x(单位:万元) 1 2 3 4销售收入y(单位:万元)12 28 42 56(1) 画出表中数据的散点图;(2)求出y对x的回归直线方程;(3)若广告费为9万元,则销售收入约为多少万元?【解析】(1)作出的散点图如下图所示(2)观测散点图可知各点大致分布在一条直线附近,由此可知散点图大致表现为线性相关.列出下表:序号 x y X 2xy 1 1 12 1 12 2 2 28 4 56 3 3 42 9 126 44 56 16 224 ∑1013830418易得569,22x y ==所以 414222156944184732255304()42i ii ii x y xyb xx ==--⨯⨯===-⨯-∑∑ 697352252a y bx =-=-⨯=- 故y 对x 的回归直线方程为73ˆ25yx =- (3)当x=9时, 73ˆ92129.45y=⨯-= 012 3 4x(万元)Y(万元)1020 30 40 50 60 .. . .08.0423.15=⨯-=-=bx y a .∴线性回归方程为:08.023.1^+=+=x a bx y .(2)当x=10时,38.1208.01023.1^=+⨯=y (万元) 即估计使用10年时维修费用是12.38万元.【变式2】一个工厂在某年里每月产品的总成本y (万元)与该月产量x (万件)之间有如下一组数据:x 1.08 1.12 1.19 1.28 1.36 1.48 y 2.25 2.37 2.40 2.55 2.64 2.75 x 1.59 1.68 1.80 1.87 1.98 2.07 y 2.92 3.03 3.14 3.26 3.36 3.50(1)画出散点图;(2)求月总成本y 与月产量x 之间的回归直线方程. 【解析】(1)画出散点图:(2)设回归直线方程a bx y+=ˆ, 利用计算a ,b ,得b ≈1.215, 974.0ˆ≈-=+=x b y a bx y,从中抽取一个容量为100的样本,较为恰当的抽样方法是( )A.简单随机抽样B.系统抽样C.分层抽样D.以上三种均可3. 从N 个编号中抽取n 个号码入样,若采用系统抽样方法进行抽取,则分段间隔应为( ) A .n N B .n C .⎥⎦⎤⎢⎣⎡n N D.1+⎥⎦⎤⎢⎣⎡n N 4.下列说法错误的是 ( )A .在统计里,把所需考察对象的全体叫做总体B .一组数据的平均数一定大于这组数据中的每个数据C .平均数、众数与中位数从不同的角度描述了一组数据的集中趋势D .一组数据的方差越大,说明这组数据的波动越大5.要从已编号(160:)的60枚最新研制的某型导弹中随机抽取6枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的6枚导弹的编号可能是( )A .5,10,15,20,25,30B .3,13,23,33,43,53C .1,2,3,4,5,6D .2,4,8,16,32,486. 某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用下面的条形图表示,根据条形图可得这50名学生这一天平均每人的课外阅读时间为( ) A.0.6 h B.0.9 h C.1.0 h D.1.5 h7.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果按如下方式分成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;……;第六组,成绩大于等于18秒且小于等于19秒.下图是按上述分组方法得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x ,成绩大于等于15秒且小于17秒的学生人数为y ,则从频率分布直方图中可分析出x 和y 分别为( )A .0.9,35B .0.9,45C .0.1,35D .0.1,458.根据某水文观测点的历史统计数据,得到某条河流水位的频率分布直方图(如图).从图中可以看出,该水文观测点平均至少一百年才遇到一次的洪水的最低水位是( ) A .48米B .49米C .50米D .51米9.用系统抽样法要从160名学生抽取容量为20的样本,将160名学生从1~160编号.按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组应抽出的号码为126,则第一组中抽签方法确定的号码是________.10.从一堆苹果中任取了20只,并得到它们的质量(单位:克)数据分布表如下:分组 [)90100, [)100110, [)110120, [)120130, [)130140, [)140150, 频数1231031则这堆苹果中,质量不小于...120克的苹果数约占苹果总数的 %.11.某校有学生2000人,其中高三学生500人,为了解学生的身体素质情况,采用按年级分层抽样的方法,从该校学生中抽取一个200人的样本,则样本中高三学生的人数为 . 12.甲,乙两人在相同条件下练习射击,每人打5发子弹,命中环数如下甲 6 8 9 9 8乙 10 7 7 7 9则两人射击成绩的稳定程度是__________________.13.为了了解初三学生女生身高情况,某中学对初三女生身高进行了一次测量,所得数据整理后列出了频率分布表如下:组别频数频率145.5~149.5 1 0.02149.5~153.5 4 0.08153.5~157.5 20 0.40157.5~161.5 15 0.30161.5~165.5 8 0.16165.5~169.5 m n合计M Nm n M N所表示的数分别是多少?(1)求出表中,,,(2)画出频率分布直方图.(3)全体女生中身高在哪组范围内的人数最多?14.从两个班中各随机的抽取10名学生,他们的数学成绩如下:甲班76 74 82 96 66 76 78 72 52 68乙班86 84 62 76 78 92 82 74 88 85画出茎叶图并分析两个班学生的数学学习情况.15.对甲、乙的学习成绩进行抽样分析,各抽5门功课,得到的观测值如下:问:甲、乙谁的平均成绩最好?谁的各门功课发展较平衡?16.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为2150m 时的销售价格.【答案与解析】1.【答案】B 【解析】∵n40=0.125,∴n=320.故选B. 2. 【答案】C 3. 【答案】C 【解析】剔除零头 4. 【答案】B【解析】平均数不大于最大值,不小于最小值 5. 【答案】B 【解析】60106=,间隔应为10 6. 【答案】B 【解析】505.020)5.11(1025⨯++⨯+⨯=0.9.7.【答案】A【解析】由图知,成绩小于17秒的学生人数占全班总人数的频率为0.020.180.360.340.9+++=, 所以0.9x =;成绩大于等于15秒且小于17秒的的频率为0.360.340.7+=,104416461451222222=++++=)(甲s 5627313751222222=++++=)(乙s ∵ 22乙甲乙甲,s s x x >>∴ 甲的平均成绩较好,乙的各门功课发展较平衡16.【解析】(1)数据对应的散点图如图所示:(2)1095151==∑=i i x x ,1570)(251=-=∑=x x l i i xx , 308))((,2.2351=--==∑=y y x x l y i i i xy设所求回归直线方程为a bx y +=), 则1962.01570308≈==xx xyl l b 8166.115703081092.23≈⨯-=-=x b y a 故所求回归直线方程为8166.11962.0+=x y )(3)据(2),当2150x m =时,销售价格的估计值为: 2466.318166.11501962.0=+⨯=y )(万元)。
高中数学典型例题解析:第十二章 统计.doc
第十二章 统计12.1抽样方法一、 知识导学 1.抽签法:(1)将总体中的所有个体编号(号码可以从1到N );(2)将1到N 这N 个号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作);(3)将号签放在同一箱中,并搅拌均匀;(4)从箱中每次抽出1个号签,并记录其编号,连续抽取k 次; (5)从总体中将与抽到的签的编号相一致的个体取出. 2.随机数表法:(1)对总体中的个体进行编号(每个号码位数一致); (2)在随机数表中任选一个数作为开始;(3)从选定的数开始按一定的方向读下去,得到的数码若不在编号中,则跳过;若在编号中,则取出;如果得到的号码前面已经取出,也跳过;如此继续下去,直到取满为止; (4) 根据选定的号码抽取样本. 3.系统抽样(等距抽样):(1)采用随机的方式将总体中的个体编号; (2)将整个的编号按一定的间隔(设为k )分段,当nN(N 为总体中的个体数,n 为样本容量)是整数时,n N k =;当nN 不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数N /能被n 整除,这时nN k /=,并将剩下的总体重新编号;(3)在第一段中用简单随机抽样确定起始的个体编号l ; (4)将编号为k n l k l k l l )1(.,,.........2,,-+++的个体抽出.4.分层抽样:(1)将总体按一定标准分层;(2)计算各层的个体数与总体的个数的比;(3)按各层个体数占总体的个体数的比确定各层应抽取的样本容量; (4)在每一层进行抽样(可用简单随机抽样或系统抽样). 二.疑难知识导析1.简单随机抽样是从总体中逐个不放回地抽取.2.简单随机抽样和系统抽样都是一种等概率抽样,即每个个体被抽到的可能性都是相同的. 3.简单随机抽样适用于总体中个体较少的情况;系统抽样适用于总体中个体数较多的情形;分层抽样用于总体由几个差异明显的部分组成的情况.4. 分层抽样时,在每一层内进行抽样时可根据具体情况,采用简单随机抽样或系统抽样. 5. 在使用分层抽样时,在每一层内抽样的比例相同. 三.经典例题导讲[例1]某工厂生产A,B,C,D 四种不同型号的产品,产品数量之比依次为2:3:5:1,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号有16件,那么此样本容量n 是多少?错解:样本容量1615322+++⨯=2(件)错因:混淆了A 型号产品与样本容量的比例关系.正解:在分层抽样中,每一层所抽的个体数的比例与总体中各层个体数的比例是一致的,所以,样本容量为881621532=⨯+++=n答:此样本容量为88件.[例2]从1002名学生中选取100名进行抽样检查.请用系统抽样法设计一种方案,叙述其步骤. 解:(1)将1002名学生进行编号,号码分别为1,2,……,1002; (2)用随机数表法剔除2个个体,并将剩下的学生重新编号,号码分别为1,2,……1000;(3)将1000个号码平均分成100组,并在第一组1,2,……,10中用简单随机抽样法确定一个号码(如l ); (2) 将号码为l l l l +++990,......20,10,的个体抽出.[例3]某学校有名学生,从中选取加学生代表大会,采用简单随机抽样方法进行抽样,是用抽签法还是随机数表法?如何具体实施?分析:由于学生人数较大,制作号签比较麻烦,所以决定用随机数表法 解:采用随机数表法 实施步骤:(1) 对名同学进行编号,0000-(2) 在随机数表中随机地确定一个数作为开始,如21行45列的数字9开始的4位:9706;依次向下读数,5595,4904,………,如到最后一行,转向左边的四位数字号码,并向上读,凡不在0000-范围内的,则跳过,遇到已读过的数也跳过,最后得到号码为:0011,0570,1449,1072,1338,0076,1281,1866,1349,0864,0842,0161,1839,0895,1326,1454,0911,1642,0598,1855的学生组成容量为本.[例4]某工厂有3条生产同一产品的流水线,每天生产的产品件数分别是3000件,4000件,8000件.若要用分层抽样的方法从中抽取一个容量为150件产品的样本,应该如何抽样? 解:总体中的个体数N=3000+4000+8000=15000样本容量n=150抽样比例为100115000150==N n 所以应该在第一条流水线生产的产品中随机抽取30001001⨯=30件产品 在第二条流水线生产的产品中随机抽取:40001001⨯=40件产品 在第三条流水线生产的产品中随机抽取:50001001⨯=50件产品这里因为每条流水线所生产的产品数都较多,所以,在每条流水线的产品中抽取样品时,宜采用系统抽样方法 四.典型习题导练1.为了解某班50名同学的会考及格率,从中抽取10名进行考查分析,则在这次考查中,考查的总体内个体总数为 样本容量为 .2.采用系统抽样从含有个个体的总体(编号为0000,0001,……,1999)中抽取一个容量为100的样本,则第一段的编号为 若在第一段中用简单随机抽样得到起始个体编号为0013,则前6个入样编号为 .3.某市为了了解职工的家庭生活状况,先将职工所在的国民经济行业分成13类,然后每个行业抽1001的职工家庭进行调查,这种抽样方法是 . 4.用分层抽样的方法在一个企业中抽取一个样本容量为50的样本,其中在管理营销部门抽了15人,技术部门10人,其余在生产工人中抽取,已知该企业有生产工人375人,那么这个企业共有多少职工?5.采用简单随机抽样从含有5个人的身高的总体{}173,171,161,167,162中抽取一个容量为2的样本,写出全部样本,并计算各个样本的平均值,各样本平均值的平均值.12.2频率分布直方图、折线图与茎叶图一、知识导学1.频率分布表:反映总体频率分布的表格.2.一般地,编制频率分布表的步骤如下:(1)求全距,决定组数和组距,组距=组数全距;(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;(3)登记频数,计算频率,列出频率分布表.3. 频率(分布)直方图:利用直方图反映样本的频率分布规律. 4. 一般地,作频率分布直方图的方法为:(1)把横轴分成若干段,每一线段对应一个组的组距;(2)以此线段为底作矩形,它的高等于该组的组距频率,这样得出一系列的矩形;(3)每个矩形的面积恰好是该组上的频率.5. 频率折线图:如果将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起,就得到一条折线,称这条折线为本组数据的频率折线图.6. 制作茎叶图的方法是:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出. 二、疑难知识导析1. 在编制频率分布表时,要选择适当的组距和起始点才可以使频率分布表更好地反映数据的分布情况.2. 在编制频率分布表时,如果取全距时不利于分组(如不能被组数整除),可适当增大全距,如在左右两端各增加适当范围(尽量使两端增加的量相同).3. 频率折线图的优点是它反映了数据的变化趋势,如果将样本容量取得足够大,分组的组距取得足够小,则这条折线将趋于一条曲线,我们称这一曲线为总体分布的密度曲线. 4. 茎叶图对于分布在0~99的容量较小的数据比较合适,此时,茎叶图比直方图更详尽地表示原始数据的信息.5. 在茎叶图中,茎也可以放两位,后面位数多可以四舍五入后再制图. 三、典型例题导讲[例1]一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人用再用分层抽样方法抽出100人作进一步调查,则在[)3000,2500(元)月收入段应抽出 人.解析:由直方图可得[2500,3000)(元)月收入段共有100000.00055002500⨯⨯=人, 按分层抽样应抽出10025002510000⨯=人.故 答案 25点评:频率分布直方图中,关健要理解图中数据的意义,特别是图中每个小矩形的面积才是这一组距内个体的频率.[例2]从有甲乙两台机器生产的零件中各随机抽取15个进行检验,相关指标的检验结果为: 甲:534,517,528,522,513,516,527,526,508,533,524,518,522,512 乙:512,523,516,530,510,518,521,528,532,507,516,524,526,514 画出上述数据的茎叶图 错解:甲 乙 8 0 787632 1 024668 87642 2 013468 43 3 02 4错因:对于两位数是将两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出,对于三位数字,应该把前两位数字作为茎,最后一位数字作为叶,然后从图中观察数据的分布情况,而不是仍考虑两位数,尽管此题的效果一样. 正解:用前两位数作为茎,茎叶图为甲 乙 8 50 787632 51 024668 87642 52 013468 43 53 02 54从图中可以看出,甲机床生产的零件的指标分布大致对称,平均分在5,中位数和众数都是522,乙机床生产的零件的指标分布也大致对称,平均分也在5,中位数和众数分别是516,总的看,甲的指标略大一些.[例3]在绘制频率分布直方图的第三个矩形时,矩形高度① 与这个矩形的宽度(组距)有关; ② 与样本容量n 无关; ③ 与第三个分组的频数有关; ④ 与直方图的起始点无关. 以上结论中正确的共有()A .0个 B.1个 C. 2个 D.3个错解:D.错因:起始点与组距均影响第三组的频数,所以矩形高度与以上各因素均有关,①③正确,正解:C.[例4]根据中国银行的外汇牌价,第一季度的60个工作日中,欧元的现汇买入价(100欧元的外汇可兑换的人民币)的分组与各组频数如下:〔1050,1060〕:1,〔1060,1070〕:7,〔1070,1080〕:1080,1090〕:11,〔1090,1100〕:13,〔1100,1110〕:6,〔1110,112. (1)列出欧元的现汇买入价的频率分布表;(2)估计欧元的现汇买入价在区间1065~1105内的频率;(3)如果欧元的现汇买入价不超过x 的频率的估计值为0.95,求此x(2)欧元现汇买入价在区间1065~1105内的频率的估计值为84.01100111011001105100.0217.0183.0333.01060107010651070117.0=--⨯++++--⨯(3)因为0.017+0.117+0.333+0.183+0.217=0.867〈0.95,0.017+……+0.217+0.100=0.967〉0.95,所以x 在[1100,1110]内,且满足0.867+0.1003.1108,95.0110011101100≈∴=--⨯x x 即欧元现汇买入价不超过1108.3的频率的估计为0.95 [例如果80分以上(包括80分)定为成绩优秀,60分以上(包括60分)定为成绩及格.那么,在这个班级的这次成绩统计中,成绩不及格的频率是多少?成绩及格的频率是多少?成绩优秀的频率是多少?解:被统计的对象(参加这次考试的本班学生)共有2+6+12+21+7+2=50个.60分以上的有48个,80分以上的有所以成绩不及格的频率是04.0502=,成绩及格的频率是96.05048=,成绩优秀的频率是4.05020=.说明 要计算一组数据中某个对象的频率,要先计算数据的总的个数,再计算符合这个对象要求的数据的个数.某个对象可以是一个确定的数据,也可以是在某一范围内数据的总数.[例6]在英语单词frequency 和英语词组relative frequency 中,频数最大的各是哪个字母?它们的频数和频率各是多少?解:在frequency 和英语词组relative frequency 中,频数最大的字母都是e ,在单词frequency 中,e 的频数是2,频率是92;在词组relative frequency 中,e 的频数是4,频率是174.点评:在两组数据中,同一个对象的频数相等,但频率不一定相等,频数大,不一定频率大.在同一组数据中,某两个对象的频数相等,频率也相等;频数大,频率也大. 二、典型习题导练1.为了了解某地区高三学生的身体发育情况,抽查了该地区10龄为185.17-岁的男生体重kg ,得到频率分布直方图如下:根据上图可得这100名学生中体重在]5.64,5.56[的学生人数是( ). A . B.30 C.40 D. 502. 一个容量为800的样本,某组的频率为6.25%,则这一组的频数是 3. 某校随机抽取了生,测量得到的视力数据如下:4.7,4.2,5.0,4.1,4.0,4.9,5.1,4.5,4.8,5.2,5.0,4.0,4.5,4.8,4.7,4.8,4.6,4.9,5.3,4.0(1) 列出频率分布表(共分5组)(2) 估计该校学生的近视率(视力低于4.9)4. 用一个容量为样本制作频率分布直方图时,共分13组,组距为6,起始点为10,第4组的频数为25,则直方图中第4个小矩形的宽和高分别是多少? 5. 学生某次考试的成绩的分组及各组频率如下表:则及格率,优秀率()的估计分别是6.某地随机检查了140名成年男性红细胞(/1012L ),数据的分组及频率如下表:(1)完成上面的频率分布表(2)根据上面的图表,估计成年男性红细胞数在正常值(4.0~5.5)内的百分比7.名著《简爱》的中英文版本中,第一节部分内容每句句子所含单词(字)数如下:英文句子所含单词数10,52,56,40,79,9,23,11,10,21,30,31;中文句子所含字数11,79,7,3,33,45,36,87,9,11,37,17,18,71,75,51. (1)作出这些数据的茎叶图;(2)比较茎叶图,你能得到什么结论?12.3平均数、方差与标准差一、知识导学1.n 个数据1a ,2a ,…….n a 的平均数或平均值一般记为-a =na a a n+++........21.2.一般地,若取值n x x x ,......,,21的频率分别为n p p p ,......,,21,则其平均数为n n p x p x p x +++......2211.3.把一组数据的最大值与最小值的差称为极差.4. 一般地,设一组样本数据n x x x ,......,,21,其平均数为-x ,则称212)(1∑=--=n i i x x n s 为这个样本的方差,算术平方根21)(1∑=--=ni i x x n s 为样本的标准差,分别简称样本方差,样本标准差. 二、疑难知识导析1.平均数,中位数和众数都是总体的数字特征,从不同角度反映了分布的集中趋势,平均数是最常用的指标,也是数据点的“重心”位置,它易受极端值(特别大或特别小的值)的影响,中位数位于数据序列的中间位置,不受极端值的影响,在一组数据中,可能没有众数,也可能有多个众数.2.方差和标准差是总体的数字特征,反映了分布的分散程序(波动大小),标准差也会受极端值(特别大或特别小的值)的影响.3.分布的分散程序还可以用极差来描述,但较粗略.4.样本方差也可以用公式21221x x n s n i i -=∑=计算.三、经典例题导讲[例1]某人5次上班途中所花的时间(单位:分钟)分别为.9,11,10,,y x 已知这组数据的平均数为10,方差为2,则y x -的值为( )A .1 B.2 C.3 D.4解:由平均数公式为10,得1051)91110(=⨯++++y x ,则20=+y x ,又由于方差为2,则()()()()()[]25110910111010101022222=⨯-+-+-+-+-y x 得20822=+y x 1922=xy所以有()42222=-+=-=-xy y x y x y x ,故选D.[例2]数据n x x ,,1 是一名运动员的n 次射击的命中环数,则他的平均命中环数的估计是( ).A .样本平均数均值∑==ni i x n x 11 B .样本极差),,m in(),,m ax (11n n x x x x R -=C .样本方差212)(1x x n s n i i -=∑= D .样本平均差AD=∑=-n i i x x n 11错解:C.错因:后三个选项都表示了样本的波动程度,不能用于总体平均值的估计. 正解:A.[例3]某房间中10个人的平均身高为1.74米,身高为1.85米的第11个人,进入房间后,这11个人的平均身高是多少?解:原来的10个人的身高之和为17.4米,所以,这11个人的平均身高为1185.11074.1+⨯=1.75.即这11个人的平均身高为1075米[例4]若有一个企业,70%的人年收入1万,25%的人年收入3万,5%的人年收入11万,求这个企业的年平均收入及年收入的中位数和众数解:年平均收入为12%511%253%70=⨯+⨯+⨯(万);中位数和众数均为1万(1)计算所有人员的月平均收入;(2)这个平均收入能反映打工人员的月收入的一般水平吗?为什么?(3)去掉老板的收入后,再计算平均收入,这能代表打工人员的月收入的水平吗? (4)根据以上计算,以统计的观点对(3)的结果作出分析 解:(1)平均收入711=-x (3000+450+350+400+310)=750元 (2)这个平均收入不能反映打工人员的月收入水平,可以看出打工人员的收入都低于平均收入,因为老板收入特别高,这是一个异常值,对平均收入产生了较大的影响,并且他不是打工人员(3)去掉老板后的月平均收入612=-x (450+350+400+310)=375元.这能代表打工人员的月收入水平(4)由上可见,个别特殊数据可能对平均值产生大的影响,因此在进行统计分析时,对异常值要进行专门讨论,有时应剔除之 四、典型习题导练A .4 B.4.4 C.8 D.8.82.8名新生儿的身长(cm )分别为50,51,52,55,53,54,58,54,则新生儿平均身长的估计为 ,约有一半的新生儿身长大于等于 ,新生儿身长的最可能值是 .用上述分组资料计算得病人平均等待时间的估计值-x = ,病人等待时间的标准差的估计值s =4.样本1021,......,,x x x 的平均数为5,方差为7,则3()()()13,......,13,11021---x x x 的平均数、方差,标准差分别为5.下面是一个班级在一次测验时的成绩(已按从小到大的次序排列),分别计算男生和女生的成绩和平均值,中位数以及众数,试问中位数的含义是什么?对比两个平均值和中位数,你分析一下这个班级的学习情况男生:55,55,61,65,68,71,72,73,74,75,78,80,81,82,87,94女生:53,66,70,71,73,73,75,80,80,82,82,83,84,85,87,88,90,93,94,976.某工厂甲,乙两个车间包装同一产品,在自动包装传送带上每隔30min 抽一包产品,称其重量是否合格,分别记录抽查数据如下:甲车间:102,101,99,103,98,99,98;乙车间:110,105,90,85,75,115,110. (1)这样的抽样是何种抽样方法?(2)估计甲、乙两车间的均值与方差,并说明哪个车间的产品较稳定.12.4线性回归方程一、知识导学1. 变量之间的常见关系有如下两类:一类是确定性函数关系,变量之间的关系可以用函数表示;一类是相关关系,变量之间有一定的联系,但不能完全用函数来表达 2. 能用直线方程a bx y +=^近似表示的相关关系叫做线性相关关系当a,b 使2222211)(......)()(a bx y a bx y a bx y Q n n --++--+--=取得最小值时,就称a bx y +=∧为拟合这n 对数据的线性回归方程,将该方程所表示的直线称为回归直线.4.线性回归方程a bx y +=∧中的系数b a ,满足:⎪⎪⎩⎪⎪⎨⎧=+⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡+⎥⎦⎤⎢⎣⎡∑∑∑∑∑=====ni i ni i n i ii n i i n i i y na b x y x a x b x 111112 由此二元一次方程组便可依次求出a b ,的值:⎪⎪⎪⎩⎪⎪⎪⎨⎧-=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-=--=====∑∑∑∑∑x b y a x x n y x y x n b ni i n i i n i i n i i n i i i 2112111(*) 5.一般地,用回归直线进行拟合的一般步骤为: (1)作出散点图,判断散点是否在一条直线附近;(2)如果散点在一条直线附近,用公式(*)求出b a ,,并写出线性回归方程.二、疑难知识导析1.现实世界中两个变量的关系中更多的是相关关系而不是确定性关系,许多物理学中公式看起来是确定性关系,实际上由于公式的使用范围,测量误差等的影响,试验得到的数据之间是相关关系.2.用最小二乘估计方法计算得到的b a ,使函数()b a Q ,达到最小3.还有其他寻找较好的回归直线的原则(如使y 方向的偏差和最小,使各点到回归直线的距离之和最小等)4. 比较相关关系绝对值的大小可以比较一组变量之间哪两个变量有更强的(线性)相关关系.5. “最好的”直线方程中“最好”可以有多种解释,也就有不同的求解方法,现在广泛采用的最小二乘法所用的思想是找到使散点到直线a bx y +==在垂直方向上的距离的平方和最小的直线a bx y +=,用这个方法,b a ,的求解最简单 三、经典例题导讲问y 与x 的(样本)相关系数r 是多少?这是否说明y 与x 没有关系? 错解:040707))((7171=⨯⨯-=-=--∑∑==xy y x y y x xi i i i i i所以相关系数r=0,即y 与x 没有关系.错因:相关系数r=0并不是说明y 与x 没有关系,而是说明y 与x 没有线性相关关系,但有可能有非线性相关关系. 正解:040707))((7171=⨯⨯-=-=--∑∑==xy y x y y x xi i i i i i所以相关系数r=0,即y 与x 没有线性相关关系,但有可能有非线性相关关系. 此题中y 与x 之间存在着2x y =的二次相关关系的.分析:可将此问题转化为下面三个问题:(1)画出散点图,根据散点图,大致判断月总成本y 与月产量之间是否有线性相关关系; (2)求出月总成本y 与月产量x 之间的线性回归方程;(5) 若1月份该产品的计划产量是6吨,试估计该产品1月份的总成本. 错解:省去第一步,即把判断判断月总成本y 与月产量之间是否有线性相关关系的过程舍去,想当然其具有线性相关关系,直接代入公式,求出线性回归方程.错因:此题的月总成本y 与月产量x 之间确实是有线性相关关系,若不具有则会导致错误.因此判断的过程不可少. 正解:(1)散点图见下面,从图中可以看到,各点大致在一条直线附近,说明x 与y 有较强的线性相关关系.(2)代入公式(*)得:a=0.9100,b=0.6477,线性回归方程是:y=0.9100x+0.6477. (3)当x=6.0时,y=0.910011.66477.00.6≈+⨯(万元),即该产品1月份的总成本的估计值为6.11万元.[例3]变量y 与x 有线性回归方程a bx y +=,现在将y 的单位由cm 变为x m ,的单位由ms变为s ,则在新的回归方程**a xb y +=中.=*a .错解:0.1a错因:由 ⎪⎪⎪⎩⎪⎪⎪⎨⎧-=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-=--=====∑∑∑∑∑x b y a x x n y x y x n b n i i n i i n i i n i i ni i i 2112111且y 的值变为原来的210- ,x 的值变为原来的310-可得*a 的值应为原来的210-.正解:0.01a高度(距离)与时间之间的关系由公式22gt s =给出,这里g 是重力加速度的值. (1)画出s 关于t 的散点图,这些点在一条直线附近吗?(2)设2t x =,画出s 关于x 的散点图,这些点在一条直线附近吗?(3)求出s关于x的线性回归方程.解:(1)高度s关于时间t的散点图见下面,从图中可以看到这些点似乎在一条直线附近,也好像在一条抛物线附近(2)高度s关于x的散点图见下面,从图中可以看到这些散点大致在一条直线附近(3)可以求得s关于x的线性回归方程是s=0.0004901x-18.8458(2)求出y与x之间的线性回归方程;(3)如果父亲的身高为73英寸,估计儿子的身高.解:(1)散点图见下面:(2)从散点图可以看出,这些点都分布在一条直线附近,可求得线性回归方程为98.354645.0+=∧x y(3)当73=x 时,9.6998.35734645.0≈+⨯=∧y所以当父亲的身高为73英寸时,估计儿子的身高约为69.9英寸. 四、典型习题导练1.回归直线方程的系数a,b 的最小二乘估计使函数),(b a Q 最小,Q 函数指( ).A .21)(∑=--ni i ibx a yB.∑=--ni i i bx a y 1C .2)(i i bx a y -- D.i i bx a y --2.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论在儿子的身高y 与父亲的身高x 的线性回归方程bx a y +=∧中,b ( ).A .在(-1,0)内 B.等于0 C .在(0,1)内 D.在[1,+∞]内3.在研究硝酸钠的可溶性程度时,对不同的温度观测它在水中的溶解度,得到观测结果如下:则由此得到的回归直线的斜率是 (保留4位有效数字)4.下面的数据是年龄在40至60岁的男子中随机抽取的6个样本,分别测定了心脏功能水5.某地区近年来冬季的降雨量x(cm)与次年夏季空气中碳氢化合物的最高平均浓度y (ppm ),你认为y与x是什么关系?y与n是什么关系?6.每立方米混凝土的水泥用量x(单位:kg)与28天后混凝土的托压强度(单位:kg/cm2)(2)如果y与x具有线性相关关系,求线性回归方程.。
高三数学复习专讲练第二讲概率与统计
200人,1 000人,为了了解两所学校全体高三年级学生在
该地区六校联考的数学成绩情况,采用分层抽样方法从两
所学校一共抽取了110名学生的数学成绩,并作出了频数分
布统计表如下: 甲校:
分组 [70,80)
[80,90) [90,100) [100,110)
频率
3
4
8
15
分组 [110,120) [120,130) [130,140) [140,150]
从而三棱锥共 2C41C34+C24C42-10=58 个,每个三棱锥有三 对异面直线,故 P=58C×2283=2693.
答案:B
(2)(2012·广州模拟)向面积为 S 的△ABC 内任投一点 P,
则△PBC 的面积小于S3的概率是________. 解析:作 DE∥BC 分别交直线 AB,AC 于点 D,E,
[解析] 依题意得,属于醉酒驾车的人数约为 (0.01×10+0.005×10)×500=75.
[答案] 75
(3)某篮球队甲、乙两名队员在本赛季已结束的8场比赛 中得分统计的茎叶图如下:
(1)比较这两名队员在比赛中得分的均值和方差的大小; (2)从乙比赛得分在20分以下的6场比赛中随机抽取2场进 行失误分析,求抽到恰好有1场得分不足10分的概率.
使得DBCE=23,则 P 取四边形 BCED 中任意一点即可满足题
意,所以所求的概率为S四S边△形ABBCCED=59. 答案:59
[方法总结] 概率问题多考查古典概型与几何概型,常 以选择、填空题形式考查,解决此类问题首先要注意分析判 断是哪种概率模型,然后,选用相应的概率计算公式计 算.在古典概型中要注意基本事件个数的确定,常用的方法 有列表法、枚举法等.
高三数学 高三复习专题:统计(一)知识精讲 人教实验版(B)
高三数学高三复习专题:统计(一)知识精讲人教实验版(B)一. 教学内容:高三复习专题:统计(一)二. 考纲要求(1)随机抽样:①理解随机抽样的必要性和重要性.②会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法(2)总体估计①了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.②理解样本数据标准差的意义和作用,会计算数据标准差.③能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.④会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.⑤会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题.三. 知识分析【知识梳理】(一)随机抽样1、一种最简单、最基本的抽样方法是简单随机抽样。
简单随机抽样有两种选取个体的方法:放回和不放回。
我们在抽样调查中用的是不放回抽样,也就是每次从总体中抽取元素后不再将这个元素放回总体。
2、一般地,从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时,总体中的各个个体都有相同的可能性被抽到,这种抽样方法叫做简单随机抽样,这样抽取的样本,叫做简单随机样本。
常用的简单随机抽样方法有抽签法和随机数表法。
3、抽签法的优点是简单易行,缺点是当总体容量较大时,费时、费力又不方便。
况且,如果标号的纸片或小球搅拌得不均匀,可能导致抽样的不公平。
4、随机数表是由0,1,2,…,9这10个数字组成的数表,并且表中的每一位置出现各个数字的可能性相同。
通过随机数生成器,例如使用计算器或计算机的应用程序生成随机数的功能,可以生成一X随机数表。
通常根据实际需要和方便使用的原则,将几个组合成一组,如5个数一组,然后通过随机数表抽取样本。
5、当总体元素个数很大时,样本容量就不宜太小,采用简单随机抽样,就显得费事.这时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样.6、系统抽样与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时,采用的是简单随机抽样。
2023年新高考数学一轮复习讲义精讲精练第31讲 统计与统计模型(解析)
第31讲统计与统计模型学校____________ 姓名____________ 班级____________一、知识梳理数据的收集与直观表示1.总体、个体、样本与样本容量考察问题涉及的对象全体是总体,总体中每个对象是个体,抽取的部分对象组成总体的一个样本,一个样本中包含的个体数目是样本容量.2.普查与抽样调查(1)普查:一般地,对总体中每个个体都进行考察的方法称为普查(也称为全面调查).(2)抽样调查:只抽取样本进行考察的方法称为抽样调查.3.简单随机抽样(1)定义:一般地,简单随机抽样(也称为纯随机抽样)就是从总体中不加任何分组、划类、排队等,完全随机地抽取个体.(2)两种常用方法:抽签法,随机数表法.4.分层抽样一般地,如果相对于要考察的问题来说,总体可以分成有明显差别的、互不重叠的几部分时,每一部分可称为层,在各层中按层在总体中所占比例进行随机抽样的方法称为分层随机抽样(简称为分层抽样).5.数据的直观表示(1)常见的统计图表有柱形图、折线图、扇形图、茎叶图、频数分布直方图、频率分布直方图等.(2)频率分布直方图①作频率分布直方图的步骤(ⅰ)找出最值,计算极差:即一组数据中最大值与最小值的差;(ⅱ)合理分组,确定区间:根据数据的多少,一般分5~9组;(ⅲ)整理数据:逐个检查原始数据,统计每个区间内数的个数(称为区间对应的频数),并求出频数与数据个数的比值(称为区间对应的频率),各组均为左闭右开区间,最后一组是闭区间;(ⅳ)作出有关图示:根据上述整理后的数据,可以作出频率分布直方图,如图所示.频率分布直图的纵坐标是频率组距,每一组数对应的矩形高度与频率成正比,而且每个矩形的面积等于这一组数对应的频率,从而可知频率分布直方图中,所有矩形的面积之和为1.②频率分布折线图作图的方法都是:把每个矩形上面一边的中点用线段连接起来.为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的.不难看出,虽然作频率分布直方图过程中,原有数据被“压缩”了,从这两种图中也得不到所有原始数据.但是,由这两种图可以清楚地看出数据分布的总体态势,而且也可以得出有关数字特征的大致情况.比如,估计出平均数、中位数、百分位数、方差.当然,利用直方图估计出的这些数字特征与利用原始数据求出的数字特征一般会有差异.数据的数字特征、用样本估计总体1.数据的数字特征(1)最值一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数最极端的情况.(2)平均数①定义:如果给定的一组数是x1,x2,…,x n,则这组数的平均数为x-=1n(x1+x2+…+x n).这一公式在数学中常简记为x-=1n∑ni=1x i,②性质:一般地,利用平均数的计算公式可知,如果x1,x2,…,x n的平均数为x ,且a ,b 为常数,则ax 1+b ,ax 2+b ,…,ax n +b 的平均数为a x -+b . (3)中位数有奇数个数,且按照从小到大排列后为x 1,x 2,…,x 2n +1,则称x n +1为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为x 1,x 2,…,x 2n ,则称x n +x n +12为这组数的中位数. (4)百分位数①定义:一组数的p %(p ∈(0,100))分位数指的是满足下列条件的一个数值:至少有p %的数据不大于该值,且至少有(100-p )%的数据不小于该值. ②确定方法:设一组数按照从小到大排列后为x 1,x 2,…,x n ,计算i =np %的值,如果i 不是整数,设i 0为大于i 的最小整数,取xi 0为p %分位数;如果i 是整数,取x i +x i +12为p %分位数. (5)众数一组数据中,出现次数最多的数据称为这组数据的众数. (6)极差、方差与标准差①极差:一组数的极差指的是这组数的最大值减去最小值所得的差,描述了这组数的离散程度. ②方差定义:如果x 1,x 2,…,x n 的平均数为x ,则方差可用求和符号表示为s 2=1n ∑ni =1(x i -x -)2=1n ∑n i =1x 2i -x -2. 性质:如果a ,b 为常数,则ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2. ③标准差定义:方差的算术平方根称为标准差.一般用s 表示,即样本数据x 1,x 2,…,x n 的标准差为s =1n ∑n i =1(x i -x )2.性质:如果a ,b 为常数,则ax 1+b ,ax 2+b ,…,ax n +b 的标准差为|a |s .2.用样本的数字特征估计总体的数字特征一般情况下,如果样本容量恰当,抽样方法合理,在估计总体的数字特征时,只需直接算出样本对应的数字特征即可.统计模型1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系. (2)相关关系的分类:正相关和负相关.(3)线性相关:如果变量x 与变量y 之间的关系可以近似地用一次函数来刻画,则称x 与y 线性相关. 2.相关系数(1)r =∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2∑n i =1(y i -y -)2=∑ni =1x i y i -n x -y-(∑ni =1x 2i -nx -2)(∑ni =1y 2i -ny 2).(2)当r >0时,成对样本数据正相关;当r <0时,成对样本数据负相关. (3)|r |≤1;当|r |越接近1时,成对样本数据的线性相关程度越强;当|r |越接近0时,成对样本数据的线性相关程度越弱. 3.一元线性回归模型(1)我们将y ^=b^x +a ^称为y 关于x 的回归直线方程,其中⎩⎪⎨⎪⎧b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑n i =1x i y i -n x -y -∑n i =1x 2i -n x-2,a ^=y ^-b ^x -.(2)残差:观测值减去预测值,称为残差. 4.2×2列联表和χ2如果随机事件A 与B 的样本数据的2×2列联表如下.记n=a+b+χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).5.独立性检验统计学中,常用的显著性水平α以及对应的分位数k如下表所示.要推断“(1)作2×2列联表.(2)根据2×2列联表计算χ2的值.(3)查对分位数k,作出判断.如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A 与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.二、考点和典型例题1、数据的收集与直观表示【典例1-1】北京2022年冬奥会期间,某大学派出了100名志愿者,为了解志愿者的工作情况,该大学学生会将这100名志愿者随机编号为1,2,…,100,再从中利用系统抽样的方法抽取一个容量为20的样本进行问卷调查,若所抽中的最小编号为3,则所抽中的最大编号为()A.96B.97C.98D.99【答案】C【详解】由题意知,派出了100名志愿者中,利用系统抽样的方法抽取一个容量为20的样本进行问卷调查,可得间距为1005 20=,因为所抽样本中的最小编号为3,可得样本中最大编号为3(201)598+-⨯=.故选:C.【典例1-2】某社区卫生室为了了解该社区居民的身体健康状况,对该社区1100名男性居民和900名女性居民按性别采用等比例分层随机抽样的方法进行抽样调查,抽取了一个容量为100的样本,则应从男性居民中抽取的人数为()A.45B.50C.55D.60【答案】C【详解】应从男性居民中抽取的人数为1100100551100900⨯=+;故选:C.【典例1-3】已知某地区中小学生人数比例和近视情况分别如图甲和图乙所示,为了了解该地区中小学生的近视形成原因,用分层抽样的方法随机抽取1%的学生进行调查,其中被抽取的小学生有80人,则样本容量和该地区的高中生近视人数分别为()A.200,25B.200,2500C.8000,25D.8000,2500【答案】B【详解】由由扇形分布图结合分层抽样知识易知样本容量为80=20040%,则样本中高中生的人数为20025=⨯%50,易知总体的容量为50=5000 1%,结合近视率条形图得该地区高中生近视人数为500050=⨯%2500.故选:B.【典例1-4】将某市参加高中数学建模竞赛的学生成绩分成5组:[50,60),[60,70),[70,80),[80,90),[90,100),并整理得到频率分布直方图(如图所示).现按成绩运用分层抽样的方法抽取100位同学进行学习方法的问卷调查,则成绩在区间[70,80)内应抽取的人数为()A.10B.20C.30D.35【答案】D【详解】⨯=,解:依题意[70,80)中的频率为0.035100.35⨯=(人);所以[70,80)中应抽取0.3510035故选:D【典例1-5】某学校为调查学生参加课外体育锻炼的时间,将该校某班的40名学生进行编号,分别为00,01,02,…,39,现从中抽取一个容量为10的样本进行调查,选取方法是从下面的随机数表的第1行第11列开始向右读取数据,直到取足样本,则抽取样本的第6个号码为()908460798024365987388207538935963523 791805989007 35464062988054972056951574800832164670 50806772164275A.07B.40C.35D.23【答案】D【详解】重复的号码只能算作一个,抽取样本号码是24,36,38,07,35,23,18,05,20,15,所以抽取样本的第6个号码为23.故选:D2、数据的数字特征、用样本估计总体【典例2-1】某学校举行诗歌朗诵比赛,10位评委对甲、乙两位同学的表现打分,满分为10分,将两位同学的得分制成如下茎叶图,其中茎叶图茎部分是得分的个位数,叶部分是得分的小数,则下列说法错误的是()A .甲同学的平均分大于乙同学的平均分B .甲、乙两位同学得分的极差分别为2.4和1C .甲、乙两位同学得分的中位数相同D .甲同学得分的方差更小 【答案】D 【详解】对于甲,110x =甲(7.8+7.8+7.5+7.5+8.0+8.0+8.2+8.3+8.4+9.9)=8.14对于乙,1(7.57.87.87.88.08.08.38.38.58.5)8.0510x =+++++++++=乙 故A 正确.甲的极差9.97.5 2.4-=,乙的极差8.57.51-= 故B 正确. 甲得分的中位数8882+=,乙得分的中位数8882+=, 故C 正确. 对于甲,222222217.58.147.58.147.88.147.88.1488.1488.1410s ⎡=-+-+-+-+-+-⎣甲()()()()()()22228.28.148.38.148.48.149.98.14⎤-+-+-+-⎦()()()()0.390=,对于乙,22222221(7.58.05)(7.88.05)(7.88.05)(7.88.05)(88.05)(88.05)10s ⎡=-+-+-+-+-+-⎣乙2222(8.38.05)(8.38.05)(8.58.05)(8.58.05)⎤-+-+-+-⎦0.103=故D 错误. 故选D .【典例2-2】已知数据1x ,2x ,…,n x 的平均值为2,方差为1,若数据11ax +,21ax +,…,()10n ax a +>的平均值为b ,方差为4,则b =( ).A .5B .4C .3D .2【答案】A 【详解】因为1x ,2x ,…,n x 的平均值为2,方差为1,由数据11ax +,21ax +,…,()10n ax a +>的平均值为b ,方差为4,所以22114a b a ⋅+=⎧⎨⋅=⎩,解得2a =,5b =.故选:A .【典例2-3】某校高一年级1000名学生在一次考试中的成绩的频率分布直方图如图所示,现用分层抽样的方法从成绩40~70分的同学中共抽取80名同学,则抽取成绩50~60分的人数是( )A .20B .30C .40D .50【答案】B 【详解】从频率分布直方图可以看出三个分数段的的同学的频率之比为0.005:0.015:0.0201:3:4=,所以抽取成绩50~60分的人数为38030134⨯=++,故选:B【典例2-4】某高中为了了解本校学生考入大学一年后的学习情况,对本校上一年考入大学的同学进行了调查,根据学生所属的专业类型,制成饼图,现从这些同学中抽出100人进行进一步调查,已知张三为理学专业,李四为工学专业,则下列说法不正确的是( )A .若按专业类型进行分层抽样,则张三被抽到的可能性比李四大B .若按专业类型进行分层抽样,则理学专业和工学专业应抽取30人和20人C .采用分层抽样比简单随机抽样更合理D .该问题中的样本容量为100 【答案】A 【详解】对于选项A ,张三与李四被抽到的可能性一样大,故A 错误; 对于选项B ,理学专业应抽取的人数为3010030100⨯=, 工学专业应抽取的人数为2010020100⨯=,故B 正确; 对于选项C ,因为各专业差异比较大,所以采用分层随机抽样更合理,故C 正确; 对于选项D ,该问题中的样本容量为100,故D 正确. 故选:A.【典例2-5】如图是2021年青年歌手大奖赛中,七位评委为甲、乙两名选手打出的分数的茎叶图(其中m n 、均为数字09中的一个),在去掉一个最高分和一个是低分后,则下列说法错误的是( )A .甲选手得分的平均数一定大于乙选手得分的平均数B .甲选手得分的中位数一定大于乙选手得分的中位数C .甲选手得分的众数与m 的值无关D .甲选手得分的方差与n 的值无关 【答案】C 【详解】由题意,甲选手得分的平均数955120808055m x m+++++=+=+甲,乙选手得分的平均数1244718808055x ++++=+=+乙,故选项A 正确;无论m 为何值,甲选手得分的中位数一定是85,乙选手得分的中位数是84,故选项B 正确;当1m =时,甲选手得分的众数为81,85,当2m =时,甲选手得分的众数为85,故选项C 不正确;因为90n +是最高分,被去掉,故甲选手得分的方差与n 的值无关,故选项D 正确; 故选:C.3、统计模型【典例3-1】已知下列命题:①回归直线y bx a =+恒过样本点的中心(),x y ;①两个变量线性相关性越强,则相关系数r 就越接近于1; ①两个模型中残差平方和越小的模型拟合的效果越好. 则正确命题的个数是( ).A .0B .1C .2D .3 【答案】D【详解】由回归方程的性质可得,回归直线y bx a =+恒过样本点的中心(),x y ,①对,由相关系数的性质可得,两个变量线性相关性越强,则相关系数r 就越接近于1,①对, 根据残差的定义可得,两个模型中残差平方和越小的模型拟合的效果越好,①对, 故正确命题的个数为3,故选:D.【典例3-2】下列说法错误的是( )A .相关系数r 的绝对值越大,两个变量的线性相关性越强B .在回归分析中,残差平方和越大,模型的拟合效果越好C .相关指数20.64R =,表示解释变量对于预报变量变化的贡献率为64%D .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高【答案】B【详解】 1r ≤,相关系数r 的绝对值越接近1,两个变量的线性相关性越强,故A 正确; 在回归分析中,残差平方和越小,模型的拟合效果越好,故B 错误;相关指数20.64R =,表示解释变量对于预报变量变化的贡献率为64%,故C 正确;在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,故D 正确; 故选:B.【典例3-3】如图是一组实验数据构成的散点图,以下函数中适合作为y 与x 的回归方程的类型是( )A .y ax b =+B .2y ax c =+C .log a y b x c=+D .x y ba c =+【答案】D【详解】由散点图中各点的变化趋势:非线性、且R x ∈上单调递减,所以适合指数型模型.故选:D【典例3-4】当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身心健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:计算得到一些统计量的值为:661128.5,106.05i i i i i u x u ====∑∑,其中,ln i i u y =.若用模型e bx y a =拟合y 与x 的关系,根据提供的数据,求出y 与x 的经验回归方程;参考公式:对于一组数据(),i i x y (1,2,3,,i n =⋅⋅⋅),其经验回归直线ˆˆˆybx a =+的斜率和截距的最小二乘估计分别为1221ˆni i i n i i x y nxy b xnx =-=-=-∑∑,ˆˆa y bx =-. 【答案】0.36 3.49e x y +=【解析】解:因为e bx y a =两边取对数可得()ln ln e ln ln e bx bx y a a ==+,即ln ln y a bx =+,令ln i i u y =,所以ln u bx a =+,由611 4.756i i u u ===∑,()1123456 3.56x =+++++=,2222222112345691i i n x ==+++++=∑. 所以12221106.056 3.5 4.75ˆ0.36916 3.5n i ii n i i x u nxu b xnx ==--⨯⨯===-⨯-∑∑, 又ln ˆu bxa =+,即4.750.36 3.5ln a =⨯+, 所以ln 3.49a =,所以 3.49e a =.所以y 关于x 的经验回归方程为0.36 3.49e x y +=.【典例3-5】2022年北京冬奥会即第24届冬季奥林匹克运动会在2022年2月4日至2月20日在北京和张家口举行.某研究机构为了解大学生对冰壶运动是否有兴趣,从某大学随机抽取男生、女生各200人,对冰壶运动有兴趣的人数占总数的2740,女生中有80人对冰壶运动没有兴趣.(1)完成上面2×2列联表,并判断是否有99%的把握认为对冰壶运动是否有兴趣与性别有关?(2)按性别用分层抽样的方法从对冰壶运动有兴趣的学生中抽取9人,若从这9人中随机选出2人作为冰壶运动的宣传员,设X 表示选出的2人中女生的人数,求X 的分布列和数学期望.附:22()()()()()()n ad bc K n a b c d a b c d a c b d -==+++++++.【答案】(1)列联表见解析,有99%的把握认为对冰壶运动是否有兴趣与性别有关.(2)分布列见解析,8()9E X =. 【解析】(1)解:依题意对冰壶运动有兴趣的人数为()2720020027040⨯+=人, 则女生中对冰壶运动有兴趣的有20080120-=人,男生中对冰壶运动有兴趣的有270120150-=人, 所以男生中对冰壶运动无兴趣的有20015050-=人,所以22⨯列联表:22400(1508050120)40010.256 6.63527013020020039K ⨯⨯-⨯==≈>⨯⨯⨯, ∴有99%的把握认为对冰壶运动是否有兴趣与性别有关. (2) 解:从对冰壶运动有兴趣的学生中抽取9人,抽到的男生人数、女生人数分别为:15095270⨯=(人),12094270⨯=(人), 则X 的所有可能取值为0,1,2,所以2529C 105(0)C 3618P X ====, 114529C C 205(1)C 369P X ====, 4292C 61(2)C 366P X ====, 故X 的分布列是:故5518()01218969E X =⨯+⨯+⨯=.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一.抽样方法: 1.简单随机抽样:设一个总体的个数为N ,如果通过逐个抽样的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率都相等,就称这样的抽样为简单随机抽样。
抽签法和随机数表法是实施简单随机抽样的两种常用的方法。
2。
分层抽样:当已知总体由差异明显的几部分组成时,常常总体分成几部分,然后按照各部分所占的比例进行抽样,这种抽样叫分层抽样,其中所分成的各个部分叫做层。
二、利用样本频率估计总体分布:由于总体分布通常不易知道,我们往往用样本的频率分布估计总体分布。
一般地,样本容量越大,这种估计就越精确。
1、频率分布条形图:当总体中的个体取不同数值很少时,其频率分布表由所取的样本的不同数值及相应的频率表示,其几何表示就是相应的条形图。
2、频率分布直方图:当总体中的个体取不同数值很多时或者可以在实数区内取值时,用频率分布直方图表示相应样本的频率分布。
注:频率分布条形图和频率分布直方图不同。
频率分布直方图的纵轴(矩形的高)表示频率,而频率分布直方图的纵轴(矩形的高)表示频率与组距的比值,其相应组距上的频率等于该组距上的矩形的面积。
三.期望与方差: 1.期望:123,,,n a a a a 的期望:12na a a x n+++=;2.方差:123,,,n a a a a 的方差为:2222121[()()()]n S a x a x a x n=-+-++-3.均方差:123,,,n a a a a 的均方差:⎥⎦⎤⎢⎣⎡-++-+-=)(...)()(122221x a x a x a n n s 注:对于“已知123,,,n a a a a 的期望为多少,求12,,,n a a b a a b a a b ⋅+⋅+⋅+的期望和方差分别是多少?”问题,关键是利用上述公式变形、整理得到所求的结果。
平均数、众数和中位数这里说的“三数”是指平均数、众数和中位数.要描述一组数据的集中趋势,最重要也是最常见的方法就是用这“三数”来说明.学习平均数、众数和中位数应注意以下几个问题: 一、正确理解平均数、众数和中位数的概念1.平均数 平均数是反映一组数据的平均水平的特征数,反映一组数据的集中趋势.平均数的大小与一组数据里的每一个数据都有关系,任何一个数据的变化都会引起平均数的变化.2.众数 在一组数据中出现次数最多的数据叫做这一组数据的众数.一组数据中的众数有时不唯一.众数着眼于对各数出现的次数的考察,这就告诉我们在求一组数据的众数时,既不需要排列,又不需要计算,只要能找出样本中出现次数最多的那一个(或几个)数据就可以了.当一组数据中有数据多次重复出现时,它的众数也就是我们所要关心的一种集中趋势.3.中位数 中位数就是将一组数据按大小顺序排列后,处在最中间的一个数(或处在最中间的两个数的平均数).一组数据中的中位数是唯一的.二、注意区别平均数、众数和中位数三者之间的关系平均数、众数和中位数都是描述一组数据的集中趋势的量,但它们描述的角度和适用的范围又不尽相同.在具体问题中采用哪种量来描述一组数据的集中趋势,那得看数据的特点和我们要关注的问题. 三、能正确选用平均数、众数和中位数来解决实际问题由于平均数、众数和中位数都是描述一组数据的集中趋势的量,所以利用平均数、众数和中位数可以来解决现实生活中的问题.下面举几例说明.例1 李大伯承包了一个果园,种植了100棵樱桃树,今年已进入收获期.收获时,从中任选并采摘了10棵树的樱桃,分别称得每棵树所产樱桃的质量如下表:据调查,市场上今年樱桃的批发价格为每千克15元.用所学的统计知识估计今年此果园樱桃的总产量与按批发价格销售樱桃所得的总收入分别约为( ).A .200千克,3000元B .1900千克,28500元C .2000千克,30000元D .1850千克,27750元简析:依题意此果园平均每棵树所产樱桃的质量是1(14212717182019231922)=2010+++++++++(千克),所以100棵树所产樱桃的的质量是100202000⨯=(千克),又批发价格为每千克15元,所以2000千克的樱桃所得的总收入为20001530000⨯=(元),故应选C .例2 (陕西省)为了了解某班学生每周做家务劳动的时间,某综合实践活动小组对该班50名学生进行了调查,有关数据如下表:根据上表中的数据,回答下列问题:(1)该班学生每周做家务劳动的平均时间是多少小时? (2)这组数据的中位数、众数分别是多少? (3)请你根据(1)、(2)的结果,用一句话谈谈自己的感受. 简析:(1)该班学生每周做家务劳动的平均时间为1(0212 1.5628 2.512313 3.5443) 2.4450⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=(小时),即该班学生每周做家务劳动的平均时间为2.44小时.(2)由表中的数据我们可以发现这组数据的中位数是2.5(小时),众数是3(小时).(3)只要叙述内容与上述数据有关或与做家务劳动有关,并且态度积极即可. 极差、方差、标准差极差、方差和标准差都是用来研究一组数据的离散程度的,反映一组数据的波动范围或波动大小的量. 一、 极差一组数据中最大值与最小值的差叫做这组数据的极差,即极差=最大值-最小值.极差能够反映数据的变化范围,实际生活中我们经常用到极差.如一支足球队队员中的最大年龄与最小年龄的差,一个公司成员中最高收入与最低收入的差等都是极差的例子.极差是最简单的一种度量数据波动情况的量,它受极端值的影响较大. 二、方差方差是反映一组数据的整体波动大小的特征的量.它是指一组数据中各个数据与这组数据的平均数的差的平方的平均数,它反映的是一组数据偏离平均值的情况.方差越大,数据的波动越大;方差越小,数据的波动越小.求一组数据的方差可以简记先求平均,再求差,然后平方,最后求平均数.一组数据x 1、x 2、x 3、…、x n 的平均数为x ,则该组数据方差的计算公式为:])()()[(1222212x x x x x x nS n -++-+-=. 三、标准差在计算方差的过程中,可以看出方差的数量单位与原数据的单位不一致,在实际的应用时常常将求出的方差再开平方,此时得到量为这组数据的标准差.即标准差=方差.四、极差、方差、标准差的关系方差和标准差都是用来描述一组数据波动情况的量,常用来比较两组数据的波动大小.两组数据中极差大的那一组并不一定方差也大.在实际问题中有时用到标准差,是因为标准差的单位和原数据的单位一致,且能缓解方差过大或过小的现象. 5.典型例析例1 从甲、乙两种玉米苗中各抽10株,分别测得它们的株高如下:(单位:cm ) 甲: 21 42 39 14 19 22 37 41 40 25 乙: 27 16 40 41 16 44 40 40 27 44(1)根据以上数据分别求甲、乙两种玉米的极差、方差和标准差.(2)哪种玉米的苗长得高些;(3)哪种玉米的苗长得齐.分析:本题既是一道和极差、方差和标准差计算有关的问题,又是利用方差解决实际问题的一道题目.要求极差,只要用数据中最大值减去最小值,求到差值即可.利用方差的计算公式可以求到方差,将方差开平方就得标准差. 解: 甲的极差: 42-14=28(cm); 乙的极差:44-16=28(cm).甲的平均值:)()(甲cm x 3025404137221914394221101=+++++++++= 乙的平均值:)(31)44274040441641401627(101cm x =+++++++++=乙 甲的方差:)(2.10410)3025()3042()3021(22222cm S =-++-+-=甲, 乙的方差:)(8.12810)3144()3116()3127(22222cm S =-++-+-=乙(2)因为甲种玉米的平均高度小于乙种玉米的平均高度,所以一种玉米的苗长的高. (3)因为22乙甲S S ≤,所以甲种玉米的苗长得整齐. 例2 市体校准备挑选一名跳高运动员参加全市中学生运动会,对跳高运动队的甲、乙两名运动员进行了8次选拔比赛.他们的成绩(单位:m )如下:甲:1.70 1.65 1.68 1.69 1.72 1.73 1.68 1.67 乙:1.60 1.73 1.72 1.61 1.62 1.71 1.70 1.75(1)甲、乙两名运动员的跳高平均成绩分别是多少?(2)哪位运动员的成绩更为稳定?(3)若预测,跳过1.65m 就很可能获得冠军,该校为了获得冠军,可能选哪位运动员参赛?若预测跳过1.70m 才能得冠军呢?解析:本题是一道数据分析有关的实际问题,主要考查数据的平均数、方差的计算方法及处理数据的能力.根据平均数及方差的计算公式可得(1)甲x =)67.165.170.1(81+++ =1.69(m),乙x =)75.173.160.1(81+++ =1.68(m ). (2)])69.167.1()69.165.1()69.170.1[(812222-++-+-= 甲S =0.0006(m 2),])68.175.1()68.173.1()68.160.1[(812222-++-+-= 乙S =0.0035(m 2),因为22s s <乙甲,所以甲稳定.(3)可能选甲参加,因为甲8次成绩都跳过1.65m 而乙有3次低于1.65m; 可能选乙参加,因为甲仅3次超过1.70m.例3 某公司在过去几年内使用某种型号的灯管1000支,该公司对这些灯管的使用寿命(单位:小时)进行了统计,统计结果如下表所示:(I )将各组的频率填入表中;(II )根据上述统计结果,计算灯管使用寿命不足1500小时的频率;(III )该公司某办公室新安装了这种型号的灯管3支,若将上述频率作为概率,试求灯管的使用寿命不足1500小时的概率. 【解析】(I )因为基本事件总数为1000,所以根据表中给出的频数可以直接写出各组的频率(见表中红字)(II )设“任取1支灯管其使用寿命不足1500小时”的事件为A ,则表中的前4列便是关于A 的全部数据,故()P A =0.048+0.121+0.208+0.223=0.6.(III )设“3支灯管中至少有2支使用寿命不足1500小时”的事件为B ,则B 有两种情况: (1)3支的使用寿命不足1500小时,其概率为:()()3310.60.216P P A ===(2)3支中恰有两支使用寿命不足1500小时,其概率为:()22230.60.40.432P C =⨯=.于是P (B )=0.216+0.432=0.648.例4 图l 是某县参加2007年高考的学生身高条形统计图,从左到右的各条形表示的学生人数依次记为1A 、2A 、…、m A (如2A 表示身高(单位:cm )在[150,155)内的学生人数).图2是统计图l 中身高在一定范围内学生人数的一个算法流程图.现要统计身高在160~180cm (含160cm ,不含180cm )的学生人数,那么在流程图中的判断框内应填写的条件是.9.8.7.6Ai B i C i Di <<<<,【解析】图1的信息十分明确,我们重点研究图2.这是电脑操作的一种程序.根据题目给出的信息,它的功能是将“身高在160~180cm (含160cm ,不含180cm )的学生人数”筛选出来.若将该县参加2007年高考的任意1名学生的身高资料输入,不在这个范围的考生将被输出,否则将再次进行操作.第1次操作,从0,4s i ==开始,从表中可以看到,A 4表示身高在160cm 或160cm 以上的考生,显然符合选择标准,电脑将显示“是”; 第2次操作,从1,5si ==开始继续检测.如果该生的身高仅在165cm 以内,他的资料将被输出,检测结束;如果该生的身高达到或超过了165cm ,她将进入2,6si ==的第3次检测.如此继续下去,直到该生的身高超过检测范围为止.由此可以推知,当4,8s i ==时将不再检测,于是正确的答案是8i <,选B.。