高中数学第一章统计1.5用样本估计总体知识导航北师大版必修3201703080357

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§5用样本估计总体
知识梳理
1.在实际问题中,直接得到总体的全部数字信息往往比较困难,而常常进行抽样调查,即从总体中抽取一部分作为样本,并用样本的各种信息来估计总体的情况,主要包括样本数据的频率分布和基本数字特征.
2.要估计总体频率分布情况,我们常用频率分布直方图和频率折线图来表达.
3.在频率分布直方图中,纵轴表示各组的宽度,数据落在各小组内的频率用小矩形表示.各个小矩形的面积总和为1.
4.连接频率分布直方图中各小矩形上端的中点,就得到频率分布折线图.随着样本容量的不断增加,所分的区间数也不断增加,而区间的长度在不断减小,相应的频率分布折线图就会越来越接近于一条光滑的曲线.
知识导学
在前面我们学习的三种不同的抽样方法,目的是为了从总体中获得一个易得、有代表性的样本,这是统计的任务之一;统计的第二任务是用样本来估计总体,这也是统计的基本思想.用样本的情况估计总体的相应情况,大体上有两类,其中之一就是本节要学的“用样本的频率分布估计总体分布”.所以在学本节前,需系统回顾抽样方法.
学习时可结合图形的变化,即由样本数据的频率分布直方图→折线图→总体密度曲线,理解样本数据的重要性和用样本估计总体的可行性.
对于总体中个体取值较少的情况,我们常用条形图表示其样本分布;而对于个体取值较多或无限的总体,我们则常用频率分布直方图、频率分布表、频率分布折线图等图表形式表示样本分布.一般样本容量越大,这种估计越精确.特别注意:列(画)频率分布表(直方图)时的求解顺序,并明确频率分布直方图中,每个小矩形的面积等于相应各组的频率,而各组频率的和等于1(即各个小矩形面积之和为1),体会当样本容量无限增大时,组数也相应无限增多,此时频率分布折线图就无限接近一条光滑的曲线——总体密度曲线.本节的重点是在表示样本数据的过程中,学会列频率分布表、画频率分布直方图和频率折线图,体会它们各自的特点.
本节的难点是对总体分布概念的理解和统计思想的建立.
疑难突破
1.在统计中,经常用数据的频率分布直方图来估计总体的分布情况.直方图中样本的分布和总体分布的关系是什么?
剖析:当样本容量较大时,样本中落在每个区间内的样本数的频率会稳定于总体在相应区间内取值的概率.因此,我们可以用样本的频率分布直方图来估计总体在任意区间内取值的频率,也即总体的分布情况.由刚才分析可知,在样本的频率分布中,随着样本容量的不断扩大,其分布越来越接近总体分布,当样本容量无限加大,而组距无限缩小时,频率分布直方图的上方将演变成一条光滑的曲线.
在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间,从所加的左边区间的中点开始,用线段依次连结各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,我们称之为频率折线图,有时也用它来估计总体的分布情况.下面就作上面产品尺寸那个例子的频率折线图1-5-1,注意观察它与前几个图的不同点.
图1-5-1
由前面我们已经知道:频率分布直方图的面积为 1.同样,我们不难证明:折线与横轴所围成的面积也是1,因此,当样本容量比较大时,我们还可以用频率折线图来估计总体的分布情况.
2.用样本估计总体是统计的基本思想.那么在对总体分布的估计中是怎样体现这一思想的? 剖析:用样本估计总体的某一指标的时候,由于样本毕竟不是总体,所以用样本来估计总体一般来说是有误差的,只是误差的大小而已.当样本的选取合理,具有代表性的时候误差就很小.例如,在全国范围内的测验中,如果民意测验者走进大学校园里去访问1 000名大学生,对他们进行民意调查,他们所组成的样本将不会公平地代表全国的民意,这是因为大学生选民的比例很小,而且是一个有倾向性的团体,不能代表全体选民,这样的不公平就使得样本估计总体的误差比较大,这就是样本的选取不合理造成的.
典题精讲
例1 某公司对已制造出售的洗衣机安全无故障运行时间进行抽样调查,以便制定技术更新计划,调查情况如下表所示:
已购时间(h) 1 500~3 000 3 000~4 500 4 500~6 000 6 000~7 500 7 500~9 000 台数300 450 1 200 600 450
(1)列出频率分布表;
(2)画出频率分布直方图;
(3)估计机器无故障时间7 500 h以内的可能性.
思路分析:从所给的数据表格我们知道总样本数为300+450+1 200+600+450=3 000,区间组数已经给划分好了,直接就可列出频率分布表,进而画出频率分布直方图,回答问题.
解:(1)样本频率分布表如下表:
无故障时间(h) 频数频率累积频率
1 500~3 000 300 0.10 0.1
3 000~
4 500 450 0.1
5 0.25
4 500~6 000 1 200 0.40 0.65
6 000~
7 500 600 0.20 0.85
7 500~9 000 450 0.15 1
合计 3 000 1
(2)频率分布直方图如图1-5-2所示.
图1-5-2
(3)由题意可知机器无故障时间7 500 h 以内的可能性就是机器无故障时间1 500~3 000 h,3 000~4 500 h,4 500~6 000 h,6 000~7 500 h 的频率之和,即0.10+0.15+0.40+0.20=0.85. 绿色通道:频率=样本容量
频数,某数值对应的累积频率=该数值的所有区间对应的频率的和(如果有的话).该行的累积频率=该行和该行前面的所有行(如果有的话)的频率的总和=前一行累积频率+该行的频率;频率分布直方图中每个矩形的面积就等于相应组的频率,即组距
频率×组距=频率,各组频率的和等于1,因此,各小矩形的面积的和等于1. 变式训练 为了了解某地区高三学生的身体发育情况,抽查了地区内100名年龄为17.5~18岁的男生的体重情况,结果如下(单位:kg).
56.5 69.5 65 61.5 64.5 66.5 64 64.5 76 58.5
72 73.5 56 67 70 57.5 65.5 68 71 75
62 68.5 62.5 66 59.5 63.5 64.5 67.5 73 68
55 72 66.5 74 63 60 55.5 70 64.5 58
64 70.5 57 62.5 65 69 71.5 73 62 58
76 71 66 63.5 56 59.5 63.5 65 70 74.5
68.5 64 55.5 72.5 66.5 68 76 57.5 60 71.5
57 69.5 74 64.5 59 61.5 67 68 63.5 58
59 65.5 62.5 69.5 72 64.5 75.5 68.5 64 62 65.5 58.5 67.5 70.5 65 66 66.5 70 63 59.5
试根据上述数据画出样本的频率分布直方图,并对相应的总体分布作出估计.
解:按照下列步骤获得样本的频率分布:
(1)求最大值与最小值的差.
在上述数据中,最大值是76,最小值是55,极差是76-55=21.
(2)确定组距与组数.
如果将组距定为2,那么由21÷2=10.5,组数为11,这个组数是适合的.于是组距为2,组数为
11.
(3)决定分点.
根据本例中数据的特点,第1小组的起点可取为54.5,第1小组的终点可取为56.5,为了避免一个数据既是起点,又是终点从而造成重复计算,我们规定分组的区间是“左闭右开”的.这样,所得到的分组是
[54.5,56.5),[56.5,58.5),…,[74.5,76.5].
(4)列频率分布表.
分组 频数 频率
[54.5,56.5) 2 0.02
[56.5,58.5) 6 0.06
[58.5,60.5) 10 0.10
[60.5,62.5) 10 0.10
[62.5,64.5) 14 0.14
[64.5,66.5) 16 0.16
[66.5,68.5) 13 0.13
[68.5,70.5) 11 0.11
[70.5,72.5) 8 0.08
[72.5,74.5) 7 0.07
[74.5,76.5] 3 0.03
合计100 1.00
(5)绘制频率分布直方图.
频率分布直方图如图1-5-3所示.
图1-5-3
由于图中各小长方形的面积等于相应各组的频率,这个图形的面积的形式反映了数据落在各个小组的频率的大小.在反映样本的频率分布方面,频率分布表比较确切,频率分布直方图比较直观,它们起着相互补充的作用.在得到了样本的频率后,就可以对相应的总体情况作出估计.例如可以估计体重在[64.5,66.5) kg的学生最多,约占学生总数的16%;体重小于58.5 kg 的学生较少,约占8%等.
例2对某班50人进行智力测试,其得分为:62,46,63,56,92,74,48,64,41,86,79,71,69,82,85,68,64,62,68,81,57,93,53,74,76,5 6,78,47,66,55,64,52,87,69,43,73,97,68,56,67,59,78,52,79,44,55,69,57,31,54.
(1)列出频率分布表及相应的频率分布直方图;
(2)由频率分布直方图你能看出点什么吗?
思路分析:这个样本量较大并且含有相同数据的样本少,需按照我们前面所说的五步来操作频率分布直方图,关于第(2)问由频率分布直方图的意义不难看出.
解:(1)由于最大值为97,最小值为31,则组距为10,各区间为[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]共7个区间,所以频率分布表如下:
区间[30,40) [40,50) [50,60) [60,70) [70,80) [80,90) [90,100]频数 1 6 12 14 9 6 2
频率0.02 0.12 0.24 0.28 0.18 0.12 0.04 频率分布直方图(图1-5-4)为
图1-5-4
(2)由频率分布直方图可以看出,智力处在中等的频率较大,而智力成绩特别高和特别低的频率比较小.
绿色通道:在作频率分布直方图时可按下列步骤完成:第一步,找出最大值与最小值,计算其
差;第二步,决定组距,从而得出组数;第三步,决定第一组的起点(一般稍微小一点),从而决定各个分段点;第四步,算出各组的频数与频率,从而列出频率分布表;第五步,画出频率分布直方图.
变式训练 在风帆比赛中,成绩以低分为优胜,比赛共11场,并以最佳的9场成绩计算最终的名次,前7场比赛结束后,五名选手的积分情况如下表所示.
运动员 比赛场次 总分 1 2 3 4 5 6 7 8 9 10 11
甲 3 2 2 2 4 2 7 22 乙 2 3 6 1 10 5 5 32 丙 7 8 4 4 3 1 8 35 丁 5 5 14 5 5 6 4 44 戊 4 13 5 9 2 7 6 46 根据上面的比赛结果,请你比较各选手之间的成绩,并预测谁将获得最后的胜利.
思路分析:可以先用样本平均数与标准差来分析.把前7场比赛成绩看成一个样本,由样本去估计总体.
解:分别计算这五位选手前7场比赛积分的平均数和标准差:
甲x =3.14,乙x =4.57,丙x =5.00,丁x =6.29,戊x =6.57;
s 甲=1.73,s 乙=2.77,s 丙=2.51,s 丁=3.19,s 戊=3.33.
由此可以看出甲的成绩最为优异,而且表现也最为稳定,把前7场比赛的成绩看作是总体的一个样本,可以估计每位运动员最后比赛的成绩,因此预测甲会获胜.
问题探究
问题 我国是世界上严重缺水的国家之一,城市缺水问题较为突出.某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a ,用水量不超过a 的部分按平价收费,超出a 的部分按议价收费.如果希望大部分居民的日常生活不受影响,那么标准a 定为多少比较合适呢?你认为,为了较合理地确定这个标准,需要做哪些工作? 导思:为了制定出居民用水量的标准,需要了解广大居民的实际月用水量大部分在什么数值范围内.但由于居民户较多,全部调查不易操作,故可采取抽样调查的方式获取一个有代表性的样本,然后通过样本的情况估计所有居民的月用水量,以便制定出这个标准.
探究:很显然,如果标准太高,会影响居民的日常生活;如果标准太低,则不利于节水.为了确定一个较合理的标准,必须先了解居民日常用水的分布情况,比如月平均用水量在哪个范围内的居民最多,他们占全市居民的百分比情况等.
由于城市居民户较多,通常采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况.假设通过抽样我们获得了100位居民今年的月均用水量(单位:t):
100位居民2006年的月均用水量(单位:t):
3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6
3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4
3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8
3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6
4.1
3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8
4.3
3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0
2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3
2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4
2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4
2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2
面对这些随意记录的数据,除了发现月用水量的最大值是4.3和最小值是0.2之外,很难再看出其他信息.为此我们需要对这些数据进行分析整理.分析数据的一种最基本的方法是用图(即频率分布直方图)将它们画出来,以便从数据中提取信息和传递信息,或者是用紧凑的表格(即频率分布表)改变数据的排列方式.下表是100位居民2006年的月均用水量的频率分布表:
分组频数频率
[0,0.5) 4 0.04
[0.5,1) 8 0.08
[1,1.5) 15 0.15
[1.5,2) 22 0.22
[2,2.5) 25 0.25
[2.5,3) 14 0.14
[3,3.5) 6 0.06
[3.5,4) 4 0.04
[4,4.5] 2 0.02
合计100 1.00
频率分布直方图如图1-5-5所示:
图1-5-5
上面的图和表显示了样本数据落在各个小组的比例大小.从中我们可以看到,月用水量在区间[2,2.5)内的居民最多,在[1.5,2)的次之,大部分居民的月用水量都在[1,3)之间,其中月用水量在3 t以上的居民所占的比例为6%+4%+2%=12%,即大约占12%的居民月用水量在3 t 以上,88%的居民月用水量在3 t以下.因此居民月用水量标准定为3 t是一个可以考虑的标准.。

相关文档
最新文档