2.2 用样本估计总体
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.5 0.4 0.3 0.2 0.1 O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)
3、平均数
频率 组距
频率分布直方图中每个小矩形的面积 乘以小矩形底边中点的横坐标之和. 下图显示了居民月均用 水量的平均数:
x=2.02t
0.5 0.4 0.3 0.2 0.1 O 0.5 1 1.5 2 2.5 3 3.5 4
解:众数为200,中位数为220,平均数为300.
因平均数为300,由表格中所列出的数据可见, 只有经理在平均数以上,其余的人都在平均数以下, 故用平均数不能客观真实地反映该工厂的工资水平.
平均数向我们提供了样本数据的重要信息,但是平均 有时也会使我们作出对总体的片面判断.因为这个平 均数掩盖了一些极端的情况,而这些极端情况显然是 不能忽的.因此,只有平均数还难以概括样本数据的 实际状态.
x=
1 ( x1 x 2 x n ) n
练习: 在一次中学生田径运动会上,参加 男子跳高的17名运动员的成绩如下表所示:
成绩 (单位:米)
1.50 1.6 1.65 1.70 1.75 1.8 1.85 1.90 2 3 2 3 4 1 1 1
人数
分别求这些运动员成绩的众数,中位数与 平均数 解:在17个数据中,1.75出现了4次,出现的 次数最多,即这组数据的众数是1.75. 上面表里的17个数据可看成是按从小到大 的顺序排列的,其中第9个数据1.70是最中间 的一个数据,即这组数据的中位数是1.70;
4.5
月平均用水量(t)
三、三种数字特征的优缺点
特征数 众数 优 点
体现了样本数据的最大 集中点
缺 点
无法客观反映总体 特征
中位数
平均数
不受少数极端值的影响
不受少数极端值的 影响有时也是缺点
受少数极端值的影 响较大,使其在估 计总体时的可靠性 降低.
与每一个数据有关,更 能反映全体的信息.
四
人员
频率分布折线图
频率/组距 0.50 0.40 0.30 0.20 0.10 0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量/t
连接频率直方图中各小长方形上端中 点的折线,叫频率分布折线图
当样本容量无限增大,分组的组距无限缩小,那 么频率分布折线图就会无限接近一条光滑曲线 ——总体密度曲线.
茎叶图
甲:13, 51, 23, 8, 26, 38, 16, 33, 14, 28, 39 乙: 49, 24, 12, 31, 50, 31, 44, 36, 15, 37, 25, 36, 39 甲 乙
8 4 6 3
0
1
2
2 5
3 6 8
3 8 9
5 4
1 6 1 6 7 9
3
4
4 9
0
1
5
通过抽样,我们获得了100位居民某年的月平均用水量 (单位:t) ,如下表:
思考:由上表,大家可以得到什么信息?
1.求极差(即一组数据中最大值与最小值的差) 4.3 - 0.2 = 4.1 2.决定组距与组数
组数:将数据分组,当数据在100个以内时, 按数据多少常分5-12组.
组距:指每个小组的两个端点的距离,
如:有两位射击运动员在一次射击测试中各射靶10次,每 次命中的环数如下:
甲:7 乙:9 8 5 7 7 9 8 5 7 4 6 9 8 10 6 7 7 4 7
如果你是教练,你应当如何对这次射击作出评价? 如果看两人本次射击的平均成绩,由于 x甲 7,x 乙 7 两人射击 的平均成绩是一样的.那么两个人的水平就没有什 么差异吗?
五、标准差
1 2 2 2 s ( x1 x) ( x2 x) ( xn x) . n
方差
1 2 2 2 2 s ( x1 x) ( x2 x) ( xn x) . n
标准差、方差越大, 数据的离散程度越大; 标准差、方差越小,数据的离散程度越小.
注意: ① 这里的纵坐标不是频率, 而是频率/组距; ② 某个区间上的频率用这 个区间的面积表示;
频率 小长方形的面积 = 组距× = 频率 组距 思考:所有小长方形的面积之和等于? 1.
0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量/t
小结:一.画频率分布直方图的步骤
1、求极差(即一组数据中最大值与最小值的差) 知道这组数据的变动范围4.3-0.2=4.1 2、决定组距与组数(将数据分组) 组距:指每个小组的两个端点的距离,组距 组数:将数据分组,当数据在100个以内时, 按数据多少常分5-12组. 3、 将数据分组(8.2取整,分为9组)
2.2 用样本估计总体
问题提出
1.随机抽样有哪几种基本的抽样方法?
简单随机抽样、系统抽样、分层抽样.
2.随机抽样是收集数据的方法,如何通 过样本数据所包含的信息,估计总体的 基本特征,即用样本估计总体,是我们 需要进一步学习的内容.
2.2.1 用样本的频率 分布估计总体分布
我国的水资源状况
我国是世界上严重缺水的国家之一.
例:有两位射击运动员在一次射击测试中各射靶10次,每 次命中的环数如下:
甲:7 乙:9 8 5 7 7 9 8 5 7 4 6 9 8 10 6 7 7 7 4
如果你是教练,你应当如何对这次射击作出评价?
解:两人本次射击的平均成绩分别为
x甲 7,x 乙 7
两人本次射击的方差分别为
s
2
小结:一.画频率分布直方图的步骤
1、求极差(即一组数据中最大值与最小值的差) 知道这组数据的变动范围4.3-0.2=4.1 2、决定组距与组数(将数据分组) 组距:指每个小组的两个端点的距离,组距 组数:将数据分组,当数据在100个以内时, 按数据多少常分5-12组. 3、 将数据分组(8.2取整,分为9组)
用茎叶图表示数据有两个突出的优点:
一.是所有的信息都可以从这个茎叶图上得到; 二.是茎叶图便于记录和表示.
用茎叶图表示数据有一个突出的缺点:
茎叶图的缺点是其分析只是粗略的,对差异 不大的两组数据不易分析;表示三位数以上 的数据时不够方便.
2.2.2
用样本的数字特征估计 总体的数字特征
1.众数、中位数、平均数
如何节约用水?
例 某市政府为了节约生活用水,计划在本 市试行居民生活用水定额管理,即确定一个 居民月用水量标准a ,用水量不超过a的部分 按平价收费,超过a的部分按议价收费. ①如果希望大部分居民的日常生活不受影响,那 么标准a定为多少比较合理呢? ②为了较合理地确定这个标准,你认为需要做 哪些工作?
甲
4,s
2
乙
1.2
所以甲乙两名运动员的平均水平一样,但乙的 成绩比甲的成绩更稳定.
例 甲乙两人同时生产内径为25.40mm的一种零件.为了 对两人的生产质量进行评比,从他们生产的零件中各抽出 20件,量得其内径尺寸如下(单位:mm)
甲 25.46, 25.32, 25.45, 25.39, 25.36 25.34, 25.42, 25.45, 25.38, 25.42 25.39, 25.43, 25.39, 25.40, 25.44 乙 25.40, 25.42, 25.35, 25.41, 25.39 25.40, 25.43, 25.44, 25.48, 25.48 25.47, 25.49, 25.49, 25.36, 25.34 25.33, 25.43, 25.43, 25.32, 25.47 25.31, 25.32, 25.32, 25.32, 25.48
茎叶图
情境:某赛季甲、乙两名篮球运动员每场比赛得
分的原始记录如下:
(1)甲运动员得分:
13,51,23,8,26,38,16,33,14,28,39
(2)乙运动员得分:
49,24,12,31,50,31,44,36,15,37,25,36,39
问题:如何有条理地列出这些数据,分析该运
动员的整体水平及发挥的稳定程度?
极差 4.1 组数= 8.2 组距 0.5
4、列出频率分布表.(填写频率/组距一栏)
频率 5、画出频率分布直方图. (注意)纵坐标为: 组距
二.总体密度曲线
极差 4.1 组数= = = 8.2 组距 0.5 3.将数据分组 [0,0.5 ),[0.5,1 ),…,[4,4.5]
4.列频率分布表 100位居民月平均用水量的频率分布表
频率分布表在数量表示上比较确切,但不够直 观,形象,分析数据的总体态势不太方便.
ቤተ መጻሕፍቲ ባይዱ 5.画频率分布直方图
频率/组距 0.50 0.40 0.30 0.20 0.10 0
这组数据的平均数是
答:17名运动员成绩的众数、中位数、平均数 依次是1.75(米)、1.70(米)、1.69(米).
二 、 众数、中位数、平均数与 频率分布直方图的关系
频率
组距
例如,在上一节调查的100位居民的月均用水量的 问题中,从这些样本数据的频率分布直方图可以看 出,月均用水量的众数是2.25t.如图所示:
2.标准差
一 众数、中位数、平均数的概念
众数、中位数、平均数都是描述一组数据 的集中趋势的特征数,只是描述的角度不同, 其中以平均数的应用最为广泛. 众数:在一组数据中,出现次数最多的数 据叫做这组数据的众数. 中位数:将一组数据按大小依次排列,把处 在最中间位置的一个数据(或最中间两个数据的 平均数)叫做这组数据的中位数. 平均数: 一组数据的算术平均数,即
茎叶图的概念:
一般地:当数据是一位和两位有效数字时,用中 间的数字表示十位数,即第一个有效数字,两边的数 字表示个位数,即第二个有效数字,它的中间部分像 植物的茎,两边部分像植物茎上长出来的叶子,因此 通常把这样的图叫做茎叶图.茎按从小到大的顺序从上 向下列出,共茎的叶一般按从大到小(或从小到大) 的顺序同行列出.
众数、中位数、平均数的简单应用
经理 2200 1 2200 管理人员 250 6 1500 高级技工 220 5 1100 工人 200 10 2000 学徒 100 1 100 合计 23 6900
例 某工厂人员及工资构成如下:
周工资 人数 合计
(1)指出这个问题中周工资的众数、中位数、平均数 (2)这个问题中,工资的平均数能客观地反映该厂 的工资水平吗?为什么?
0.5 0.4 0.3
1、众数在样本数据的频率分布直方图 中,就是最高矩形的中点的横坐标.
0.2
0.1 月平均用水量(t)
O
0.5
1
1.5
2
2.5
3
3.5
4
4.5
2、在样本中,有50%的个体小于或等于中 位数,也有50%的个体大于或等于中位数,因 中位数 此,在频率分布直方图中,中位数左边和右边的 直方图的面积应该相等,由此可以估计中位数的 频率 值.下图中虚线代表居民月均用水量的中位数的 估计值,此数据值为2.02t. 组距
极差 4.1 组数= 8.2 组距 0.5
4、列出频率分布表.(填写频率/组距一栏)
频率 5、画出频率分布直方图. (注意)纵坐标为: 组距
探究:
同样一组数据,如果组距不同,横轴、纵轴的单位 不同,得到的图的形状也会不同.不同的形状给人以不 同的印象,这种印象有时会影响我们对总体的判断.分 别以1和0.1为组距重新作图,然后谈谈你对图的印象.
从生产的零件内径的尺寸看,谁生产的质量较高?
解:用计算器计算可得:
x 甲 25.4005, x 乙 25.4008; s 甲 0.038, s 乙 0.074
从样本平均数看,甲生产的零件内径比乙生产的更接近内 径标准(25.40mm),但是差异很小;从样本标准差看,由于
s甲 s乙, 因此甲生产的零件内径 比乙的稳定程度高得多 . 于是可以作出判断 , 甲生产的零件的质量比 乙的高一些.
频率 组距
总体在区间(a , b)内取值的频率
P(a b) S阴影
S
a b
产品 尺寸 (mm)
说明:在(a,b)内的频率与在[a,b)内的频率是一样的
总体密度曲线
总体密度曲线反映了总体在各个范围内取值 的频率 , 精确地反映了总体的分布规律 . 是研究总 体分布的工具. 用样本分布直方图去估计相应的总体分布时, 一般样本容量越大,频率分布折线图就会无限接 近总体密度曲线,就越精确地反映了总体的分布 规律,即越精确地反映了总体在各个范围内取值 频率.