用样本的频率分布估计总体分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0. 5 0.4 0.3 0.2 0. 1 O 0.5 1 1.5 平均用水量(t)
2
2.5
3
3.5
4
4.5
月
频率 组距
思考4:平均数是频率分布直方图的“重 心”,在城市居民月均用水量样本数据的 频率分布直方图中,各个小矩形的重心在 哪里?从直方图估计总体在各组数据内的 平均数分别为多少?
0. 5 0.4
小区间的频率;
0. 5 0.4
中位数左右两侧的直 方图面积相等。
0.3 0.2 0. 1 O 0.5 1 均用水量(t)
1.5
2
2.5
3
3.5
4
4.5
月平
频率 组距
思考3:在城市居民月均用水量样本数据的频 率分布直方图中,从左至右各个小矩形的面 积分别是0.04,0.08,0.15,0.22,0.25, 0.14,0.06,0.04,0.02.由此估计总体的中 位数是什么?
如上例中众数是2.25t,它告诉我们,月均 用水量为2.25t的居民数比月均用水量为其它 数值的居民数多,但它并没有告诉我们多多少.
2、中位数是样本数据所占频率的 等分线,它不受少数几个极端值的影 响,这在某些情况下是优点,但它对 极端值的不敏感有时也会成为缺点。
如上例中假设有某一用户月均用水量 为10t,那么它所占频率为0.01,几乎不影 响中位数,但显然这一极端值是不能忽视的。
x=
1 ( x1 x 2 x n ) n
练习: 在一次中学生田径运动会上,参加 男子跳高的17名运动员的成绩如下表所示:
成绩 (单位:米)
1.50 2
1.60 1.65 1.70 3 2 3
1.75 1.80 1.85 1.90 4 1 1 1
人数
分别求这些运动员成绩的众数,中位数与平 均数 解:在17个数据中,1.75出现了4次,出现的 次数最多,即这组数据的众数是1.75. 上面表里的17个数据可看成是按从小到大 的顺序排列的,其中第9个数据1.70是最中间 的一个数据,即这组数据的中位数是1.70;
组数:将数据分组,当数据在100个以内时,
按数据多少分成5-12组 组距:(1)指每个小组的两个端点的距离 (2)组距=极差/组数 三.决定分点
第1小组的起点尽量比极小值稍微减少一点
频数分布表
分组 [54.5,56.5) 频数累计 T 频数 2 频率 0.02
[56.5,58.5)
[58.5,60.5) [60.5,62.5)
频率/组距
0.3 0.25 0.2 0.15 0.1 0.05 0
8.3
1
产品尺寸(mm)
频率分布折线图
连接频率分布直方图中各小长方形上端的重 点,就得到频率分布折线图
频率/组距
产品尺寸(mm)
总体密度曲线
当样本容量无限增大,分组的组距无限缩小,那么频率 分布折线图就会无限接近一条光滑曲线——总体密度曲 线. 总体密度曲线
这组数据的平均数是
x (1.5 2 1.6 3 1.85 1.9) 1.69
答:17名运动员成绩的众数、中位数、平均数 依次是1.75(米)、1.70(米)、1.69(米).
二 、众数、中位数、平均数与频率分布直方图的关系
频率 0. 组距 5 0.4 0.3 0.2 0. 1
3.5
4百度文库
4.5
月平
思考6:从居民月均用水量样本数据可知,该样本 的众数是2.3,中位数是2.0,平均数是1.973,这 与我们从样本频率分布直方图得出的结论有偏差, 你能解释一下原因吗?
频率分布直方图损失了一些样本数据,得 到的是一个估计值,且所得估计值与数据分 组有关. 注:在只有样本频率分布直方图的情况下,我 们可以按上述方法估计众数、中位数和平均 数,并由此估计总体特征.
一、众数、中位数、平均数的概念
众数、中位数、平均数都是描述一组数据 的集中趋势的特征数,只是描述的角度不同, 其中以平均数的应用最为广泛. 众数:在一组数据中,出现次数最多的数 据叫做这组数据的众数. 中位数:将一组数据按大小依次排列,把处 在最中间位置的一个数据(或最中间两个数据的 平均数)叫做这组数据的中位数. 平均数:一组数据的算术平均数,即
思考1:在城市居民月均用水量样本数 据的频率分布直方图中,你认为众数应 在哪个小矩形内?由此估计总体的众数 是什么?
取最高矩形下端 中点的横坐标 2.25作为众数.
O
0.5
1
1.5
2
2.5
3
3.5
4
4.5
月平
频率 组距
思考2:在频率分布直方图中,每个小 矩形的面积表示什么?中位数左右两 侧的直方图的面积应有什么关系?
今天我们通过案例先学习总体分布的估计
一.频率分布
1.将一批数据按要求分成若干个组,各组内数 据的个数叫做该组的的频数. 2.每组数除以全体数据的个数的商叫做该组的 频率.频率反映数据在每组中所占比例的大 小. 3.根据随机所抽取样本的大小,分别计算某 一事件出现的分布规律叫做样本的频率分布。
例: 为了了解某地区高三学生的身体发育情况, 抽查了地区100名年龄为17.5岁至18岁的男生的体重 情况,结果如下(单位:kg):
总体分布的估计
1. 频数、频率的概念 2.样本的频率分布 3.频率分布表和频率分布直方图的制作 4.茎叶图的制作
平 度 市 第 九 中 学 纪 云 尚
为了考察一个总体的情况,在统计中通常 是从总体中抽取一个样本,用样本的有关 情况去估计总体相应的情况。这种估计大体 分为两类: 一类是用样本的频率分布去估计总体分布, 一类是用样本的某种数字特征(例如平均数、 方差等)去估计总体的相应数字特征
频率/组距
0
100 200 300 400 500 600 寿命(h)
巩固练习题
(3) 由 频 率 分 布 表 可 以 出 看, 寿 命 在 100h ~ 400 元件寿命在 100h ~ 400h的 概 率 为 : 0.65.
的电子元件出现的频为 率 : 0.65, 所 以 我 们 估 计 电 子
0.3 0.2 0. 1 O 0.5 1 均用水量(t)
0.25,0.75,1.25, 1.75,2.25,2.75, 3.25,3.75,4.25.
1.5
2
2.5
3
3.5
4
4.5
月平
思考5:根据统计学中平均值原理,将频率分布直方图 中每个小矩形的面积与小矩形底边中点的横坐标之积 相加,就是样本数据的估值平均数. 由此估计总体的 平均数是什么?
0.14
0.16 0.13 0.11 0.08 0.07 0.03 1.00
频率/组距
体重(kg)
54.5 56.5 58.5 60.5 62.5 64.5 66.5 68.5 70.5 72.5 74.5 76.5
五.画频率分布直方图
注意:直方图的纵轴表•长方形的面积= 频率 组距 频率 示频率与组距的比值, 组距
( 4 ) .由频率分布表可知,寿 命在400h以上的电子 元件出现的频率为: 0.20 0.15 0.35 ,故我们 估计电子元件寿命在 400h以上的概率为: 0.35.
用样本的数字特征估计总体的实在特征
1.众数 2.中位数
3.平均数
4.方差 5.标准差
高二数学组:孔祥朋
基本概念
1.平均数、中位数和众数 (1)平均数:一组数据的总和除以数据的个数所得到 的商就是平均数 (2)中位数:如果将一组数据按从小到达的顺序依次 排律,当数据有奇数个时,处在最中间的一个数;当 数据有偶数个时,处在最中间两个数的平均数,是这 组数据的中位数。 (3)众数:出现次数最多(若有两个或几个数据出现 得最多,且出现的次数一样,这些数据都是这组数据 的众数;若每个数据出现的次数一样多,则认为这组 数据没有众数。) (4)在频率分布直方图中也可以找到众数、中位数。
频率 组距
0.25×0.04+0.75×0.08+1.25×0.15+1.75× 0.22+2.25×0.25+2.75×0.14+3.25× 0.06+3.75×0.04+4.25×0.02=2.02(t). 平均数是2.02.
0. 5 0.4 0.3 0.2 0. 1 O
0.5
1
1.5
2
2.5
3
3、由于平均数与每一个样本的数 据有关,所以任何一个样本数据的改 变都会引起平均数的改变,这是众数、 中位数都不具有的性质。
也正因如此 ,与众数、中位数比较起 来,平均数可以反映出更多的关于样本数 据全体的信息,但平均数受数据中的极端 值的影响较大,使平均数在估计时可靠性 降低。
四 众数、中位数、平均数的简单应用
1、某市高三数学抽样考试中,对90分以上 (含90分)的成绩进行统计,其频率分布图如 图,若130~140分数段的人数为90人;则90~ 100分数段的人数为: 810 ;
频率
0.45
(2003,安徽)
0.15
0.05 90 100 110 120 130 140
正
正 正
一
正 正
6
10 10
0.06
0.10 0.10
[62.5,64.5)
[64.5,66.5) [66.5,68.5) [68.5,70.5) [70.5,72.5) [72.5,74.5) [74.5,76.5] 合计
正正
正正正一 正正下 正正一 正 正 下 下 T
14
16 13 11 8 7 3 100
60.5 73.5 62.5 74 65 59.5 76 68 64 69.5 59 66 63 69 63.5 61 63.5 62 65 67 59.5 60 71.5 65 60 58 65.5 61.5 70 63.5 55 73 70 68 59 58.5 64.5 66.5 64 64.5 62 58.5 根据这些数据 57.5 65.5 68 71 75 62 你能得出其他 64.5 67.5 73 68 64 72 70 信息吗 64.5 ?58 64 70.5 57 62 58 74 71 66 63.5 74.5 68.5 64 55.5 72.5 66.5 57 69.5 74 64.5 59 61.5 65.5 62.5 69.5 72 64.5 61 67.5 70.5 65 66 66.5 70 63 72 68.5 66.5 62.5 60.5 68 67 68.5 59.5
试根据上述数据画出样本的频率分布直方图,并对相应的 总体分布作出估计
获得频率分布的一般步骤: 1、求极差 2、确定组距与组数 3、分组 4、列频率分布表 5、绘频率分布直方图
列出频率分布表、画频率分布直方图的方法
一、计算最大值与最小值的差(也称极差), 从而知道这组数据的变动范围。 极差为:76 –55=21 二、决定组距与组数(将数据分组)
频率 组距
总体在区间(a , b)内取值的频率
产品 尺寸 (mm)
a
b
巩固练习题
1.对某电子元件进行寿命追踪调查,情况如下:
寿命 个数 100~200 20 200~300 30 300~400 80 400~500 40 500~600 30
(1)列出频率分布表; (2)画出频率分布直方图; (3)估计电子元件寿命在100h~400h以内的概率;
(4)估计电子元件寿命在400h以上的概率;
巩固练习题
寿命 100~200 200~300 300~400 400~500 频数 20 30 80 40 30 200 频率 0.10 0.15 0.40 0.20 0.15 1 累积频率 0.10 0.25 0.65 0.85 1
500~600
合计
总结
如何根据样本频率分布直方图,分别估计 总体的众数、中位数和平均数?
(1)众数:最高矩形下端中点的横坐标.
(2)中位数:直方图面积平分线与横轴 交点的横坐标. (3)平均数:每个小矩形的面积与小矩 形底边中点的横坐标的乘积之和.
三
三种数字特征的优缺点
1、众数体现了样本数据的最大集中 点,但它对其它数据信息的忽视使得无 法客观地反映总体特征.
三种数字特征的优缺点
1.众数体现了样本数据的最大集中点,但它显然对 其它数据信息的忽视使得无方各观地反映总体特 征。 2.中位数是样本数据所占频率的等分线,它不受少 数几个极端值的影响,这在某些情况下是优点, 但它对极端值的不敏感有时也会成为缺点。 3.由于平均数与每一个样本的数据有关,所以任何 一个样本数据的改变都会引起平均数的改变,这 是众数、中位数不具备的性质。也征引为如此与 众数、中位数比较起来,平均数可以反映出更多 的关于样本数据全体的信息。