用样本的数字特征估计总体的数字特征(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
答:17名运动员成绩的众数、中位数、平均数依次是 1.75(米)、1.70(米)、1.69(米).
用这些特征数据对总体进行估计的优缺点是什么?
平均数、中位数、众数都是描述数据的“集中趋势” 的“特征数”,它们各自特点如下: 用平均数作为一组数据的代表,比较可靠和稳定,它 与这组数据中的每一个数都有关系.对这些数据所包 含的信息的反映最为充分,因而应用最为广泛,特别 是在进行统计推断时有重要作用,但计算较繁琐,并 且易受极端数据的影响. 用众数作为一组数据的代表,可靠性较差,但众数不 受极端数据的影响,并且求法简便,当一组数据中个 别数据变动较大时,适宜选择众数来表示这组数据的 “集中趋势”. 用中位数作为一组数据的代表,可靠性也较差,但中 位数也不受极端数据的影响,也可选择中位数来表示 这组数据的“集中趋势”.
频率分布直方图如下:
频率 组距
中位数 2.03
0.50
0.40
0.30
0.20 0.10 0.5 1 1.5 2 2.5 3 3.5 4 月均用水量 /t 4.5
说明:
2.03这个中位数的估计值,与样本的 中位数值2.0不一样,这是因为样本数据 的频率分布直方图,只是直观地表明分 布的形状,但是从直方图本身得不出原 始的数据内容,所以由频率分布直方图 得到的中位数估计值往往与样本的实 际中位数值不一致.
为此,我们还 需要从另外一 个角度去考察 这2组数据!
9 10 环数Hale Waihona Puke Baidu
0.1
4 5 6 7 8 (乙)
直观上看,还是有差异的.如:甲成绩比较分散, 乙成绩相对集中(如图示).因此,我们还需要从另外的 角度来考察这两组数据.例如:在作统计图表时提到过 的极差. 甲的环数极差=10-4=6 乙的环数极差=9-5=4. 它们在一定程度上表明了样本数据的分散程度,与 平均数一起,可以给我们许多关于样本数据的信息.显 然,极差对极端值非常敏感,注意到这一点,我们可以 得到一种“去掉一个最高分,去掉一个最低分”的统计 策略.
二 、众数、中位数、平均数与频率分布直方图的关系
1、众数在样本数据的频率分布直方图 中,就是最高矩形的中点的横坐标。 例如,在上一节调查的100位居民的月 均用水量的问题中,从这些样本数据的频 率分布直方图可以看出,月均用水量的众 数是2.25t.如图所示:
100位居民的月均用水量(单位:t)
3.1 3.4 3.2 3.3 3.2 3.0 2.5 2.6 2.5 2.8 2.5 2.6 2.7 2.8 2.9 2.9 2.8 2.7 2.6 2.5 2.0 2.2 2.3 2.3 2.4 2.4 2.3 2.4 2.3 2.2 2.0 2.2 2.1 2.2 2.3 2.4 2.3 2.1 2.1 2.0 1.5 1.5 1.6 1.7 1.8 1.9 1.8 1.7 1.6 1.5 1.0 1.2 1.2 1.3 1.4 1.3 1.3 1.4 1.0 1.0 1.6 0.2 3.7 3.6 3.5 1.4 1.3 1.2 1.0 1.2 1.8 0.4 1.5 1.7 1.9 1.8 1.6 1.5 1.7 1.8 1.9 0.3 0.5 0.6 0.8 0.7 0.9 0.5 0.8 0.6 1.6 0.4 3.8 4.1 4.3 2.0 2.3 2.4 2.4 2.2
人员 周工资 人数 合计 经理 2200 1 2200 管理人员 250 6 1500 高级技工 220 5 1100 工人 200 10 2000 学徒 合计 100 1 23 100 6900
(1)指出这个问题中周工资的众数、中位数、 平均数 (2)这个问题中,工资的平均数能客观地反映 该厂的工资水平吗?为什么?
3、平均数是频率分布直方图的“重 心”.
是直方图的平衡点.
n 个样本数据的平均数公式 : 1 X= n ( x1 x2 xn )
下图显示了居民月均用水量的平均数:x=1.973
频率分布直方图如下:
频率
组距
平均数 1.973
0.50
0.40 0.30 0.20 0.10 0.5 1 1.5 2 2.5 3 3.5 4 月均用水量 /t 4.5
任何一个样本数据的改变都会引起平均数的改 变.这是中位数、众数都不具备的性质,也正是这个 原因,与众数、中位数比较起来,平均数可以反映 出更多的关于样本数据全体的信息.
我们常用算术平均数
1 n ai n i 1
(其中ai(i=1,2,…,n)为n个实验数据)作为 重力加速度的近似值,它的依据是什么呢?
三.
三种数字特征的优缺点
1、众数体现了样本数据的最大集中 点,但它对其它数据信息的忽视使得无 法客观地反映总体特征.如上例中众数是 2.25t,它告诉我们,月均用水量为2.25t的 居民数比月均用水量为其它数值的居民 数多,但它并没有告诉我们多多少.
2、中位数是样本数据所占频率 的等分线,它不受少数几个极端值的 影响,这在某些情况下是优点,但它 对极端值的不敏感有时也会成为缺点。 如上例中假设有某一用户月均用水量 为10t,那么它所占频率为0.01,几乎 不影响中位数,但显然这一极端值是不 能忽视的。
3、由于平均数与每一个样本的 数据有关,所以任何一个样本数据的 改变都会引起平均数的改变,这是众 数、中位数都不具有的性质。也正因 如此 ,与众数、中位数比较起来,平 均数可以反映出更多的关于样本数据 全体的信息,但平均数受数据中的极 端值的影响较大,使平均数在估计时 可靠性降低。
四、众数、中位数、平均数的简单应用 例1 某工厂人员及工资构成如下:
频率分布直方图如下:
频率
组距
众数(最高的矩形的中 点)2.25
0.50
0.40 0.30 0.20 0.10 0.5 1 1.5 2 2.5 3 3.5 4 月均用水量 /t 4.5
2、在样本中,有50%的个体小于或等于中 位数,也有50%的个体大于或等于中位数. 因此,在频率分布直方图中,中位数左边 和右边的直方图的面积应该相等,由此可 以估计中位数的值。下图中虚线代表居民 月均用水量的中位数的估计值,此数据值 为2.03t.
∴数据落在[15.5,24.5)内的概率约为0.56.
练习2. 一个社会调查机构就某地居民的月收入调查了 10000人,并根据所得数据画了样本的频率分布直方图 (如右图).为了分析居民的收入与年龄、学历、职 业等方面的关系,要从这10000人中再用分层抽样方法 抽出100人作进一步调查,则在[2500,3000)(元) 月收入段应抽出 人.
2.2.2 用样本的数字特征估计 总体的数字特征
知识回顾:
1.频率分布直方图 2.频率分布折线图——总体分布的密度曲线
总体密度曲线
总体在区间(a , b)内取值的概率
3.茎叶图 1 25
←叶:表示个位数字 将所有两位数的 十位数字作为 “茎”,个位数 字作为“叶”, 茎相同者共用一 个茎,茎按从小 到大的顺序从上 向下列出,共茎 的叶一般按从小 到大(或从大到 小)的顺序同行 列出.
0.020 0.053 0.060 0.073 0.067 0.033 0.027
频率 组距 0.070 0.060 0.050
频率分布直方图如下:
0.040
0.030 0.020 0.010 12.5 15.5 18.5 21.5 24.5 27.5 30.5 33.5
样本数据
⑶数据落在[15.5,24.5)范围的频率为 0.16+0.18+0.22 = 0.56
2
茎:表示十位数字→
45
116679
3
4
5
分界线
49
0
回忆:绘制频率分布直方图有哪几个步骤呢?
画频率分布直方图的步骤: 第一步: 求极差: (数据组中最大值与最小值的差距) 第二步: 决定组距与组数: (强调取整) 组距:指每个小组的两个端点的距离,组距
组数:将数据分组,当数据在100个以内时,
极差 4.1 按数据多少常分5-12组。 组数= 8.2 组距 0.5
怎样用这些数据对重力加速度进行估计? 阅读教材P71-73页。
知识新授:
一、众数、中位数、平均数的概念
一般地,n个数据按大小顺序排列,处于最中间 位置的一个数据(或最中间两个数据的平均数)叫做 这组数的中位数(median). 一组数据中出现次数最多的那个数据叫做这组数 的众数(mode). 算术平均数是指资料中各观测值的总和除以观 测值个数所得的商,简称平均数或均数. 用这些特征数据对总体进行估计的优缺点是什么?
解: 组距为3
分组 频数 频率 频率/ 组距
[12.5, [15.5, [18.5, [21.5, [24.5, [27.5, [30.5,
15.5) 3 18.5) 8 21.5) 9 24.5) 11 27.5) 10 30.5) 5 33.5) 4
0.06 0.16 0.18 0.22 0.20 0.10 0.08
练习: 在一次中学生田径运动会上,参加 男子跳高的17名运动员的成绩如下表所示:
成绩 (单位:米)
1.50 1.60 1.65 1.70 1.75 1.80 1.85 1.90 人数 2 3 2 3 4 1 1 1
分别求这些运动员成绩的众数,中位数与平均数
解:在17个数据中,1.75出现了4次,出现的次数最 多,即这组数据的众数是1.75. 上面表里的17个数据可看成是按从小到大的顺序 排列的,其中第9个数据1.70是最中间的一个数据,即 这组数据的中位数是1.70; 这组数据的平均数是
x1 x 2 x n x n
x
i 1
n
i
n
(加权平均数)
分析:众数为200,中位数为220,平均数为300。
因平均数为300,由表格中所列出的数据可见,只 有经理的周工资在平均数以上,其余的人都在平均数以 下,故用平均数不能客观真实地反映该工厂的工资水平。
问题:
有两位射击运动员在一次射击测试中 各射靶十次,每次命中的环数如下: 甲 7 8 7 9 5 4 9 10 7 4 乙 9 5 7 8 7 6 8 6 7 7
0.016
0.012 0.008 0.004
0
90 100 110 120 130 140 150 次 数
0.34
150
问题引入:
某校高一(1)班同学在老师的布置下,用单摆进行测试, 以检验重力加速度.全班同学两人一组,在相同条件 下进行测试,得到下列实验数据(单位:m/s2): 9.62 9.5 9.78 9.94 10.01 9.66 9.88 9.68 10.32 9.76 9.45 9.99 9.81 9.56 9.78 9.72 9.93 9.94 9.65 9.79 9.42 9.68 9.70 9.84 9.90
第三步: 将数据分组 ( 给出组的界限)
第四步: 列频率分布表. (包括分组、频数、频率、频率/组距) 第五步: 画频率分布直方图(在频率分布表的基础上绘制,横
坐标为样本数据尺寸,纵坐标为频率/组距.)
练习1:有一个容量为50的样本数据的分组的 频数如下: [12.5, 15.5) 3 [15.5, 18.5) 8 [18.5, 21.5) 9 [21.5, 24.5) 11 (1)列出样本的频率分布表; (2)画出频率分布直方图; (3)根据频率分布直方图估计,数据落在 [15.5, 24.5)的概率约是多少? [24.5, 27.5) 10 [27.5, 30.5) 5 [30.5, 33.5) 4
月收入 ( 元 )
练习3:
为了了解高一学生的 体能情况,某校抽取部分学 生进行一分钟跳绳次数测 试,将所得数据整理后, 画出频率分布直方图(如 图),图中从左到右各小 长方形面积之比为2:4: 17:15:9:3,第三小组 频数为51. (1)第三小组的频率是多 少?样本容量是多少?
频率/组距
0.036 0.032 0.028 0.024 0.020
解:由直方图可得: 在[2500, 3000) (元) 月收入段共有:
10000 0.0005 500 2500(人)
频率/组距
0.0005 0.0004
0.0003
0.0002
0.0001 1000 1500 2000 2500 3000 3500 4000
按分层抽样应抽出:
100 2500 25(人) 10000
如果你是教练,你应当如何对这次射击情 况作出评价?如果这是一次选拔性考核,你应 当如何作出选择?
x甲 7
x乙 7
两人射击 的平均成绩是一样的. 那么两个 人的水平就没有什么差异吗?
频率 0.3 0.2 0.1 频率 4 5 6 7 8 9 10
发现什么?
环数
(甲 ) 0.4 0.3 0.2