第4章 数据分布特征的测度
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 数据分布特征的测度
§1概述
§2 集中趋势的测度
一、集中趋势的含义
(一)集中趋势的概念
集中趋势(Central tendency )是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。
(二)集中趋势的内容 1.均值(Mean ) 算术平均数 调和平均数 几何平均数 切尾均值 2.位置平均数 中位数 四分位数 十分位数 百分位数 3.众数 二、众数
1.概念
众数(Mode )是一组数据中出现次数最多的变量值,用0M 表示。主要用于测度定类型数据的集中趋势。
2.单项分组数列
)max(0i f x M
例:为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题作了邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”
①商品广告;②服务广告;③金融广告;④房地产广告;⑤招生招聘广告;⑥其他广告。
表4-1 某城市居民关注广告类型的频数分布
=0M 商品广告
3.组距分组数列
①确定众数组——频数最多的组 ②计算众数值
图4-1 众数值计算示意图
可见,众数实际上是频数最大组的下限加上按一定几何比例分配组距所得到的那段组距,即
X L M +=0
因为
2
11∆+∆+=∆y x x d y x x 2
11
211)(∆+∆∆=+∆+∆∆=
所以 d L M 2
11
0∆+∆∆+
=(下限公式)
同理,可得上限公式: d U M 2
12
0∆+∆∆-
=
例:某地区3000家农户的年收入情况资料如下:
解:57048010501=-=∆; 45060010502=-=∆ 所以 75591000450
570570
70000=⨯++
=M (元)
三、位置平均数
1.中位数 中位数(Median )是一组数据按从小到大排序后,处于中间位置上的变量值,用e M 表示。中位数是一个位置代表值,它主要用于测度定序数据的集中趋势。
2.根据未分组资料确定中位数
①按标志值大小进行排列得),,,(21n x x x Λ;
②计算中间位置)2
1
(+=
n ; ③计算中位数具体数值。
标志值个数为奇数时 )
21(+=n e x M 标志值个数为偶数时
2
)2
2()2(++=n n e x x M
3.根据分组资料确定中位数 ①单项分组资料
ⅰ计算中位数位置)2
(∑=
f ;
ⅱ将分组数列的次数进行向上或向下累计;
ⅲ选择第一个大于或等于
2
∑f 的组即为中位数所在组;
ⅳ对应的标志值为中位数。
②组距分组资料
ⅰ、ⅱ、ⅲ同单项分组资料; ⅳ计算中位数值:
图4-2 中位数值计算示意图
设标志值次数在一组内为均匀分布的,运用插值法,得
m m e f S f d L M 12--=
-∑ 整理得下限公式:
d f S f L M m
m e ⨯-+=-∑1
2 上限公式:
d f S f
U M m
m e ⨯--
=+∑12 例:某地区3000家农户的年收入情况资料如下:
774310001050
7000=⨯+
=e M (元)
2.四分位数
四分位数(Quartile )也称四分位点,它是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据,处在分位点上的数值就是四分位数。
①下四分位数l Q ②中位数m Q ③上四分位数u Q
3.十分位数和百分位数
①十分位数(Decile )是通过九个点将全部数据等分为十部分,其中每部分包含10%的数据,处在分位点上的数值就是十分位数。
②百分位数(Percentile )是通过99个点将全部数据等分为100部分,其中每部分包含1%的数据,处在分位点上的数值就是百分位数。
四、均值
1.算术平均数
算术平均数(Arithmetic mean )是全部数据的算术平均,是集中趋势的最主要测度值,用X 表示。
①未分组数列——简单算术平均数
n
x
n
x x x x n
i i
n ∑==
+++=1
21Λ
例:某机械厂某生产小组6个工人生产某种零件的日产量(件)分别为15、16、17、18、19、20。则平均日产量为
5.176
105
6201918171615==+++++=
x (件)
②分组数列——加权算术平均数
∑∑∑∑======++++++=n
i n
i i
i
i n i i
n
i i
i
n
n
n f
f x f
f x
f f f f x f x f x x 1
1
1
121221
1)(
ΛΛ
例:某机械厂180个工人对某种零件的生产情况资料如下:
180180
==
x (件) ⅰ标志值的选择——在组距分组数列中以组中值为标志值
例:某机械厂180个职工的工资资料如下: