第一节 数据集中趋势的测度

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表4.6
1.5 1.0 1.8 合计
某餐馆蔬菜采购情况
采购金额(元) 200 400 150 750
200 400 150 750 1.15(元/千克) 200 400 150 650 1.5 1.0 1.8
蔬菜价格(元/千克)
解:
蔬菜的平均采购价格
互动地带
4-13
第一节
k k i 1 k i i i 1 i i k i i 1 i i 1 i
4-8
例4.3 某餐馆午餐账单金额的频数分布见表 4.3所示,试计算该餐馆午餐的平均账单金额。
表4.3 账单金额 (元) 70以下 70-90 90-110 110-130 130-150 150以上 合计 某餐馆午餐账单金额的频数分布 组中值m (元) 60 80 100 120 140 160 — 频数 f (笔) 2 6 4 4 2 2 20 收入 m f (元) 120 480 400 480 280 320 2080
1 (xn xn ) 1 2 2 2
f
2
位次上的变量值所在的组 )。
f
4-18
Me L
2
CF f
d
例4.8 某月对某市50户居民抽样调查得到的消费品支出资料如表 4.8所示。试计算这50户被调查居民家庭消费品支出额的中位数。 解:计算以下累计频率,中位数的位次为 50/2 = 25。2400~2600 组为中位数组。L=2400元,d =2600元-2400元=200元, f =12户,累 计至中位数组下限的频数CF=24户 。代入公式计算中位数为:
31 34 29 32 35 38 34 30 29 32 31 26 381 31.75(分钟 ) 12 12
互动地带
4-4
第一节
数据集中趋势的测度
x
i 1
由单值式变量数列计算算术平均值:加权算术 平均法 K
x1 f 1 x 2 f 2 x K f K f1 f 2 f K
总体或样本某一标志总 量 算术平均值 总体或样本容量
4-2
第一节
数据集中趋势的测度
x
i 1 N
由原始数据计算算术平均值:简单算术平均法
x1 x 2 x3 x N N
i

N
i x1 x 2 x3 x n x i 1 n n 表示总体均值;表示样本算术平均值;总体 x 式中,
4-19
Me L 2
f CF
f
d
=
25 24 2400 200 2416 .67 (元) 12
第一节
数据集中趋势的测度
一 、分位数(quantile)
是在对原始数据按照大小或优劣顺序进行排列的情况下,能够把 全部数据等分为 k 个部分的数据称为 k 分位数。 k 分位数共有 k -1 个。 最常用的分位数有二分位数(中位数)四分位数(quartile)、十分 位数(decile)和百分位数(percentile)等 已知原始数据求分位数 1. 对全部数据按照升序排列(变量值由小到大); 2. 计算各分位数的位次。对于容量为n 的数据资料,第 p个 k 分位 p 数的位次
x
n
容量为N;样本容量为 n。
4-3
第一节
数据集中趋势的测度
例4.1 某工厂加工某种零件的12名工人完成工作所需的时 间(计量单位:分钟)为 31 34 29 32 35 38 34 30 29 32 31 26 试计算这组数据平均数。 解:这是一组由12名工人所组成的总体数据,它的平均 数计算如下:
4-6
第一节
类别 是 非 合计
数据集中趋势的测度
量化值x 1 0 — 频数f N1 N2 N 频率f/N P Q 1
由是非数据计算算术平均值——比例或成数
按照单值式变量数列求总体是非数据的算术平均值如下:
同样地,可得到样本是非数据的算术平均值
N1 N2 1 0 1 P 0 Q P N N
表4.8 某市50户居民消费品支出情况累计分布表
频数(户) 5 1 8 10 12 7 4 3 50 以下累计频数(户) 5 6 14 24 36 43 47 50 — 按户消费品支出分组(元) 1600~1800 1800~2000 2000~2200 2200~2400 2400~2600 2600~2800 2800~3000 3000以上 合计
推论:对于定序数据,经排序后用1、2、3…或 0、1、2…等定义数据值,可计算定序数据的均值. 互动地带 4-7
x= p
第一节
数据集中趋势的测度
由组距数列计算算术平均值 :加权算术平均法 K K mi f i mi f i K f i 1 i 1 K mi i N N i 1 f i i 1 或 m f m f f x m n n f x i 是第 i 组的组中值; f i 是 i 组的频数,称为权 式中, k 数;是样本的分组数; K是总体的分组数 。 由组距数列计算的算术平均值是一个近似值。
组中值 (%) 95 105 115 — 网点数 (个) 5 8 2 10 计划销售额 (万元) 1000 8000 1000 145
解:计划完成程度乘以计划销售额等于实际销售额,并 能汇总求和,得到公司实际销售总额。因此,计划销售额指 标应当是我们所要确定的权数w,代入公式计算如下:
xw 95% 1000 105% 8000 115% 1000 10500 105(%) 1000 8000 1000 10000 w
起重吨位分组的数据如表4.1所示。求这10台起重 机械的平均吨位。
表4.1
起重机吨位(吨) x 40 25 10 5 合计
某货场起重机械分布表
频数(台) f 1 2 4 3 10 起重总量(吨) xf 40 50 40 15 145
解:这10台起重机械的平均吨位的计算如下:
40 1 25 2 10 4 5 3 145 14.5(吨) 1 2 4 3 10
4-15
第一节
f
数据集中趋势的测度
f f
x
1. 唯一众数 2. 复众数
x
3. 无众数
x
图4.1 确定众数的三种情况
在组距数列中,由于原始数据的信息丢失较多,由组距数列计算众 数的取值与实际值的差距可能是很大的。
4-16
第一节
数据集中趋势的测度
一 、中位数(median)
也叫中数或中值,是变量值的排序中位置居中的数 值。 中位数把全部数列分成了两部分,每一部分都包含了 50%的数据,其中一部分比中位数小,另一部分比中位 数大。 例如,在处理快艇的5次实验数据中,得到最大速度 值(单位:m/s)的排序结果为:27 30 31 33 35 。显然,31位于这5个数据排位的中间,它就是快艇 最大时速的中位数。 测度中位数的前提条件是数据必须能够排序大小 。因此, 定类数据不能计算中位数。 对一个特定的数列,中位数是必然存在的唯一确定值。
平均零件加工合格率 4 95% 97% 96% 98%
4-14
96.5%互动地带
第一节
数据集中趋势的测度
一 、众数(mode) 也叫众值,是在数据集中出现频数最多或频率 最大的数据值。 众数的测度适用于任何种类(分类数据、数值数据) 的数据。 众数的大小不受极端值大小的影响。 对于原始数据,用定义求众数 : 1.编制单值式变量数列 2.频数最大的组的变量值即众数 对于一个数据集,众数的测算结果会出现三种情 况:唯一一个众数;多个众数;无众数。
计算午餐的近似平均账单金额如下:
4-9
解:首先,计算各组的组中值,见表中内容。然后,
x
m
i 1
k
i
fi
n

2080 104(元) 20
第一节
数据集中趋势的测度
权数含义的推广 在组距数列中只要一个指标与变量值的乘积等 于组的总量指标,而且各组的总量指标能够加总求 和,那么这个指标就可以作为权数计算分组数据的 算术平均值。因此,用广义权数计算均值的公式为:
2710、2755、2850 2880、2880、2890 2920、2940、2950 3050、3130、3325
最小值
箱形图(box plot) 是用图示形式表达五数概括法的图形 。绘制方法是,首先找出最 小值、下四分位数、中位数、上四分位数和最大值5个数值在坐标上 的位置,然后连接相邻的两个四分位数画出两个箱子,再将两个极 端值与两个箱子连接。
i
fi
N

x
x1 f1 x2 f 2 x k f k f1 f 2 f k
x
i 1
k
i
fi
n
源自文库
x i 是第 i 组变量值; f i 是 i 组的频数,称为权数; 式中, k 是样本的分组数; K是总体的分组数 。
4-5
例4.3 某货场有10台起重机械,按照它们的
4-11
第一节

数据集中趋势的测度
调和平均:算术平均的另一种形式 当已知各组总量指标C(=xf,或=xw)和变量x时, 可用调和平均法计算分组数据的均值:
xw c w c

x
xw c w c x
x
4-12
例4.6 某餐馆采购员,一天内在三个集市采购的同 一种蔬菜的数据如表 4.6 所示,求该采购员当天采 购的这种蔬菜的平均价格。
第四章 数据分布特征的测度
学习目的: 熟悉数据集中趋势测度的主要指标的含义和应 用条件,熟练掌握算术平均值的计算方法; 熟悉数据离散程度主要测度指标的含义,熟练 掌握标准差和变异系数的计算和应用; 了解数据的偏态和峰度的含义及其测度方法。
4-1
第一节
数据集中趋势的测度
数据的集中趋势(central tendency) 是指某一总体或样本的数据向某一中心值集 中或靠拢的趋势。 一 、算术平均值(arithmetical mean) 也叫算术平均数,简称平均数、均值或均数 (mean),是指总体或样本中平均每一个体的 某一标志数值,因而表现为总体或样本的某一 标志总量与总体或样本的容量的比值,它的基 本计算公式如下:
xw w x w w

xw w x x w w
4-10
例4.5 某公司15个销售网点销售年度计划完成 情况分布如表4.5所示,试求公司平均销售计划完 成程度。
表4.5
计划完成程度(%) 95-100 100-110 110-120 合计
某公司年度销售计划分布表
4-17
第一节

数据集中趋势的测度
由原始数据求中位数 1.排序数据 2.确定中位数位次,求中位数
中位数位的位次是 n 1 。 2 当数据个数 n 为奇数时,中位数确定为:
M e x n 1
2
当为 n 偶数时,有两个位次上的数值在中间,中位数用这两个数值的简单算术平均 值表示:
Me

由组距数列求中位数 1.计算一下累计频数,判断中位数组(即 2.用公式计算中位数:
数据集中趋势的测度
二、几何平均值(Geometric mean) 如果变量值的乘积具有某种现实意义,我们可 以使用几何平均法求变量的平均指标。
G n x1 x2 x3 xn n
x
i 1
n
i
例4.7 某加工厂加工某种零件需要经过四道工序, 各道工序加工零件合格率分别是95%、97%、96% 和98%,求加工这一批零件的平均合格率。 解:
i
3. 确定或计算各分位数的值。如果 i 不是整数,则向上取整,用比 i 大的下一个整数代表第 p 个分位数;如果 i 是整数,则第 p 个分位 数是 i 第项和第 (i 1) 项数值的算术平均值。
4-20
k
n
p 1,2,3,, k 1
第一节
五数概括法
数据集中趋势的测度
利用3个四分位数再加上最大值和最小值2个总共5个数值就能够 简单地概括出一组数据分布的特征,用于分析数据的方法 。 例4.10 某行业业务经理每月起薪的抽样调查资料的排序如下:(单位: 元)2710、2755、2850、2880、2880、2890、2920、2940、 2950、3050、3130、3325 。 解:首先把数据按照由小到大进行排序,再确定最小值、下四分位数、 中位数、上四分位数和最大值,如下所示:
相关文档
最新文档