第四章 数据特征的描述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【例4-5】设某车间某产品日产量如下表: 】
日产量(件) 12 13 14 15 16 合计 工人数(人) 26 35 75 38 22 196 向上累计(人) 26 61 136 174 196 —
依表中数据,可求得中位数的位次196/2=98, 从表中向上累计人数可知中位数在第三组,该组 变量值14件即是中位数.
60 80 100 120 140 —
4940 = = 98 .8 50
7 10 18 9 6 50
解:
∑ xf x= ∑f
【例4-8】设某车间某产品日产量如下表: 】
日产量(件) 12 13 14 15 16 合计 工人数(人) 26 35 75 38 22 196 向上累计(人) 26 61 136 174 196 —
M o = 3M e 2 X
�
百度文库
80 180 430 220 70 20 1000
80 260 690 910 980 1000 —
二,中位数(Me) 中位数( ) 中位数是一组数据按大小排序后,处于正中间位置 上的变量值.显然,中位数将全部数据等分成两部分, 一部分数据比中位数大,另一部分则比中位数小.与 众数类似,中位数也是一个位置代表值. 1.中位数的特点: 中位数的特点: 中位数的特点 ① 数量唯一性; ② 位置平均数,其数值不受极值的影响; ③ 其计算的假定前提是:数据分布具有明显的 集中趋势,且中位数组的频数在该组内是均匀分 布的; ④各变量值与中位数的离差绝对值之和最小.即: ∑│Xi-Me│=min
2)加权平均数 用来计算分组数据的均值. 设均值为 X ,则加权平均数可表示为:
X =
∑ XF ∑ F
其中:当单变量值分组时,X 表示各变 量的实际值;当组距分组时,X 表示各组组 中值.
加权平均数的特点: (1) 其假设前提是各组数据组中是均匀 分布的.如果实际数据与这一假定相吻合, 则计算结果就比较精确,否则会产生误差, 但这样计算显然是牺牲一定的精度而带来 计算上的方便. (2)其大小不仅受各组变量值大小的影 响,而且受各组变量值出现的频数即权数 大小的影响.如果某一组的权数较大,说 明该组的数据较多,那么该组数据的大小 对均值的影响就越大;反之,则较小.
2.中位数的计算 中位数的计算 1) 未分组数据或单变量值分组数据的中位数: 未分组数据或单变量值分组数据的中位数 第一步:先对数据进行排序, 第二步:用(N+1)/2求出中位数的位次, 该位次对应的那个数据即是中位数.若数据 个数N为偶数,则存在两个中间值,此时中位 数是中点位置相邻的两个数据的平均值,也 即两个中间值勤之和的二分之一.
∑M X = M ∑X
∑ XF = ∑ XF = XF ∑F ∑ X
3.均值计算举例 均值计算举例
【例4-7】某城市50个家庭住房面积如下表所示,计算其均值. 】 住房面积(平方米) 组中值(x ) 频数( f )
xf
420 800 1800 1080 840 4940
70以下 70-90 90-110 110-130 130以上 合计
42 46 49 52 58 62 69 76 82 88 95 100 合计
1 2 1 2 9 9 8 9 4 2 2 1 50
2 4 2 4 18 18 16 18 8 4 4 2 100
【例4-2】前例50个工人周工资资料: 】
按工资分组(元) 工人数(人) 比率(%)
42~50 50-58 58-66 66-74 74-82 82-90 90-100 合计
第一节 集中趋势
集中趋势是指一组数据向其中心值靠拢的倾向, 测度集中趋势也就是寻找数据一般水平的代表值 或中心值. 众数( 一,众数(M ) 众数是一组数据中出现次数最多的变量值. (1)众数的特点: )众数的特点: 1.数量不唯一性 2.位置平均数,其数值不受极值的影响 3.其计算的假定前提是:数据分布具有明显的 集中趋势,即假定众数所在组与相邻两组的频数 之差反映了数据分布陡峭上升而缓慢下降这一特 征;且众数组的频数在该组内是均匀分布的.
依表中数据,计算其中位数,众数及均值
【例4-9】菜场上有1元钱起售的蔬菜,若某 】 人早上用1元钱买了一种蔬菜共3斤,每斤 0.33元;中午降价时又用1元钱买了4斤, 每斤0.25元;晚上削价处理时又用1元钱买 了5斤,每斤0.2元,试问,某人早中晚各用 1元钱购买的蔬菜平均每斤多少钱?
【例4-10】某厂50名工人的工资及计算平均 】 工资如下:
解: 中位数位次=500/2=250 根据下限公式计算: 第四组累计次数为345,含250,故该组为 中位数所在组. Me=1100-[(500/2-240)/105]*300 =1128.57(元)
三,均值 1.概念:均值是全部数据的算术平均,也称 概念: 概念 为算术平均数.均值是集中趋势的最主要 测度值. 均值具有下面一些重要的数学性质: 1)各变量值与其均值的离差之和等于零. 即:
3)几何平均数 几何平均数 几何平均数是N 个变量值乘积的N次方要,计 算公式:
GM = N X 1 × X 2 × … × X N = N ∏ X
用几何平均法计算平均数应满足两个条件: 一是若干个比率或速度的乘积等于总比率或总 速度. 二是相乘的各比率或速度不得为负值或零.
4)调和平均数
调和平均数是标志值倒数的算术平均数的倒数,又称倒 数平均数.有简单调和平均数,加权调和平均数之分.实 际上是算术平均数的变形,二者计算内容和结果是相同的. 二者的区别在于权数不同. 若已知条件为分组资料的各组变量值x及各组的标志值 总和m即xf时,可采用加权调和平均方法计算平均指标; 若已知条件为分组资料的各组变量值x及各组的次数f时, 可直接用加权算术平均方法计算平均指标.其关系可描述 如下:
用几何平均法求5年的平均本利率: x =103%*104%*108%*110%*115%(开5次方)-1 =1.08-1=0.079
四,众数,中位数和均值的比较 众数, 1)三者的位置关系 如果 M o = M e = X ,该组数程对称分布; 如果 Mo < Me < X ,该组数程右偏分布; 如果 Mo > Me > X ,该组数程左偏分布. 2)三者的数量关系
第四章 数据分布特征的描述
数据经过整理后,我们对数据分布的类型 和特点只能有了一个大致的了解,但这种 了解只是表面上的,还缺少代表性的数量 特征值准确地描述出数据的分布.所以, 还需要找出反映数据分布特征的各个代表 值. 数据的分布特征可从三个方面进行描述: 集中趋势,离散程度,偏态和峰度.其中, 前二者是对立统一的.
【例4-3】设5个工人的日产量(件)依次排列为 】 10,11,12,13,14 则:中位数位次=(5+1)/2=3,也即排于第3位的 工人产量为中位数,中位数为12件. 【例4-4】设有6个工人的日产量(件)依次排列为 】 10,11,12,13,14,15 则:中位数位次=(6+1)/2=3.5 中点位次为3.5,说明中位数的位置在第3位与 第4位的中间,取相邻两个变量值的简单算术平均 为中位数,即: 中位数=(12+13)/2=12.5(件)
0
(2)众数的计算 ①未分组数据的众数 ②分组数据的众数 单变量值分组时 组距分组时:画图法,公式法 公式:
f f 1 Mo = ×i + L ( f f 1 ) + ( f f +1 )
个工人, 【例4-1】某工地有 个工人,一周所得工资分布表 】某工地有50个工人
按工资分组(元) 工人数(人) 比率(%)
技术级别 月工资X(元) 工资总额M(元) 工人数M/X 1 2 3 4 5 合计 1400 1500 1600 1700 1800 — 7000 22500 28800 17000 3600 78900 5 15 18 10 2 50
∑ 解:月平均工资= ∑ 元
M M X
=78900/50=1578
∑ (X X ) = 0
∑ (X
X
2)各变量值与其均值的离差平方和最小, 即: 2
)
= min
2.均值的种类 均值的种类 1)简单算术平均数.用来计算未分组数据的均值. 特点: (1)最精确,方便,实用; (2)算术平均的大小只与各变量值的大小 有关; (3)易受极端值的影响 (4)其计算的假设前提是:所有数据都是 已知的.
练习2: 练习 : 根据下表资料,计算居民收入的中位数.
按月收入额分组(元) 调查户数 向上累计户数
500以下 500-800 800-1100 1100-1400 1400-1700 1700-2000 2000以上 合计
40 90 110 105 70 50 35 500
40 130 240 345 415 465 500
众数
4 2 18 8 9 6 3 50
8 4 36 16 18 12 6 100
18 2 = * 8 + 58 = 63 (18 2 ) + (18 8 )
练习1: 练习 :根据下表中某地大学生消费支出调查资料计算众数.
月消费额 (元) 调查人数 (人) 向上累计数(人)
300以下 300-400 400-500 500-600 600-700 700以上 合计
【例4-11】某商品先每公斤7.5元的价格销售 】 2250元,又以每公斤8元的价格销售1600 元试计算该商品平均价格.
【例4-12】某企业生产某种产品要经过三个 】 连续作业车间才能完成.若某月份第一车 间粗加工产品的合格率为95%,第二车间 精加工产品的合格率为93%,第三车间最 后装配的合格率为90%,则该产品的企业 合格率(即三个车间的平均合格率)为多 少?
解: 由一全厂产品合格率为车间产品合格率 的边乘积,故应采用几何平均法计算: x=95%*93%*90%(开三次方)=0.79515(开 =92.64% 三次方)=92.64%
【例4-13】投资银行某笔投资的年利率是按复利计算的,若将过 】 去5年的年利率资料整理为下表,求5年的平均年利率. 年利率(%) 3 4 8 10 15 本利率(%)(x) 103 104 108 110 115 年号 1 2 3 4 5
2) 组距分组情况下中位数的确定 第一步:计算累计频数; 第二步:根据公式N/2确定中位数的位置并确 定中位数所在组; 第三步:根据下面的公式计算中位数的近似 值:
M N S m 1 ≈ L + 2 ×i fm
e
【例4-6】根据练习1的资料,计算1000个大 】 学生每人每月工资消费额的中位数. 解: N/2=1000/2=500 中位数为第3组. Me=400+(500-260)/430*100=455.81