数据分布特征的描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3-5
二、数值平均数
(一)算术平均数(均值)
一组数据的总和除以这组数据的项数所得的结果;
最常用的数值平均数。
1.简单算术平均数
把每项数据直接加总后除以它们的项数。
通常用于对未分组的数据计算算术平均数。
计算公式:
n
x
x1
x2
... xn
xi
i 1
x
n
nn
3-6
例 3-1
表 3-1 男性 女性 22 22 22 22 25 25 25 25 25 25 25 25 25 25 30 30 30 30 50 30
1
1 x1
m1
1 x2
m2
...
1 xn
mn
m1 m2 ... mn
m1 m2 ... mn
x1 x2
xn
mi
i 1
n mi
x i1 i
m1 m2 ... mn
3-10
(续)
调和平均数是算术平均数的变形,在实际工作中, 由于所获得的数据的不同,有时不能直接采用均值 的计算公式来计算平均数,这就需要使用调和平均 数的形式进行计算,二者实质上是相同的,而仅有 形式上的区别。即当已知各组变量值 xi 和算术平均 数的分子数据(xi fi)而缺乏其分母数据(fi)时, 加权算术平均数通常可变形为调和平均数形式来计 算。
x f! 1
x2 f2
...
xk
fk
fi i1
n
Байду номын сангаас
x fi i
i1
适用于各个变量值之间存在连乘积关系的场合。
主要用于计算现象的平均发展速度,
也适用于对某些具有环比性质的比率求平均.
3-13
【例3-5】
某企业产品的加工要顺次经过前后衔接的五道工序。 本月该企业各加工工序的合格率分别为88%、85%、 90%、92%、96%,试求这五道工序的平均合格率。
解:采用简单算术平均法计算,即全体
队员的平均年龄为(单位:周岁):
22 22 25 25 25 25 25 30 30 50 22 ... 30
20
538 26.9 20
表 3-2
分组数据不能简单 平均 !因为各组变 量值的次数不等!
年龄 人数(人)
x
f
若采用简单平均:
xi fi
i 1 n
fi
xf f
i 1
加权—为了体现各变量值轻重不同的影响作用, 对各个变量值赋予不尽相同的权数(fi ).
3-8
权数(fi ,也称权重)
权数——指在计算总体平均数或综合水平的过 程中对各个数据起着权衡轻重作用的变量。
可以是绝对数形式,也可以是比重形式(如频
率)来表示。
x x f f
18
35%
16
30%
14
12
25%
10
20%
8
`
15%
6
10%
4
2
5%
0
0%
50-60
70-80
90-100
数据分布特征的描述
第一节 统计变量集中趋势的测定 第二节 统计变量离散程度的测定 第三节 变量分布的偏度与峰度
3-2
统计数据经过整理和显示后,对数据分布的形状和特征 就可以有一个大致的了解。为进一步掌握数据分布的特 征和规律,进行更深入的分析,还需要找到反映数据分 布特征的各个代表值。
需要注意的是,当数据中出现“0”时不宜计算调和 平均数。
3-11
表 3-4
企业
甲 乙 丙 合计
流通费用率(%) 流通费用(万元)
16
256
10
475
12
480
11.70048
1211
n
n
xi fi (xi fi )
x i1
i1
256 475 480
1211 100% 11.7%
n
集中趋势(Central tendency)
较大和较小的观测值出现的频率比较低,大多数 观测值密集分布在中心附近,使得全部数据呈现 出向中心聚集或靠拢的态势。
测度集中趋势的指标有两大类:
数值平均数——是根据全部数据计算得到的代表值,主要 有算术平均数、调和平均数及几何平均数;
位置代表值——根据数据所处位置直接观察、或根据与特 定位置有关的部分数据来确定的代表值,主要有众数和中 位数。
fi
i 1
n
(xi
fi
)
i1 xi
256 16%
475 10%
480 12%
10350
3-12
(三)几何平均数(Geometric mean)
几何平均数— n个变量值连乘积的n次方根。
简单几何平均数
n
xG n x1 x2 ... xn n xi
加权几何平均数
i 1
n
xG
( f1 f2 ... fk )
对一组数据分布的特征,可以从三个方面进行测度和描 述:一是分布的集中趋势,反映各数据向其中心值靠拢 和聚集的程度;二是分布的离散程度,反映各数据远离 中心值的趋势;三是分布偏态和峰态,反映数据分布的 形状。这三个方面分别反映了数据分布特征的不同侧面。
3-3
§1 统计变量集中趋势的测定
3-4
一、测定集中趋势的指标及其作用
如表3-2中年龄的众数值MO=25。
众数代表的是最常见、最普遍的状况,是对
现象集中趋势的度量。
可用来测度定性变量的集中趋势;
销售量最大的产品颜色是“白色”,则有M0=“白色”
可以度量定量变量的集中趋势。
从分布曲线的角度看,众数就是变量分布曲线的最高 峰所对应的变量值。
3-15
从分布的角度看,众数是具有明显集中趋势点的数 值,一组数据分布的最高峰点所对应的变量值即为 众数。当然,如果数据的分布没有明显的集中趋势 或最高峰点,众数也可能不存在;如果有两个最高 峰点,也可以有两个众数,见P55图3-1。
事实上比重权数更能够直接表明权数的权衡轻重作
用的实质。
当权数完全相等(f1 =f2 =…= fn)时,加权算术 平均数就成了简单算术平均数。
3-9
(二)调和平均数(Harmonic mean)
调和平均数也称为倒数平均数。
各变量值的倒数(1/xi)的算术平均数的倒数. 其计算公式为:
n
xH
22
4
25
10
22 25 30 50 31.75
30
5
4
50
1
合计
20
3-7
2.加权算术平均数
正确的计算是:
x 22 4 2510 305 501
538 26.9
4 10 5 1
20
加权算术平均数的计算公式:
n
x
x1 f1 x2 f2 ... xn fn f1 f2 ... fn
解:本例中各工序的合格率具有环比的性质,企业 产品的总合格率等于各工序合格率之连乘积。所以, 所求的平均合格率应为:
xG 5 88%85%90%92%96% 90.31%
3-14
f(x)
三、众数与中位数
(一)众数(Mode)
MO
x
众数是一组数据中出现频数最多、频率最高
的变量值,常用 Mo 表示。
二、数值平均数
(一)算术平均数(均值)
一组数据的总和除以这组数据的项数所得的结果;
最常用的数值平均数。
1.简单算术平均数
把每项数据直接加总后除以它们的项数。
通常用于对未分组的数据计算算术平均数。
计算公式:
n
x
x1
x2
... xn
xi
i 1
x
n
nn
3-6
例 3-1
表 3-1 男性 女性 22 22 22 22 25 25 25 25 25 25 25 25 25 25 30 30 30 30 50 30
1
1 x1
m1
1 x2
m2
...
1 xn
mn
m1 m2 ... mn
m1 m2 ... mn
x1 x2
xn
mi
i 1
n mi
x i1 i
m1 m2 ... mn
3-10
(续)
调和平均数是算术平均数的变形,在实际工作中, 由于所获得的数据的不同,有时不能直接采用均值 的计算公式来计算平均数,这就需要使用调和平均 数的形式进行计算,二者实质上是相同的,而仅有 形式上的区别。即当已知各组变量值 xi 和算术平均 数的分子数据(xi fi)而缺乏其分母数据(fi)时, 加权算术平均数通常可变形为调和平均数形式来计 算。
x f! 1
x2 f2
...
xk
fk
fi i1
n
Байду номын сангаас
x fi i
i1
适用于各个变量值之间存在连乘积关系的场合。
主要用于计算现象的平均发展速度,
也适用于对某些具有环比性质的比率求平均.
3-13
【例3-5】
某企业产品的加工要顺次经过前后衔接的五道工序。 本月该企业各加工工序的合格率分别为88%、85%、 90%、92%、96%,试求这五道工序的平均合格率。
解:采用简单算术平均法计算,即全体
队员的平均年龄为(单位:周岁):
22 22 25 25 25 25 25 30 30 50 22 ... 30
20
538 26.9 20
表 3-2
分组数据不能简单 平均 !因为各组变 量值的次数不等!
年龄 人数(人)
x
f
若采用简单平均:
xi fi
i 1 n
fi
xf f
i 1
加权—为了体现各变量值轻重不同的影响作用, 对各个变量值赋予不尽相同的权数(fi ).
3-8
权数(fi ,也称权重)
权数——指在计算总体平均数或综合水平的过 程中对各个数据起着权衡轻重作用的变量。
可以是绝对数形式,也可以是比重形式(如频
率)来表示。
x x f f
18
35%
16
30%
14
12
25%
10
20%
8
`
15%
6
10%
4
2
5%
0
0%
50-60
70-80
90-100
数据分布特征的描述
第一节 统计变量集中趋势的测定 第二节 统计变量离散程度的测定 第三节 变量分布的偏度与峰度
3-2
统计数据经过整理和显示后,对数据分布的形状和特征 就可以有一个大致的了解。为进一步掌握数据分布的特 征和规律,进行更深入的分析,还需要找到反映数据分 布特征的各个代表值。
需要注意的是,当数据中出现“0”时不宜计算调和 平均数。
3-11
表 3-4
企业
甲 乙 丙 合计
流通费用率(%) 流通费用(万元)
16
256
10
475
12
480
11.70048
1211
n
n
xi fi (xi fi )
x i1
i1
256 475 480
1211 100% 11.7%
n
集中趋势(Central tendency)
较大和较小的观测值出现的频率比较低,大多数 观测值密集分布在中心附近,使得全部数据呈现 出向中心聚集或靠拢的态势。
测度集中趋势的指标有两大类:
数值平均数——是根据全部数据计算得到的代表值,主要 有算术平均数、调和平均数及几何平均数;
位置代表值——根据数据所处位置直接观察、或根据与特 定位置有关的部分数据来确定的代表值,主要有众数和中 位数。
fi
i 1
n
(xi
fi
)
i1 xi
256 16%
475 10%
480 12%
10350
3-12
(三)几何平均数(Geometric mean)
几何平均数— n个变量值连乘积的n次方根。
简单几何平均数
n
xG n x1 x2 ... xn n xi
加权几何平均数
i 1
n
xG
( f1 f2 ... fk )
对一组数据分布的特征,可以从三个方面进行测度和描 述:一是分布的集中趋势,反映各数据向其中心值靠拢 和聚集的程度;二是分布的离散程度,反映各数据远离 中心值的趋势;三是分布偏态和峰态,反映数据分布的 形状。这三个方面分别反映了数据分布特征的不同侧面。
3-3
§1 统计变量集中趋势的测定
3-4
一、测定集中趋势的指标及其作用
如表3-2中年龄的众数值MO=25。
众数代表的是最常见、最普遍的状况,是对
现象集中趋势的度量。
可用来测度定性变量的集中趋势;
销售量最大的产品颜色是“白色”,则有M0=“白色”
可以度量定量变量的集中趋势。
从分布曲线的角度看,众数就是变量分布曲线的最高 峰所对应的变量值。
3-15
从分布的角度看,众数是具有明显集中趋势点的数 值,一组数据分布的最高峰点所对应的变量值即为 众数。当然,如果数据的分布没有明显的集中趋势 或最高峰点,众数也可能不存在;如果有两个最高 峰点,也可以有两个众数,见P55图3-1。
事实上比重权数更能够直接表明权数的权衡轻重作
用的实质。
当权数完全相等(f1 =f2 =…= fn)时,加权算术 平均数就成了简单算术平均数。
3-9
(二)调和平均数(Harmonic mean)
调和平均数也称为倒数平均数。
各变量值的倒数(1/xi)的算术平均数的倒数. 其计算公式为:
n
xH
22
4
25
10
22 25 30 50 31.75
30
5
4
50
1
合计
20
3-7
2.加权算术平均数
正确的计算是:
x 22 4 2510 305 501
538 26.9
4 10 5 1
20
加权算术平均数的计算公式:
n
x
x1 f1 x2 f2 ... xn fn f1 f2 ... fn
解:本例中各工序的合格率具有环比的性质,企业 产品的总合格率等于各工序合格率之连乘积。所以, 所求的平均合格率应为:
xG 5 88%85%90%92%96% 90.31%
3-14
f(x)
三、众数与中位数
(一)众数(Mode)
MO
x
众数是一组数据中出现频数最多、频率最高
的变量值,常用 Mo 表示。