第四章 统计学(分散趋势 )

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

x x
2
f
x x
3
f
x x
4
f
2312 1960 468 3380 8120
78608 27440 2808 87880 15360
2672672 384160 16848 2284880 5358560

解:利用表4-11中有关数据计算标准差 如下:


n
( xi x) fi


【例4.13】 计算5、11、7、8、9的平 均差。 解:先计算其算术平均数为8,然后将其 代入公式得:
A.D. 5 8 11 8 7 8 8 8 9 8 5 1 .6
【例4.14】 某公司100名工人的每周工 资资料如表4-8所示,计算其平均差。

解:依据公式列表计算可得 :

xi f i fi
x =
A.D. =

i
i

i
=
3200 100
= 320(元)
xi x f i

i
fi
=
7600 100
=76(元)
四、方差(标准差)

方差和标准差是测度数据变异程度的 最重要、最常用的指标。方差是各单 位变量值与其算术平均数的离差平方 2 表示。方差的 的平均数,通常以 计量单位和量纲不便于从经济意义上 进行解释,所以在统计分析中多用标 准差来测度统计数据的差异程度。标 准差又称均方差,一般用σ表示。
2

i 1

n
fi
8120 30
16 . 45
i 1

v3
n
( xi x) f i
3

i 1

n
fi
512 16 . 45
3
15360 30
512
i 1


3

v3

3

0 . 12
计算结果表明该集团下属企业销售额的分布状 况呈轻微左偏分布。
二、峰度及测定


偏态是对数据分布偏斜方向及程度的测 度,也就是频数分布的非对称程度。它 是反映数据分布特征的又一个指标。 偏态系数是对数据分布偏斜程度的测度, 其计算公式为:

3

v3
x
n
i
x

3
fi
3

3

i 1

n
fi
i 1
偏态系数 的数值一般在0与±3之间, 越接近0,分布的偏斜度越小;越接近 ±3,分布的偏斜度越大。

对于组距式分组数据,由于总体或分布数列中 的实际最大值和最小值难以确知,这时只能根 据最高组的上限和最低组下限来计算极差的近 似值,计算公式为: R
U
max
L
min

极差计算简单,易于理解,但只取决于两个极 端值的水平,不能很好地反映中间各变量的变 异程度,它也容易受到极端值的影响 。
(二)四分位差
4
4
4

【例4,19】 利用例4-18的数据资料,计 算该变量数列的峰度。 解:根据表4-18中有关数据计算峰度系 数如下:


4

v4
x
n
i
x

4
fi
4

4

i 1
5358560 30 16 . 45
4

4
n
2 . 44
fi
i 1
由于计算结果 2 . 44 <3,说明上述企业 间销售额的分布呈平峰分布,各变量值 分布较为均匀。
i 1
n
2
n 1

分组数据:
( x x) fi
2
k
S n 1=
i 1

i 1
k
fi 1

方差和标准差是根据全部数据计算的, 它反映了每个数据与其均值相比平均相 差的数值,因此它能准确地反映出数据 的离散程度。与平均差相比,方差和标 准差在数学处理上是通过平方消去离差 的正负号,更便于数学上的处理。因此, 方差和标准差是实际中应用最广泛的离 散程度测度值。
三、平均差(A.D.)


平均差是总体各单位标志值对其算术平 均数的离差绝对值的算术平均数。它综 合反映了总体各单位标志值的变动程度。 对于未分组资料,平均差的计算公式为:

A.D .
i 1
n
X
i
X
n

对于分组资料,平均差的计算公式为:

A.D .
n
XBiblioteka Baidu X
fi
i 1

i
fi
第四章 数据分布特征的描述
第二节 数据分布离散程度的测定
第二节 数据分布离散程度的测定

一、标志变异指标的概念和作用 (一)标志变异指标概念 变异指标又称标志变动度,是说明总体 单位标志值的差异大小程度的指标。



(二)标志变异指标的作用 1.变异指标可用来刻划总体分布的变异 状况或离散程度 2.变异指标可用来反映平均指标的代表 性程度 3.可以用来说明现象或过程的均衡程度 与稳定程度

峰度是对数据分布平峰或尖峰程度的测 度。如果一个总体的数据在众数周围的 集中程度很高,其分布的图形就会比较 陡峭;反之,如果总体数据在众数周围 的集中程度较低,其分布图形就会比较 平坦,峰度指标就是反映总体数据分布 的这一方面的数值特征。

图4-2 尖峰、平峰分布示意图

峰度系数的计算公式为:

四分位差也称内距或四分间距,是指上四分位数 与下四分位数之差,用 Q r 表示。四分位差的计 算公式为: Q Q Q
r 3 1

为排除部分极端值对变异指标的影响,四分位差 反映了中间50%数据的离散程度。其数值越小, 说明中间的数据越集中;数值越大,说明中间的 数据越分散。四分位差不受极值影响,因此,在 某种程度上弥补了极差指标的缺陷。
二、极差、四分位差


(一)极差 极差也称全距,是最简单的变异指标,通 常用(R)表示。它是总体或分布数列中 最大的标志值与最小的标志值之差,即:
R max( x i ) min( x i )

其中:R为极差; max( x )和min( x i )分别为总体或分布 i 数列中的最大标志值和最小标志值。

3

【例4.18】 某集团下属30个企业2007 年3月份销售额统计资料如表4-11所示, 计算该变量数列的偏斜程度
表4-11 偏斜系数计算示例表
销售额 (万元) 10—30 30—50 50—70 70—90 合 计 企业数 组中值 f x 2 10 13 5 30 20 40 60 80 —


根据掌握的数据资料不同,方差和标准 差的计算也区分为简单平均和加权平均: 1. 总体方差和标准差
未分组数据:
( X

i 1 N i

X)
2
N

分组整理数据 :

( X
i 1
K
i K
X) fi
2


fi
i 1
2. 样本方差和标准差

未分组数据
( x x )
S n 1=
第四章 数据分布特征的描述
第三节 数据分布的偏态与峰度测定
第三节 数据分布的偏态 与峰度测定

集中趋势和离散程度是数据分布的两种 重要特征,但要全面了解数据分布的特 点,还需要知道数据分布的形状是否对 称、偏斜的程度以及分布的扁平程度等。 偏态和峰度就是描述分布的这些形态特 征。
一、偏态及测定
v4

x
n
i
x

4
fi
4
4


4

i 1

n
fi
i 1


公式中将离差的四次方除以标准差的四 次方是为了将峰度系数转化为相对数。 用峰度系数说明分布的尖峰或扁平程度, 是相对于正态分布而言的。 由于正态分布的峰度系数 =3,所以, 当 >3时该分布为尖峰分布,当 <3 时该分布为平峰分布。
五、离散系数

离散系数也称变异系数,通常是就标准差来 计算的,因此,也称为标准差系数,它是一 组数据的标准差与其相应的平均数之比,是 测度数据离散程度的相对统计量,其计算公 式为: S
V 或 X VS x

离散系数主要用于对不同组别数据的离散程 度的比较。
【例4、17】某地两个不同类型的企业全年 平均月产量资料如下表,计算标准差系数。 表4-10 离散系数比较分析表
表4-8 100名工人的工资资料
离差 -170 -70 30 130 — 离差的 绝对值 170 70 30 130 — 离差绝对 值×次数 1700 2100 1200 2600 7600
按工资分组 人数 组中值 100—200 200─300 300─400 400─500 合计 10 30 40 20 100 150 250 350 450 -
企 业 钢铁厂 棉纺厂 计量 单位 吨 锭
月平均产量 标准差 x 离散系数(%)
V

x
100 %
500 200
10 5
2.0 2.5

解:虽然钢铁厂产量的标准差比棉纺厂的大,但 我们却不能直接断定钢铁厂的平均月产量的代表 性就比棉纺厂的小。这是因为两个厂的平均月产 量相差悬殊,产量的计量单位也不同。因此只能 根据离散系数的大小来判断。通过计算发现,钢 铁厂的产量的离散系数比棉纺厂的小,这表明, 钢铁厂的平均月产量的代表性比棉纺厂的要好, 生产比较稳定。其结果与用标准差判断的结果正 好相反。
相关文档
最新文档