统计学第三章单变量描述统计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4
50
合计
50

中位数
集中趋势的测度值之一 排序后处于中间位置上的值
50%
50%
Me
不受极端值的影响
主要用于定序数据,也可用数值型数据,但不能 用于定类数据
各变量值与中位数的离差绝对值之和最小
n
X i M e min
i 1
中位数(位置的确定)
未分组数据: 中位数位置 N 1 2
定类数据 定序数据 定距数据 定比数据
累计次数分布
累计频数
向上累计 将各组次数和比率,由变量值低的组向变量
值高的组逐组累计。 向下累计 将各组次数和比率,由变量值高的组向变量
值低的组逐组累计。 参照P62表3-3
数据分布的特征
集中趋势 (位置)
离中趋势 (分散程度) 偏态和峰度 (形状)
单变量 描述统计
学习提纲
频数与累计频数 集中趋势的度量 离散程度的度量 相对位置与异常值的检验 偏态与峰度的测度
频数与累计频数
频数——次数
对总体经过分组后形成各组单位数在各组间的分布。 也就是各类别中的数据个数。
频数分布——次数分布,分布数列
总体中的各个类别及其相应的频数全部展示出来的 数据集汇总表
【例4】根据下表数据,计算异众比率
表3 某城市居民关注广告类型的频数分布
广告类型
人数(人) 频率(%)
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
1百度文库2
56.0
在 所 调 查 的 200 人 当 中 ,
51
25.5
关注非商品广告的人数占
9
4.5
44%,异众比率还是比较
大。因此,用“商品广告
平均差(计算过程及结果)
【例6】根据第三章表3-5中的数据,计算工人日加工零件数 的平均差
表 某车间50名工人日加工零件标准差计算表
按零件数分组
105~110 110~115 115~120 120~125 125~130 130~135 135~140
合计
组中值(Xi) 107.5
频数(Fi) 3
【例7】根据表3-5中的数据,计算工人日加工零件 数的标准差
表3 某车间50名工人日加工零件标准差计算表
按零件数分组 组中值(Xi) 频数(Fi)
(Xi- X )2
(Xi- X )2Fi
105~110 110~115 115~120 120~125 125~130 130~135 135~140
合计
| Xi- X | 15.7
112.5
5
10.7
117.5
8
5.7
122.5
14
0.7
127.5
10
4.3
132.5
6
9.3
137.5
4
14.3

50

K
M D

i 1
Xi
K
X Fi
Fi
312 6.2( 4 个) 50
i 1
|Xi-X |Fi 47.1 53.5 45.6 9.8 43.0 55.8 57.2 312
方差和标准差
离散程度的测度值之一 最常用的测度值
X = 8.3
反映了数据的分布
4 6 8 10 12
反映了各变量值与均值的平均差异
各变量值对均值的方差小于对任意值的 方差
根据总体数据计算的,称为总体方差或标准差; 根据样本数据计算的,称为样本方差或标准差
总体方差和标准差
方差的计算公式
N
GM N X1 X 2 X N N X i
i 1
可看作是均值的一种变形
N
log GM

1 N
(log
X1 log
X2
log
XN)
log
i1
N
Xi
众数、中位数和均值的比较
均值 中位数 众数 均值 = 中位数 = 众数 众数 中位数 均值
左偏分布
4. 主要用于定序数据,也可用于数值型数据 ,但不能用于定类数据
四分位数(位置的确定)
未分组数据:
下四分位数(QL)位置 =
N+ 14
3(N+1) 上四分位数(QU)位置 = 4
组距分组数据:
下四分位数(QL)位置 =
N 4
上四分位数(QL)位置 =
3N 4
百分位数
P百分位数
p%的数据项的值小于等于P百分位数 (100-p)%的数据项的值大于等于P百分位
组距分组数据: 中位数位置 f 1
2
未分组数据的中位数(计算公式)
Me


X

N 1 2


1 2

X
N 2


X
N 2
1

当N为奇数时 当N为偶数时
定序数据中位数
【例2】根据表3-2中的数据,计算甲城市家庭对住房 满意状况评价的中位数
表2 甲城市家庭对住房状况评价的频数分布
QU = 一般 = 3 四分位差:
QD = QU = QL
=3–2 =1
极差
一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 7 8 9 10
7 8 9 10
计算公式为 未分组数据
组距分组数据
R = max(Xi) - min(Xi)
R
. =
作为中心的变量值就是平均指标
同质总体中各单位某一数据所达到的一般水平
集中趋势(Central tendency)
集中趋势
不同类型的数据用不同的集中趋势测度值
一组数据向其中心值靠拢的 倾向和程度
低层次数据的集中趋势测度值适用于高层次 的测量数据,反过来,高层次数据的集中趋 势测度值并不适用于低层次的测量数据
数据的特征和测度
集中趋势
众数 中位数 均值
离散程度
分布的形状
异众比率 四分位差 方差和标准差 离散系数
偏态 峰度
离中趋势
数据分布的另一个重要特征
离中趋势的各测度值是对数据离散程度所作的描 述
反映各变量值远离其中心值的程度,因此也称为 离中趋势
从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值
乙组: 考试成绩(X ): 0 20 100 人数分布(F ):8 1 1
X甲
i=1 Xi n
X乙
i=1 Xi n
0×1+20×1+100×8
10 0×8+20×1+100×1
10
82(分) 12(分)
计算举例
某投资者某日选中5只股票的价格分别为:3.5元、 4.1元、5.6元、9.8元和15.6元。
n
( X i X )2 min
i 1
调和平均数
集中趋势的测度值之一 均值的另一种表现形式 易受极端值的影响 用于定比数据 不能用于定类数据和定序数据 计算公式为
HM
X i Fi X i Fi Xi
X i Fi Fi
几何平均数
集中趋势的测度值之一 N 个变量值乘积的 N 次方根 适用于特殊的数据 主要用于计算平均发展速度 计算公式为
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50

四分位数
1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
3. 不受极端值的影响
四分位差(定序数据的算例)
【例5】根据表3-2中的数据,计算甲城市家庭对住房 满意状况评价的四分位差
表3-2 甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户)
累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300

解:设非常不满意为1,不 满意为2, 一般为3, 满意 为 4, 非常满意为5 已知 QL = 不满意 = 2,
回答类别
甲城市
户数 (户)
累计频数
非常不满意
24
24
不满意
108
132
一般 满意
93
225
45
270
非常满意
30
300
合计
300

数值型分组数据的中位数
【 例 3】
根据表 中的数 据,计 算 50 名 工人日 加工零 件数的 中位数
表1 某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
累积频数
离散程度的测度
定类数据:异众比率 定序数据:四分位差 定距和定比数据:方差及标准差 相对离散程度:离散系数
异众比率(定类数据)
离散程度的测度值之一 非众数组的频数占总频数的比率 计算公式为
Vr
fi fm 1 fm
fi
fi
用于衡量众数的代表性
异众比率(算例)

均值
集中趋势的测度值之一 最常用的测度值 一组数据的均衡点所在 易受极端值的影响 用于数值型数据,不能用于定类数据
和定序数据
均值
设一组数据为:X1 ,X2 ,… ,XN
简单均值的计算公式为
N
X

X1 X2 XN

Xi
i 1
N
N
设分组后的数据为:X1 ,X2 ,… ,XK
未分组数据:
N
(Xi X)2
2 i1
N
组距分组数据:
K
(Xi X )2 fi
2 i1 K
fi
i 1
标准差的计算公式
未分组数据:
N
(Xi X )2
i1
N
组距分组数据:

K
(Xi X )2 fi
i 1
K
fi
i 1
总体方差和标准差
数据分布的特征和测度
数据的特征和测度
集中趋势
众数 中位数 均值
离散程度
分布的形状
异众比率 四分位差 方差和标准差 离散系数
偏态 峰度
集中趋势及其测度
集中趋势(Central tendency)
集中趋势
绝大多数总体各单位数据的次数分布都是正态分布 或近似正态分析
总体中各数据值的次数分布从两边向中间集中的趋 势
16
8.0
”来反映城市居民对广告
10
5.0
关注的一般趋势,其代表
2
1.0
性不是很好
合计
200
100
四分位差(定序数据)
离散程度的测度值之一 也称为内距或四分间距 上四分位数与下四分位数之差

QD = QU - QL
反映了中间50%数据的离散程度
不受极端值的影响
用于衡量中位数的代表性
集中趋势的测度
定类数据:众数
定序数据:中位数和分位数
定距和定比数据:均值
众数
集中趋势测度值之一 出现次数最多的变量值 不受极端值的影响 可能没有众数或有几个众数 主要用于定类数据,也可用于定序数据和数
值型数据
数值型分组数据的众数
出现次数最多的组作为众数所在组 众数的区间范围:众数所在组的区间
最高组上限
-
最低组下限
平均差
离散程度的测度值之一 各变量值与其均值离差绝对值的平均数 能全面反映一组数据的离散程度 数学性质较差,实际中应用较少
计算公式为
未分组数据
组距分组数据
N
Xi X
M D i1 N
K
Xi X fi
M D i1 K
fi
i 1
【 例 1】
根据表 中的数 据,计 算 50 名 工人日 加工零 件数的 众数
数值型分组数据的众数
表1 某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
累积频数
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
股票名称 价格 数量
购买总金额
某高速 3.5
16
某电子 4.1
12
某科技 5.6
18
某药业 9.8
3
某环保 15.6 2
合计
51
56 49.2 100.8 29.4 31.2 266.6
均值
1. 各变量值与均值的离差之和等于零
n
(Xi X) 0
i 1
2. 各变量值与均值的离差平方和最小
相应的频数为: F1 , F2,… ,FK
加权均值的计算公式为
K
X

X1F1 X 2 F2 X N FN

X i Fi
i 1
F1 F2 FN
K
Fi
i 1
加权均值
甲乙两组各有10名学生,他们的考试成绩及其分布 数据如下:
甲组: 考试成绩(X ): 0 20 100 人数分布(F ):1 1 8
107.5 112.5 117.5 122.5 127.5 132.5 137.5

3
246.49
739.47
5
114.49
572.45
8
32.49
259.92
14
0.49
6.86
10
18.49
184.90
6
86.49
518.94
4
204.49
817.96
50

3100.5
对称分布
右偏分布
数据类型与集中趋势测度值
数据类型和所适用的集中趋势测度值
数据类型 定类数据 定序数据 定距数据 定比数据
※众数
※中位数
※均值
※均值
适 用

四分位数
众数
调和平均数


众数
中位数 几何平均数






四分位数
中位数


四分位数



众数
离散趋势及其测度
数据的特征和测度(本节位置)
相关文档
最新文档