集中和离散趋势

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

K n(n 1) ( xi x )4 3[ ( xi x )2 ]2 (n 1) (n 1)(n 2)(n 3)s 4

分组
K
4 ( M x ) fi i i 1
k
ns
4
3
峰度系数
K=0,数据服从标准正态分布 K>O,数据呈尖峰分布 K<0,数据呈平峰分布
总体方差
2
样本方差
2 ( X X ) i i 1
N
N
2 ( x x ) i i 1 n
s2
n 1
自由度
概念

一组数据中可以自由取值的个数 当样本数据的个数为n时,若样本均值 x 确 定后,只有n-1个数据可以自由取值,其中必 有一个数据不能自由取值,所以自由度为n-1
0
1
2
3
4
5
6
7
8
9 10
A、B两组学生成绩
6 方差和标准差
方差(Variance)

各变量值与其平均数离差平方的平均数
图示 变量值 平均数 变量值 到均值 的距离
标准差(Standard
deviation,S.D.)
方差的平方根 标准差越大,变量值越分散,平均数解释力越低

方差的计算公式

小结
集中-离散
众数-异众比例 中位数-极差 四分位数-四分位差 平均数-方差、标准差、标准误、离散系数 选用哪组测度指标要根据掌握的数据的类型和分 析目的来确定

小结
表1 不同层次数据的集中趋势测量指标 众数 分 定类 变量值 类 定序 连 定距 变量值 续 组中值 定比 计算 中位数 平均数

分组
SK
(M
i 1
k
i
x )3 f i
ns 3
偏态系数
SK=0,数据分布是对称的 SK>0,数据分布是右偏的 SK<0,数据分布是左偏的 SK的绝对值越大,说明偏斜的程度越大
右偏/正偏
左偏/负偏
峰度及其测度
峰度(kurtosis)
与标准正态相比数据分布是平峰还是尖峰的特征 度量值:峰度系数k 未分组

7 标准误
s S .E . n
8离散系数/变异系数
概念
一组数据的标准差与其均值之比 公式 s

us
x
主要用于比较不同样本数据的离散程度 离散系数↑,数据的离散程度↑ 离散系数↓,数据的离散程度↓ 例题 A组: 9.600/36.0=0.267 B组: 9.013/29.5=0.306
(1.0384-1)×100=3.84%
EXCEL:=X^(1/N) =POWER(X,1/N)
平均数的代表性
A、B两组成绩,孰好孰坏?
A 5 4 5 B 9 2 7
A 8 6
5 4 3 2 1 0 B
XA 5

XB 5

5
5 4 6 5 6 5
2
2 9 2 5 3 9
4 2 0 0 1 2 3 4 5 6 7 8 9 10
甲组:19、20、21、22、23 乙组:17、18、19、23、23、32
找到中间位置的值
奇数为中间位置的值 偶数为中间两个数的平均值 甲班:21 乙班:21
分位数
中位数

50%的数大于这个数,50%的数小于这个数
四分位数

下四分位数:25%的数小于这个数 上四分位数:75%的数小于这个数 例:75%的财富集中在25%的人手中
例2 方差计算步骤
表3 A组同学身高
序号 1 2 3 4 5 6 7 8 身高 160 158 162 165 170 183 179 176

xx
160-169.1= -9.1 158-169.1= -11.1 162-169.1= -7.1 165-169.1= -4.1 170-169.1= 0.9 183-169.1= 13.9 179-169.1= 9.9 176-169.1= 6.9
1
3
3 4 5 6 7 8 9
Q
3
10
R=10 R=10
Q=2
Q=6
5 平均数/均值(Mean)
是统计数据高低相互抵消的结果 是集中趋势的最主要的测度指标 适用于定距数据和定比数据,不适用于定类
和定序数据
例3
例题
甲班:19、20、21、22、23 乙班:17、18、19、23、23、32 中位数: 甲班:21 乙班:21
是否还有其他可能?
三、数据分布形状的描述
偏态 峰度
偏态及其测度
偏态(skewness)
数据分布的不对称性 判断方向:可用众数、中位数、均值三者之间 的大小关系大致判断数据分布是对称、左偏还 是右偏 测度偏斜程度:偏态系数 未分组 n ( x i x ) 3

SK ( n 1)(n 2) s 3

简单算术平均数:
甲班:21 乙班:22

算术平均数(Arithmetic mean)
定义
全部数据的算术平均 公式 简单算术均值

X1 X 2 X N X N

X
i 1
N
i
N

加权算术均值
X F X 2 F2 X K FK X 1 1 F1 F2 FK
定量数据的众数
频数最大的变量值即众数
表2 社会学生的年龄分布
年龄 (岁) 19 20 21 22 23 总计 人数 (人) 3 8 6 1 1 19
例1
某企业一车间有30名职工,他们的工资收入情况
如下表所示,请计算工资众数
表4 30名职工工资收入的频数分布表
职工人数 3 7 13 5 2 30
x x n
中间位 置的值
出现频 数最多 的值
中位 数 众数
定序数据 定距数据 定比数据 所有数据
如果存在极端值, 该方法是一个理想 选择 比较适合定类数据


平均数、中位数、众数的比较
M0 Me X

X Me M0

M0 Me X

对称分布
左偏分布

右偏分布
M 0-众数 M e-中位数 X -平均数
单位:人
表2 学生来源地
单位:人 省份 北京 广西 人数 1 1 省份 江西 山东 人数 4 2
程度
强烈 中等 微弱 没有 总计
人数
12 6 0 0 18
贵州
河北 河南 湖北
3
1 1 1
陕西
云南 浙江 总计
1
2 1 19
异众比例(Variation ratio)
定义
非众数组的频数占总频数的比例 公式
三、峰度、偏度
四、数据标准化
1 众数(Mode)
概念:一组数据中出现次数最多的变量值
特别注意:变量值可能是定类、定序、定距、定比中的 任意一种! 变量值可能是数值,也可能是字符!
定类数据的众数
频数最大的变量值即众数
表1 在美国名列前10位的外国语种
单位:人
语种 西班牙语 法语 德语 意大利语 汉语

X F
i 1 k i
k
i
F
i 1
i
加权算术平均数(Weighted mean)
计算平均受教育年限
数据: 某公司员工:未上学10人,小学24人, 初中83人,高中68人,大专及以上34人。 解:
X 1 F1 X 2 F2 X K FK X F1 F2 FK
月工资(元) 820-860 860-900 900-940 940-980 980-1020 合计
众数出现的可能性
单众数
频 数 英语分数 频 数 德语分数
双众数
多众数
频 数 日语分数 频 数
无众数
俄语分数
2 异众比例(Variation ratio)
众数的代表性
表1 学生自我评定生 存欲望情况

Vr
f f 表示变量值的总频数,
i
f f f
i i
m
fm 1 fi
m
表示众数组的频数
取值范围:〔0,1〕 异众比例↑,众数代表性↓ 异众比例↓,众数代表性↑

例1 计算异众比例
表1 学生自我评定生 存欲望情况
单位:人 程度 强烈 中等 人数 12 6 省份 北京 广西 贵州 河北 河南 湖北


( x x) 2
83.3

123.8 50.8 17.0 0.8
192.5 97.5 47.3
s2
2 ( x x ) n 1
87.6
s s2 9.4
x 1353 169.1 x=
n 8
( x x) 0
2 ( x x ) 612.9
图2 美国不同受教育程度的成人收入情况
注:每一个箱线图的两端,是分布的5%和95%的点。
4 极差/全距(range)
中位数的代表性 A
12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10
B 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10
M=5 R=4

0 10+6 24+9 83 +12 68+15 34 10+24+83 +68+34 10.1(年)
三个重要的数学性质
各个变量值之和是均值的n倍(共n个数据) 各个变量值与均值的离差之和为零
(X
i 1
N
i
X) 0
这 表 明 各 个 变 量 值 与平 其均 数 的 离 差 Xi X 有 正 有 负 , 但 离 差 通求 过和 可 以 完 全 抵 消 。
表2 学生来源地
单位:人 人数 1 1 3 1 1 1 省份 江西 山东 陕西 云南 浙江 总计 人数 4 2 1 2 1 19
微弱
没有 总计
0
0 18
V=33.3%
V=78.9%
3 中位数(Median)

概念:一个分布的中间点 案例和计算步骤 两个组同学年龄 甲组:19、20、23、22、21 乙组:17、23、18、19、32、23 排序
M=5 R=8
极差(range)是变量观测值中最大值与最小值之差
R=max(xi ) min(xi )
极差的代表性
极端值的影响
10,20,30,80 10,20,30,40
R=70 R=30
极差的代表性
生育孩子数目 0 A组 B组
Q
1
1 2
Q
四分位差 (quartile Q deviation) Q=Q3-Q1
各变量值与其均值的离差平方和最小
2 ( X X ) 最小 i i 1 N
这表明X是描述现象集中趋势的 最佳代表值
缺陷
易受极端值的影响 开口式分组条件下计算加权均值,假设性比
较大,也会影响均值的代表性
几何平均数(Geometric mean)
通常用于计算比率平均或速度平均 公式


大多数人坚持走自己选择的路,但很少的人
坚持追随自己选喜含情目。
两湾似蹙非蹙罥烟眉, 一双似泣非泣含露目。
第三章 数据的集中 和离散趋势
一、集中趋势
1 众数 2 中位数、分位数 3 平均数(算术、 几何、加权)
二、离散趋势
异众比例 全距(极差)、分位差 方差、标准差、标准误、离 散系数/变异系数
人数 17,339,000 1,702,000 1,547,000 1,309,000 1,249,000
语种 菲律宾语 波兰语 韩语 越南语 葡萄牙语
人数 843,000 723,000 626,000 507,000 430,000
资料来源:U. S. Bureau of the Census, Statistical Abstract of the United States: 1997, 117th edition (Washington, DC: GPO,1997)
G

N
X
i 1
N
i
若将变量值取对数,几何平均数就变成均值形式
l og X l ogG N
i
例4

某人持有一种股票,2003~2006年每年的收益率分别为 4.5%、2.0%、3.5%、5.4%。计算四年内的平均收益率。
GM 4 1.0451.021.0351.054 1.0384
中间位置的变 量值
奇数:a n / 2 an an 偶数:
2 2 1
简单算术平均数
加权算术平均数
几何平均数
2
平均数、中位数、众数的优缺点
集中 趋势 平均 数
x
x
n
定义
适用范围 定距数据 定比数据
数量 一个 一个 无、 一个 多个
是否计 入所有 数值 是 否
是否受极 值影响 是 否
优点和不足 绝大部分情况下使 用
十分位数
箱线图

用途

可表示一组数据的最大值、上四分位数、中位数、下四分位数、 最小值
120
考试成绩(分)
100 80 60 40 20 0 英语 统计
图1 11位同学的英语和统计成绩的箱线图
比较不同受教育程度成人收 入分布的箱线图
200000
个人收入(美元)
150000 100000 50000 0 只有高中毕业 曾读大学 学士学位 受教育程度 更高学位
相关文档
最新文档