统计学第六章
统计学第6章
C
n N
四、抽样调查的组织方式:
1·简单随机抽样(纯随机抽样)
•方法:将总体单位编成抽样框,而后用抽签或 随机数表抽取样本单位。
•适用:总体规模不大;总体内部差异小
2·类型抽样(分层抽样)
•方法:将总体全部单位分类,形成若干个类型 组,后从各类型中分别抽取样本单位,合成样本。
总体 N
N1 N2
n1
第六章 抽样调查
第一节 抽样调查的意义
一、抽样调查的概念和特点
(一)抽样调查的概念
抽样调查是一种科学的非全面调查。它 是按照随机原则从调查对象的总体中抽取部 分单位进行调查,并根据这部分单位的调查 结果推断总体的数量特征。
抽样调查必须按照随机原则来抽取被调查单位。
第六章 抽样调查
第一节 抽样调查的意义
第六章 抽样调查
【学习目标】通过本章学习,通过对本章的学习,重点掌 握参数估计的方法;掌握抽样调查的基本概念和数理基础的核 心内容;了解抽样调查的意义和抽样组织设计的应用。重点与 难点:抽样平均误差的计算;抽样推断的优良标准;总体平均 数、总体成数的推断方法。
第一节 抽样调查的意义 第二节 有关抽样的基本概念 第三节 抽样误差 第四节 总体参数估计 第五节 抽样单位数的确定
n2
统计学第六章抽样和抽样分布
2021/3/4
统计学第六章抽样和抽样分布
4
一、总体与样本
▪ 把握两个问题: ▪ 1、总体和总体参数; ▪ 2、样本和样本统计量。
2021/3/4
统计学第六章抽样和抽样分布
5
1、总体与总体参数
(1)总体:指根据研究目的确定的所 要研究的同类事物的全体,是所要说 明其数量特征的研究对象。按所研究 标志性质不同,分为变量总体和属性 总体,分别研究总体的数量特征和品 质特征。 构成总体的个别事物(基本单元 )就是总体单位,也称个体。总体单 位的总数称为总体容量,记作N。
缺点:受主观影响易产生倾向性误差; 不能计算、控制误差,无法说明调查结果 的可靠程度。
抽样一般都是指概率抽样。
2021/3/4
统计学第六章抽样和抽样分布
15
2、重复抽样和非重复抽样
(1)重复抽样:又称重置抽样,是指从总体 中抽出一个样本单位,记录其标志值后,又将 其放回总体中继续参加下一轮单位的抽取。特 点是:第一,n个单位的样本是由n次试验的结 果构成的。第二,每次试验是独立的,即其试 验的结果与前次、后次的结果无关。第三,每 次试验是在相同条件下进行的,每个单位在多 次试验中选中的机会(概率)是相同的。在重复 试验中,样本可能的个数是 N n ,N为总体单位 数,n为样本容量。
2021/3/4
统计学第六章抽样和抽样分布
16
2、重复抽样和非重复抽样
(2)非重复抽样:又称为不重置抽样,即每次从
总体抽取一个单位,登记后不放回原总体,不参加下
一轮抽样。下一次继续从总体中余下的单位抽取样本
。特点是:第一,n个单位的样本由 n 次试验结果构成
统计学第六章抽样和抽样分 布
第六章 抽样与抽样分布
统计学第六章假设检验
10
即 z 拒绝域,没有落入接受域,所以没有足够理由接受原假设H0, 同
时,说明该类型电子元件的使用寿命确实有了显著的提高。
第六章 假设检验
1. 正态总体均值的假设检验
(2) 总体方差 2 未知的情形
双侧举例:【例 6-6】某厂用生产线上自动包装的产品重量服从正态
分布,每包标准重量为1000克。现随机抽查9包,测得样本平均重量为
100个该类型的元件,测得平均寿命为102(小时), 给定显著水平α=0.05,
问,该类型的电子元件的使用寿命是否有明显的提高?
解:该检验的假设为右单侧检验 H0: u≤100, H1: u>100
已知 z z0.05 1.645
zˆ x u0 n 100 (102 100 ) 2 1.645
986克,样本标准差是24克。问在α=0.05的显著水平下,能否认为生产线
工作正常? 解:该检验的假设为双侧检验 H0: u=0.5, H1: u≠0.5
已知 t /2 (n 1) t0.025 (9 1) 2.306, 而 tˆ x u 986 1000 1.75 可见 tˆ 1.75 2.306
设H0, 同时,说明该包装机生产正常。
其中 P( Z 1.8) 1 P( Z 1.8) 1 0.9281 0.0719 0.05。
第六章 假设检验
单侧举例:【例 6-4】某电子产品的平均寿命达到5000小时才算合格,
现从一批产品中随机抽出12件进行试验,产品的寿命分别为
5059, 3897, 3631, 5050, 7474, 5077, 4545, 6279, 3532, 2773, 7419, 5116
的显著性水平=0.05,试测算该日生产的螺丝钉的方差是否正常?
统计学 第六章 统计指数
K p
p1
q0
2
q1
p0
q0
q1 2
p1 q0 q1 p0 q0 q1
Kq
q1
p0
2
p1
q0
p0 p1 2
q1 p0 p1 q0 p0 p1
将例1资料带入公式,可得:
k p
p1q0 p0q0
p1q1 26120 38600 64720 108.59% p0q1 23800 35800 59600
在选择指数形式时,主要考虑指数的经济意义,还要考虑 实际编制工作的可能性及对指数分析性质的特殊要求。
(一)工业生产指数 编制过程:
首先,对各种工业产品分别制定相应的不变价格标准,记为P0 然后,逐项计算各种产品的不变价格产值,加总起来就得到全部工 业产品的不变价格总产值 最后将不同时期的不变价格总产值加以对比,就得到相应时期的工 业生产指数
与马埃公式一样,虽然从数量上不偏不倚,但缺乏经济意义,所 用资料较多,计算困难。
是对拉氏指数和帕氏指数直接进行平均(型交叉)的结果,公式 为:
kp
p1q0
p1q1
p0 q0
p0 q1
kq
q1 p0
q1 p1
q0 p0
q0 p1
将例1资料带入公式,可得:
k p
p1q0 p0q0k p
统计学第六章构成因素分析法
(Y1
Y2
Yt )
t
Yi
i 1
3. 有了t+1的实际值,便可计算出的预测误差为
et1 Yt1 Ft1
4. t+2期的预测值为
Ft2
t
1
1
(Y1Biblioteka Y2 Yt Yt1)
t
1 1
t 1
Yi
i1
简单平均法
(特点)
1. 适合对较为平稳的时间序列进行预测,即当 时间序列没有趋势时,用该方法比较好
– 加法模型 Yi=Ti+Si+Ci+Ii
四 平稳序列的分析和预测
一.简单平均法 二.移动平均法
简单平均法
(simple average)
1. 根据过去已有的t期观察值来预测下一期的数值
2. 设时间序列已有的其观察值为 Y1、Y2、… 、Yt,
则t+1期的预测值Ft+1为
1
1t
Ft 1
t
1. 趋势方程中的两个未知常数 a 和 b 按最小 二乘法(Least-square Method)求得
– 根据回归分析中的最小二乘法原理 – 使各实际观察值与趋势值的离差平方和为最小 – 最小二乘法既可以配合趋势直线,也可用于配
合趋势曲线
2. 根据趋势线计算出各个时期的趋势值
线性模型法
(a 和 b 的求解方程)
1. 根据最小二乘法得到求解 a 和 b 的标准方程为
Y na bt tY at bt 2
解得:b
ntY tY
nt 2 t2
a Y bt
2. 预测误差可用估计标准误差来衡量
统计学第六章抽样调查
n
N
例题2
xf
x
f
8400 200
42
s (x x)2 f 12200 7.81
f
200
2 (1 n ) 7.812 (1 200 ) 0.55
x
n
N
200
2000
例题3
❖某冷库的10万只冻鸡合格率为97%, 如果按重复抽样与不重复抽样各抽 取1000只和2000只,分别计算抽样 平均误差。
A
B
较小的样本容量
X
成数
❖ 总体成数
每个总体单位标志值设为0或1 1:具有某种属性的总体单位标志值 0:不具有某种属性的总体单位标志值 总体中具有某种特征的单位占全部总体单位
数的比例称为总体成数,记作P 成数总体方差:P(1-P)
总体成数和样本成数
❖ 样本成数
从成数总体中抽取样本容量为n的样本 样本中具有此种特征的单位占全部样本单位
从1、2 、3、4中随机抽取2个的样本数
重复抽样考虑顺序
16
1、1 2、1 3、1 4、1
1、2 2、2 3、2 4、2
1、3 2、3 3、3 4、3
1、4 2、4 3、4 4、4
从1、2 、3、4中随机抽取2个的样本数
不重复抽样考虑顺序 12
2、1 3、1 4、1
1、2
3、2 4、2
1、3 2、3
- 2.58x
-1.65 x
+1.65x + 2.58x
x
-1.96 x
+1.96x
90%的样本
95% 的样本
99% 的样本
区间估计
❖ 根据一个样本的观察值给出总体参数的估计范围 ❖ 给出总体参数落在这一区间的概率 ❖ 例如: 总体均值落在50~70之间,置信度为 95%
统计学6
6 - 33
经济、管理类 基础课程
统计学
三、样本方差的分布
6 - 34
经济、管理类 基础课程
统计学
(一)样本方差的分布
设总体服从正态分布N 设总体服从正态分布N ~ (µ,σ2 ), X1,X2,… ,Xn为来自该正态总体的样本,则样本方差 为来自该正态总体的样本, s2 的分布为
(n −1)s
2
2. 3.
,则
Z=
X −µ
令 Y = Z 2 ,则 Y 服从自由度为1的χ2分布,即 服从自由度为1 分布,
σ
~ N(0,1)
Y ~ χ (1)
2
4.
当总体 X ~ N(µ,σ 2 ) ,从中抽取容量为n的样本,则 从中抽取容量为n的样本,
样 本 6 - 10
经济、管理类 基础课程
(三)抽样分布
(sampling distribution) distribution)
统计学
1. 样本统计量的概率分布 2. 是一种理论概率分布 3. 随机变量是 样本统计量
样本均值, 样本均值, 样本比例,样本方差等
4. 结果来自容量相同的所有可能样本 结果来自容量相同的所有可能样本 5. 提供了样本统计量长远我们稳定的信息,是进 行推断的理论基础,也是抽样推断科学性的重 要依据
总体分布、样本分布、抽样分布
三、渐进分布和近似分布
6-3
经济、管理类 基础课程
统计学
一、统计量
(一)统计量的概念 • 是样本的特征值 • 设X1 , X2 ,…, Xn是从总体中抽取的容量 为n的一个样本,如果由此样本构造一 个函数T 个函数T( X1 , X2 ,…, Xn ),不依赖于 任何未知参数,则称函数T 任何未知参数,则称函数T( X1 , X2 ,…, Xn )是一个统计量。
大学统计学 第6章 假设检验与方差分析
35%
16
30%
14
12
25%
10
20%
8
`
15%
6
10%
4
2
5%
0
0%
50-60
70-80
90-100
统计学导论
第六章 假设检验与方差分析
第一节 假设检验的基本原理 第二节 总体均值的假设检验 第三节 总体比例的假设检验 第四节 单因子方差分析 第五节 双因子方差分析 第六节 Excel在假设检验与方差分析
记为 H1:。150
整理课件
6-7
三、检验统计量
所谓检验统计量,就是根据所抽取的样本计 算的用于检验原假设是否成立的随机变量。
检验统计量中应当含有所要检验的总体参数, 以便在“总体参数等于某数值”的假定下研 究样本统计量的观测结果。
检验统计量还应该在“H0成立”的前提下有 已知的分布,从而便于计算出现某种特定的 观测结果的概率。
为 =x 149.8克,样本标准差s=0.872克。问该
生产线的装袋净重的期望值是否为150克(即 问生产线是否处于控制状态)?
整理课件
6-4
所谓假设检验,就是事先对总体的参数 或总体分布形式做出一个假设,然后利用抽 取的样本信息来判断这个假设(原假设)是 否合理,即判断总体的真实情况与原假设是 否存在显著的系统性差异,所以假设检验又 被称为显著性检验。
量所得结果落入接受域的概率。
问题,对于 和 大小的选择有
不同的考虑。例如,在例 6-1 中,如果检验者站在卖方 的立场上,他较为关心的是不要犯第一类错误,即不 要发生产品本来合格却被错误地拒收这样的事情,这
时, 要较小。反之,如果检验者站在买者的立场上,
统计学原理第六章动态数列剖析
(四)指标的计算方法和计量单位方面的可 比性
指标的计算方法和计量单位方面应该一致。各个指 标的计算方法如果不一致,不便于动态对比。指标 数值的计量单位也应该一致,否则也不可比。
四、时间数列分析的内容体系
对时间数列的分析基本上可以分为三个层次:
第一个层次就是通过计算一些基本分析指标对事物 的发展过程进行一般的统计描述; 第二个层次就是通过对时间数列的结构分析揭示事 物发展变化的基本趋势和基本规律; 第三个层次就是在对事物发展变化的趋势及其规律 有所认识的基础上,通过建立时间数列模型来对事 物的未来进行预测。
时点数列的特点:
(1)时点数列中各项指标值反映现象在一定时点上 的发展状况; (2)各项指标值只能按时点所表示的瞬间进行不连 续登记,相加无实际经济意义,因而不能直接相 加; (3)各项指标值的大小,与其时点间隔的长短没有 直接关系。
(二)相对数时间数列
相对数时间数列:是指由一系列同类的相对指标数值 所构成的时间数列。它可以反映社会经济现象数量对 比关系的发展过程。它包括:
这类动态数列可以揭示研究对象一般水平的发展趋 势和发展规律。平均数时间数列中各项水平数值也 不能直接加总。
三、编制时间数列的原则
编制时间数列的目的,在于通过数列中各项指标值 对比,说明社会经济现象的发展过程和规律性。因 此,为了保证同一时间数列中指标值的可比性,即 数列中前后各项指标值可以相互比较,应遵守以下 几个基本编制原则:
统计学课件第六章抽样调查PPT课件
特点
每个样本被选中的机会都 相等,样本的代表性相对 较好。
分层抽样
定义
先将总体按一定标准分成 若干层次或群,然后从各 层或群中按随机原则抽取 样本。
方法
分类抽样、比例抽样、类 型抽样。
特点
能够提高样本的代表性, 降低误差,减少资源浪费。
系统抽样
定义
先将总体中的所有个体按某种顺序排列,然后按 照固定的间隔或系统选取样本。
改进抽样方法
采用更科学的抽样方法和技术,如分层抽样、系统抽样等,以提 高样本的代表性。
提高样本代表性
在抽样过程中尽量减少非随机误差,如无回答、不完整数据等, 以提高样本对总体的代表性。
05 抽样调查的组织与实施
抽样调查的设计
确定调查目的
明确调查的目标和意图,为后 续的抽样设计提供指导。
确定调查对象
合理安排问题的顺序、布局和格式,以提高 问卷的易用性和回答率。
确定调查方式
选择合适的调查方式,如自填式、面访式等, 并确定数据收集的途径。
测试与修正
对问卷进行测试和修正,确保问卷的准确性 和可靠性。
调查的实施与质量控制
培训调查员
对调查员进行培训,确保他们了解调 查目的、问卷内容、调查方法等。
现场实施
将总体分成若干个群集或组,然后从每个 群集或组中抽取一定数量的样本,也称为 簇抽样或组抽样。
抽样调查的应用场景
01
02
03
04
市场调查
通过对目标市场的部分消费者 进行调查,了解市场需求、消 费者行为和产品反馈等信息。
社会调查
通过对一定范围内的社会成员 进行调查,了解社会现象、人 口状况和社会问题等信息。
统计学课件第六章抽样调查ppt课 件
统计学第六章抽样法
在总体分层的基础上,再在各层内进行多阶段抽 样。
3
集群抽样
先将总体划分为若干个集群,再随机抽取部分集 群进行调查,适用于地理区域等自然形成的集群。
多阶段抽样优缺点
适用范围广
适用于总体单位分布广泛、数量众多 的情况。
抽样误差小
通过多阶段抽样可以减小抽样误差, 提高估计精度。
多阶段抽样优缺点
06
多阶段抽样
多阶段抽样原理
抽样单位划分
多阶段抽样中,首先将总体划分为若干个初级抽样单位,再从初级抽样单位中抽 取若干个二级抽样单位,以此类推,直至抽取最终样本。
逐级抽取
在每一阶段,都按照随机原则从上一级抽样单位中抽取下一级抽样单位,直至获 得最终样本。
多阶段抽样方法
1 2
PPS抽样
即“概率与规模成比例”的抽样方法,每个初级 抽样单位被抽中的概率与其规模大小成比例。
分层抽样优缺点
分层标志选择困难
选择合适的分层标志是分层抽样 的关键,选择不当可能导致分层
效果不佳。
层间差异影响
如果各层间差异较大,可能导致 样本对总体的代表性降低。
需要较多样本量
相对于简单随机抽样,分层抽样 通常需要较多的样本量才能达到
相同的精度要求。
05
整群抽样
整群抽样原理
以群为抽样单位
整群抽样是将总体划分为若干个互不重叠的群,然后以群为 抽样单位进行随机抽样。
等距抽样
系统抽样中最常用的一种方法,它是按照某 种顺序给总体中的各个体编号,然后随机地 抽取一个编号作为第一调查个体,其他的调 查个体则按照某种确定的规则“系统地”抽 取出来。
周期性
系统抽样中,样本的抽取具有周期性,即每 隔一定的间隔就抽取一个样本。
统计学第六章 参数估计和假设检验
n
2
2
x
26
【例】为估计市场上某产品的平均日销售额, 计划进行一次抽样调查。历史资料反映该产 品日销售额的标准差为20万元。如果要求这 次估计的可靠性为95%,估计允许的误差为5 万元。应抽取多少天的销售额进行调查?
nZ /22 22 1.962 5 2 202 61.46 x
因为n为整数,为保证目的调查天数应为62。
n
100
结论:统计量的值落在接受域内,所以不能 认为合格率不足98%。
49
用Excel进行参数估计
• Excel提供了抽样极限误差的计算方法。根 据抽样极限误差,可以自己定义函数求出 置信区间
50
样本均值服从正态分布情况
• Excel中的“CONFIDENCE”函数可以计算 样本均值服从正态分布条件下的抽样极限 误差
30
小概率事件原理
➢在一次试验中,小概率事件是不可能发生 的
➢显著性水平α:即小概率的大小界定。
31
原假设和备择假设
• 在参数检验中,首先要对某一总体参数提 出一个假设,然后通过抽样调查来验证其 可信与否。这一假设被称为原假设(零假 设、无效假设),记为H0。如果抽样调查 的结果拒绝了原假设,就必须接受另一个 假设——备择假设,记为H1。
样本
部分—整体 随机原则
总体
统计量
总体参数
4
参数估计的优良标准
1.无偏性。估计统计量的数学期望等于被估计参 数的真值。
2.一致性。当样本单位数充分大时,样本指标充 分靠近总体指标。
3.有效性。估计的方差比其他估计量小
5
点估计
➢也叫定值估计,就是根据总体指标的结构 形式设计样本指标,并直接以一个样本统 计量实现值来估计总体参数。
统计学6-8章
第六章时间数列分析(一) 填空题1、时间数列又称数列,一般由和两个基本要素构成。
2、动态数列按统计指标的表现形式可分为、和三大类,其中最基本的时间数列是。
3、编制动态数列最基本的原则是。
4、时间数列中的四种变动(构成因素)分别是:、、、和5、时间数列中的各项指标数值,就叫,通常用a表示。
6、平均发展水平是对时间数列的各指标求平均,反映经济现象在不同时间的平均水平或代表性水平,又称:平均数,或平均数。
7、增长量由于采用的基期不同,分为增长量和增长量,各增长量之和等于相应的增长量。
8、把报告期的发展水平除以基期的发展水平得到的相对数叫,亦称动态系数。
根据采用的基期不同,它又可分为发展速度和发展速度两种。
9、平均发展速度的计算方法有法和法两种。
10、某企业2000年的粮食产量比90年增长了2倍,比95年增长了0.8倍,则95年粮食产量比90年增长了倍。
11、把增长速度和增长量结合起来而计算出来的相对指标是:。
12、由一个时期数列各逐期增长量构成的动态数列,仍属时期数列;由一个时点数列各逐期增长量构成的动态数列,属数列。
13、在时间数列的变动影响因素中,最基本、最常见的因素是,举出三种常用的测定方法、、。
14、若原动态数列为月份资料,而且现象有季节变动,使用移动平均法对之修匀时,时距宜确定为项,但所得各项移动平均数,尚需,以扶正其位置。
15、使用最小平方法配合趋势直线时,求解 a、b参数值的那两个标准方程式为。
16、通常情况下,当时间数列的一级增长量大致相等时,可拟合趋势方程,而当时间数列中各二级增长量大致相等时,宜配合趋势方程。
17、用半数平均法求解直线趋势方程的参数时,先将时间数列分成的两部分,再分别计算出各部分指标平均数和的平均数,代入相应的联立方程求解即得。
18、分析和测定季节变动最常用、最简便的方法是。
这种方法是通过对若干年资料的数据,求出与全数列总平均水平,然后对比得出各月份的。
19、如果时间数列中既有长期趋势又有季节变动,则应用法来计算季节比率。
统计学第六章 抽样估计
(2)通过试访问进行估计 通过试访问的方法,先获得少数一部分样 本的误差数据,然后根据这些数据去计算最终 所需要的样本量,然后再将所需要的样本量完 成。
(3)序贯抽样方法 所谓序贯抽样,是指依次抽取样本,每抽 取一次,进行一次误差计算,直至达到所需要 的精度。
一般做序贯抽样时,会有一张图,如黑板 上图所示。
案例:
假定欲估计喜欢某产品的居民比例在95% 置信度水平下,要求绝对误差小于5%,求样 本量。
本题解法:
但是,如果是相对误差,已知P
五、其他抽样组织形式
1、分层抽样(Stratified Sampling) 2、整群抽样(Cluster Sampling) 3、多阶段抽样(Multi-stage Sampling) 4、设计效应(deff)
序贯抽样的方式操作比较简单,但不适用 于经济调查,一般运用于质量检验中。
(4)成数估计时,使用最大值判断 绝对误差与相对误差 有时候绝对误差很小,但相对误差会很大。
对于绝对误差: 当成数是P时,其标准差为 在成数估计的条件下,方差的最大值为 0.25,因此可以使用最大的方差作为推断最大 样本量的基础。
1、样本平均数的分布
从一个总体中抽出一部分单位,构成一个 样本,可计算出一个样本平均数。
无数次抽选的结果,将会产生无数个样本 平均数,这些样本平均数具有自己的分布形式。
根据大数定理,当样本量超过30时,样本 平均数的分布为正态分布。
2、分布特征
在有放回条件下,简单随机抽样的误差计 算公式如下:
3、多阶段抽样(Multi-stage Sampling)
多阶段抽样的误差计算取决于各阶段的 抽样方式,以最简单的二阶段抽样为例,如 果每一阶段的抽选都是简单随机抽样,一阶 单位的规模相同,则有下列公式:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N
i
X
N
第 i 个单位 的变量值
总体单 位总数
总体算术 平均数
【例A】某售货小组5个人,某天的销售额分别为440元、480元、 520元、600元、750元,求该售货小组销售额的平均差。
解:
X
N
440 480 520 600 750 2790 558 元 5 5
i
A D
X X
(二)变量与算术平均数计算的方差小于变量与任何其他常 数的方差 (三)两个独立随机变量和的方差,等于这两个随机变量方 差的和 2 2 2
( x y ) x y
(四)变量线性变换的方差等于变量的方差乘以变量系数的 平方 2 2 2
y a bx, y b x
第二节 全距、分位差和平均差 一、全距 指所研究的数据中,最大值与最小值之差, 又称极差。
R X max X min
最大变量值或最 高组上限或开口 组假定上限 最小变量值或最 低组下限或开口 组假定下限
【例A】某售货小组5人某天的销售额分别为 440元、480元、520元、600元、750元,则
4. 反映了中间50%数据的离散程度;
5. 不受极端值的影响;
甲城市家庭对住房状况评价的频数分布 甲城市 回答类别 户数 (户) 非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 累计频数 24 132 225 270 300 —
解:设非常不满意为 1,不满意为2, 一般为 3, 满意为 4, 非常满 意为5 。 已知
一、离中趋势的涵义 指总体中各单位标志值背离 离中趋势 分布中心的规模或程度,用 标志变异指标来反映。
反映统计数据差异程度的综 合指标,也称为标志变动度
从另一个侧面说明集中趋势测度值的代表程度。
不同类型的数据有不同的离散程度测度值.
二、变异指标的作用
衡量和比较平均数代表性的大小;
变异指标值越大,平均指标的代表性越小; 变异指标值越小,平均指标的代表性越大。
统计学
STATISTICS
第六章 变异指标
【学习目标】通过本章的学习和习题演算,掌握变异指标 的意义和作用;标准差和标准差系数的计算和应用。了解变异 指标的分布特性;极差、平均差和四分位差的概念、计算公式 和特点;分布的偏度与峰度。 第一节 变异指标的基本理论 第二节 全距、分位差和平均差 第三节 标准差和标准差系数 第四节 偏度与峰度 第五节 变异指标的应用
②受个别极端值的影响过于显著, 不符合稳 健性和耐抗性的要求。
二、分位差 从变量数列中,剔除了一部分极端值后 计算的类似于极差的指标。 四分位差 十六分位差 八分位差 三十二分位差 十分位差 百分位差
Q3 Q1 Q.D 2 下四 上四
分位 数 分位 数
1. 对顺序数据离散程度的测度;
2. 也称为内距或四分间距; 3. 上四分位数与下四分位数之差;
X
N i 1
i
X
2
N
440 558 2 750 558 2
5
60080 109 .62元 5
标准差 ⑵ 加权标准差——适用于分组资料
X
m i 1
i m
X fi
2
fi
i 1
第i 组的变量 值或组中值
第i 组变量值 出现的次数
X
f
208 314 382 456 305 237 78 20 2 000
250 350 450 550 650 750 850 950 —
250 208 950 20 1045900 解: X 522 .95元 2000 2000
X X A D f
即该公司职工月工资的标准差为167.9元。 (比较:其工资的平均差为138.95元)
标准差的特点
不易受极端数值的影响,能综合反映全部单
位标志值的实际差异程度; 用平方的方法消除各标志值与算术平均数离 差的正负值问题,可方便地用于数学处理和统 计分析运算.
由同一资料计算的标准差的结果一般要略大于平均差。
X
i 1
X
440 558 750 558 5
N
468 93 .6元 5 即该售货小组5个人销售额的平均差为93.6元。
⑵ 加权平均差——适用于分组资料
X 1 X f1 X m X f m f1 f m
A D
X
i 1
【 例 】某管理局抽查了所属的8家企业,其产品销售数 据如表。试比较产品销售额与销售利润的离散程度
某管理局所属8家企业的产品销售数据
企业编号 1 2 3 4 5 6 7 8
产品销售额(万元) x1 170 220 390 430 480 650 950 1000
销售利润(万元) x2 8.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0
X
N i 1
i
X
2
N
第 i 个单位 的变量值
总体单 位总数
总体算术 平均数
【例A】某售货小组5个人,某天的销售额分别为440 元、480元、520元、600元、750元,求该售货小组 销售额的标准差。
解:
440 480 520 600 750 2790 X 558元 5 5
证明:当a,b,c≥0时,有
a 2 b2 c2 a b c 3 3
方差与标准差用于测度数据的离散程度,其 作用实质上是一样的,但标准差的计量单位 于所测度数据的计量单位相同,计算结果的 实际意义要比方差更容易理解,因此,在社 会经济现象的统计分析中,标准差比方差的 应用更为普遍,经常被用作测度数据与均值 差距的标准尺度。
i 1 i
m
f
250 522 .95 208 950 522 .95 20 2000
277893 .6 138 .95元 2000
即该公司职工月工资的平均差为138.95元。
平均差的特点
优点:不易受极端数值的影响,能综合反映
全部单位标志值的实际差异程度;
R X max X min 750 440 310 元
【例B】某季度某工业公司18个工业企业产值计划完成情况如下:
计划完成程度 (﹪) 组中值 (﹪) 企业数 (个) 计划产值 (万元)
90以下 90~100 100~110 110以上
合计
85 95 105 115
—
2 3 10 3
是进行质量控制的基础;
衡量现象的均衡性、稳定性
是衡量风险程度的尺度。
例如:某车间有两个生产小组,各有7名 工人,各人日产量如下: 甲组:20,40,60,70,80,100,120 乙组:67,68,69,70,71,72,73
X 甲 X乙 70件
供货计划完成百分比(%)
季度总供货计划 执行结果
集中趋势反映了统计数据聚集的中心所在,但是 变异是统计数据天然的特性,各个数据总是以不 同的程度偏离它们的分布中心。对于一组数据, 不仅要研究其分布的中心位置,概括反映这组数 据的整体水平高低,还要测度数据的离散程度, 反映数据之间的差异程度,测度离散程度的指标 称为变异指标。
第一节 变异指标的基本理论
标准差的简捷计算 目的: 避免离差平方和计算过程的出现 变量值平方 的平均数
X X
2
2
2
变量值平均 数的平方
2
简单标准差 加权标准差
X
N
2
X N
X f f
Xf f
2
标准差的数学性质: (一)变量的方差等于变量平方的平均数减变量平均数的平 方 2 2 2
800 2 500 17 200 4 400
18
24 900
解:R X max X min 110 10 90 10 120 80 40 ﹪
全距的特点 优点:计算方法简单、易懂;
缺点:
①仅取决于两个极端值的水平,不能反映其 间的变量分布情况;
m
i
X fi
i
f
i 1
m
第 i 组的变量 第 i 组变量值 总体算术 出现的次数 值或组中值 平均数
【例B】计算下表中某公司职工月工资的平均差。
月工资 (元) 300以下 300~400 400~500 500~600 600~700 700~800 800~900 900以上 合计 组中值(元) 职工人数(人)
(五)资料分组的情况下
2 i2 2
2
各单位标志值队总平均数所计算的方差 ——总方差 第i组标志值和组平均数所计算的方差 i2——第i组的组 内方差 各组平均数对总平均数所计算的方差
2 ——组间方差
标准差系数
应用:
V
X
100﹪
用来对比不同水平的同类现象,特别是不 同类现象总体平均数代表性的大小 ——标准差系数小的总体,其平均数的代 表性大;反之,亦然。
缺点:用绝对值的形式消除各标志值与算术
平均数离差的正负值问题,不便于作数学处理 和参与统计分析运算。实际应用较少。
第三节 标准差和标准差系数
标准差 是各个数据与其算术平均数的离差平方的 算术平均数的开平方根,用 来表示;标 准差的平方又叫作方差,用 2来表示。
计算公式:
⑴ 简单标准差——适用于未分组资料
x1 536.25(万元) s1 309.19(万元)
309.19 =0.577 v 1= 536.25