第五章 离趋势测量法
第5章离中趋势度量法
四分位差
(quartile deviation)
1. 对顺序数据离散程度的测度
2. 也称为内距或四分间距
3. 上四分位数与下四分位数之差
Qd = QU – QL 4. 反映了中间50%数据的离散程度
5. 不受极端值的影响
6. 用于衡量中位数的代表性
4 - 20
西北工业大学管理学院
为什么称作标准差
Mary Smith 和Jason Jones都在申请奖学金,Mary 参加的是the Academic College Testing Service (ACT)test , 成 绩 为 26 ; Jason 参 加 的 是 the Stanford Admission Test (SAT),成绩是1100。两 类 考 试 的 分 数 范 围 分 别 是 0-36 、 200-1600 , 那 么 谁将获得奖学金?
M d i1 n
k
组距分组数据
Mi x fi
M d i1 n
4 - 24
西北工业大学管理学院
统计学
STATISTICS
平均差
(例题分析)
某电脑公司销售量数据平均差计算表
按销售量分组
140~150 150 ~ 160 160 ~ 170 170 ~ 180 180 ~ 190 190 ~ 200 200 ~ 210 210 ~ 220 220 ~ 230 230 ~ 240
2040
统计学
STATISTICS
平均差
(例题分析)
k
M d
i 1
Mi x n
fi
2040 120
17(台)
含义:每一天的销售量平均数相比,
第五章离散趋势的测量
• QU=(1500+1630)÷2=1565(元) • QL和QU之间包含了50%的数据,因此,我
们可以说有一半的家庭人均月收入在815~ 1565元之间。 • 根据例3.2资料计算上下四分位数,那么家 庭人均月收入的四分位差为: • QU—QL=?
• 上四分位数 下四分位数: • 数值型分组数据的四分位数(计算公式)
• [例3.17] 从一批产品中随机抽取100件产品
进行质量测试,测试的结果为9Fra bibliotek件合格,4 件不合格,试计算成数的方差和标准差。
• 是非标志的方差、标准差,当时取得最大
值,方差最大值为0.25,标准差最大值为 0.5,也就是说,此时是非标志的变异程度 最大。如某学生群体中男生数和女生数相 等,即男女生的成数均为0.5(50%), 说明该学生群体性别差异程度最大。是非 标志的方差、标准差的最小值均为0。
•
低 平均指标作为总体各单位某一数量标志的代表值, 其代表性的高低与总体差异程度有直接关系:总 体的标志变异指标值愈大,平均数的代表性愈低; 反之,标志变异指标值愈小,平均数代表性愈高。 另一方面,平均指标代表性的高低同总体各单位 变量值分布的均衡性也有直接关系:总体各单位 变量值分布的均衡性越高,平均指标代表性就越 高;反之,总体各单位变量值分布的均衡性越低, 平均指标代表性就越低。
第二节、全距与四分位差
• 一、全距 • 1、未分组资料计算公式 • 全距又称极差,是一组数据的最大值与最小值之 • •
i
差,用表示。计算公式为: R max( X i ) min( X i ) max( min( ) 式中, X i ) 、 X 分别表示为一组数据的最大值与 最小值。由于全距是根据一组数据的两个极值表 示的,所以全距表明了一组数据数值的变动范围。 越大,表明数值变动的范围越大,即数列中各变 量值差异大,反之,越小,表明数值变动的范围 越小,即数列中各变量值差异小。
第五章离散趋势测量法
第五章 离散趋势测量法 第二节、全距与四分位差• 一、全距• 1、未分组资料计算公式• 全距又称极差,是一组数据的最大值与最小值之差,用表示。
计算公式为: ••式中, 、 分别表示为一组数据的最大值与最小值。
由于全距是根据一组数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。
越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,越小,表明数值变动的范围越小,即数列中各变量值差异小。
2、分组资料计算公式R=最高组上限 - 最低组下限• R=最高组组中组-最低组组中值 • R=最高组组中组-最低组下限• R=最高组上限-最低组组中值• 如果资料经过整理,并形成组距分配数列,全距可近似表示为: •R ≈最高组上限值-最低组下限值3、优缺点:优点:计算简单,易于理解。
缺点:(1)受极端值影响大,遇含开口组的资料时无法计算; (2)数据利用率低,信息丧失严重;(3)受抽样变动影响大(一般大样本的全距会比小样本的全距大)。
二、四分位差(inter-quartile range )上四分位数与下四分位数之差的平均数,称为四分位差,亦称为内距或四分间距。
四分位差的计算方法:Q·D=(Q3-Q1) /2四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。
此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。
四分位差主要用于测度顺序数据的离散程度。
当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。
优缺点:主要是避免了全距受极端值影响的缺点,其他优缺点同全距:数据利用率低,信息丧失严重;受抽样变动影响大。
max()min()i i R X X =-max()i X min()i X第三节、平均差•平均差是各变量值与其算术平均数离差绝对值的平均数,用A.D表示。
根据掌握资料的不同,平均差有以下两种计算方法:• 1. 简单平均法•对于未分组资料,采用简单平均法。
第五讲 集中趋势和离中趋势的度量 PPT课件
xH 1
1 1
x1 m1 x2 m2
m1 m2 mn
m
1 xn mn
1
1
1
1
x1 m1 x2 m2 xn mn
m x
m1 m2 mn
第二节 数值平均数
调和平均数
上述公式是加权调和平均数的公式。若各变量值 的权数都相等时,加权调和平均数简化为简单调和 平均数。即:
xG
f
x f1 1
x2 f2
xn fn f
xf
第二节 数值平均数
本节小结
本节主要讨论了算术平均数、调和平 均数、几何平均数三种数值平均数的应用条 件和计算方法,其中最常用的是算术平均数。
第三节 位置平均数
本节重点 众数、中位数的概念与计算方法
本节难点 众数、中位数的的定义
x
100%
第四节 离中趋势的度量
本节小结
标志变异指标的意义与测定既是本 章的重点,也是整个统计学中的重要问 题。特别要弄清楚标准差的计算原理、 计算方法和离散系数的应用条件。
(x x) 0或(x x) f 0
第二节 数值平均数
(五)算术平均数的数学性质 ⒉各变量值与算术平均数的离差平方和
为最小。
(x x)2 min 或(x x)2 f min
第二节 数值平均数
二、调和平均数
又叫倒数平均数,即各变量值的倒数的算术平均 数的倒数。调和平均数用 xH 表示。
第一节 集中趋势指标概述
集中趋势是指一组数据向某一中心值靠拢 的倾向,测度集中趋势即要寻找数据一般水平 的代表值或中心值。
集中趋势指标即统计平均数,是反 映若干统计数据一般水平或集中趋势的 综合指标。它可能表现为总体内各单位 某一数量标志的一般水平,也可能表现 为总体在某一段时期内的数量一般水平。
第五章-离中趋势测量法
⑴简单标准差 对于未分组资料计算标准差时可 采用简单法,其计算公式为:
(x x ) n
2
例,求26,45,88,62,74这些数字的标准差
⑵加权标准差 按照分组资料(变量数列)计算标准差时可采 用加权法。由组距数列计算标准差时,还应先 求出组中值(开口组的组中值以邻近组的组距 确定),再按加权法计算。其计算公式为:
AD x x n
…………(5.1)
例1,有两个参赛篮球队队员身高(单位:cm)如下: 甲队:185 191 195 202 217 乙队:190 197 199 200 204 以上述资料为例,计算简单平均差。
⑵加权平均差 在资料已经分组时,平均差采用加 权平均法计算,其计算公式为:
AD
第五章 离中趋势测量法 离中趋势测量法
离中趋势是指变量数列中变量值 之间的差异程度或离散程度。
本章重点: 1、平均差 2、方差与标准差 3、离散系数 本章难点: 1、方差与标准差 2、是非标志的方差
变异指标的概念和作用
一、变异指标的概念 变异指标又称标志变动度,是反映总体各单位标志值之间差异程度的 综合指标。 二、变异指标的作用 1、是衡量平均指标代表性的尺度 2、可用来研究现象的稳定性和均衡性 3、在抽样调查和相关分析中有着重要作用 变异指标用以反映总体各单位标志值的变动范围或参差程度,与平 均指标相对应,从另一个侧面反映了总体的特征。变异指标不仅可以 综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
(1)当 x M
e
M 0时 , 对 称 分 布 ;
,右偏分布; <Me < Mo时,左偏分布。
(三) 偏态系数
我们在前面讨论统计图时已经对频数分布的正态和 偏态有所认识。我们又看到了算术平均数与中位数、众 数之间存在的关系:当总体呈对称分布时,X 、 M 、 M 三者完全相等;当总体呈不对称的偏态分布时,它们之 间存在着数量(位置)的差异。因此,偏态可由 X 与 M o 的差来表示,即
第五章 离散趋势测量法
第五章离散趋势测量一、单项选择题(在各题的备选答案中,只有1项是正确的,请将正确答案的序号,填写在题中的括号内。
每小题2分,共20分)1. 离散系数的主要目的是( )。
A. 反映一组数据的平均水平B. 比较多组数据的平均水平C. 反映一组数据的离散程度D. 比较多组数据的离散程度2. 两组数据的平均数不相等,但是标准差相等。
那么( )。
A. 平均数小的,离散程度小B. 平均数大的,离散程度大C. 平均数大的,离散程度小D. 两组数据离散程度相同二、名词解释(每题4分,共20分)3. 方差与标准差四、计算题(每题 1 5分,共30分)4.某校社会学专业共有两个班级。
期末考试时, 一班同学社会学理论平均成绩为86分,标准差为12分。
二班同学成绩如下所示。
二班同学社会学理论成绩分组数据表按成绩分组(分) 人数(个)60分以下 260~70 770~80 980~90 790~100 5合计30要求:(1) 计算二班同学考试成绩的均值和标准差。
(2) 比较一班和二班哪个班成绩的离散程度更大? (提示: 使用离散系数)5.甲单位人均月收入4500元, 标准差1200元。
乙单位月收入分布如下所示。
乙单位月收入分布表按收入分组(元) 人数(个)3000 分以下1203000~4000 4204000~5000 5405000~6000 4206000 以上300合计1800要求:(1) 计算乙单位员工月收入的均值和标准差。
(2) 比较甲单位和乙单位哪个单位员工月收入的离散程度更大? (提示: 使用离散系数)答案: 1. C 2. C3. 方差与标准差方差(variance) 是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。
(2分)标准差(standard variance) 是方差的平方根,用于测量数值型数据离散趋势。
(2分)4.(1)均值:kkk f f f X f X f X f X ++++++=212211=(55×2+65×7+75×9+85×7+95×5)÷ 30 = 2310 ÷ 30= 77 (4分)方差:()Nf X Xki ii∑=-=122σ()()()()()30577957778597775777652775522222÷⎥⎥⎦⎤⎢⎢⎣⎡⨯-+⨯-+⨯-+⨯-+⨯-= = 4080 ÷ 30= 136标准差: 6619.111362≈==σσ (4分)(2)一班考试成绩的离散系数为:1395.08612=÷==一班一班一班X S V (3分)二班考试成绩的离散系数为:1515.07766.11=÷==二班二班二班X S V (3分)一班V <二班V ,所以说一班成绩的离散程度小于二班。
离中趋势的量度:变异指标
第五章离中趋势测量法平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。
但是总体作为统计对象,还有其变异性的一面。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。
离势小,平均数的代表性高;离势大,平均数代表性低。
变异指标的种类较多,如按计算的基准来分有以下两类:(1)以两数之差来表达的有全距和四分位差等。
(2)以对平均数偏差来表达的有平均差、标准差等。
变异指标如按数量关系来分有以下两类;(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。
(2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差1.全距全矩是最大变量值与最小变量值之差,用R来表示。
对未分组资料,计算全距用原始式。
由于全距是一组数据中两个极端值之差,所以它又称极差。
全距的最大优点是:计算简单,便于直观。
缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。
一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。
2.四分位差四分位是用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,它可以避免全距测量离中趋势受极端值影响大这个缺点。
但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。
第二节平均差要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。
但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。
管理学离中趋势测量法
动差
M
k
M
k
(x a)k(未分组资料) n
(x a)k f(分组资料) f
当a=0时,即变量以原点为中心,上式则 转变为原点k阶动差。 将a=0,k=1,2,3,4代入上式, 则可得到
一阶原点动差为x,二阶原点动差为x2,
三阶原点动差为x3,四阶原点动差为x4,等等。
很明显,一阶原点动差就是x的算术平均数,
xx f AD
f
…………(5.2)
(FJ5-3)
四、方差与标准差
(一)方差
总体方差,简称方差,就是各个标志值与 其算术平均数离差平方的算术平均数,一
般用符号 2 表示,其计算公式为:
简单方差: 2 (x x )2 ………(5.3)
n
加权方差: 2 (x x )2 f ………(5.4)
二、四分位差
四分位差就是第三四分位数和第 一四分位数之差的二分之一,用 Q.D表示,即Q.D =(Q3-Q1)/2。
四分位距就是第三四分位数和第一四 分位数之差,用于测定中间50%部分 的距离为多少。即IQR = Q3 -Q1 。
仍用前一章计算四分位数的 例子求四分位差,可得:
Q.D Q3 Q1 25.5 16.5 4.5(件)
例6,某种产品2 000件中有100件不合格, 则合格率为95%,也就是平均合格率为95% (平均不合格率为5%),那么合格率(或不 合格率)的方差、标准差分别为:
2 p
p(1
p)
0.95(1 0.95)
0.0475
4.75%
p p(1 p) 0.0475 0.218 21.8%
由于成数p总是大于0小于1,从成数方差的 计算公式可知,成数方差的最小值为0(即 p = 0 或 p = 1 时 ) ; 最 大 值 为 0.25 ( 即 p = 0.5时),此时成数的标准差是0.5。
第五章集中趋势和离中趋势的度量
第五章集中趋势和离中趋势的度量第五章数据分布特征的描述第⼀节集中趋势指标概述⼀、集中趋势指标及其特点集中趋势(Central tendency),是指⼀组数据向某⼀中⼼值靠拢的倾向,测度集中趋势也就是要寻找数据⼀般⽔平的代表值或是⼼值。
在现象的同质总体中,各个单位的标志值是不尽相同的。
如果我们的⽬的是要对总体的数量⽔平有⼀个概括地、⼀般地认识,显然不能⽤某⼀单位的标志值表⽰。
统计平均数就是⽤来反映总体的⼀般⽔平和集中趋势的指标。
通俗的理解就是,在不变更总体总量的情况下,对总体内的全部标志值进⾏“截长补短”,使得总体各单位拥有同⼀⽔平的数量表现,这个同⼀⽔平的数量表现就是平均数,即集中趋势指标。
统计平均数有两个重要的特点:第⼀,平均数是⼀个代表值,表⽰被研究总体的⼀般⽔平。
例如,某企业职⼯的⼯资⽔平有⾼有低,有的职⼯⽉⼯资1680元,有的职⼯⽉⼯资1900元,有的职⼯⽉⼯资1870元,有的职⼯⽉⼯资2200元,等等。
若根据该企业各个职⼯⽉⼯资额综合计算出职⼯⽉平均⼯资为1860元,那么,1860元就是⼀个代表值。
它反映了该企业职⼯⽉⼯资的—般⽔平。
第⼆,平均数把被研究总体各单位的标志值的数量差异抽象化了。
例如,某企业职⼯的⽉平均⼯资为1860元,但是各个职⼯的⼯资⽔平有⾼有低,⾼于1860元的⼯资和低于1860元的⼯资互相抵消了,从⽽得出平均⼯资1860元。
由此可见,平均⼯资(1860元)已把各职⼯⽉⼯资⽔平的差别抽象化了。
⼆、集中趋势指标的作⽤集中趋势指标——统计平均数,在统计研究中被⼴泛应⽤,平均数的作⽤可以归纳为以下⼏点:1.利⽤平均数对⽐不同总体的⼀般⽔平。
平均数可以⽤来对同类现象在各单位、各部门、各地区之间进⾏⽐较,以说明⽣产⽔平的⾼低或经济效果的好坏。
例如,要⽐较不同的⽣产企业⽣产⽔平的好坏,仅对⽐企业的产品总产量是不⾜以说明问题的,因为产品总产量受到企业规模⼤⼩的影响。
要⽐较,需要计算各企业⽣产⼈员的平均产品产量,即劳动⽣产率,并分析不同的⽣产条件,才能做出正确的判断。
5离散趋势测量法
第三四分位数与第一四分位数的半距。记作: D Q
Q3 Q1 QD 2
例1、某班组有5名工人,月工资额分 别为80元,88元,100元,104元,110元,
求5名工人的月工资额的四分位差。
N 1 2
例2、某车间工人平均日产零件数如下表,计算 该车间工人日产零件数四分位差。
日产零件(个) 工人数
0,1
七、偏态系数
(coefficient of skewness )
算术平均数与众数的离差,再除以标准差的比值称为 偏态系数,记作:α。
X M o 3 X M d S S
10
11 12 13 14 15
10
15 22 38 28 7
例3、求下表所示数据的四分位差。
100名男青年身高情况分布表 身高(cm) 148-152 152-156 156-160 160-164 164-168 168-172 172-176 176-180 180-184 184-188 188-192 192-196 频次
2
N
5、标准分
标准分的性质
Xi X Zi S
1)、标准分与变量值一一对应。 2)、标准分是相对数,无单位,适用于不同 单位资料的比较。 3)、意义为变量值距算术平均数有多少个 标准差。 4)、Z 分数之和为零,Z 分数的算术平均数 为零,Z 分数的标准差为1。
五、变异系数
(coefficient of variation )
该局完成情况全距。
计划完成(%)
90-100 100-110 110-120
企业数
4 6 2
3、全距的性质
1)、计算简单,便于理解。 2)、数据利用率低,信息丧失严重。
第五章离散趋势测量
第五章离散趋势测量一、基本概念1、离散趋势反映一组数据中各数值与中心值偏离的程度。
中心趋势的各种测量值是对数据水平的一个概括性度量,但是如果数据离散程度大,集中趋势测量值对数据的代表性就差,这时候需要离散趋势测量值对数据的离散程度进行测量。
2、质性差异指数(IQV)质性差异指数是实际观察到的变异量和依数据可能有的最大变异量之间的比值,其数值是介于0与1中间,用IQV表示。
3、极差极差是一组数据中最大值与最小值的差值,也称为全距。
通常用R表示极差。
极差是一组数据中最大值和最小值的差值,因而,极差只适用于数值型数据,但是不适合定类数据和定序数据离散趋势的测量。
极差越大说明数据的离散程度越大。
4、四分位差四分位差是上四分位数和下四分位数之差,也称为内距或者四分间距。
四分位差反映了中间50%数据的离散程度,如果数值越小,说明离散程度越小,中间50%数据集中性越好;相反,如果四分位差越大,则说明离散程度越大,中间数据的集中性越差。
5、平均差平均差就是一组数据中每一个数据与这组数据均值之差的绝对值之和的平均,也称为平均离差,通常用Md表示。
平均差也只适用于数值型数据离散趋势的测量,而不适用于定类数据和定序数据。
6、方差方差是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。
与平均差不同的是,方差采用平方的方式避免避免正、负抵消带来的问题,但是采用平方的方式给方差的解释带来一定的困难。
7、标准差标准差是方差的平方根,用于测量数值型数据离散趋势。
标准差克服了方差面临的夸大离散程度、不容易解释的问题。
与方差相比,标准差是有量纲的,它与变量值的单位相同,容易解释。
在实际中,标准差使用更为普遍。
8、离散系数离散系数是一组数据的标准差与该组数据均值之比,也称为变异系数。
离散系数是测量数据离散程度的相对指标,通常用V s适用于数值型数据离散程度的测量。
二、基本方法1、质性差异指数的计算IQV的计算公式为:IQV=()()1222-⨯-∑KNf NK其中,k 为分类数据的类别数或者组数,N 是样本容量,∑2f 是各组频数平方的总和。
第五章 离中趋势测量法_社会统计学
2014-6-16
10
求72、81、86、69、57这些数字的标准差。
X
72 81 86 69 57 365
(X X )
( X X )2
1 64 169 16 256 506
X2
5184 6561 7395 4761 3249 27151
-1 8 13 -4 -16 0
2014-6-16
11
8
2014-6-16
[例1] 试分别以算术平均数为基准,求85,69, 69,74,87,91,74这些数字的平均差。 [例2] 试以算术平均数为基准,求下表所示数据 的平均差。
计算左 边数列的 平均差
2014-6-16
9
第三节 标准差(standard deviation)
各变量值对其算术平均数的离差平方 的算术平均数的平方根,均方差,又称 用S表示。 即克服平均差带有绝对值的缺点, 又保留其综合平均的优点。 1. 对于未分组资科
2014-6-16 19
2.
异众比率
所谓异众比率,是指非众数的频数与总体单位数 的比值,用V· R来表示
其中:
为众数的频数;
是总体单位数
异众比率能表明众数所不能代表的那 一部分变量值在总体中的比重。
2014-6-16
20
例1:某项调查发现,现今三口之家的家庭最多 (32%),求异众比率。某开发商根据这一报导,将房 屋的户型大部分都设计为适合三口之家居住的样式和面 积,你认为如何呢? 例2:设为测体重,得到成人组和婴儿组各100人的 两个抽样总体。成人组平均体重为65千克,全距为10千 克;婴儿组平均体重为4千克,全距为2.5千克。能否认 为成人组体重的离势比婴儿组体重的离势大?
电大 社会统计学 第五章 离散趋势测量
f, 假设每位候选人的票数都为2,则K=5,N=10
2
=5×22=20
IQV=1表示个案平均分布在每个类别上,即每位候选人所得选票 是相等的。
第二节 极差与四分位差
极差是一组数据中最大值与最小值的差值,也称为全距,
通常用R表示。 极差只适用于数值型数据离散趋势的测量,而不适合定类数 据和定序数据离散趋势的测量。极差越大,说明数据的离散程 度越大。 R=Xmax-Xmin 极差只利用了最大值与最小值,即只利用了一组数据两端 的信息,因此不能准确地反映中间数据的特点。
Qd=Q3-Q1=7.5(分)
Q1和Q3之间包含了50%的数据,因而,可以说有一半同学期末考试英语成绩 集中在84.25和91.75之间。
利用SPSS求极差、四分位差
第三节 方差和标准差
一、平均差(了解)
一组数据中每一个数据与改组数据平均值的差的绝对值 之和的平均,也称为平均离差,通常用Md表示。平均差适用 于数值型数据离散趋势的测量,而不适用定类数据和定序数 据离散趋势的测量。 平均差以均值为计算基础,反映每个数据与均值的平均差异 程度。平均差利用了所有数据的信息,能比较全面、准确地 反映一组数据的离散状况。 平均差越大,说明数据的离散程度越大;相反,平均差越小, 说明数据的离散程度越小。
2
(x X)
2 i
N
2 ( x X ) i
N
第三节 方差和标准差
二、方差和标准差
对分组数据:
2
(M
i
X) f i
2
N
i
(M
X) f i
2
N
例题1
未分组数据
《社会统计学》电大课程:第五章 离散趋势测量法
IQV 的计算公式为:IQV
K (N 2 f 2 ) N 2 ( K 1)
K N
f
2
为分类数据的类别或者组数 为样本容量 为各组频数平方的总和
极差与四分位差
极差:一组数据中最大值与最小值的差值,也称为全距, 通常用 R 来表示。 公式为:R
X max X min
四分位差:是上四分位数和下四分位数之差,也称为内距 或者四分间距。通常 Qd 表示。
Qd 公式为:
QU QL
平均差
要测定变量值的离散趋势,尤其是要测定各变量值相对于 平均数的差异情况,一个很自然的想法就是计算各变量值 与算术平均数的离差。 平均差是离差绝对值的算术平均数。 1.对于未分组资料(简单式)
方差和标准差
方差:各数值与均值离差平方的平均数 • 它是数值型数据离散趋势最主要的测量工具。
公式:
1. 未分组数据:
2
X
i
X
2
N
i
2.分组数据:
2
M
X fi N
2
标准方差:方差的平方根 • 用于测量数值型数据离散趋势。
公式:
1. 未分组数据:
( 1 )以算术平均数为基准计算的标准差比以 其他任何数值为基准计算的标准差要小。“离差 平方和最小”性质—各变量值对算术平均数的离 差的平方和,必定小于他们对任何其他数偏差的 平方和。 ( 2 )它将总体中各单位标志值的差异全包括 在内,受抽样变动影响小。但在受极端值影响以 及处理不确定组距方面,缺点同算术平均数。
2 2 2 2 x f 45 10 55 20 95 30 x2 f 190
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章离中趋势测量法
主要内容:(1)变异指标;(2)全距和四分位差;(3)平均差、标准差和标准分;(4)绝对离势和相对离势;(5)偏度(及峰度)
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。
离势小,平均数的代表性高;离势大,平均数代表性低。
例如有A、B、C、D四组学生各5人的成绩如下:
A组:60 ,60,60,60,60
B组:58,59,60,61,62
C组:40,50,60,70,80
D组:80,80,80,80,80
数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标如按数量关系来分有以下两类:
凡用绝对数来表达的变异指标,统称绝对离势;
主要有极差、平均差、四分位差、标准差等。
凡用相对数来表达的变异指标,统称相对离势;
主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差
1.全距(Range)
全距(R):最大值和最小值之差。
也叫极差。
全距越大,表示变动越大。
R =Xmax - Xmin
[例] 求74,84,69,91,87,74,69这些数字的全距。
[解] 把数字按顺序重新排列:69,69,74,
74,84,87,91,显然有 R =Xmax - Xmin=91 - 69=22
对分组资料,不能确知最大值和最小值,求全距:
(1)用组值最大组的组中值减去最小组的组中值
(2)用组值最大组的上限减去最小组的下限
(3)用组值最大组的组中值减去最小组的下限;或最大组的上限减去最小组的组中值
优点:计算简单、直观。
缺点:(1)受极端值影响大;
(2) 没有量度中间各个单位间的差异性,数据利用率低,信息丧失严重;
(3)受抽样变动影响大,大样本全距比小样本全距大。
2. 四分位差(Quartile deviation)
第三四分位数和第一四分位数的半距。
避免全距受极端值影响大的缺点。
求下列两组成绩的四分位差:
A: 78 80 82 85 89 87 90 86 79 88 84 81
B: 55 68 78 88 99 100 98 90 85 83 84 81
第二节 平均差(Mean absolute deviation)
要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。
平均差是离差绝对值的算术平均数。
(mean deviation)
1.对于未分组资料
A ·
2.对于分组资料 A · D=
3.平均差的性质:在受抽样变动、极端值影响,处理不确定组距方面均同于算术平均数;不适于代数运算,其理论意义不易阐述。
第三节 标准差(standard deviation)
各变量值对其算术平均数的离差平方的算术平均数的平方根,均方差,又称用S 表示。
即克服平均差带有绝对值的缺点,又保留其综合平均的优点。
1. 对于未分组资科
[例1] 试分别以算术平均数为基准,求85,69,69,74,87
,91,74这些数字的平均差。
求72、81、86、69、57这些数字的标准差。
2. 对于分组资料
3. 标准差的性质
标准差是反映总体各单位标志值的离散状况和差异程度的最佳测度。
(1)以算术平均数为基准计算的标准差比以其他任何数值为基准计算的标准差要小。
“最小二乘方”性质——各变量值对算术平均数的离差的平方和,必定小于他们对任何其他数偏差的平方和。
(2)它将总体中各单位标志值的差异全包括在内,受抽样变动影响小。
但在受极端值影响以及处理不确定组距方面,缺点同算术平均数。
值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价值的概念。
所谓方差,即标准差的平方,它直接写成S。
2,,S2也常被称为变异数。
4. 标准分(standard score)
以离差和标准差的比值来测定变量与
的相对位置。
使原来不能
直接比较的离差标准化,可以相互比较,加、减、平均。
(1)Z是和X一一对应的变量值;
(2)Z分数没有单位,是一个不受原资料单位影响的相对数,所以可以用于不同单位资料的比较;
(3)Z分数实际表达了变量值距总体均值有几个标准差。
Z分数也有标准正态变量之称。
按Z值大小编制出的正态分布表,其用途十分广泛。
Z分数的性质:
(1)Z分数之和等于0
(2)Z分数的算术平均数等于0
(3)Z分数的标准差等于1,方差也等于1
第四节相对离势
上述各种反映离中趋势的变异指标,都具有和原资料相同的计算单位,称绝对离势。
但欲比较具有不同单位的资料的参差程度,或比较单位虽相同而均值不相同的资料的参差程度,离势的绝对指标则很可能导致某些错误结论。
所以,我
们还得了解和学习相对离势。
1. 变异系数
绝对离势统计量与其算术平均数的比率,用V 表示。
变异系数是最具有代表性的相对离势。
全距系数是众数据的全距与其算术平均数之比,其计算公式是:
平均差系数是众数据的平均差与其算术平均数之比,其计算公式是:
标准差系数是众数据的标准差与其算术平均数之比,其计算公式是:
2.异众比率
所谓异众比率,是指非众数的频数与总体单位数的比值,用V · R 来表示
其中: 为众数的频数; N 是总体单位数
异众比率能表明众数所不能代表的那一部分变量值在总体中的比重。
例1:某项调查发现,现今三口之家的家庭最多(32%),求异众比率。
某开发商根据这一报导,将房屋的户型大部分都设计为适合三口之家居住的样式和面积,你认为如何呢?
例2:设为测体重,得到成人组和婴儿组各100人的两个抽样总体。
成人组平均体重为65千克,全距为10千克;婴儿组平均体重为4千克,全距为2.5千克。
能否认为成人组体重的离势比婴儿组体重的离势大?
例3:对一个群体测量身高和体重,平均身高为170.2厘米,身高标准差为5.30厘米;平均体重为70千克,体重标准差为4.77千克。
比较身高o M f
和体重的离散程度。
3. 偏态系数
我们在前面讨论统计图时已经对频数分布的正态偏态有所认识。
我们又看到了算术平均数与中位数、众数之间存在的关系:
、M D 、M O 三者完全相等;当总体呈不对称的偏态分布时,它们之间存在着数量(位置)
的差异。
因此,偏态可由
为了使不同数列的偏态值可比,同样可计算偏态的相对数,即偏态系数,用α来表示
偏态系数是以标准差为单位的算术平均数与众数的离差,其取值一般在0与±3之间。
偏态系数为0表示对称分布,偏态系数为+3或-3则表示极右或极左偏态。