离散趋势测量法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 离散趋势测量法 第二节、全距与四分位差
• 一、全距
• 1、未分组资料计算公式
• 全距又称极差,是一组数据的最大值与最小值之差,用表示。计算公式为:
•
•
式中, 、 分别表示为一组数据的最大值与最小值。由于全距是根据一组数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,越小,表明数值变动的范围越小,即数列中各变量值差异小。
2、分组资料计算公式
R=最高组上限 - 最低组下限
• R=最高组组中组-最低组组中值 • R=最高组组中组-最低组下限 • R=最高组上限-最低组组中值
• 如果资料经过整理,并形成组距分配数列,全距可近似表示为: • R ≈最高组上限值-最低组下限值 3、优缺点:
优点:计算简单,易于理解。 缺点:
(1)受极端值影响大,遇含开口组的资料时无法计算; (2)数据利用率低,信息丧失严重;
(3)受抽样变动影响大(一般大样本的全距会比小样本的全距大)。 二、四分位差(inter-quartile range )
上四分位数与下四分位数之差的平均数,称为四分位差,亦称为内距或四分间距。 四分位差的计算方法: Q·D=(Q3-Q1) /2
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。
四分位差主要用于测度顺序数据的离散程度。当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。
优缺点:主要是避免了全距受极端值影响的缺点,其他优缺点同全距:数据利用率低,信息丧失严重;受抽样变动影响大。
max()min()
i i R X X =-m ax()i X min()
i X
第三节、平均差
•平均差是各变量值与其算术平均数离差绝对值的平均数,用A.D表示。根据掌握资料的不同,平均差有以下两种计算方法:
• 1. 简单平均法
•对于未分组资料,采用简单平均法。其计算公式为:
2. 加权平均法
在资料分组的情况下,应采用加权平均式
第四节、方差和标准差
•一、概念要点
•方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均数相比平均相差的数值,因此它能准确地反映出数据的差异程度。但与平均差不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。因此,方差、标准差是实际中应用最广泛的离中程度度量值。由于总体的方差、标准差与样本的方差、标准差在计算上有所区别
•1、方差是个变量值与其均值离差平方的平均数,标准差是方差的开方。
• 2、离散程度的测度值之一。
• 3、最常用的测度值。
• 4、反映了数据的分布。
•5、反映了各变量值与均值的平均差异。
•6、根据总体数据计算的,称为总体方差或标准差。根据样本数据计算的,称为样本方差或标准差
二、总体的方差和标准差
设总体的方差为,标准差为,
对于未分组整理的原始资料,方差和标准差的计算公式分别为
(二)样本的方差和标准差
样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方
平均时是用样本数据个数或总频数减1去除总离差平方和。
4. 方差的数学性质
第五节、标准分
相对位置的度量:标准分数
有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群值。
1、定义。
变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或Z值
标准分数也给出了一组数据中各数值的相对位置。比如,如果某个数值的标准分数为-2,我们就知道该数值低于均值2倍的标准差。(4.4.21) 式也就是我们常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,常常需要对各变量数值进行标准化处理。
实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0、标准差为1
•经验法则表明:当一组数据对称分布时
•——约有68.27%的数据在平均数加减1个标准差的范围内
•——约有95.45%的数据在平均数加减2个标准差的范围内
•——约有99.73%的数据在平均数加减3个标准差的范围内。
•由此可见,一组数据中低于或高于平均数3个标准差以上的数据很少。因此,在统计上,往往将平均数3个标准差以外的数据称为异常值或离群值
•2、标准分的特性
•(1)对于给定资料,由于算术平均数和标准差都是确定值,所以z是和X一一对应的变量。
•(2)它没有单位,是一个不受原资料单位影响的相对数,因而也适用于不同单位资料的比较。
•(3)均值和方差不同的正态分布经Z分数标准化后,可以转化为标准正态分布,所以Z又称标准正态变量。
•(4)Z分数的数学特性:
•Z分数之和等于0;
•Z分数的算术平均数等于0;
•Z分数的标准差和方差均为1。
3、标准分的主要作用:
标准分数的作用主要在两个方面,一是可以表明原始数据在总体分布中的相对位置,二是可以对不同分布的各原始数据进行比较。
第六节离散系数
相对离散程度:离散系数
用离差的绝对指标除以平均指标来求离差的相对指标,就可以在计量单位不同或平均水平不一的对象间进行直接比较。这种由绝对离差与其算术平均数的比值,叫变异系数。
•1、全距系数:全距与算术平均数之比。
•2、平均差系数:平均差与算术平均数之比。
•3、标准差系数(最重要和最常用的变异系数)
•(1)标准差与其相应的均值之比
•(2)消除了数据水平高低和计量单位的影响
•(3)测度了数据的相对离散程度
•(4)用于对不同组别数据离散程度的比较
离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。离散系数是一个无名数,可以用于比较不同数列的变异程度。离散系数通常用表示,常用的离散系数有平均差系数和标准差系数,其计算公式分别为: