离中趋势测量法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章离中趋势测量法
平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。但是总体作为统计对象,还有其变异性的一面。变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。例如有A、B、C、D四组学生各5人的成绩如下:
A组:60,60,60,60,60 B组:58,59,60,61,62
C组:40,50,60,70,80 D组:80,80,80,80,80
A组、B组、C组的平均成绩均为60分,D组的平均成绩为80分。就平均数而言,A、B、C三组相同,D组的平均数高于前三组。就离势而言,A,D两组一样,都为0;C组的离势最大,B组次之。所以,平均数不同,离势可能相同;平均数相同.离势可能不同;平均数不同,当然离势也可能不同。可见,要掌握总体资料中各标志值的离散、参差或分布情况,测定离中趋势也是必不可少的。
变异指标的种类较多,如按计算的基准来分有以下两类:
(1)以两数之差来表达的有全距和四分位差等。
(2)以对平均数偏差来表达的有平均差、标准差等。
变异指标如按数量关系来分有以下两类;
(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。
(2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差
关于变异指标,前面其实我们已有所接触,第三章讨论统计分组时谈到的全距便是。全距是测定离中趋势最简单的一种指标。它和四分位差一样,是以两数之差来表达的。
1.全距
全矩是最大变量值与最小变量值之差,用R来表示。对未分组资料,计算全距用原始式。由于全距是一组数据中两个极端值之差,所以它又称极差。
R=X N—X1 (5.1)
其中:X N是全部数据中最大的标志值,X1是最小的标志值。
[例5.1.1] 求74,84,69,91,87,74,69这些数字的全距。 [解] 把数字按顺序重新排列:69,69,74,74,84,87,91,显然有
R =X N —X 1=91—69=22
对于分组资料,在第三章我们已经知道,由于不能确知变量实际的最大值和最小值,因而求全距有以下三种方法:
(1)用组值最大组的组中值减去组值最小组的组中值,此法求出的全距一般比实际上的全距要小些。 (2)用组值最大组的上限减去组值最小组的下限,此法求出的全距一般比实际上的全距要大些。 (3)用组值最大组的组中值减去组值最小组下限;或用组值最大组上限减去组值最小组的组中值。此法求出的全距多接近于实际上的全距。
全距的最大优点是:计算简单,便于直观。缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。
2.四分位差
在第四章,我们已经了解了四分位数的计算。它的一个用途就是,用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,以避免全距测量离中趋势受极端值影响大这个缺点。四分位差就是第三四分位数和第一四分位数的半距,用Q ·D 表示
Q ·D =
2
1
3Q Q - (5.2) 四分位差优点是避免了极端值变动的影响,但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。
第二节 平均差
要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。为此,我们采取处理离差绝对值的办法,如此构造出来的变异指标,称为平均差,用A ·D 表示。
1.对于未分组资料
平均差被定义为各变量值对其算术平均数(或中位数)离差绝对值的算术平均数。对于未分组资料,求平均差用原始式,即
A ·D =
N
X X ∑- (5.3)
[例5.2.1] 试分别以算术平均数为基准,求85,69,69.74,87,91,74这些数字的平均差。 [解] 先用求平均指标的公式求出这些数字的算术平均数,得
X = 78.4
再利用表5.1,以算术平均数为基准求出
A ·D =
N
X X ∑- =
7
4
.55 = 7.91 表5.1
2.对于分组资料
对于分组资料,计算平均差需用加权式
A ·D =
∑∑-f
X
X f (5.4)
[例5.2.2] 试以算术平均数为基准,求表3.10所示数据的平均差。 [解] 先算出算术平均数 X =
∑∑f fX =3211
9829=3.06(人) =
再利用表5.2算出
A ·D =
∑-f
X
X f =
3227
38
.2418 = 0.75(人)
由此可见,2002年天津市家庭以户均人口3.06人为基准,家庭人口的平均差是0.75人。
表5.2
3.平均差的性质
平均差以及接下来要讨论的标准差,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。所以平均差在受抽样变动影响、受极端值影响和处理不确定组距这三方面,它的性质均同于算术平均数。与此同时,平均差由于计算时采用了取绝对值来消除正负号的影响的方法,它不便于代数运算,而且平均差的意义在理论上也不容易作出阐述,所以平均差作为变异指标,其运用比下面的标准差要少得多。
另外,根据中位数的性质可知,各变量值对中位数之差的绝对值总和为最小。因而,有时以中位数为基准来计算平均差反倒比以算术平均数为基准来计算平均差更合理。
第三节标准差
为了克服平均差带有绝对值计算的缺点,同时保留平均差的优点(即它已将总体中各个单位标志值的差异全部包括在内),故将各离差平方后求算术平均,再求平方根,来构造变异指标,这样就得到一个常用的而且也是最重要的变异指标——标准差,用S表示。
1.对于未分组资科
标准差被定义为各变量值对其算术平均数的离差平方的算术平均数的平方根,又称均方差。对于末分组资料,求标准差用原始式,即
S =
()
N
X
X
∑-2
(5.5)①
[例5.3.1] 求72、8l、86、69、57这些数的标准差。
①计算样本资料的标准差,应以(N―1)作为分母更合适,因为在通常的情况下,分母应为自由度数,在这里取N是近似,在N大的情况下没有多少差别。这将在“参数估计”一章得到说明。