excel算基尼系数

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
公式2是针对研究对象已按个人收入多少分成n个组,并 且已知每组的对象个数(Pi)和总收入(Q)i 的情况,而建立 的基尼系数计算公式。这条公式中Xi、Y、i V分i 别为:
41
实务探讨
如 果 在 EXCEL下 要 对 给 定 的 对 象 个 数 ( Pi) 和 总 收 入 (Q)i 两列数据,用公式2计算基尼系数一般也需开设4、5列 的计算区域,其计算也比较麻烦。而且,公式2中各项的具体 意义也不是很直观,不便于记忆,计算时容易弄错。
为了彻底破除人们在计算基尼系数方面的技术障碍和困 难,本文将对基尼系数的计算进行一番探索,在指出常用基尼 系数计算公式不足的同时,直接根据基尼系数的有关定义,对 两种情况下的基尼系数计算,进行严格的数学推导证明,取得 两条新的基尼系数实用计算公式;然后再根据这两条实用计算 公式,充分利用EXCEL中单元格的计算功能,建立起全新、科 学、简易的基尼系数计算方法,可使一般人不用专门计算程序 也能轻轻松松地计算出基尼系数。
清楚了以上有关概念和补充说明后,现在让我们分两种不 同情况重新推导一下基尼系数的计算公式。
第一种情况:已知N个人的收入,计算其基尼系数G。 设这N个人收入从低到高排列后,得到的收入为Qi(i=1, 2,……,N)。且记
则有:
上面推导中需要说明的是:根据前面有关概念和说明我们 知道,图1中直角三角形OAB的两个直角边长都是1,于是 S1+S2等 于 0 . 5 。 S2实 际 上 就 是 N 个 直 角 梯 形 ( 第 一 个 为 三 角 形)面积之和,其中第i个梯形的“上底”就是Vi-1,“下底” 42
表2
这时我们的具体计算操作步骤就是: 第一步:在B3单元中输入公式“=B2+A3”(要求B2单 元为空或零),并点住B3单元右下角拖拉至B20单元,这时便 会得到表1中的B3到B20的数据,这些数据实际上就是公式3中 的W(i i=1,2,……,18),这些单元中的计算公式分别为: B3:“=B2+A3” B4:“=B3+A4” ...... B20:“=B19+A20” 第二步:在B21单元中,根据公式3并结合本例实际,输 入相应的计算公式“=1-(2*SUM(B3:B20)-B20)/(18*B20)”, 便可以得到基尼系数的计算结果0.3878。 2.已知EXCEL表中有分组的人数(或家庭数)和总收入这
二、洛伦茨曲线的补充说明和基尼系数 实用计算公式的推导
对于上面洛伦茨曲线的一般描述,本人认为还需要补充说 明的是:严格来讲,按上面定义中的方法将所有对应关系都描 在图上,实际上是不能构成一条连续的曲线。这是因为,人口 数N是一个自然数,当N确定后,在X轴的[0,1]区间上只有 i/N(i=0,1,2,……,N)处,人口累计的百分比才有实际 意义。虽然对象越多,这些有意义的点就越紧密,但无论多 密,相邻的点总是还有1/N的间隔。这时将人口累计百分比和 收入累计百分比的对应关系描绘在图上,还只是一串貌似曲线 的N点集合。关于这个问题,许多资料都没有提及。但本人认 为,根据洛伦茨曲线的精神,在这种情况下,依次将上面N点 用直线段进行连接,所得到的一条从坐标(0,0)到(1, 1)的折线就是洛伦茨曲线,这时不存在用直线近似代替曲线 一说,因为上面N点的间隔处原先就没有什么曲线。
一、基尼系数的概念与常用计算公式的不足
由于基尼系数与洛伦茨曲线关系密切,因此,在介绍基尼
系数之前,我们还得先讲一下洛伦茨曲线。
洛伦茨曲线是统计学家洛伦茨在研究社会收入分布情况时
首先提出的,其大致意思是:先将研究的全部人口对象(如
N个人)按其收入从低到高排列(设其收入为Qi),从收入最
低的对象开始,累计任意百分比的人口(如i/N),计算出他
三、EXCEL下基尼系数计算的新方法
有了上面的公式3和公式4,现在我们可以讨论EXCEL下 基尼系数计算的新方法。为了更加具体、直观地介绍EXCEL下 基尼系数计算的新方法,下面将采用实例的形式,并分两种情 况进行。
1.已知EXCEL表中有一列个人收入数据,求其基尼系数。 为了节省本文篇幅,这里只举一个18人的例子,人数很 多操作步骤也完全一样。设在EXCEL表的A3到A20单元中有 18个人的收入数据,它们已按从小到大排列,具体见表1。 表1

A Ai i-1
1 人口累计百分比
上图中Bi点的坐标(x,y)为:
明白了洛伦兹曲线后,基尼系数就很好理解了。基尼系数 实际上就是图1中S1除以(S1+ S2),其中,S1是直线段OB与 洛伦兹曲线围成的区域面积,S2是直线段OA、AB和洛伦兹曲 线围成的区域面积。
目前有关资料和教材中比较常用的基尼系数(G)计算公 式有以下两条:
实务探讨
EXCEL下基尼系数的计算研究
高技
基尼系数是20世纪初意大利经济学家基尼根据洛伦茨曲 线提出的定量测定收入差异程度的指标,也是国际上通常用来 衡量收入差异程度的一个重要统计分析指标。一直以来,尽管 很多人都知道基尼系数的大致含义和主要用途,但由于基尼系 数计算比较复杂,而且在相关教材和资料中难以找到非常有效 的计算方法,使得很多人在计算基尼系数方面存在一些技术障 碍和困难,大大地影响了基尼系数在实际工作中的应用。
公式1是在已知所有N个人收入的情况下使用的。公式1中 WN为这N个人的收入之和,Qi为这N个人按收入从低到高排列 后的第i个人的收入。公式1的具体展开就是:
尽管这个计算公式中各项都很有规律,但在EXCEL下要 对给定的一组收入数据(Qi)实现以上计算还是比较麻烦的。 像这样的计算,为了有效利用EXCEL的“拖拉复制”功能,减 少手工输入公式,一般要在EXCEL表中开辟一个与以上展开式 形状相似的三角形计算区域,在这三角形计算区域中,虽然每 列只需对一个单元输入计算公式,其他单元的公式可通过拖拉 复制得到,但由于这样的列数共有N-1个,当N很大时,要输 入全部的计算公式还是显得非常麻烦的。
们收入合计占全部人口收入合计的百分比(设Vi),然后,以 人口累计的百分比为X轴,以收入累计的百分比为Y轴,将所
有这些人口累计百分比和收入累计百分比的对应关系(如点
Bi)描绘在图上,这样绘出的曲线就叫洛伦茨曲线(见图1中 向下弯曲的曲线)。
收入累计百分比
图1

B(1,1)
S1 Bi
Bi-1
S2
A(1,0)
就是Vi,“高”就是1/N,面积就是(Vi-1+ ቤተ መጻሕፍቲ ባይዱi)/2N。另 外,值得一提的是,可以证明公式3和公式1的计算结果是完 全一样的。
第二种情况:已知按个人收入多少进行分组,而且知道每 组的人数和收入,计算其基尼系数G。
设共被分成n个组,按组人均收入由小到大进行排列后, 各组的人数和收入分别为Pi(i=1,2,……,n)和Qi(i=1, 2,……,n),且记
关于本例基尼系数计算,我们的具体操作步骤就是: 第一步:在D3单元中输入公式“=D2+C3”(要求D2单 元为空或零),并点住该单元右下角拖拉至D20单元,这时便 会得到表2中的D3到D20的数据,这些数据实际上就是公式4中 的W(i i=1,2,……,18),这些单元中的计算公式分别为: D3:“=D2+C3” D4:“=D3+C4” ...... D20:“=D19+C20” 第二步:在E3单元中输入公式“=(D2+D3)*B3”(要 求D2单元为空或零),并点住该单元右下角拖拉至E20单元, 这时便会得到表2中的E3到E20的数据,这些数据实际上就是 公式4中的(Wi-1+ Wi)P(i i=1,2,……,18),这些单元 中的计算公式分别为: E3:“=(D2+D3)*B3” E4:“=(D3+D4)*B4” ...... E20:“=(D19+D20)*B20” 第三步:在E21单元中,根据公式4并结合本例实际,输入 相应的计算公式“=1-SUM(E3:E20)/(SUM(B3:B20)*D20)”, 便可以得到基尼系数的计算结果0.3011。 (作者单位:温州市统计局·邮编:325009)
隔处的“折线段”一般都在K线的下方,不可能在K线的上 方,这就使得公式4中的S1往往要比实际上的S1小,结果公式 4计算出的G也就往往要比实际上的基尼系数小一些。这点也 说明了,用分组方法计算基尼系数往往会出现低估的情况,分 组越粗,得到的基尼系数就越小。这个问题,在我们的实际工 作中也遇到过。如同样的住户调查数据,由于在计算时采用不 同的分组方法,如十分法或五分法,则得到的基尼系数往往是 不一样的,结果给关于基尼系数的统计分析带来了困惑。人们 之所以比较多地采用十分法和五分法计算基尼系数,我想其中 一个主要原因就是想简化基尼系数的计算,避开对成百上千住 户调查数据进行直接计算的麻烦。现在好了,我们没有必要回 避对住户调查数据的直接计算,因为,有了公式3和下面将要 介绍的方法,我们可以不费吹灰之力就能将它们搞定,还能还 基尼系数以本来面目。
则有:
这里需要说明的是: 1. 在这种情况下,由于不知道每个研究对象的具体收入情 况,所以,不可能像第一种情况一样能准确画出洛伦茨曲线。 但如果我们用直线段依次将(Ui,V)i (i=0,1,2,……, n)这些点连接起来,并将所得折线记为K线,就会发现K线与 洛伦茨曲线还是比较近似的。这是因为,根据洛伦茨曲线定 义,可以知道(Ui,V)i (i=0,1,2,……,n)这些点肯定 都落在洛伦茨曲线上,换句话说,K线与洛伦茨曲线在(Ui, Vi)(i=0,1,2,……,n)这些点上是完全重合的,只不过 在这些点的间隔处K线是一条直线段,而洛伦茨曲线不一定是 一条直线段,很可能是一条单调上升的“折线段”。在这种没 办法具体确定这些“折线段”的条件下,我们用K线的直线段 代替未知的“折线段”,应该说是比较合理的。上面公式4就 是用K线近似代替洛伦茨曲线后推导出来的。我们前面介绍过 的公式2在推导中可能也有这样一个近似代替的过程,因为我 们可以验证公式2和公式4的计算结果是完全一样的。 2. 用K线近似代替洛伦茨曲线后,S2就是n个直角梯形 (第一个为三角形)面积之和,其中第i个梯形的“上底”就 是Vi-1,“下底”就是Vi,“高”就是P/i Nn,面积就是(V + i-1 Vi)P/i 2Nn。 3. 我们应当明白用公式2和公式4得到的G只是一个近似 值,当我们可以用公式1和公式3计算时,最好不要用公式2和 公式4。事实上,公式4计算出来的G往往要比实际上的基尼系 数小一些。这是因为,根据洛伦茨曲线定义可以知道,实际上 的洛伦茨曲线在(Ui,V)i (i=0,1,2,……,n)这些点间
实务探讨
两列数据,求其基尼系数。 对于这种情况的基尼系数计算,我们也举一个18个组的
例子。设在EXCEL表 的 B3到 B20位置有18个组的家庭数, C3到C20位置有18个组的收入数据,它们已按户均收入从小 到大排列,具体见表2。对于这个例子,有个问题需要先说明 一下,即公式4中原来要求知道分组的人数和收入,而现在实 际上只知道分组的家庭数和收入,公式4中能用家庭数代替人 数吗?对于这样类似的问题,许多教材和资料一般都是默许 的。这主要原因是,在不知道人口分布的情况下,用家庭分布 大致反映人口分布也是一个比较合理的办法。另外,从公式 4来看,如果被调查的每户家庭人口数都一样,公式4中的分 组人口数用分组家庭数代替后,其计算结果是不变的,所以, 当被调查的家庭人口数大致相同时,这种替代的合理性是有依 据的。尽管这种替代是被允许的,但我们也要明白它也是一个 近似的过程,对计算结果也是有影响的。
43
相关文档
最新文档