中国农村贫困家庭的识别_汪三贵

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国农村贫困家庭的识别*

汪三贵(中国人民大学农业与农村发展学院北京100872)

王姮(中国农业科学院农业经济与发展研究所北京100081)

王萍萍(国家统计局农村社会经济调查司北京100826)

内容提要本文利用国家统计局农村贫困监测数据和计量经济模型(OLS和Logistic 模型)来识别与农户贫困和家庭福利状况高度相关的预测指标。我们发现,无论是OLS模型还是Log istic模型,都可以准确预测50%以上的贫困家庭。Log istic模型在准确预测贫困家庭方面有更好的表现,在选择合适的概率切割点后,预测的准确率可以达到70%以上。

我们还发现,要准确预测极端贫困人口是十分困难的。在实践中,较高的贫困线有利于提高预测和瞄准的准确性。

关键词农村贫困贫困瞄准贫困识别

一、导言

作为世界上最大的发展中国家,中国拥有数目庞大的农村贫困人口。根据官方贫困线和住户收入数据估计,2004年末农村贫困人口数约为2600万人。根据更高的贫困线(接近1天1美元的标准),贫困人口数估计为7600万人(国家统计局,2004)。尽管通过近20年来的持续经济增长以及政府部门有针对性的扶贫投资,农村减贫效果显著,但为实施更为有效的贫困干预计划,主要挑战在于如何更准确地识别穷人。由于难以获得住户层面可靠的收入和支出信息,长久以来,中国一直依赖区域瞄准(县和村)实施贫困投资项目,导致严重的覆盖不完全和漏出问题(W ang,2005)。因而,中国亟需更为简单有效的贫困瞄准方法来识别贫困户。

为瞄准贫困家庭和个体,可以利用住户调查资料和现代计量经济分析方法来建立贫困识别模型(W ard et a.l,2002)。本文讨论了该方法并试图建立中国贫困识别的模拟模型。该模拟的主要目的是在住户层面估计贫困的关联因素。为了提高实践中的可操作性,在模型中使用的预测变量都是那些容易收集的非收入和支出指标。

二、数据和方法

(一)数据

该项研究所使用的数据为2002年中国农村贫困监测调查数据。该调查由国家统计局农村社会经济调查总队每年进行一次。由于中国农村贫困监测调查是在农村贫困地区进行的,与农村住户调查数据相比,该数据能够更好地反映贫困人口的生存条件和住户特征。同时,该调查也提供了模拟所需要的相关的项目或政策信息。

中国农村贫困监测调查所使用的问卷与中国农村住户调查类似,包括了家庭和个人的收入与支出、家庭人口特征、生产、资产、教育和就业等方面的详细信息,以及村级和家庭层面的农村基础设施和贫困项目方面的信息。自2000年起,中国农村贫困监测调查数据主要用于农村社会经济调查总队每年发布的农村贫困监测报告。

2002年中国农村贫困监测调查的样本量为50000户。排除有缺损值的样本,总样本量为45960户。为比较和检验回归的稳健性,本研究将总样本分成两个子样本。将村代码为奇数的村归入数据1,村代码为偶数的村归入数据2。通过现有的取样设计,每个贫困县随机选取5~10个贫困村,每村随机选取10户。由于村代码是随机赋给样本村的,样本分立也可以被视为是随机的。

样本分立后,数据1包含样本22845户,数据2包含样本23115户。它们的人均消费支出分别为1414.76元和1423.69元。我们针对这两套数据,寻找最佳贫困识别指标。

(二)采用的方法

在贫困识别模拟中,采用了两种计量经济模型。第一种是最常用的多元回归模型*,该模型基于个人、住户和社区特征来检验住户消费与贫困的关系。其结果将识别与住户生活水平变量(如消费支出或收入)显著相关的变量。第二种为Log istic回归模型,用来预测住户为贫困户的概率。

多元线性回归模型的方程为:

y i=A+B k x k i+e i

其中,y i为因变量,x k i为自变量,A为模型截距,B k为回归系数,e i为随机误差。

Log istic回归模型的方程为:

l n(

P i

1-p i

)=A+E

n

k=1

B k x k i

其中,p i=P(y i=1x1i,x2i,,,x ni)是在给定x1i,x2i,,,x n i的情况下事件的发生概率。

p i

1-p i

为事件的

发生比(事件发生概率与事件不发生概率之比)。

在两个模型的模拟中,我们利用逐步回归方法并将显著性水平设定在5%,以限制模型中最终被选出的自变量的数量。在多元回归中,使用了多种模型诊断检验。多元线性模型的检验包括正态图、异方差检验、离群点检验,以及方差膨胀因子(V I F)等。如果某个变量的方差膨胀因子大于10,该变量将从模型中被剔除。

在Log istic回归中,用拟合优度(the Goodness of Fit)来检验模型的准确性。同时也使用了H os-m er-Le m esho w检验(Jichuan,Zh i g ang,2001),原因是模型中使用了许多连续的自变量使得协变类型的数量很大并接近观察值的数量,许多协变类型只有很少的观测案例从而使得D统计量和Pearson 卡方不再适用于估计拟合优度。H os m er-Le m esho w检验计算预测概率的百分比分布,即按百分等级

分成10组,然后计算Pearson卡方(Pearson ch-i square),然后将预测值与观察值的分布频率进行比较(用2@10表格)。较低的数值(和不显著性)意味着模型对于该数据拟合较好。

为检验该方法的识别能力,本文还使用了敏感度(Sensiti v ity)和特异度(Specificity)检验,并通过绘图来确定最佳切割点(Cuto ff po i n ts),横坐标为敏感度或特异度,纵坐标为事件发生概率,敏感度曲线与特异度曲线的交点为切割点。

(三)变量的识别

为从农村社会经济调查队收集的500多个指标中选择可能的自变量,我们挑选那些在理论上和经验上与家庭福利以及贫困状况相关并易于收集的变量。由于我们的目的是寻找贫困识别变量而非贫困的决定因素,因此我们没有考虑自变量的内生性。选出的变量可以大致分为5类:住户人口特征、户主特征、资产和自然资源、经营行为和服务的获得、社区特征。

在中国农村贫困监测调查中,农村社会经济调查队同时收集了住户收入和消费支出数据。然而,在多元回归中使用支出作为因变量更为合适,因为相对于收入,支出可以更好地衡量当期和长远的福利水平。其理由是个人更偏好于从时间上平滑其消费趋势,因而支出年度波动小于收入的年度波动。选择支出作为因变量的另外一个理由是在样本中,在住户生产成本高于产出时,收入就为负值。然而对于负值,无法实现对数转换。

对于Log istic回归,也是根据消费支出数据来确定二分因变量。当户人均支出低于贫困线时,该户被定为贫困户,否则为非贫困户。

用中国官方贫困线将所有样本分成贫困和非贫困两类。中国官方贫困线由农村社会经济调查总队估计,每年用该标准计算贫困人口率。中国使用两种贫困线,一种是绝对贫困线,另一种是低收入线。根据购买力平价,后者接近世界银行的1天1美元的贫困标准。中国没有根据区域价格差异对贫困线进行调整,全国采用统一的贫困线。2002年低收入线和绝对贫困线分别为869元和627元。

(四)变量的转换

为保证因变量的正态性,本研究采用了人均消费的对数形式。此外,对数变换也能显著提高模型的拟合优度*。

至于自变量,采用了3种形式的转换:自然对数、平方根和倒数转换。观察每种变量的转换形式

表1因变量的最佳转换形式自变量转换住房面积平方根家中人均存粮数平方根家中人均口粮存量平方根家庭常住人口自然对数与人均支出对数形式的散点图以及多元回归的调整拟合优度,做如表1变换,其余的变量不做变换。

三、结果

(一)多元回归模型

表2给出了数据1的回归结果,数据2的回归结果与数据1

*由于因变量不同,我们不能直接比较对数转换和没有转换模型的R2。但我们可以通过转换Y i和Y i的预测值(Y

^)并利用公

式:R2=[E(Y i-Y)(Y^i-Y)]2

E(Y

i

-Y)2E(Y^i-Y)2

来计算可比的R2。我们发现取对数后回归模型的可比R2(约0.46)要大大高于没有转换的模型的

可比R2(约0.39)

相关文档
最新文档