分类选择模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在这一章里,我们要构造因变量包含两个或更多个分类选择的模型。这样的模型在调查数据分析中非常有价值。在大多数调查中,行为回答都是分类型的:人们在选举时投支持或否决票;乘地铁、公共汽车,或轿车;在业或失业,等等。

我们首先讨论三种二元选择模型的确认和估计问题。这三种二元选择模型是线性概率模型、p r o b i t 模型和l o g i t 模型。然后我们把注意力转向具有多元(而不是二元)选择的p r o b i t 模型和l o g i t 模型的推广。最后我们对c e n s o r e d 回归模型进行分析。

11.1 二元选择模型

如果回归模型中一个或多个解释变量只取两个不同的值,我们就可以把它们用虚拟变量表示,用第5章讲过的办法进行处理。但是,当因变量只取两个不同的值时,线性回归模型的应用就比较复杂了。二元选择模型(Binary-choice model)都面临二者挑一的选

择,并且其选择依赖于可分辨的特征。例如,假设我们希望预测人们对发行地方债券的态度。我们可以认为个体的收入是决定其态度的一个主要因素,并且(在其他条件相同的情况下)高收入的个体比低收入的个体更可能对地方债券的发行投赞成票。虽然有理由认为在收入和投票行为之间有一个直接的关系,但是我们无法确切地知道每一个个体会投什么票。一个更有道理的目标是预测具有给定收入水平的个体投赞成票的可能性。

因此,分类选择模型的目的是决定具有给定特征的个体做这种而不是那种选择的概率。一个合适的模型是能使我们做类似下列陈述的模型:“收入为15 000美元的个体对未来债券发行投赞成票的概率为0 .

6。”更一般地,我们希望寻找描述个体的一组特征与该个体做某一特定选择的概率之间的关系

为了简化讨论,我们假设个体做某一特定选择的概率是个体特征的一个线性函数。因为可以对决策过程的概率性质做各种假设,所以其他形式的模型也会出现。我们从最初等的二元选择模型—线性概率模型—的确认开始我们的讨论。

11章

■分类选择模型

11.1.1 线性概率模型

我们从对线性概率模型的研究开始。线性概率模型的回归形式为

其中X i =第i 个个体特征的取值,比如:收入

i

=相互独立且均值为零的随机变量

为了解释等式( 11 -1),我们对每一个因变量Y i 取期望值:

因为Y i 只能取两个值,1或者0,我们可以将Y 的分布记为:p i = P r o b (Y i = 1)和1 -p i = P r o b (Y i = 0),则

在我们的例子里,回归方程描述的是在给定收入信息条件下的个体投赞成票的概率。回归直线的斜率表明收入的单位变化对投赞成票概率的影响。线性概率模型常常写成下面的形式:

这个形式可以使我们把因变量看作一个概率。

模型中误差项的概率分布由在式( 11 -1)中带入Y i 的值( 1和0 )决定,见表11 -1。我们可以利用误差项均值为0的假设得到概率p i 与X i 之间的关系。由解出,我们得到

现在可以计算误差项的方差:

这说明误差项具有异方差。P i 接近于0或接近于1的观测具有相对较小的方差,而P i 接近于1 /2的观测具有较大的方差。异方差造成有效性的丢失,但是最小二乘估计仍然是一致的和无偏的。

表11-1 i 的概率分布

Y i i

概率11--X i P i 0

--X i

1 -P i

修正异方差的一个很明显的方法就是先估计Y i 每一个取值的方差,然后用加权最小二乘估计法。为此,我们对原模型做普通最小二乘估计,则各误差方差的估计为:

加权最小二乘法的困难在于无法保证预测值Y

ˆi 在区间( 0,1)之内。如果有些Y ˆi 的值落在区间( 0,1)之外,则相应的观测或者要从模型中去掉,或者必须重新赋予0 .01或0 .99这样的数值。无论用哪种方法,加权最小二乘法对于有限样本都不是有效的。由于加权最小二乘法对确认错误也十分敏感,所以我们建议最好不用这种方法。

单方程回归模型

(11-1)

;如果是第一种选择(买车,或投赞成票);如果是第二种选择(不买车,或投反对票

(11-2)

(11-3)其中

;;;

假设我们想用这个线性概率模型进行预测。当预测值落在区间( 0,1)之外时,就暴露了该模型的一个严重弱点。图11 -1描绘了这种可能性。即使线性概率模型是正确的,X 的某一样本值也可能落在区间( -2,2)之外。与该观测值对应的Y 的拟合值便会大于1或小于0。这个问题的一个明显的修正就是令这些极端的预测值等于1或者0,从而把预测的概率限制在( 0,1)区间之内。然而,这样做并不令人十分满意,因为我们可能预测某事件发生的概率为1,而该事件可能根本不发生,或者我们预测某事件发生的概率为0,而该事件实际上发生了。虽然估计过程给出的是无偏估计,但是由该估计过程得出的预测显然是有偏的。

另一个方法是在0≤Y

ˆi ≤1的条件下,重新估计参数和。由于无法确保估计是无偏的线性概率模型用普通最小二乘法似乎比较适当。

因为观测值可能来自极端的特征值,因此还会产生一个严重问题。例如,假设有一些观测落在图11 - 1所示区间(-2 , 2 )之外,图11 -2显示了这种情况的可能性。在这种情况下,真正的回归模型把大于2的X 值与概率1相联系,把小于-2的X 值与概率0相联系。样本中包含若干个大于2的X 值,此时做第一种选择,也包含若干个小于- 2的X 值,此时做第二种选择。由此得到的普通最小二乘估计将是有偏的,因为它会低估真正的回归斜率。然而,如果特征数据的组合有所不

同的话,斜率可能会被高估,如图11 -3所示。

图11-1 用线性概率模型进行预测

实际预测

拟合回归值

图11-2 低估的斜率

估计回归直线

真正回归直线

图11-3 高估的斜率

估计回归直线

真正回归直线

究所采用的模型为

参见第5章中提到的Domencich and McFandden 的文章。

迟付债券的本金或利息就是债券违约。有些债券持有人得到利息和本金的部分或全部赔偿,但并不是按期得到的。

参见D. L. Rubinfeld, “An Econometric Analysis of the Market for General Obligation Municipal Bonds,发表的博士论文,麻省理工学院,1972年6月。

相关文档
最新文档