第十章定性选择模型(计量经济学,潘省初).pptx
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
INCOME的系数估计值0.002表明,一个学生的成 绩不变,而家庭收入增加1000美元,该生决定去读研 的概率的估计值增加0.002。
LPM模型中,解释变量的变动与虚拟因变量值为1 的概率线性相关,因而称为线性概率模型。
线性概率模型存在的问题
(1)线性概率模型假定自变量与Y=1的概率之间存 在线性关系,而此关系往往不是线性的。 (2)拟合值可能小于0或大于1,而概率值必须位于 0和1的闭区间内。
正确预测的观测值数 观测值总数
100
需要指出的是,这个测度也不是很理想,但预测结
果的好坏,并非定性选择模型唯一关心的事,这类模 型常被用于研究影响人们进行某个决策的因素。让我 们来看一个竞选的例子。假设候选人甲和乙二人竞选 某市市长,我们可以用一个二元选择模型来研究影响 选民决策的因素,数据见表10-1,模型为:
解决此问题的一种方法是,令所有负拟合值都等 于0,所有大于1的拟合值都等于1。但也无法令人十 分满意,因为在现实中很少会有决策前某人读研的 概率就等于1的情况,同样,尽管某些人成绩不是很 好,但他去读研的机会仍会大于0。线性概率模型倾 向于给出过多的极端结果:估计的概率等于0或1。
(3) 另一个问题是扰动项不是正态分布的。事实 上,线性概率模型的扰动项服从二项分布。
对斜率系数的解释也不同了。在常规回归中,斜 率系数代表的是其他解释变量不变的情况下,该解释 变量的单位变动引起的因变量的变动。而在线性概率 模型中,斜率系数表示其他解释变量不变的情况下, 该解释变量的单位变动引起的因变量等于1的概率的 变动。
GPA的系数估计值0.4意味着家庭收入不变的情 况下,一个学生的GPA增加一个点(如从3.0到4.0), 该生决定去读研的概率的估计值增加0.4。
回到有关读研的例子。假设学生乙的GPA为4.0, 家庭收入为20万美元,则代入(10.3)式,Y的拟合 值为
Yˆ 0.7 0.4 4.0 0.002 200 1.3 (10.5)
从而得到一个不可能的结果(概率值大于1)。假设 另有一个学生丙的GPA为1.0,家庭收入为5万元,则 其Y的拟合值为 -0.2,表明读研的概率为负数,这也 是一个不可能的结果。
这看上去与典型的OLS回归模型并无两样,但区 别是这里Y只取0和1两个值,观测值可以是个人、公 司、国家或任何其他横截面个体所作的决定。解释变 量中可以包括正常变量和虚拟变量。
下面用一个关于是否读研究生的例子来说明如何 解释线性概率模型的结果。模型为:
Yi 0 1GPAi 2INCOMEi ui (10.2)
如果只有两个选择,我们可用0和1 分别表示它 们,如乘公交为0,自驾车为1,这样的模型称为二元 选择模型(binary choice Models),多于两个选择 (如上班方式加上一种骑自行车)的定性选择模型称 为多项选择模型(Multinomial choice models)。
第一节 线性概率模型
二元选择模型如何估计呢?由于它看上去象是一 个典型的OLS回归模型,因而一个简单的想法是采用 OLS法估计。当然,对结果的解释与常规线性回归模 型不同,因为二元选择模型中因变量只能取两个预定 的值。线性概率模型(LPM)一般形式如下:
Yi 0 1X1i 2 X 2i k X ki ui (10.1)
线性概率模型的问题,而是所有定性选择模型的问题。
较好一点的测度是模型正确预测的观测值的百分比。 首先,我们将每一预测归类为1或0。如果拟合值大于 等于0.5,则认为因变量的预测值为1。若小于0.5,则 认为因变量的预测值为0。然后,将这些预测值与实际 发生的情况相比较,计算出正确预测的百分比:
正确预测观测值的百分比
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPAi 第i个学生本科平均成绩
INCOMEi 第i个学生家庭年收入(单位:千美元)
ห้องสมุดไป่ตู้
设回归结果如下(所有系数值均在10%水平统计 上显著):
Yˆi 0.7 0.4GPAi 0.002INCOMEi (10.3)
对每个观测值,我们可根据(10.3)式计算因变量 的拟合值或预测值。在常规OLS回归中,因变量的拟 合值或预测值的含义是,平均而言,我们可以预期的 因变量的值。但在本例的情况下,这种解释就不适用 了。假设学生甲的平均分为3.5,家庭年收入为5万美 元,Y的拟合值为
第十章 定性选择模型
我们在第四章中曾介绍解释变量为虚拟变量的模 型,本章要讨论的是因变量为虚拟变量的情形。在这 种模型中,因变量描述的是特征、选择或者种类等不 能定量化的东西,如乘公交还是自己开车去上班、考 不考研究生等。在这些情况下,因变量是定性变量, 我们可以用定义虚拟变量的方法来刻画它们。这种因 变量为虚拟变量的模型被称为定性选择模型 (Qualitative choice models)或定性响应模型 (Qualitative response models)。
Yˆ 0.7 0.43.5 0.00250 0.8 (10.4)
尽管因变量在这个二元选择模型中只能取两个值: 0或1,可是该学生的的拟合值或预测值为0.8。我们 将该拟合值解释为该生决定读研的概率的估计值。因 此,该生决定读研的可能性或概率的估计值为0.8。 需要注意的是,这种概率不是我们能观测到的数字, 能观测的是读研还是不读研的决定。
CAND1i 0 1INCOMEi 2 AGEi 3MALEi ui
其中:
1 如果第i个选民投候选人甲的票
CAND1i 0 如果第i个选民不投候选人甲的票
(10.6)
INCOMEi 第i个选民的家庭收入(单位:千美元)
(4)此外,线性概率模型存在异方差性。扰动项
的方差是 p(1 p) ,这里 p 是因变量等于1的概率,
此概率对于每个观测值不同,因而扰动项方差将不 是常数,导致异方差性。可以使用WLS法,但不是 很有效,并且将改变结果的含义。
(5)最后一个问题是在线性概率模型中,R 2以及 R 2
不再是合适的拟合优度测度。事实上,此问题不仅是
LPM模型中,解释变量的变动与虚拟因变量值为1 的概率线性相关,因而称为线性概率模型。
线性概率模型存在的问题
(1)线性概率模型假定自变量与Y=1的概率之间存 在线性关系,而此关系往往不是线性的。 (2)拟合值可能小于0或大于1,而概率值必须位于 0和1的闭区间内。
正确预测的观测值数 观测值总数
100
需要指出的是,这个测度也不是很理想,但预测结
果的好坏,并非定性选择模型唯一关心的事,这类模 型常被用于研究影响人们进行某个决策的因素。让我 们来看一个竞选的例子。假设候选人甲和乙二人竞选 某市市长,我们可以用一个二元选择模型来研究影响 选民决策的因素,数据见表10-1,模型为:
解决此问题的一种方法是,令所有负拟合值都等 于0,所有大于1的拟合值都等于1。但也无法令人十 分满意,因为在现实中很少会有决策前某人读研的 概率就等于1的情况,同样,尽管某些人成绩不是很 好,但他去读研的机会仍会大于0。线性概率模型倾 向于给出过多的极端结果:估计的概率等于0或1。
(3) 另一个问题是扰动项不是正态分布的。事实 上,线性概率模型的扰动项服从二项分布。
对斜率系数的解释也不同了。在常规回归中,斜 率系数代表的是其他解释变量不变的情况下,该解释 变量的单位变动引起的因变量的变动。而在线性概率 模型中,斜率系数表示其他解释变量不变的情况下, 该解释变量的单位变动引起的因变量等于1的概率的 变动。
GPA的系数估计值0.4意味着家庭收入不变的情 况下,一个学生的GPA增加一个点(如从3.0到4.0), 该生决定去读研的概率的估计值增加0.4。
回到有关读研的例子。假设学生乙的GPA为4.0, 家庭收入为20万美元,则代入(10.3)式,Y的拟合 值为
Yˆ 0.7 0.4 4.0 0.002 200 1.3 (10.5)
从而得到一个不可能的结果(概率值大于1)。假设 另有一个学生丙的GPA为1.0,家庭收入为5万元,则 其Y的拟合值为 -0.2,表明读研的概率为负数,这也 是一个不可能的结果。
这看上去与典型的OLS回归模型并无两样,但区 别是这里Y只取0和1两个值,观测值可以是个人、公 司、国家或任何其他横截面个体所作的决定。解释变 量中可以包括正常变量和虚拟变量。
下面用一个关于是否读研究生的例子来说明如何 解释线性概率模型的结果。模型为:
Yi 0 1GPAi 2INCOMEi ui (10.2)
如果只有两个选择,我们可用0和1 分别表示它 们,如乘公交为0,自驾车为1,这样的模型称为二元 选择模型(binary choice Models),多于两个选择 (如上班方式加上一种骑自行车)的定性选择模型称 为多项选择模型(Multinomial choice models)。
第一节 线性概率模型
二元选择模型如何估计呢?由于它看上去象是一 个典型的OLS回归模型,因而一个简单的想法是采用 OLS法估计。当然,对结果的解释与常规线性回归模 型不同,因为二元选择模型中因变量只能取两个预定 的值。线性概率模型(LPM)一般形式如下:
Yi 0 1X1i 2 X 2i k X ki ui (10.1)
线性概率模型的问题,而是所有定性选择模型的问题。
较好一点的测度是模型正确预测的观测值的百分比。 首先,我们将每一预测归类为1或0。如果拟合值大于 等于0.5,则认为因变量的预测值为1。若小于0.5,则 认为因变量的预测值为0。然后,将这些预测值与实际 发生的情况相比较,计算出正确预测的百分比:
正确预测观测值的百分比
其中:
1 Yi 0
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPAi 第i个学生本科平均成绩
INCOMEi 第i个学生家庭年收入(单位:千美元)
ห้องสมุดไป่ตู้
设回归结果如下(所有系数值均在10%水平统计 上显著):
Yˆi 0.7 0.4GPAi 0.002INCOMEi (10.3)
对每个观测值,我们可根据(10.3)式计算因变量 的拟合值或预测值。在常规OLS回归中,因变量的拟 合值或预测值的含义是,平均而言,我们可以预期的 因变量的值。但在本例的情况下,这种解释就不适用 了。假设学生甲的平均分为3.5,家庭年收入为5万美 元,Y的拟合值为
第十章 定性选择模型
我们在第四章中曾介绍解释变量为虚拟变量的模 型,本章要讨论的是因变量为虚拟变量的情形。在这 种模型中,因变量描述的是特征、选择或者种类等不 能定量化的东西,如乘公交还是自己开车去上班、考 不考研究生等。在这些情况下,因变量是定性变量, 我们可以用定义虚拟变量的方法来刻画它们。这种因 变量为虚拟变量的模型被称为定性选择模型 (Qualitative choice models)或定性响应模型 (Qualitative response models)。
Yˆ 0.7 0.43.5 0.00250 0.8 (10.4)
尽管因变量在这个二元选择模型中只能取两个值: 0或1,可是该学生的的拟合值或预测值为0.8。我们 将该拟合值解释为该生决定读研的概率的估计值。因 此,该生决定读研的可能性或概率的估计值为0.8。 需要注意的是,这种概率不是我们能观测到的数字, 能观测的是读研还是不读研的决定。
CAND1i 0 1INCOMEi 2 AGEi 3MALEi ui
其中:
1 如果第i个选民投候选人甲的票
CAND1i 0 如果第i个选民不投候选人甲的票
(10.6)
INCOMEi 第i个选民的家庭收入(单位:千美元)
(4)此外,线性概率模型存在异方差性。扰动项
的方差是 p(1 p) ,这里 p 是因变量等于1的概率,
此概率对于每个观测值不同,因而扰动项方差将不 是常数,导致异方差性。可以使用WLS法,但不是 很有效,并且将改变结果的含义。
(5)最后一个问题是在线性概率模型中,R 2以及 R 2
不再是合适的拟合优度测度。事实上,此问题不仅是