有序响应模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 2
t2 0.7043 e 2
源自文库
dt -
1 2
t2 1.8361 e 2
dt = 0.7262
ˆ P(y21 =3) = P(2 < y21* )= 1 - F(2- X21) = 1 - F(1.0248 - y 21 * )
= 1 - F(1.0248 -0.3205) = 1 -
假定有一个隐变量 yi*与解释变量列向量 Xi 呈线性关系, yi*= Xi + ut, ut IID(0, 2) (1) 其中 Xi 里不包括截距项。 如果 yi 存在 m 种选择, 则被解释变量 yi 与隐变 量 yi*存在如下关系: 1, y i * 1 2, y * 1 i 2 y i 3, 2 y i * 3
.9
概率 p1,p2,p3
.8 .7 .6 .5 .4 .3 .2 .1 .0 0.0 0.4 0.8 1.2 1.6 2.0 I_Y_0 2.4 Y_1_0 Y_2_0 Y_3_0
ˆ yi * 隐变量
图1 ˆ 以隐变量 yi * 为横轴对应每个公司 3 个等级的概率预测值的散点图见图 1。隐变 ˆ 量 yi * 的每一个值都会在其垂直方向上对应着 3 个概率预测值点(兰、红、绿点)。 分别表示公司处于亏损、中利、高利状态的概率值。
求概率 p1(第 1 种选择概率)对某个解释变量的偏导数计算公式是
P ( y i 1 X i , ) ( 1 - X ik ) ( 1 - X ik ) p1 ( X ik ) ( X ik ) ( X ik ) ( 1 - X ik ) ( - X )( ), k 1,..., K , i 1, ..., N
m 1 ik k
注意: (1)的符号能预示两个外端状态概率的变化方向。P(yi =1) 状态的概率变化 与的符号相反(即增加,P(yi =1)减小) 。而 P(yi =m) 状态的概率变化与 的符号相同。 增加,P(yi = m) 也增加) (即 P(yi =1∣Xi, , ) = F(1- Xi) P(yi =2∣Xi, , ) = F(2- Xi)-F(1- Xi ) P(yi =3∣Xi, , ) = F(3- Xi)-F(2- Xi ) … P(yi =m∣Xi, , ) = 1-F(m-1- Xi) (2)作为样本观测值,yi 只取 1, 2, …, m,而对于每一个研究对象,当把解释 变量的值代入隐变量估计式后,可以计算隐变量的值,以及该研究对象处 于 m 种选择的相应概率值。 哪一个概率值大, 该研究对象最有可能处于那 种状态。
1 2
1.8361
e
t2 2
dt = 0.0332
ˆ ˆ P(y21=2) = P(1 < y21* 2)= F(2- X21)-F(1- X21) = F(2 - y 21 * )-F(1 - y 21 * )
= F(1.0248 -0.3205) - F(-1.5156 -0.3205) =
专题 1:有序因变量模型的理论与应用
张晓峒
(2011-11-15) 南开大学数量经济研究所所长、博士生导师 中国数量经济学会常务理事 天津市数量经济学会理事长 nkeviews@yahoo.com.cn
有序因变量模型(ordered dependent variable model)由 Aitchisen 和 Silvey (1957) 提出。 有序因变量模型也是二元离散选择模型的拓展。 有序因变量模型中被解释变量 yi 的观测值表示等级分类,选项是有顺序 的,所以称有序因变量。 比如,把受调查对象分为 5 类:文盲、小学毕业、中学毕业、大学 毕业和研究生毕业,分别用 1、2、3、4、5 表示。把受调查对象分为工 作、半退休和完全退休 3 类分别用 1、2、3 表示。
以 yi 有 3 种分类为例,在 Xi = 0 条件下,yi 选择 3 种分类各对应的概率 如图 1 所示。 其中曲线表示累积概率分布曲线。 i = 1, 3 的概率分别是 p1, y 2, p2- p1,1- p2。 当 Xi > 0,且值越大时,分点j- Xi,j =1, 2 越向左移。yi 取标号高的 分类的概率越大。 当 Xi < 0,且值越小时,分点j- Xi,j =1, 2 越向右移。yi 取标号高的 分类的概率越小。 对于每一个调查对象而言,处于 3 种选择的概率和为 1。
求概率 pm(最后 1 种选择概率)对某个解释变量的偏导数计算公式是
P ( y m 1 X i , ) [1 ( m 1 - X ik )] ( m 1 - X ik ) p m ( X ik ) ( X ik ) ( X ik ) ( m 1 - X ik ) ( - X )( ), k 1,..., K , i 1, ..., N
已知第21号公司,基金持股比例rate21= 17.259,总资产total21=2.65109 。求该公司的 净资产收益率处于1、 3等级的概率各是多少。 2、 解释变量每增加一个单位的概率增加多少。 ˆ 先求隐变量 y 21 * 的值。如下计算中,F()表示累计概率分布函数。()表示概率密度分 布函数。
m, m -1 y i *
其中j,j =1, 2,…, m-1 称作门限值或阈值。yi,i =1, 2, …, m 表示被解释 变量分类。 注意:有序因变量模型的设定应满足如果 yi < yj,则意味着 yi *< yj* (即如果因变量 yi 的序数值小,则相应隐变量 yi *的值也一定小) 。 上式也可写为 yi =j,若j-1< yi* j, j = 1, 2,„, m, 其中0 = -, m = 。
F(i- Xi) P2
1 0.8 0.6
0.4
p1
0.2 0 -4
-2 1
2
0
2
(j- Xi)
4
图 1 累积正态概率分布曲线
对于有序因变量模型,阈值和回归系数是通过对对数似然函数求极大 同时估计出来的。对数似然函数是 logL(, ) =
log( P( y i j X i , , )) D( yi j )
案例 4:(file:7order_model-1) 分析 736 家上市公司的净资产收益率(Y) 净资产收益率(ner,测量公司绩效的指标)被离散化为 3 个等级。
1, 净资产收益率(ner) 0,亏损 y 2, 0 净资产收益率(ner) 0.2,中等盈利 3, 净资产收益率(ner) 0.2,高盈利
解释变量 rate:基金持股比例 解释变量 total:总资产 有序响应 Probit 模型估计结果如下:
yi*= 0.0168 RATEi + 1.17 10-11TOTALi + ut, ut IID(0, 2) (5.3) (2.9) N=736,伪 R2 = 1
ˆ log L( ) 447.7165 = 0.0997, (McFadden R2) ~ =1 497.3162 log L( )
1 2
0.7043
e
t2 2
dt = 0.2406
P(y21=1) + P(y21=2)+ P(y21 =3) = 0.0332+0.7262+0.2406= 1
j ik
j 1
- X ik ) ( j 1 - X ik ) ( X ik ) - X )
ik
[ ( j - X ik ) (
j 1
- X ik )]( k ),
j 2, ..., m 1, k 1,..., K , i 1, ..., N
上式也可写为 yi =j,若j-1< yi* j, j = 1, 2,„, m, 其中0 = -, m = 。据上式 P(yi =j) = P(j-1< yi* j) , j = 1, 2,„, m 依据(1)式, P(yi =j) = P(j-1< yi* j) = P(j-1< Xi + ut j) = P(j-1- Xi < ut j - Xi) = F(j - Xi) - F(j-1 - Xi ) , j = 1, 2,„, m 其中 F(· )表示式(1)中 ut 的累积概率分布函数。有序因变量的条件概率是 P(yi =1∣Xi, , ) = F(1- Xi) P(yi =2∣Xi, , ) = F(2- Xi)-F(1- Xi ) P(yi =3∣Xi, , ) = F(3- Xi)-F(2- Xi ) … P(yi =m∣Xi, , ) = 1-F(m-1- Xi) 如果 ut 是正态分布的,则 F(2- Xi)表示正态累积概率分布函数。如果 ut 是 logistic 分布的的,则 F(2- Xi)表示 logistic 累积概率分布函数。
两个阈值分别是 1= -1.5156,2 = 1.0248。
用736家上市公司中的每一家公司的解释变量数据都可以计算出一个隐变量的值 ˆ yi * ,并同时计算出该公司处于3个盈利等级的概率预测值。而哪一个等级的概率值 最大,就是该公司最有可能处于的状态。3个盈利等级的概率预测值用下式计算。 ˆ P(yi =1∣Xi, , ) = F(1- Xi ) = F(-1.52 - yi * ) ˆ ˆ P(yi =2∣Xi, , ) = F(2- Xi )-F(1- Xi) = F(1.02 - yi * ) - F(-1.52 - yi * ) ˆ P(yi =3∣Xi, , ) = 1 - F(2- Xi) = 1 - F(1.02 - yi * )
1 ik k
求概率 pj, j = 2, ..., m-1(中间选择的概率)对某个解释变量的偏导数计算公式是 p j P( y i j X i , )
( X ik ) ( X ik )
j 1
( j - X ik ) ( j - X ik ) ( ) ( X ik ) ( - X (
-11 ˆ y 21 * = 0.0168 RATE 21+ 1.17 10 TOTAL21
= 0.016817.259 + 1.17 10-112.65109 = 0.3205 该公司的净资产收益率处于1、2、3等级的概率各是 ˆ P(y21=1) = P(- < y21* 1) = F(1- X21) = F(1- y 21 * ) = F(-1.5156 - 0.3205) =
i 1 j 1
N
m
其中 D(yi =j) 是指示函数, yi =j, =1, 2, …, m 为真时, i =j) = 1, yi =j, 当 j D(y 当 j =1, 2, …, m 为不真时,D(yi =j)= 0。对于样本中某个 yi 来说,m 个可能值, 只有一个为真。 例如,仍以受调查对象分为“工作”“半工作半退休”和“完全退休”3 、 类为例,分别用 1、2、3 表示。即 yi = 1, 2, 3 有三种状态。对于某个个体,假 设处于“半工作半退休”状态,则 D(yi =1) =0,D(yi =2) = 1,D(yi =3) = 0 对数似然函数求极大,就是每个个体在其 yi 取值条件下,估计, 使对数似然 函数值达到最大。
t2 0.7043 e 2
源自文库
dt -
1 2
t2 1.8361 e 2
dt = 0.7262
ˆ P(y21 =3) = P(2 < y21* )= 1 - F(2- X21) = 1 - F(1.0248 - y 21 * )
= 1 - F(1.0248 -0.3205) = 1 -
假定有一个隐变量 yi*与解释变量列向量 Xi 呈线性关系, yi*= Xi + ut, ut IID(0, 2) (1) 其中 Xi 里不包括截距项。 如果 yi 存在 m 种选择, 则被解释变量 yi 与隐变 量 yi*存在如下关系: 1, y i * 1 2, y * 1 i 2 y i 3, 2 y i * 3
.9
概率 p1,p2,p3
.8 .7 .6 .5 .4 .3 .2 .1 .0 0.0 0.4 0.8 1.2 1.6 2.0 I_Y_0 2.4 Y_1_0 Y_2_0 Y_3_0
ˆ yi * 隐变量
图1 ˆ 以隐变量 yi * 为横轴对应每个公司 3 个等级的概率预测值的散点图见图 1。隐变 ˆ 量 yi * 的每一个值都会在其垂直方向上对应着 3 个概率预测值点(兰、红、绿点)。 分别表示公司处于亏损、中利、高利状态的概率值。
求概率 p1(第 1 种选择概率)对某个解释变量的偏导数计算公式是
P ( y i 1 X i , ) ( 1 - X ik ) ( 1 - X ik ) p1 ( X ik ) ( X ik ) ( X ik ) ( 1 - X ik ) ( - X )( ), k 1,..., K , i 1, ..., N
m 1 ik k
注意: (1)的符号能预示两个外端状态概率的变化方向。P(yi =1) 状态的概率变化 与的符号相反(即增加,P(yi =1)减小) 。而 P(yi =m) 状态的概率变化与 的符号相同。 增加,P(yi = m) 也增加) (即 P(yi =1∣Xi, , ) = F(1- Xi) P(yi =2∣Xi, , ) = F(2- Xi)-F(1- Xi ) P(yi =3∣Xi, , ) = F(3- Xi)-F(2- Xi ) … P(yi =m∣Xi, , ) = 1-F(m-1- Xi) (2)作为样本观测值,yi 只取 1, 2, …, m,而对于每一个研究对象,当把解释 变量的值代入隐变量估计式后,可以计算隐变量的值,以及该研究对象处 于 m 种选择的相应概率值。 哪一个概率值大, 该研究对象最有可能处于那 种状态。
1 2
1.8361
e
t2 2
dt = 0.0332
ˆ ˆ P(y21=2) = P(1 < y21* 2)= F(2- X21)-F(1- X21) = F(2 - y 21 * )-F(1 - y 21 * )
= F(1.0248 -0.3205) - F(-1.5156 -0.3205) =
专题 1:有序因变量模型的理论与应用
张晓峒
(2011-11-15) 南开大学数量经济研究所所长、博士生导师 中国数量经济学会常务理事 天津市数量经济学会理事长 nkeviews@yahoo.com.cn
有序因变量模型(ordered dependent variable model)由 Aitchisen 和 Silvey (1957) 提出。 有序因变量模型也是二元离散选择模型的拓展。 有序因变量模型中被解释变量 yi 的观测值表示等级分类,选项是有顺序 的,所以称有序因变量。 比如,把受调查对象分为 5 类:文盲、小学毕业、中学毕业、大学 毕业和研究生毕业,分别用 1、2、3、4、5 表示。把受调查对象分为工 作、半退休和完全退休 3 类分别用 1、2、3 表示。
以 yi 有 3 种分类为例,在 Xi = 0 条件下,yi 选择 3 种分类各对应的概率 如图 1 所示。 其中曲线表示累积概率分布曲线。 i = 1, 3 的概率分别是 p1, y 2, p2- p1,1- p2。 当 Xi > 0,且值越大时,分点j- Xi,j =1, 2 越向左移。yi 取标号高的 分类的概率越大。 当 Xi < 0,且值越小时,分点j- Xi,j =1, 2 越向右移。yi 取标号高的 分类的概率越小。 对于每一个调查对象而言,处于 3 种选择的概率和为 1。
求概率 pm(最后 1 种选择概率)对某个解释变量的偏导数计算公式是
P ( y m 1 X i , ) [1 ( m 1 - X ik )] ( m 1 - X ik ) p m ( X ik ) ( X ik ) ( X ik ) ( m 1 - X ik ) ( - X )( ), k 1,..., K , i 1, ..., N
已知第21号公司,基金持股比例rate21= 17.259,总资产total21=2.65109 。求该公司的 净资产收益率处于1、 3等级的概率各是多少。 2、 解释变量每增加一个单位的概率增加多少。 ˆ 先求隐变量 y 21 * 的值。如下计算中,F()表示累计概率分布函数。()表示概率密度分 布函数。
m, m -1 y i *
其中j,j =1, 2,…, m-1 称作门限值或阈值。yi,i =1, 2, …, m 表示被解释 变量分类。 注意:有序因变量模型的设定应满足如果 yi < yj,则意味着 yi *< yj* (即如果因变量 yi 的序数值小,则相应隐变量 yi *的值也一定小) 。 上式也可写为 yi =j,若j-1< yi* j, j = 1, 2,„, m, 其中0 = -, m = 。
F(i- Xi) P2
1 0.8 0.6
0.4
p1
0.2 0 -4
-2 1
2
0
2
(j- Xi)
4
图 1 累积正态概率分布曲线
对于有序因变量模型,阈值和回归系数是通过对对数似然函数求极大 同时估计出来的。对数似然函数是 logL(, ) =
log( P( y i j X i , , )) D( yi j )
案例 4:(file:7order_model-1) 分析 736 家上市公司的净资产收益率(Y) 净资产收益率(ner,测量公司绩效的指标)被离散化为 3 个等级。
1, 净资产收益率(ner) 0,亏损 y 2, 0 净资产收益率(ner) 0.2,中等盈利 3, 净资产收益率(ner) 0.2,高盈利
解释变量 rate:基金持股比例 解释变量 total:总资产 有序响应 Probit 模型估计结果如下:
yi*= 0.0168 RATEi + 1.17 10-11TOTALi + ut, ut IID(0, 2) (5.3) (2.9) N=736,伪 R2 = 1
ˆ log L( ) 447.7165 = 0.0997, (McFadden R2) ~ =1 497.3162 log L( )
1 2
0.7043
e
t2 2
dt = 0.2406
P(y21=1) + P(y21=2)+ P(y21 =3) = 0.0332+0.7262+0.2406= 1
j ik
j 1
- X ik ) ( j 1 - X ik ) ( X ik ) - X )
ik
[ ( j - X ik ) (
j 1
- X ik )]( k ),
j 2, ..., m 1, k 1,..., K , i 1, ..., N
上式也可写为 yi =j,若j-1< yi* j, j = 1, 2,„, m, 其中0 = -, m = 。据上式 P(yi =j) = P(j-1< yi* j) , j = 1, 2,„, m 依据(1)式, P(yi =j) = P(j-1< yi* j) = P(j-1< Xi + ut j) = P(j-1- Xi < ut j - Xi) = F(j - Xi) - F(j-1 - Xi ) , j = 1, 2,„, m 其中 F(· )表示式(1)中 ut 的累积概率分布函数。有序因变量的条件概率是 P(yi =1∣Xi, , ) = F(1- Xi) P(yi =2∣Xi, , ) = F(2- Xi)-F(1- Xi ) P(yi =3∣Xi, , ) = F(3- Xi)-F(2- Xi ) … P(yi =m∣Xi, , ) = 1-F(m-1- Xi) 如果 ut 是正态分布的,则 F(2- Xi)表示正态累积概率分布函数。如果 ut 是 logistic 分布的的,则 F(2- Xi)表示 logistic 累积概率分布函数。
两个阈值分别是 1= -1.5156,2 = 1.0248。
用736家上市公司中的每一家公司的解释变量数据都可以计算出一个隐变量的值 ˆ yi * ,并同时计算出该公司处于3个盈利等级的概率预测值。而哪一个等级的概率值 最大,就是该公司最有可能处于的状态。3个盈利等级的概率预测值用下式计算。 ˆ P(yi =1∣Xi, , ) = F(1- Xi ) = F(-1.52 - yi * ) ˆ ˆ P(yi =2∣Xi, , ) = F(2- Xi )-F(1- Xi) = F(1.02 - yi * ) - F(-1.52 - yi * ) ˆ P(yi =3∣Xi, , ) = 1 - F(2- Xi) = 1 - F(1.02 - yi * )
1 ik k
求概率 pj, j = 2, ..., m-1(中间选择的概率)对某个解释变量的偏导数计算公式是 p j P( y i j X i , )
( X ik ) ( X ik )
j 1
( j - X ik ) ( j - X ik ) ( ) ( X ik ) ( - X (
-11 ˆ y 21 * = 0.0168 RATE 21+ 1.17 10 TOTAL21
= 0.016817.259 + 1.17 10-112.65109 = 0.3205 该公司的净资产收益率处于1、2、3等级的概率各是 ˆ P(y21=1) = P(- < y21* 1) = F(1- X21) = F(1- y 21 * ) = F(-1.5156 - 0.3205) =
i 1 j 1
N
m
其中 D(yi =j) 是指示函数, yi =j, =1, 2, …, m 为真时, i =j) = 1, yi =j, 当 j D(y 当 j =1, 2, …, m 为不真时,D(yi =j)= 0。对于样本中某个 yi 来说,m 个可能值, 只有一个为真。 例如,仍以受调查对象分为“工作”“半工作半退休”和“完全退休”3 、 类为例,分别用 1、2、3 表示。即 yi = 1, 2, 3 有三种状态。对于某个个体,假 设处于“半工作半退休”状态,则 D(yi =1) =0,D(yi =2) = 1,D(yi =3) = 0 对数似然函数求极大,就是每个个体在其 yi 取值条件下,估计, 使对数似然 函数值达到最大。