离散选择模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
那么: 从而:
1 e Pi Li ln 1 P 0 1 X i ui i
1 Pi
1
0 1 X i
1 e e 0 1 X i 1 e 0 1 X i
参数的含义是什么?
这样的事件发生比Li,不仅对Xi是线性的,对参数也是线性的,而
B或者C或者更低,则记为被解释变量PJ=0。
考虑使用的解释变量为:学生的平均学分GPA 学生在期初时的成绩PRES
是否使用新的教学方法(1,是;0,否)
建立如下logit模型:
Pi Li ln 1 P 0 1GPAi 2 PRESi 3TANi ui i
领域里的突出贡献而获得了2000年的诺贝尔经济学奖。
离散选择模型在实际生活中的应用 例如,公共交通和私人交通的选择问题 对某种商品的购买决定问题 大学生对职业的选择问题
一、基本概念
1.变量的取值 logistic回归要求应变量(Y)取值为分类变量(两分 类或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续变量、 等级变量、分类变量。 可有m个自变量X1, X2,… Xm
数优势比。
回归系数β1与OR βBaidu Nhomakorabea =0,OR=1 β1 >0,OR>1 β1 <0,OR<1,
X与Y的关联 无关 有关,危险因素 有关,保护因子
例:抽烟与否与患食道癌的概率 Y(患食道癌) X(抽烟习惯) 发生的频数
1
2 3
1
0 1
1
1 0
55
19 128
4
0
0
164
其中,Y=0表示没有罹患食道癌,Y=1则表示患了食道癌; X=0表示没有抽烟习惯,X=1则表示有抽烟的习惯
Std. Err. .0041431 .0957771
[95% Conf. Interval] .069612 -1.879533 .0887202 -1.437808
e 1 e0.0792 1.082
这就意味着,当收入增加1万元时,根据该样本回归的结果认为, 拥有自有住房的发生比将增加8.2%
logistic回归分析
logistic回归为概率型非线性回归模型,是研究分 类观察结果(y)与一些影响因素(x)之间关系的一种多变 量分析方法。 1.多元线性回归方法要求 Y 的取值为连续性随机变量
2.多元线性回归方程要求Y与X间关系为线性关系
3.多元线性回归结果不能回答“发生与否” logistic回归方法补充多元线性回归的不足
某种方式取决于解释变量,比如说取决于收入:
I i 1 2 X i
而且指数Ii的值越大,家庭拥有住房的概率就越高。 其中Xi表示第i个家庭的收入水平。 Xi仍然具有分组的特征
拥有自有住房的决定如何与Ii发生关系呢? 一个合理的假定就是:对每一个家庭而言,都存在一个门
槛值Ii *,当Ii * ≤ Ii时,该家庭拥有自己住房,否则不拥有,因此 有:
[95% Conf. Interval] .2202523 -.166234 -.1466728 -23.88261 5.329097 .4448328 3.933929 -3.502907
Li 13.6928 2.7747 GPA PRESi 1.8936 TANi i 0.1393
因为通常情况下,我们考虑被解释变量为二元变
量的模型,这种模型也因此被称为二元选择模型或者离
散选择模型,如果为多元,则称之为多元选择模型。 离散选择模型起源于Fechner于1860年所进行的动
物条件二元反射研究,1962年Warner首次将这一方法
应用与经济研究领域。Mcfadden因为在离散选择模型
归系数的期望符号以及他们在统计上的显著性才是首要的。此外, 这种logit估计是针对大样本的,对于小样本并不适用。
probit回归分析
probit模型也是一种广义的线性模型。服从正态分布。 当因变量是名义变量时,Logit和Probit并没有本质的区别,
一般情况下可以换用。区别在于采用的分布函数不同,Logit模
型假设随机变量服从逻辑概率分布,而Probit模型则假设随机变 量服从正态分布。这两种分布函数的区别在于逻辑概率分布函 数的尾巴比正态分布粗一些。但当因变量是序次变量时,回归 时只能用有序Probit模型。有序Probit可以看作是Probit的扩展
一、使用群组数据的Probit估计
假定在是否拥有自有住房的回归中,第i个家庭对是否拥有 住房的决定,依赖于一种不可观测的效用指数Ii,而后者又按照
回归结果如下:
Logistic regression Log likelihood = -13.846975 PJ GPA PRES TAN _cons Coef. 2.774675 .1392994 1.893628 -13.69276 Std. Err. 1.303301 .1558872 1.040989 5.199 z 2.13 0.89 1.82 -2.63 Number of obs LR chi2(3) Prob > chi2 Pseudo R2 P>|z| 0.033 0.372 0.069 0.008 = = = = 32 13.49 0.0037 0.3275
2.解释变量同样为定性变量的情况
Pi Li ln 1 P 0 1 X i ui i P 1 ˆ Xi=1时: L1 ln 1 P 0 1 (1) 1 P0 ˆ Xi=0时: L0 ln 1 P 0 (2) 0 P 1 1 P 1 如果定义: OR P0 1 P 0 1 ˆ L ˆ 那么就有: lnOR L OR e 1 0 1
回归的结果如下:
. logit y x Iteration Iteration Iteration Iteration 0: 1: 2: 3: log log log log likelihood likelihood likelihood likelihood = = = = -253.69187 -242.36572 -242.32729 -242.32729 Number of obs LR chi2(1) Prob > chi2 Pseudo R2 Std. Err. .2910729 .1179409 z 4.50 -2.10 P>|z| 0.000 0.036 = = = = 366 22.73 0.0000 0.0448
PYi 1 / X i
例如,我们对一个是否拥有自有住房的案例进行回归,
结果如下: Yi 1.2009 0.1056X i (0.1483 ) (0.0087) R 0.8078
2
回归拟合的很好,经济学意义也非常明确,收入Xi每增加1单位 (1万元人民币),平均拥有住房的概率将增加10.56%:
但问题是,当收入10万元,或者更少的情况下,平均拥有住房的
概率为负值,而当收入为20万元,或者更多的情况下,平均拥有 住房的概率大于1,因此,我们必须考虑相应的方法对这一问题 进行处理。
对同样的问题,我们采用如下的模型形式:
E (Yi / X i ) PYi 1 / X i
1
( 0 1 X i )
Logistic regression Log likelihood = -242.32729 y x _cons Coef. 1.31073 -.2478362
[95% Conf. Interval] .7402379 -.4789961 1.881223 -.0166762
OR e e1.3107 3.7089 表示什么含义?
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d
危险因素 x= 1 p1 1-p1
Y 发病=1 不发病=0
x= 0 p0 1-p0
a p1 ac
有暴露因素人群中发病的比例
1 反映了在其他变量固定后,X=1与X=0相比发生Y事件的对
估计。
对模型* 估计之后,如何计算指定收入水平下拥有住房的概率?
回归结果如下:
. reg Lhat Source Model Residual Total Lhat x _cons x SS 7.91931987 .173522962 8.09284283 Coef. .0791661 -1.65867 df 1 8 9 MS 7.91931987 .02169037 .899204759 t 19.11 -17.32 P>|t| 0.000 0.000 Number of obs F( 1, 8) Prob > F R-squared Adj R-squared Root MSE = = = = = = 10 365.11 0.0000 0.9786 0.9759 .14728
值得注意的是,因变量并不仅仅局限于“是”或
“否”这样的二分变量。
比如,美国总统的选举问题。假定有三个政党—
—民主党、共和党和独立党派,因变量就是三分变量。
此外,还可能存在五分变量或者多分因变量的问题。 在这种情况下,我们运用相应的模型来预测每种事 件发生的概率,因此,含有定性变量作为因变量的模型 通常被成为概率模型。
这意味着在其他条件都相同的情况下,抽烟人士患食道癌的 可能性是不抽烟人士的3.7倍还要多。
1
3.多个解释变量的情况 在很多情况下,解释变量既有定性变量,又有连续变量,而
且连续变量并非分组变量,很难计算出解释变量取不同值时事件
发生的频率,在这种情况下,又该如何处理? 例如:新的教学方法对大一新生成绩的影响 如果学生期末成绩为A,则记为被解释变量PJ=1,如果期末成绩为
*
二、logit模型的估计
1.一般情况下的估计 为了估计事件发生的概率之比Li,除了需要知道解释变量的数 据之外,还得知道Li的数值。此时,该如何处理?
依然以是否拥有自有住房为例进行说明,不同的收入水平下
有很多个家庭N,在这一收入水平下有n个家庭拥有自己的住房, 其余N-n个家庭没有自己的住房,那么我们就可以用事件发生的相 对频率作为事件发生概率的估计值Pi ,并利用这个估计值得到Li 。 事实上,当样本容量足够大的时候,这样的频率将是概率的良好
2.两值因变量的logistic回归模型方程
一个自变量与Y关系的回归模型
Yi 0 1 X i ui
1 其中: Y 0
条件期望:
如果拥有自己的住房 如果没有自己的住房
E(Yi / X i ) 0 1 X i
记家庭拥有自有住房的条件概率为P(Yi=1/Xi),则不拥有自己住 房的概率就是1- P(Yi=1/Xi) : 那么: E (Yi / X i ) 1 PYi 1 / X i 0 1 PYi 1 / X i
P i P (Y 1 / X i ) P ( I i * I i ) F ( I i ) 1 2 1 2
OR e
3
e1.8936 6.6432
这意味着在其他条件都相同的情况下,或者说控制了其他影 响学生期末成绩的情况下,接受新教学方法的学生得到A的可能
性是没有接受新教学方法学生的6倍多。
需要注意的是,在logit模型中,模型的拟合优度衡量的是正
确预测次数的概率,这样的拟合优度对于回归而言是次要的,回
且发生概率将永远落在0和1之间, Li就被称为logit,像*这样的模 型也就被称为logit模型。
Pi Li ln 1 P 0 1 X i ui i Pi 0 1 X i e 现在定义: 1 Pi
Pi 当X变化一个单位时: e 0 1 X i 1 1 Pi * * 1 1 e e 1 因此有: