第九讲定类或定序因变量回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
y N y (1 )( N y ) y !( N y )!



(2)泊松分布(Poisson)
y e y y!
二、线性概率模型

1、模型建立 以最小二乘法为基础的线性回归方程是估测因变量的平均值,而 二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估 测概率,就是所谓的线性概率回归。用公式表示为:

又如在研究态度与偏好等心理现象时也经常按几个类型进行测量
的,如“强烈反对”、“反对”、“中立”、“支持”、和“强烈支 持”。

另外,有时对一些连续变量也要转换成类型变量,如在分析升学
考试的影响因素时,将考生分为录取线以上和录取线以下,只要选定 一个分界点,连续变量便可以被转换成定类变量。

从统计理论上看,在进行最小二乘法的参数估计时,我们仅 仅关注残差项ε的分布,很少对因变量Y所服从的分布予以关注, 实际上,我们拥有Y的信息要远远大于拥有残差项ε的信息。 因变量Y服从正态分布的推断来源于残差项服从正态分布,因 为Y 是残差项的线性函数。事实上,社会经济现象往往有不同于 正态分布的其他分布,例如: (1)二项分布(binomial distribution)


Wald检验
在logit模型中,对回归系数进行显著性检验,通常使用Wald检验,其计 算公式为:
五、logistic回归模型及参数估计的评价

1、Logistic回归模型估计的假设条件
第一、数据来自于随机样本。 第二、因变量Yi被假设为K个自变量Xk(k=1,2,…,K) 的函数。 第三、正如OLS回归,logistic回归也对多重共线性有所 限制,自变量之间存在多重共线性会导致标准误的膨胀。 Logistic回归模型还有一些与OLS回归不同的假设。 第一,因变量是二分变量;第二,因变量和各自变量之间 的关系是非线性的。
该模型即为logit回归模型。logit回归模型实际上是普通多元
线性回归模型的推广,但它的误差项服从二项分布而非正态分布,
因此,需要采用极大似然估计方法进行参数估计,参数称为 logit回归系数,表示当其他自变量取值保持不变时,该自变量取
值增加一个单位引起的发生比自然对数值的变化量。
2、发生比


其中:P—党员概率, A—年龄, E—受教育年限, U—单位身份
2、线性概率模型存在的问题

1)异方差性 普通最小二乘法假设残差项的方差是相同的,但二项分布的方差为 p(1-p),这意味着方差是中间大,两边小,所以方程中残差项的方差 不可能恒定。 2)非正态性 在给定自变量x条件下, 是y的预测值与实际值的离差。由于y仅仅 有0和1两个值,误差项 要么等于 0 0 E( y / x* ) ,或者 1 1 E( y / x* ) 很明显,该误差项不是正态分布。 3)无意义的解释 从解释力上看,由于概率的值是有边界的,在0与1之间。但林楠方程 很有可能要超过该限制,因变量的估计值可能是负数,也可能大于1,因 此模型的结果是无意义的。例如,运用林楠方程,我们发现如果年龄为 100岁,受教育程度超过10年,则入党的概率约等于1。 4)非线性关系
G 2 2log( L1 ) (2log L0 ) (2log L1 ) L0

遵循卡方分布,其自由度为非独立模型的自变量数目,可用于检验 复杂模型中自变量对似然率的增加是否显著,越大越好。
3、logit模型回归系数的假设检验

设原假设H0为:β k=0,表示自变量对事件发生的可能性无影响;如果原 假设被拒绝,说明自变量对事件发生的可能性有影响。
10! 3 (1 )103 3!(10 3)!




由于极大似然估计就是估计参数值,使得样本发生的可能性最 大,故求最大化的前提是对上式求偏导:
L( / S 3, n 10) 0
ln L( / S 3, n 10) 10! 3 ln[ (1 ) 7 ] 3!7! 3ln 7 ln(1 ) (1 ) 0 3 7 0 1
发生比是事件的发生频数与不发生频数之间的比,即:

Odds=(事件发生频数)/(事件不发生频数)
oddsk [ pk /(1 pk )]


当比值大于1时,表明事件更有可能发生。比如一 个事件发生的概率为0.6,事件不发生的概率为0.4,发 生比等于0.6/0.4=1.5。事件发生的可能性是不发生的1.5 倍。


2) 似然函数
当已知N 和,求s发生的可能性有多大,所建立的函数,称为 概率函数。而当已知N 和s,求发生的可能性有多大,所建立的函 数,称为似然函数。 二者的差异:第一、前者是在参数已知下的数据的函数,后者 是在数据已知条件下的参数的函数。第二、参数值是由可能性最高 的值决定,我们称该值为极大似然估计。 L(π /s=3, N=10)=
其中G

3)对数似然比卡方检验 对数似然比是用较复杂模型的似然与基本模型的似然进行比较。 因为是非常小的数,通常将似然取对数并乘以-2,即-2logL,简称 对数似然。 通常基本模型以独立模型表示:
P log( )a 1 P


用L0表示独立模型的似然,L1表示非独立模型的似然,那么对数似 然比定义为:



2、拟合优度检验
模型参数估计完成以后,需要评价模型是否能够有效地描述了观测 数据。如果模型的预测值能够与对应的观测值有较高的一致性,就认为 这一模型能够拟合数据。否则将不能接受这一模型,而需要对模型重新 设置。 因此,模型的拟合优度是指预测值与观测值的匹配程度。检验拟合 优度的指标有皮尔逊卡方检验、对数似然比卡方检验等。
n
i
ln( pi ) (1 yi ) ln(1 pi )] pi ) ln(1 pi )] 1 pi
i xi
[ yi ln(
i 1 i
[ y ( x ) ln(1 e
)]

通过三个例子的比较,我们可以看出在线性回归中,似然函数是
通过对似然方程求偏导数得到的,对于未知参数是线性的,容易求解, 但是对于logistic回归,似然函数是α和β的非线性函数,求解比较困


四、极大似然估计的基本思想
1) 概率问题 例1、假定我们要估计一样本中男性的发生概率。以s表示样本中男性 的数量;N是样本规模;π 是总体中男性的概率( =0.5 )。 根据贝努利公式:
Pr( s / , N ) N! s (1 ) N s s !( N s)!
N
i
i 1
e N L ( / y ) yi !
yi
LnL = -N+yiln()-ln(yi!)
əlnL/ə = -N +yi/ = yi / N
例3、运来自百度文库极大似然估计法估计正态分布中的参数


设变量X为具有平均数μ,方差σ 的正态变量,这里μ和σ 为未知 2 参数。试由样本观察值X1,X2……Xn估计平均值μ和方差σ。 解:由最大似然法得下述似然函数:
难,需要借助于计算机,通过迭代计算完成。

最大似然估计与OLS估计的统计性质几乎完全相同,即具有一
致性、渐进有效性和渐进正态性。一致性是指当样本规模增大时,模
型参数估计逐渐向真值收敛,即估计将近似于无偏。所谓渐进有效性 是指当样本规模增大时,参数估计的标准误相应缩小。所谓渐进正态
性是指随着样本规模增大,最大似然估计值的分布渐进于正态分布。

P = a + ∑β iXi + ε

对二项分布线性概率模型的结果解释: 在其他变量不变的情形下,x每增加一个单位,事件发生概率的 期望将变动β 个单位。 例如,林楠和谢文(1988)曾用线性概率模型估测入党(政治 资本)的概率,模型为:


P = -0.39 +0.01A +0.04E +0.03U



三、简单对数比率回归
1、模型建立

既然用线性概率回归存在以上两个方面的局限性,我们能否用比率做 因变量呢? 比如用男女比率作因变量,用成功与不成功之比做因变量。用比率做 因变量可以建立估计方程,但存在的问题是,比率是非对称的. 一个简单的解决办法就是取对数,结果就是所谓对数比率(logit)。 若用P代表某事件的概率,则对数比率函数的定义为
i 1
n
2
i
x)
n
例3、估计logistic回归模型中的参数
由于logistic模型是二项分布,其似然函数为:


L=
piyi (1 pi )(1 yi )
i 1
n i 1
n
ln( L) ln[ piyi (1 pi ) (1 yi ) ]
[ y
i 1 n i 1 n
该方法通常适用于自变量很多,或自变量为连续变量 的情形。HL方法根据预测概率的大小将所有观察单位十等
分,然后根据每一组中因变量的实际值与理论值计算 Peason卡方,其统计量为:
HL
g 1
G
( yg ng p g ) ng p g (1 p g )
代表分组数,且G10;ng为第g组中的观测值数; yg第g组事件的观测数量;pg为第g组的预测事件概率; ngpg为事件的预测值,实际上它等于第g组的观测概率和。
第九讲 定类或定序因变量回归分析
一、问题的提出

线性回归模型在定量分析中广为流行,然而当因变量是一个定
类变量而不是一个连续变量时,很难应用线性回归模型。

如政治学中研究是否选举某候选人,经济学研究中涉及的是否销
售或购买某种商品,如在社会学和人口学研究中所涉及的如犯罪、逃 学、迁移、结婚、离婚、生育、患病等等都可以按照二分类变量或多 分类来测量。
( xi )2 2
2
2
2

L
n
i 1
1 e 2

ln L n 1 ( x )2 [ i 3 ] 0 i 1
ln L n xi ( 2 ) 0 i 1
ˆ
x
i 1
n
i
n
x
ˆ
2
(x



其中k!=k(k-1)…2.1
10个样本中有3个男性的概率为:
Pr( s 3 / 0.5, N 10) 10! 0.53 (1 0.5)103 0.117 3!(10 3)!

如果我们已知样本中s、N及其概率分布的信息,需要估计总体特征, 则需要借助极大似然估计法来完成。极大似然估计ML就是估计这样一个参 数值,由于该参数的存在可以使得被观察的事件最有可能发生。



g(P)= log (P/1-P)

以对数比率为因变量对自变量X1,X2,X3……做回归称为对数比率 回归(logistic regression),其方程式为:

P log( ) a i X i 1 P
表1 概率、比率和对数比率
概率 0.01 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 0.99
1)皮尔逊卡方检验
皮尔逊卡方检验主要用于检验残差项的大小。计算公式:

2
( yi pi )2 i 1 pi (1 pi )
n
其中yi是观察值(0或1),pi是估算值的概率, i=1,2…n,分母是估 算值的标准差,自由度为n-J-1,其中J为自变量数目。
2)、Hosmer-Lemeshow 拟合优度检验
比率
0.01
0.11
0.25
0.43
0.67
1.00
1.50
2.33
4.00
9.00
99
对数 比率
-4.60
-2.20
-1.39
-0.85
-0.41
0.00
0.41
0.85
1.39
2.20
4.60
pi
1 exp( k 0 k xik )
K
exp( k 0 k xik )
K
(i )
解得上式可以得到的估计值为0.3
例2,运用极大似然估计法估计泊松分布中参数

概率密度函数为:
y
e y y!

似然函数为:

Li(/yi)
y
e y y!
假定观察值是独立的,样本的似然函数就是个体似然函数的乘积。

Li(/yi) = L1 * L2 *… Ln =L
相关文档
最新文档