第十讲定类或定序因变量回归分析_408009601精编版
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1)皮尔逊卡方检验 皮尔逊卡方检验主要用于检验残差项的大小。计算公
式:
2 n ( yi pi )2 i1 pi (1 pi )
其中yi是观察值(0或1),pi是估算值的概率, i=1, 2…n,分母是估算值的标准差,自由度为n-J-1,其中J为 自变量数目。
2)Hosmer-Lemeshow 拟合优度检验 该方法通常适用于自变量很多,或自变量为连续变量
2、发生比
发生比是事件的发生频数与不发生频数之间的比,即: Odds=(事件发生频数)/(事件不发生频数)
oddsk [ pk /(1 pk )]
当比值大于1时,表明事件更有可能发生。比如一
个事件发生的概率为0.6,事件不发生的概率为0.4,发
生比等于0.6/0.4=1.5。事件发生的可能性是不发生的1.5
1、模型建立 既然用线性概率回归存在局限性,能否用比 率做因变量呢?比如用男女比率作因变量,用成功 与不成功之比做因变量。用比率做因变量存在的问 题是,比率是非对称的.
表1 概率、比率和对数比率
概率 0.01 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 0.99
通常有三种处理方法:邻类比、升级比 和累进比。
1、邻类比
邻类比是将所有相邻两类的概率两两相 比,如果变量含有J个有序类别,就可得到 J-1个不重复对数比率方程。假如用P1, P2……Pj表示一个定序变量由低到高各级 类别的概率,设X是一个或一组自变量,那 么对数邻类比回归就是:
log(
p2 p1
)
量与因变量之间的关系解释之。通常以发生比率来解释logit回归
系数。
odds p 1 p
exp(
1x1 2 x2 L
k xk )
e e1x1 e2x2 L ek xk
六、多项对数比率回归
我们研究的现象常是多分类的,如职业的选择等,
这时需要用多项对数比率回归处理。
多项对数比率回归是简单对数比率回归的扩展,由
Logistic回归模型还有一些与OLS回归不同的假设前
提:第一,因变量是二分变量;第二,因变量和各自变量
之间的关系是非线性的。
2、拟合优度检验
如果模型的预测值能够与对应的观测值有较高的一致性, 就认为这一模型能够拟合数据。否则需要对模型重新设置。
因此,模型的拟合优度是指预测值与观测值的匹配程 度。检验拟合优度的指标有皮尔逊卡方检验、对数似然比 卡方检验等。
连续变量转换成类型变量的情形,如在 分析升学考试的影响因素时,将考生分为录 取线以上和录取线以下。
从统计理论上看,最小二乘法关注正态分布,然而社会经济
现象往往有不同于正态分布的其他分布,例如:
(1)二项分布(binomial distribution)
y:
N
y (1 )( N y)
y!(N y)!
1)无意义的解释 从解释力上看,由于概率的值是有边界的,
在0与1之间。但林楠方程很有可能要超过该限 制,因变量的估计值可能是负数,也可能大于1, 因此模型的结果是无意义的。例如,运用林楠 方程,我们发现如果年龄为100岁,受教育程度 超过10年,则入党的概率约等于1。 2)非线性关系
三、简单对数比率回归
(p1+p2)/p3
-.525**
.865***
-
-
-
-
-
-
-
-
-
-
1.515*
1.470*
1.205
-.128
1.339**
.930*
1.697***
.905*
576
576
1053.7
8
模型(2)
进顶层
P1/(p2+p3)
避免底层
(p1+p2)/p3
-8.244***
-3.500**
.238***
序或无序多分类,系统会自动生成虚拟变量。
4)Covariates——用于选入连续型的自变量。 选择系统默认值,点击OK钮,运行所选命令 5)结果解释 数据汇总与模型的似然比检验。
拟合优度检验(Pearson,Deviance检验)。 参数估计结果。
七、定序变量对数比率
当因变量是定序变量,变量值之间具有 高低之分时,在设计logit模型时,就应考虑 到其中所包含的信息。
比率 0.01 0.11 0.25 0.43 0.67 1.00 1.50 2.33 4.00 9.00 99
对数 -4.60 -2.20 -1.39 -0.85 -0.41 0.00 0.41 0.85 1.39 2.20 4.60 比率
一个简单的解决办法就是取对数,结果就是所谓对数比 率(logit)。若用P代表某事件的概率,则对数比率函数的定义 为
3)对数似然比卡方检验
对数似然比是用较复杂模型与基本模型进行比较。通常将似然
取对数并乘以-2,即-2logL,简称对数似然。
基本模型以独立模型表示:
log( P ) a
1 P
用L0表示独立模型的似然,L1表示非独立模型的似然,那么对数似 然比定义为:
G2
2 log(
L1 L0
)
(2 log
升小学 0 0 0 1 1 1 1 1 1 1 1 1 1 1
升初中 0 0 0 1 1 1 1 1 1 1 1
升高中 0 0 0 1 1 1 1 1
升大学 0 0 0 1 1
3、累进比
log(
p2
p3 L p1
p j ) a1 1x
log(
p3
p4
L
p1 p2
p j ) a2 2 x
率,还应包括大学毕业生,因为他们也完成了初中到高中的升级过程。
升级比在统计上是各自独立的,因而可以对照简单对数比率回
归一一估算。加总各独立升级比率回归的对数似然比和自由度,即总
模型的对数似然比和自由度。
j 1
G 2
Gi2
i 1
对数升级比回归的编码示例
教育程度 小学以下 小学以下 小学以下 小学 小学 小学 初中 初中 初中 高中 高中 高中 大学 大学
) aj
x
SPSS中的(ordinal logistic regression)就是截矩项都相等的累 进比对数回归模型。
SPSS操作程序 1、选择logistic回归程序: ——点击主菜单中的Analyze ——然后点击Regression ——再点击Ordinal,屏幕上出现对话窗口 2、选定模型 Dependent——选择一个有序分类因变量。 Factor——选择若干分类自变量。 Covariates——用于选入连续型的自变量。 择系统默认值,点击OK钮,运行所选命令 结果解释
.155***
.207*
.127*
-.002*
-.001*
.613***
.242**
.214
.204*
ຫໍສະໝຸດ Baidu
1.263
1.192
.810
-.554
1.302*
.965*
1.346***
.776*
521
521
869.2
18
若假设β1=β2=…βj-1, 则对数升级方程组可简化方程如下:
Lj
log( Pj1 Pj2 L Pj P1 P2 L Pj
下,x每增加一个单位,事件发生概率的期望将变动β个单位。
例如,林楠和谢文(1988)曾用线性概率 模型估测入党(政治资本)的概率,模型 为:
P = -0.39 +0.01A +0.04E +0.03U 其中:P—党员概率, A—年龄, E—受
教育年限, U—单位身份
2、线性概率模型存在的问题
L0 )
(2 log
L1)
遵循卡方分布,其自由度为非独立模型的自变量数目,可用于检验 复杂模型中自变量对似然率的增加是否显著,越大越好。
3、logit模型回归系数的假设检验
设原假设H0为:βk=0,表示自变量对事件发生的可能性无影响;如果原 假设被拒绝,说明自变量对事件发生的可能性有影响。
Wald检验
在logit模型中,对回归系数进行显著性检验,通常使用Wald检验,其计 算公式为:
W (¶k / SEµk )2
Wald 统计量实际上就是正态分布Z 统计量的平方。在零假设条件 下,每一个回归系数都等于0。Wald统计量服从卡方分布,其自由 度为n-k-1。
五、模型解释
由于logit模型是非线性的,因此不能以传统回归模型中自变
Pj 1 Pj
)
a
j 1
j 1
X
需要注意的是:1)就系数解释和检验而言,多项对数比率回归和简单对数 比率回归相同。2)方程组在统计上不独立,必须同时估算,不可一一求解。
SPSS上的应用: 1)Analyze—Regression—Multinomial Logistic 2)Dependent——用于选入无序多分类的因变量 3)Factor ——用于选入分类自变量,可以是有
一组对数比率方程组成。
常用的做法是基准类比法,即先选出基准类,然后
将它的概率与其它各类的概率进行对比。
假如要研究一个或一组自变量X如何影响人们对J类
职业选择,用P1,P2……Pj表示各类职业的概率,那么多
项对数比率回归就可表示为:
log(
p1 pj
)
a1
1
X
log(
p2 pj
)
a2
2
X
K
log(
率,那么对数升级比回归就是:
log(
p2
p3 K p1
pj )
a1
1x
log(
p3
p4 L p2
p j ) a2 2 x
L L
log(
pj p j1
)
a
j 1
j 1 x
例如升学率的研究。将学校依等级高低分为小学、初中、高中
和大学四类。初中升高中的比率不仅是初中毕业生和高中毕业生的比
L L
log(
p1
p2
pj L
) p j 1
a j 1
j1x
对数累进比率回归示例——收入等级分析(Nee 1991)
自变量
截距 教育 户首年龄 户首年龄平方 成年劳动力 子女数目 现任干部 前任大队干部 前任小队干部 企业家 样本数 -2logL 自由度
模型(1)
进顶层
P1/(p2+p3)
避免底层
(2)泊松分布(Poisson)
y : e y
y!
二、线性概率模型
1、模型建立
以最小二乘法为基础的线性回归方程是估测因变量的平均值,而 二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估 测概率,就是所谓的线性概率回归。用公式表示为:
P = a + ∑βiXi + ε
对二项分布线性概率模型的结果解释: 在其他变量不变的情形
倍。
四、logistic回归模型的检验与评价
1、Logistic回归模型估计的假设前提
第一、数据来自于随机样本。
第二、因变量Yi被假设为K个自变量Xk(k=1,2,…,K) 的函数。
第三、正如OLS回归,logistic回归也对多重共线性有所 限制,自变量之间存在多重共线性会导致标准误的膨胀。
第十讲 定类或定序因变量回归分析
一、问题的提出
当因变量是一个定类变量而不是定距变量时,线性回 归模型受到挑战。 如政治学中研究是否选举某候选人,经济学研究中涉 及的是否销售或购买某种商品,社会学和人口学研究中所 涉及的如犯罪、迁移、婚姻、生育、患病等等都可以按照 二分类变量或多分类来测量。
在研究态度与偏好等心理现象时也经常 按类型进行测量的,如“强烈反对”、“反 对”、“中立”、“支持”、和“强烈支 持”。
g(P)= log (P/1-P) 以对数比率为因变量对自变量X1,X2,X3……做回归称 为对数比率回归(logistic regression),其方程式为:
log( P ) a 1 P
i X i
exp(
pi
1 exp(
K k 0
k
xik
)
x K
k 0 k ik
)
(i )
该模型即为logit回归模型。logit回归模型是普通 多元线性回归模型的推广,但它的误差项服从二项分 布,因此需要采用极大似然估计方法进行参数估计, 参数称为logit回归系数,表示当其他自变量取值保持 不变时,该自变量取值增加一个单位引起的发生比自 然对数值的变化量。
a1
1
x
log(
p3 p2
)
a2
2x
K
log(
pj p j1
)
a j1
j 1 x
对于定序变量,常常假设升级的作用是一样的,即在方程
组中,各个方程的斜率项是相同的,β1=β2=……=βj-1 ,上式可
表示为:
log( Pj1 ) pj
aj
x
2、升级比
用P1,P2,……Pj表示一定序变量由低到高各级类别的概
的情形。HL方法根据预测概率的大小将所有观察单位十等 分,然后根据每一组中因变量的实际值与理论值计算 Peason卡方,其统计量为:
HL
G g 1
( yg ng µpg ) ng µpg (1 µpg )
其中G 代表分组数,且G10;ng为第g组中的观测值数; yg第g组事件的观测数量;pg为第g组的预测事件概率; ngpg为事件的预测值,实际上它等于第g组的观测概率和。