定类或定序因变量回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、简单对数比率回归
1、模型建立
?
既然用线性概率回归存在局限性,能否用
比率做因变量呢?比如用男女比率作因变量,
用成功与不成功之比做因变量。用比率做因变
量存在的问题是,比率是非对称的 .
表1 概率、比率和对数比率
概率 0.01 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 0.99
?
? 在研究态度与偏好等心理现象时也经常 按类型进行测量的,如“强烈反对”、“反 对”、“中立”、“支持”、和“强烈支 持”。
? 连续变量转换成类型变量的情形,如在 分析升学考试的影响因素时,将考生分为录 取线以上和录取线以下。
?
从统计理论上看,最小二乘法关注正态分布,然而社会经济
现象往往有不同于正态分布的其他分布,例如:
g(P)= log (P/1-P) 以对数比率为因变量对自变量X1,X2,X3……做回归称 为对数比率回归(logistic regression),其方程式为:
? l o g ( P ) ? a ? 1? P
?i X i
exp(
?? pi ? 1 ? exp(
K
? k ? 0 ? K ? k ? 0
1)皮尔逊卡方检验 皮尔逊卡方检验主要用于检验残差项的大小。计算公
式:
? ? 2 ? n ( yi ? p i ) 2
i ? 1 p i (1 ? p i )
其中yi是观察值(0或1),pi 是估算值的概率, i=1, 2…n,分母是估算值的标准差,自由度为n-J-1 ,其中J为 自变量数目。
2)Hosmer-Lemeshow 拟合优度检验 该方法通常适用于自变量很多,或自变量为连续变量
? 3)对数似然比卡方检验
?
对数似然比是用较复杂模型与基本模型进行比较。通常将似然
取对数并乘以-2,即-2logL,简称对数似然。
教育年限, U—单位身份
2、线性概率模型存在的问题
? 1)无意义的解释 ? 从解释力上看,由于概率的值是有边界的,
在0与1之间。但林楠方程很有可能要超过该限 制,因变量的估计值可能是负数,也可能大于 1, 因此模型的结果是无意义的。例如,运用林楠 方程,我们发现如果年龄为 100岁,受教育程度 超过10年,则入党的概率约等于 1。 ? 2)非线性关系
? Logistic 回归模型还有一些与OLS回归不同的假设前 提:第一,因变量是二分变量;第二,因变量和各自变量 之间的关系是非线性的。
2、拟合优度检验
如果模型的预测值能够与对应的观测值有较高的一致性, 就认为这一模型能够拟合数据。否则需要对模型重新设置。
因此,模型的拟合优度是指预测值与观测值的匹配程 度。检验拟合优度的指标有皮尔逊卡方检验、对数似然比 卡方检验等。
2、发生比
? 发生比是事件的发生频数与不发生频数之间的比,即: ? Odds=( 事件发生频数)/(事件不发生频数)
od d sk ? [ pk /(1 ? pk )]
?
? 当比值大于1时,表明事件更有可能发生。比如一 个事件发生的概率为0.6,事件不发生的概率为0.4,发 生比等于0.6/0.4=1.5。事件发生的可能性是不发生的1.5 倍。
k xik ) k xik )
?
?
(
i)
该模型即为logit回归模型。logit回归模型是普通 多元线性回归模型的推广,但它的误差项服从二项分 布,因此需要采用极大似然估计方法进行参数估计, 参数? 称为logit回归系数,表示当其他自变量取值保持 不变时,该自变量取值增加一个单位引起的发生比自 然对数值的变化量。
? P = a + ∑βiXi + ε
?
对二项分布线性概率模型的结果解释: 在其他变量不变的情形
下,x每增加一个单位,事件发生概率的期望将变动β个单位。
?
? 例如,林楠和谢文(1988)曾用线性概率 模型估测入党(政治资本)的概率,模型 为:
? P = -0.39 +0.01A +0.04E +0.03U ? 其中:P—党员概率, A—年龄, E—受
比率 0.01 0.11 0.25 0.43 0.67 1.00 1.50 2.33 4.00 9.00 99
对数 -4.60 -2.20 -1.39 -0.85 -0.41 0.00 0.41 0.85 1.39 2.20 4.60 比率
一个简单的解决办法就是取对数,结果就是所谓对数比 率(logit)。若用P代表某事件的概率,则对数比率函数的 定义为
第十讲 定类或定序因变量回归分析
一、问题的提出
? 当因变量是一个定类变量而不是定距变量时,线性回 归模型受到挑战。 ? 如政治学中研究是否选举某候选人,经济学研究中涉 及的是否销售或购买某种商品,社会学和人口学研究中所 涉及的如犯罪、迁移、婚姻、生育、患病等等都可以按照 二分类变量或多分类来测量。
? (1)二项分布(binomial distribution )
y:
N
? ? y (1 ? ) ( N ? y )
y!(N ? y)!
? (2)泊松分布(Poisson )
y : e??? y
y!二、线性概率模型Fra bibliotek? 1、模型建立
? 以最小二乘法为基础的线性回归方程是估测因变量的平均值,而 二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估 测概率,就是所谓的线性概率回归。用公式表示为:
的情形。HL方法根据预测概率的大小将所有观察单位十等 分,然后根据每一组中因变量的实际值与理论值计算 Peason卡方,其统计量为:
? HL ?
G ( yg ? ng μpg ) g?1 ng μp g (1 ? μp g )
?其中G 代表分组数,且G?10;ng为第g组中的观测值数; yg第g组事件的观测数量;pg为第g组的预测事件概率; ng pg为事件的预测值,实际上它等于第 g组的观测概率和。
四、 logistic 回归模型的检验与评价
? 1、Logistic 回归模型估计的假设前提 第一、数据来自于随机样本。
? 第二、因变量Yi被假设为K个自变量Xk(k=1,2,…,K) 的函数。
? 第三、正如OLS回归,logistic 回归也对多重共线性有所 限制,自变量之间存在多重共线性会导致标准误的膨胀。