定性数据的建模分析(含SPSS)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 7.单击Options按钮,展开如图9-4所示对话框。 • 图9-4 Options 选择项对话框
• (1)Statistics and Plot栏,输出统计量和图形。 包括Classification plots复选项、Correlations of esti复选项、Hosmer-Lemeshow goodness-of-f复选 项、Iteration history复选项、Casewise listing of residuals复选项、CI for exp(B) 复选项。
• (2)Display栏中,At each step选项,表示对每一 步计算过程输出表、统计量和图形。At last step选项, 表示只输出最终方程的表、统计量和图形。
• (3)Probability for Stepwise栏,设置变量进入模 型及从模型中删除的判据。
• (4)Classification 栏,被解释变量分类界限。
• 复杂情况是指定定性变量可能取多类值的情况。
• 假设以采掘业、建筑业、房地产业和社会服务业4个行业
的上市公司为例,研究企业资本结构问题,其中 y 为企业资
本结构,
• x 为企业规模,D1i 为审计意见,另外再考虑行业差异D2i 。
为了用虚拟变量反映这4个行业,我们初步设想引入如下4个
0-1型解释变量:
“是”或“否”两个可能结果,就需要设置虚拟变量。当被 解释变量为虚拟变量时,建立一般的多元线性回归模型就会 出现以下问题:(1)残差不再满足且的假设条件。(2)残 差不再服从正态分布。(3)被解释变量的取值区间受限制。 由此可见,当被解释变量是0-1型变量时,无法直接采用一般 的多元线性回归模型建模,通常应采用Logistic回归模型。 本章只介绍二项Logistic回归模型。
Beta(s)和Leverage统计量,用SPSS图形功能做 散点图(横坐标为变量ID,纵坐标为各种保存的 新变量)。
第三节 判别分析
• 一、判别分析的概念和基本步骤 • (一)判别分析的概念 • 判别分析是根据观察到的若干变量值,判断研
究对象如何分类的方法。判别分析能够解决两组 或者更多组的情况,当包含两组时,称做两组判 别分析;当包含三组或者三组以上时,称做多组 判别分析 • 聚类分析和判别分析都是分类学的基本方法, 但它们也有很大的不同。
•
•
log( Lxi L
)2
2 log( Lxi L
) 2 log(Lxi ) (2 log(L))
(9.10)
• 好的模型的似然比值较高,其 - 2ll 值相对较小。似
然比值的变化说明当变量进入与被剔除出模型对数据
拟合度方面的变化。
• 常用的3种卡方统计量分别为Model、Block、Step。
• (1)Model统计量检验除常数项以外,模型中所有变量系 数为零的假设。
• (2)Block卡方值为当前 - 2ll 值与后一组变量进入模型后
的 - 2ll 值之差。
• (3)Step卡方值是在建立模型的过程中,当前与下一步
• - 2ll 之间的差值。 • SPSS将自动计算似然比卡方的观测值和相伴概率 p 值。
• (2) Residual栏,保存残差,包括Unstandardized非 标准化残差、Logit残差、Studentized学生化残差、 Standardized标准化残差和Deviance偏差。
• (3) Influence栏,保存每一个观测量的影响力指标, 包括Cook距离、Leverage values杠杆值和Dfbeta(s) 统计量。
• 3、回归模型的拟合优度检验 • 在Logistic回归分析中,拟合优度可以从两大方面考察。
第一,回归模型能够解释被解释变量变差的程度。第二, 回归模型计算出的预测值与实际值之间吻合的程度,即模 型的总体错判率是低还是高。常用的指标有Cox & Snell 统计量、Nagelkerke 统计量、错判矩阵、HosmerLemeshow统计量。 • 4、残差分析 • Logistic回归中可以利用一下残差指标进行残差分析, 主要包括:非标准化残差、标准化残差、Logit残差等。
所以,对于具有 个分k 类的变量,当确定了
参照系后,只需设置 k 个10-1型解释变量。
• 企业资本结构的回归模型为:
•
(9.2)
yi 0 1x1 2D1i 3D2i
第二节 二项Logistic回归模型
• 一、二项Logistic回归模型概述 • (一)二项Logistic回归模型的应用背景 • 在许多会计研究问题中,所研究的被解释变量往往只有
可得到Logistic回归方程为:
1 P
•
e 0 1x1 2 x2 ... k xk
(9.4)
•
P 1 e 0 1x1 2 x2 ...k xk
• 其中 0 、1 为常数和解释变量的系数, e 为自然数,其
曲线为s 型。
• 某一事件不发生地概率为: • Prob(no event)=1- Prob(event) (9.5) • 二元Logistic模型对数据要求为: • (1)被解释变量应具二分特点。 • (2)解释变量数据最好为多元正态分布。
时,几率的变化值为 exp i 。解释变量的系数为正值,意味
着事件发生的几率会增加,exp i 的值大于1;解释变量的
系数为负值,意味着事件发生的几率会减少,exp i 的值小
于1;当为0时,此值等于1。
• (四)二项Logistic回归模型的检验
• 1、回归模型的显著性检验
• Logistic回归模型显著性检验的目的是检验解释变 量全体与Logit的线性关系是否显著,是否可以用线 性模型拟合。其原假设是:各回归系数同时为0,解 释变量全体与Logit的线性关系不显著。
• 回归系数显著性检验采用的检验统计量是统计量, 数学定义为
• •
Waldi
( i
SI
)2
(9.11)
• 式(9.11)中, i 是回归系数,SI 是回归系数的标 准误差。检验统计量服从自由度为1的卡方分布。
• SPSS将自动计算各解释变量的的观测值和 相伴概率值。如果概率值小于给定的显著性水 平,则应拒绝零假设,认为某解释变量的回归 系数与零有显著差异,该解释变量与Logit之 间的线性关系显著,应保留在模型中;反之, 如果概率值大于给定的显著性水平,则不应拒 绝零假设,可以认为某解释变量的回归系数与 零无显著差异,该解释变量与Logit之间的线 性关系不显著,不应保留在模型中。
如果相伴概率值小于给定的显著水平 ,则应拒绝零假设; 反之,如果相伴概率值大于给定的显著水平,则不应拒绝零 假设。
• 2、回归系数的显著性检验
• Logit回归系数显著性检验的目的是逐个检验模型 中各解释变量是否与Logit有显著的线性关系,对解 释Logit是否有重要贡献。其原假设是,即某回归系 数与零无显著差异,相应的解释变量与Logit之间的 线性关系不显著。
• 二、二项Logistic回归分析在SPSS中的实现 • 1.建立或打开数据文件后,进入Analyze→
Regression→Binary Logistic对话框,如图9-1所示。
• 图9-1 Logistic 逻辑回归分析主对话框
• 2、选择被解释变量放入Dependent框,选择 一个或多个解释变量放入Covariates框。也可以 将不同解释变量组放在不同的块(Block)中, 进而分析不同解释变量组对解释变量的贡献。
• (5)如果改变了Change Covariates的设置,单击 Change按钮以示对选项的确定。
• 6、单击Save按钮,激活储存新变量对话框,如图9-
3所示。选择在数据文件中保存的新变量。
• 图9-3 保存新变量对话框
• (1) Predicted Value栏,预测值选项。其中,
Probability复选项,表示每个观测量发生特定事件的预 测概率;Group membership复选项,表示依据预测概 率得到的每个观测量的预测分组。
• (3)Change Contrast栏,设置分类协变量中各类水平 的对比方式。有Indicator选项、Simple选项、Difference 选项、Helmert选项、Repeated选项、Polynomial选项、 Deviation选项。
• (4)Reference Category选项,如果选择了Deviation、 Simple、Indicator对比方式,可选择First或Last,指定分 类变量的第一类或最后一类作为参考类。
• 3、在Method框后选择解释变量的筛选策略, 包括Enter选项、Forward: Conditional选项、 Forward: LR选项、Forward: Wald选项、 Backward: Conditional选项、Backward: LR选 项、Backward: Wald选项。
• 4、Selection Variable框,根据指定变量的取 值范围,选择参与分析的观察量。
• 利用Logistic回归可以直接预测观测量相对于某一事件的 发生概率
• 在一般的多元回归中,若以概率 P 为被解释变量,则方程为:
(9.3) P 0 1x1 2x2 ... k xk
• 但用该方程计算时,常会出现 P 1或 P 0 的不合理情
形。为此需要对 P 作对数单位转换,即 log itP ln( P ) ,于是
* exp( 1 0 i xi ) exp( i ) (9.7)
• 于是有 •
*
exp( 1 )
(9.8)
• 由此可知,当 xi 增加一个单位时,将引起发生比扩大
• exp( i ) 倍。一般化则为
• •
*
exp( i )
(9.9)
• 式(9.9)表明,当第 i 个解释变量发生一个单元的变化
第九章 定性数据的建模分析
本章内容
• 第一节 解释变量中含有定性变量的回归模 型
• 第二节 二项Logistic回归模型 • 第三节 判别分析
第一节 解释变量中含有定性变量的回归模型
• 在回归分析中,我们对一些解释变量是定性变量
的情形先给予数理化,处理方法是引进只取0和1两 个值的虚拟变量。当某一属性出现时,虚拟变量取 值为1,否则为0。
• 5、单击Categorical按钮,展开如图9-2对话框,
设置处理分类变量的方式。适用于解释变量(协变量) 为非定距的品质变量。
• 图9-2 定义分类协变量对话框
• (1)在Covariates框中包含了在主对话框中已经选择好 的全部协变量及交互项。
• (2)Categorical Covariates框中列出了所选择的分类 变量。
• •
D1 D1
1,采掘业 0,其他
D3 D3
1,房地产业 0,其他
D2 D2
1,建筑业 0,其他
D4 D4
1,社会服务业 0,其他
• 可是这样作却产生了一个新的问题,即4个
自变量之和恒等于1,构成完全多重共线性。 解决这个问题的方法很简单,我们只需去掉一
个0-1型变量,只保留3个0-1型解释变量即可。
• (一)简单情况
•
简单情况是指定性变量只取两类可能性
的情况。
• 例如研究企业资本结构问题, y 为企业资
本结构,x 为企业规模。另外再考虑审计意
见两种情况:
•
Di 1,非标准的审计意见
Di
0,标准无保留审计意见
• 企业资本结构的回归模型为:
• yi 0 1x1 2Di
(9.1)
• (二)复杂情况
• (5)Maximum 栏,设定最大迭代次数。
• (6)Include constant in m:模型包含常数项。
• 8、图形诊断模型,包括: • (1)使用Graphs图形功能,对保存在数据文件
中的Deviance统计量做P-P图。 • (2)将保存的Standardized RFra Baidu biblioteksiduals, Df
• (三)二项Logistic回归模型中回归系数的含义 • 在应用中人们通常更关心的是解释变量给发生比 • 带来的变化。 • 当Logistic回归模型的回归系数确定后,将其代
入的函数,即
• •
exp( 0 i xi )
(9.6)
• 当其他解释变量保持不变而研究 xi 变化一个单 位对 的影响时,可将新的发生比设为 *,则有: